Guide

Warum Ihr No-Code-Scraper immer wieder bricht (und was wirklich hilft)

No-Code-Scraper sind großartig für einen schnellen Proof of Concept. Aber ein Feed, auf den Sie sich wirklich verlassen, bricht meist ein paar Wochen später – leise, im ungünstigsten Moment. Hier ist, warum das beim Lesen öffentlicher Quellen passiert, und der gewartete Aufbau, der die Daten am Fließen hält.

Die vier Arten, wie ein No-Code-Scraper bricht

1. Das Seitenlayout hat sich geändert

Die meisten Point-and-Click-Tools merken sich, wo ein Element auf der Seite sitzt: „Der Preis ist das dritte Span in diesem Div.“ Sobald die Website ein Redesign ausliefert – oder auch nur einen kleinen A/B-Test – zeigt dieser Pfad nicht mehr auf den Preis. Der Scraper wirft keinen Fehler; er liefert munter die falsche Zelle oder gar nichts. Sie merken es erst, wenn ein nachgelagerter Report seltsam aussieht. Öffentliche Kataloge und Inseratsportale ändern ihr Markup ständig – ein positionsbasierter Selektor ist das fragilste Fundament, auf das man einen Feed bauen kann.

2. Die Daten werden per JavaScript gerendert

Viele moderne Websites senden eine fast leere HTML-Hülle und laden den eigentlichen Inhalt erst nach dem Seitenaufbau per JavaScript nach. Ein simples Hol-das-HTML-Tool sieht nur die Hülle und folgert: „keine Daten“. Dabei sind die Werte öffentlich und in einem normalen Browser sichtbar – sie kommen nur einen Schritt später an, als das Tool hinschaut. Ohne echten Rendering-Schritt (oder einen klügeren Ansatz, siehe unten) bekommen Sie leere Felder, die je nach Timing kommen und gehen.

3. Der Handshake wirkt automatisiert

Manche öffentlichen Websites prüfen die technische Signatur des verbindenden Clients – den TLS-Handshake und die Header, die ein Browser präsentiert – bevor sie überhaupt etwas rendern. Eine Standard-Skriptbibliothek hat eine Signatur, die nicht zu einem echten Browser passt, also liefert der Server eine leere oder minimale Seite. Das ist keine Login-Hürde und kein CAPTCHA; die Website entscheidet schlicht, dass die Anfrage nicht wie ein normaler Besucher aussah. Die Lösung: die öffentliche Seite mit einer korrekt gefingerprinteten Browser-Session lesen, in respektvollem Tempo – so, wie es ein gewöhnlicher Besucher täte. (Mehr dazu in meinem Guide zu Cloudflare-geschützten öffentlichen Seiten.)

4. Rate-Limits und IP-Probleme

Feuern Sie zu viele Anfragen zu schnell von einer Adresse ab, beginnt eine öffentliche Website zu drosseln oder Fehler zurückzugeben – verständlicherweise. No-Code-Tools geben Ihnen selten feine Kontrolle über Tempo, Retries oder sauberes Back-off. Ein Feed, der bei fünf Seiten am Tag funktionierte, kippt also an dem Tag, an dem Sie auf fünfhundert skalieren. robots.txt zu respektieren, Crawl-Delay zu beachten und Anfragen zu verteilen ist nicht optional – genau das hält den Zugriff langfristig stabil.

Was wirklich hilft

Verlässlichkeit bei öffentlichen Daten ist kein einzelner Trick – sie ist ein kleines System, das Veränderung erwartet und abfedert.

Ein gewarteter Scraper, kein eingefrorener. Defensiv geschriebene Selektoren (Match auf stabilen Text und Struktur, nicht auf fragile Positionen) – plus jemand, der sie repariert, wenn die Website ein Redesign ausliefert. Ein Feed ist eine Beziehung, kein einmaliger Export.
Eine Hidden API nutzen, wo es sie gibt. Viele Websites, die per JavaScript rendern, rufen im Hintergrund ihren eigenen JSON-Endpunkt auf, um an die Daten zu kommen. Diesen Endpunkt zu lesen ist dramatisch stabiler als HTML zu parsen, weil sich JSON-Felder weit seltener ändern als das visuelle Layout. Siehe was eine Hidden API ist.
Eine korrekt gefingerprintete Browser-Session für Seiten, die den Handshake vor dem Rendern prüfen – damit die öffentliche Seite so lädt wie für jeden Besucher, in höflichem Tempo.
Monitoring und Alerts. Der größte Unterschied zwischen einem Hobby-Scraper und einem verlässlichen Feed: Der Feed meldet sich in dem Moment, in dem ein Feld leer wird oder die Zeilenzahl einbricht – bevor es Ihr Dashboard erreicht. Stilles Scheitern ist der eigentliche Feind.
Rate-Disziplin von Haus aus. Tempo, Retries mit Back-off und Respekt für robots.txt sind eingebaut – so bleibt der Zugriff gesund, wenn das Volumen wächst.

Das Prinzip hinter alldem: Im Fokus steht Verlässlichkeit bei öffentlichen, faktischen Daten – Produktpreise, Inseratsfelder, öffentliche Katalogeinträge. Sie betreiben und besitzen die entstehenden Daten. Ich arbeite innerhalb der Bedingungen und Rate-Limits jeder Website und rühre niemals personenbezogene oder login-geschützte Informationen an.

Wann Sie aufhören sollten zu flicken – und einen echten Feed brauchen

Wenn Sie denselben No-Code-Flow dieses Quartal dreimal neu gebaut haben, ist nicht das Tool das Problem – sondern der Ansatz. Ein gewarteter Scraper mit Hidden API wo verfügbar, Monitoring und vernünftigen Rate-Limits macht aus einem wackligen Export etwas, auf dem Sie still und leise aufbauen können. Genau das ist der Sinn eines betreuten Datenfeeds: Sie denken nicht mehr darüber nach.