Guide
Was ist eine Hidden API, und warum sie der verlässlichste Weg zu Daten ist
Wenn eine Seite Preise, Inserate oder Suchergebnisse lädt, stehen diese Daten meist nicht im HTML — sie kommen von einem internen JSON-Endpunkt, den die Seite im Hintergrund aufruft. Genau das nenne ich eine Hidden API. Für öffentliche, faktische Daten ist es fast immer verlässlicher, sie dort zu lesen, als die gerenderte Seite zu parsen.
Was „hidden“ wirklich bedeutet
Nichts Anrüchiges. Eine moderne Webseite ist eine dünne Hülle, die nach dem Laden einen oder mehrere ihrer eigenen Backend-Endpunkte aufruft, um den eigentlichen Inhalt als strukturiertes JSON zu holen. „Hidden“ sind diese Endpunkte nur insofern, als sie nicht für die externe Nutzung dokumentiert sind und nicht in der Adresszeile erscheinen — Ihr eigener Browser nutzt sie aber bei jedem einzelnen Öffnen der Seite. Sie sind Teil dessen, wie die öffentliche Website ihre öffentlichen Daten an Sie ausliefert.
Warum der Aufruf das HTML-Parsing schlägt
- Stabilität. Ein Redesign kann über Nacht jede CSS-Klasse umschreiben und einen HTML-Scraper brechen. Das JSON-Feld
pricebleibt dagegen Redesign für Redesignprice. Weniger bewegliche Teile bedeuten weniger Ausfälle um 2 Uhr nachts. - Sauberere Daten. Sie erhalten typisierte Felder — Zahlen als Zahlen, Datumswerte als Datumswerte, verschachtelte Objekte — statt Text aus formatiertem Markup zu kratzen und neu zu parsen. Weniger Rätselraten, weniger Edge-Case-Bugs.
- Vollständigkeit. Der Endpunkt liefert oft mehr, als die Seite anzeigt: zusätzliche Attribute, Lagerbestände, Identifier, Paginierungs-Metadaten. Häufig erhalten Sie reichere Daten als das, was sichtbar ist.
- Effizienz. Ein einziger JSON-Aufruf liefert, wofür sonst eine komplette Seite mit Bildern und Skripten gerendert werden müsste — also ein leichterer, respektvollerer Fußabdruck auf der Quellseite.
So finden Sie eine Hidden API (DevTools, Network, XHR)
Das können Sie selbst tun — in jedem Browser, auf jeder öffentlichen Seite, in wenigen Minuten:
- Öffnen Sie die Seite und drücken Sie
F12(oder Rechtsklick → Untersuchen), um die DevTools zu öffnen. - Wechseln Sie zum Tab Network und filtern Sie nach Fetch/XHR. Das blendet Bilder und Skripte aus, sodass Sie nur Datenanfragen sehen.
- Laden Sie die Seite neu oder lösen Sie die Aktion aus, die Sie interessiert — blättern, suchen, ein Inserat öffnen.
- Beobachten Sie die eintreffenden Requests. Klicken Sie diejenigen an, die JSON zurückgeben, und sehen Sie sich den Tab Response / Preview an.
- Sobald Sie den Request entdecken, dessen Antwort Ihre Felder enthält — die Preise, die Inserate, die Suchergebnisse — haben Sie die Hidden API gefunden. Notieren Sie URL, Methode und die Parameter, die sie entgegennimmt.
Von dort an besteht die Arbeit darin, diesen Endpunkt verlässlich zu lesen: korrekte Parameter, sinnvolle Paginierung, ein respektvolles Anfragetempo und der Umgang mit den Fällen, in denen die Website zuerst eine echte Browser-Session erwartet. Genau diesen letzten Teil behandelt mein Guide zu Cloudflare-geschützten öffentlichen Seiten.
Einen funktionierenden Startpunkt halte ich offen zugänglich: Das Repository hidden-api-extraction-template bietet eine saubere Struktur, auf der Sie aufbauen können.
Der regelkonforme Weg
Eine Hidden API ist weiterhin Infrastruktur der Website — es gelten also dieselben Regeln wie für jeden Zugriff auf eine öffentliche Quelle:
- Lesen Sie die Nutzungsbedingungen der Website und respektieren Sie sie. Verbieten die Bedingungen automatisierte Zugriffe, ist das ein Stoppschild.
- Beachten Sie
robots.txtund alle Rate-Limits. Takten Sie Ihre Anfragen; bombardieren Sie den Endpunkt nicht. - Bleiben Sie bei öffentlichen, faktischen, nicht personenbezogenen Daten — Katalog- und Inseratsfeldern, keinen persönlichen Informationen und nichts hinter einem Login.
- Sie betreiben und besitzen den entstehenden Feed. Ich baue ihn so, dass er ein guter Bürger der Quelle ist.