Der Stripebot-Web-Crawler

Erfahren Sie, wie Stripe einen Web-Crawler verwendet, um auf die Websites der Nutzer/innen zuzugreifen.

Stripebot ist der automatische Web-Crawler von Stripe, der Daten von den Websites unserer Nutzer/innen erfasst. Wir verwenden die eingezogenen Daten, um unseren Nutzer/innen Dienstleistungen anzubieten und die Finanzvorschriften zu erfüllen.

Stripebot verwendet Algorithmen, um den Datenverkehr auf dem Server zu minimieren. Stripe möchte sicherstellen, dass unser Crawler die Geschwindigkeit und Zugänglichkeit der Websites unserer Nutzer/innen nicht beeinträchtigt.

Identifizieren Sie Stripebot

Stripebot identifies itself with the following user-agent information:

Um zu überprüfen, ob es sich bei einem Web-Crawler, der auf Ihren Server zugreift, tatsächlich um Stripebot handelt, verwenden Sie die DNS-Überprüfung, um festzustellen, ob die auf Ihrem Server protokollierte IP-Adresse zu der von Stripe angegebenen Domain aufgelöst werden kann:

Führen Sie mit einem Befehlszeilentool einen Reverse-DNS-Lookup für die protokollierte IP-Adresse durch. Überprüfen Sie, ob sie zu einer URL innerhalb der Domain crawl.stripe.com aufgelöst wird. Wenn die IP-Adresse in Ihren Logs zum Beispiel 1.2.3.4 lautet:

Die aufgelöste URL befindet sich in der Domain crawl.stripe.com, es handelt sich also wahrscheinlich um Stripebot.

Stellen Sie sicher, dass die URL auf die protokollierte IP-Adresse verweist, indem Sie einen Forward-DNS-Lookup durchführen. Zum Beispiel:

Die IP-Adresse stimmt mit der auf Ihrem Server protokollierten Adresse überein, was darauf hindeutet, dass es sich um Stripebot handelt.

Zugriff von Stripebot auf Seiten kontrollieren

Stripebot folgt größtenteils dem RFC 9309 Robots Exclusion Protocol. Es erkennt die folgenden Zeilen (Groß- und Kleinschreibung wird nicht berücksichtigt) in einer robots.txt-Datei:

User-Agent: Der Bot, für den die folgende Regelgruppe gilt
Allow: Ein URL-Pfad, den der Bot crawlen kann
Disallow: Ein URL-Pfad, den der Bot nicht crawlen kann

Stripebot folgt den Regeln der ersten Gruppe, die einen User-Agent von Stripebot hat. Wenn er keine passende Gruppe findet, folgt er den Regeln der ersten Gruppe, die einen User-Agent von * hat. Findet er in beiden Fällen mehrere übereinstimmende Gruppen, befolgt er nur die Regeln der ersten Gruppe.

Die folgende Regelgruppe erlaubt Stripebot zum Beispiel ausdrücklich den Zugriff auf den Pfad /stripe-stuff und blockiert den Zugriff auf den Pfad /private:

robots.txt-Zwischenspeicherung

Wenn Sie die Datei robots.txt aktualisieren, kann das Caching verhindern, dass Stripebot die Änderungen sofort erkennt. Auch wenn robots.txt existiert, aber der Versuch, die Datei zu lesen, einen Fehler liefert, verwendet Stripebot möglicherweise eine im Cache gespeicherte Version (falls verfügbar).

Hilfe zu Stripebot erhalten

Wenn Sie Fragen oder Bedenken zu Stripebot haben, senden Sie uns eine E-Mail an stripebot@stripe.com. Wenn Ihr Problem bestimmte Domainnamen betrifft, geben Sie diese in Ihrer Nachricht an.