Der Stripebot-Web-Crawler
Erfahren Sie, wie Stripe einen Web-Crawler verwendet, um auf die Websites der Nutzer/innen zuzugreifen.
Stripebot ist der automatische Web-Crawler von Stripe, der Daten von den Websites unserer Nutzer/innen erfasst. Wir verwenden die eingezogenen Daten, um unseren Nutzer/innen Dienstleistungen anzubieten und die Finanzvorschriften zu erfüllen.
Stripebot verwendet Algorithmen, um den Datenverkehr auf dem Server zu minimieren. Stripe möchte sicherstellen, dass unser Crawler die Geschwindigkeit und Zugänglichkeit der Websites unserer Nutzer/innen nicht beeinträchtigt.
Identifizieren Sie Stripebot
Stripebot identifies itself with the following user-agent
information:
Um zu überprüfen, ob es sich bei einem Web-Crawler, der auf Ihren Server zugreift, tatsächlich um Stripebot handelt, verwenden Sie die DNS-Überprüfung, um festzustellen, ob die auf Ihrem Server protokollierte IP-Adresse zu der von Stripe angegebenen Domain aufgelöst werden kann:
- Führen Sie mit einem Befehlszeilentool einen Reverse-DNS-Lookup für die protokollierte IP-Adresse durch. Überprüfen Sie, ob sie zu einer URL innerhalb der Domain
crawl.
aufgelöst wird. Wenn die IP-Adresse in Ihren Logs zum Beispielstripe. com 1.
lautet:2. 3. 4
Die aufgelöste URL befindet sich in der Domain crawl.
, es handelt sich also wahrscheinlich um Stripebot.
- Stellen Sie sicher, dass die URL auf die protokollierte IP-Adresse verweist, indem Sie einen Forward-DNS-Lookup durchführen. Zum Beispiel:
Die IP-Adresse stimmt mit der auf Ihrem Server protokollierten Adresse überein, was darauf hindeutet, dass es sich um Stripebot handelt.
Zugriff von Stripebot auf Seiten kontrollieren
Stripebot folgt größtenteils dem RFC 9309 Robots Exclusion Protocol. Es erkennt die folgenden Zeilen (Groß- und Kleinschreibung wird nicht berücksichtigt) in einer robots.
-Datei:
User-Agent
: Der Bot, für den die folgende Regelgruppe giltAllow
: Ein URL-Pfad, den der Bot crawlen kannDisallow
: Ein URL-Pfad, den der Bot nicht crawlen kann
Stripebot folgt den Regeln der ersten Gruppe, die einen User-Agent
von Stripebot
hat. Wenn er keine passende Gruppe findet, folgt er den Regeln der ersten Gruppe, die einen User-Agent
von *
hat. Findet er in beiden Fällen mehrere übereinstimmende Gruppen, befolgt er nur die Regeln der ersten Gruppe.
Die folgende Regelgruppe erlaubt Stripebot zum Beispiel ausdrücklich den Zugriff auf den Pfad /stripe-stuff
und blockiert den Zugriff auf den Pfad /private
:
robots.txt-Zwischenspeicherung
Wenn Sie die Datei robots.
aktualisieren, kann das Caching verhindern, dass Stripebot die Änderungen sofort erkennt. Auch wenn robots.
existiert, aber der Versuch, die Datei zu lesen, einen Fehler liefert, verwendet Stripebot möglicherweise eine im Cache gespeicherte Version (falls verfügbar).
Hilfe zu Stripebot erhalten
Wenn Sie Fragen oder Bedenken zu Stripebot haben, senden Sie uns eine E-Mail an stripebot@stripe.com. Wenn Ihr Problem bestimmte Domainnamen betrifft, geben Sie diese in Ihrer Nachricht an.