# Der Stripebot-Web-Crawler Erfahren Sie, wie Stripe einen Web-Crawler verwendet, um auf die Websites der Nutzer/innen zuzugreifen. Stripebot ist der automatische Web-Crawler von Stripe, der Daten von den Websites unserer Nutzer/innen erfasst. Wir verwenden die eingezogenen Daten, um unseren Nutzer/innen Dienstleistungen anzubieten und die Finanzvorschriften zu erfüllen. Stripebot verwendet Algorithmen, um den Datenverkehr auf dem Server zu minimieren. Stripe möchte sicherstellen, dass unser Crawler die Geschwindigkeit und Zugänglichkeit der Websites unserer Nutzer/innen nicht beeinträchtigt. ## Identifizieren Sie Stripebot Stripebot identifies itself with the following `user-agent` information: ``` Mozilla/5.0 (X11; Linux {version}) AppleWebKit/{version} (KHTML, like Gecko) Chrome/{version} Safari/{version} (Stripebot/{version}; +https://docs.stripe.com/stripebot-crawler) ``` Um zu überprüfen, ob es sich bei einem Web-Crawler, der auf Ihren Server zugreift, tatsächlich um Stripebot handelt, verwenden Sie die DNS-Überprüfung, um festzustellen, ob die auf Ihrem Server protokollierte IP-Adresse zu der von Stripe angegebenen Domain aufgelöst werden kann: 1. Führen Sie mit einem Befehlszeilentool einen Reverse-DNS-Lookup für die protokollierte IP-Adresse durch. Überprüfen Sie, ob sie zu einer URL innerhalb der Domain `crawl.stripe.com` aufgelöst wird. Wenn die IP-Adresse in Ihren Logs zum Beispiel `1.2.3.4` lautet: ```bash $ host 1.2.3.4 4.3.2.1.in-addr.arpa domain name pointer 1-2-3-4.crawl.stripe.com ``` Die aufgelöste URL befindet sich in der Domain `crawl.stripe.com`, es handelt sich also wahrscheinlich um Stripebot. 1. Stellen Sie sicher, dass die URL auf die protokollierte IP-Adresse verweist, indem Sie einen Forward-DNS-Lookup durchführen. Zum Beispiel: ```bash $ host 1-2-3-4.crawl.stripe.com 1-2-3-4.crawl.stripe.com has address 1.2.3.4 ``` Die IP-Adresse stimmt mit der auf Ihrem Server protokollierten Adresse überein, was darauf hindeutet, dass es sich um Stripebot handelt. ## Zugriff von Stripebot auf Seiten kontrollieren Stripebot folgt größtenteils dem [RFC 9309 Robots Exclusion Protocol](https://www.rfc-editor.org/rfc/rfc9309.html). Es erkennt die folgenden Zeilen (Groß- und Kleinschreibung wird nicht berücksichtigt) in einer `robots.txt`-Datei: - `User-Agent`: Der Bot, für den die folgende Regelgruppe gilt - `Allow`: Ein URL-Pfad, den der Bot crawlen kann - `Disallow`: Ein URL-Pfad, den der Bot nicht crawlen kann Stripebot folgt den Regeln der ersten Gruppe, die einen `User-Agent` von `Stripebot` hat. Wenn er keine passende Gruppe findet, folgt er den Regeln der ersten Gruppe, die einen `User-Agent` von `*` hat. Findet er in beiden Fällen mehrere übereinstimmende Gruppen, befolgt er nur die Regeln der ersten Gruppe. Die folgende Regelgruppe erlaubt Stripebot zum Beispiel ausdrücklich den Zugriff auf den Pfad `/stripe-stuff` und blockiert den Zugriff auf den Pfad `/private`: ``` User-Agent: Stripebot Allow: /stripe-stuff Disallow: /private ``` > #### robots.txt-Zwischenspeicherung > > Wenn Sie die Datei `robots.txt` aktualisieren, kann das Caching verhindern, dass Stripebot die Änderungen sofort erkennt. Auch wenn `robots.txt` existiert, aber der Versuch, die Datei zu lesen, einen Fehler liefert, verwendet Stripebot möglicherweise eine im Cache gespeicherte Version (falls verfügbar). ## Hilfe zu Stripebot erhalten Wenn Sie Fragen oder Bedenken zu Stripebot haben, senden Sie uns eine E-Mail an stripebot@stripe.com. Wenn Ihr Problem bestimmte Domainnamen betrifft, geben Sie diese in Ihrer Nachricht an.