Le robot d'exploration Web Stripebot

Découvrez comment Stripe utilise un crawler Web pour accéder aux sites Web des utilisateurs.

Stripebot est l’outil d’exploration Web automatisé de Stripe qui collecte les données des sites Web de nos utilisateurs. Nous utilisons ces données pour fournir des services à nos utilisateurs et nous conformer aux réglementations financières.

Stripebot utilise des algorithmes pour minimiser le trafic des serveurs Web. Stripe veut s’assurer que notre crawler n’a pas d’impact sur la vitesse ou l’accessibilité des sites Web de nos utilisateurs.

Identify Stripebot

Stripebot s’identifie avec les informations user-agent suivantes :

Mozilla/5.0 (X11; Linux {version}) AppleWebKit/{version} (KHTML, like Gecko) Chrome/{version} Safari/{version} (Stripebot/{version}; +https://docs.stripe.com/stripebot-crawler)

Pour vérifier qu’un crawler Web accédant à votre serveur est bien Stripebot, utilisez la vérification DNS pour vérifier si l’adresse IP enregistrée sur votre serveur se résout au domaine désigné par Stripe :

Utilisez un outil de ligne de commande pour effectuer une recherche DNS inversée sur l’adresse IP enregistrée. Vérifiez qu’elle aboutit à une URL dans le domaine crawl.stripe.com. Par exemple, si l’adresse IP dans vos logs est 1.2.3.4 :

Command Line
$ host 1.2.3.4
4.3.2.1.in-addr.arpa domain name pointer 1-2-3-4.crawl.stripe.com

L’URL résolue est dans le domaine crawl.stripe.com, il s’agit donc probablement de Stripebot.

Assurez-vous que l’URL pointe vers l’adresse IP enregistrée en exécutant une recherche DNS directe. Par exemple :

Command Line
$ host 1-2-3-4.crawl.stripe.com
1-2-3-4.crawl.stripe.com has address 1.2.3.4

L’adresse IP correspond à l’adresse enregistrée sur votre serveur, ce qui indique qu’il s’agit de Stripebot.

Contrôler l’accès de Stripebot aux pages

Stripebot suit principalement le protocole d’exclusion des robots RFC 9309. Il reconnaît les lignes suivantes (insensibles à la casse) dans un fichier robots.txt :

User-Agent : le robot auquel s’applique le groupe de règles suivant
Autoriser : un chemin d’URL que le robot peut parcourir
Disallow : un chemin d’URL que le robot ne peut pas parcourir

Stripebot suit les règles du premier groupe qui a un agent utilisateur de Stripebot. S’il ne trouve pas de groupe correspondant, il suit les règles du premier groupe qui a un agent utilisateur de *. Dans les deux cas, s’il trouve plusieurs groupes correspondants, il suit uniquement les règles du premier.

Par exemple, le groupe de règles suivant permet explicitement à Stripebot d’accéder au chemin d’accès /stripe-stuff, et le bloque pour accéder au chemin d’accès /private :

User-Agent: Stripebot
Allow: /stripe-stuff
Disallow: /private

robots.txt mise en cache

Si vous mettez à jour le fichier robots.txt, la mise en cache peut empêcher Stripebot de reconnaître immédiatement les modifications. En outre, si robots.txt existe, mais que la tentative de lecture du fichier renvoie une erreur, Stripebot peut utiliser une version mise en cache (si disponible).

Obtenir de l’aide avec Stripebot

Si vous avez des questions ou des préoccupations concernant Stripebot, envoyez-nous un e-mail à stripebot@stripe.com. Si votre problème concerne des noms de domaine spécifiques, indiquez-les dans votre message.