# Le robot d'exploration Web Stripebot Découvrez comment Stripe utilise un crawler Web pour accéder aux sites Web des utilisateurs. Stripebot est l’outil d’exploration Web automatisé de Stripe qui collecte les données des sites Web de nos utilisateurs. Nous utilisons ces données pour fournir des services à nos utilisateurs et nous conformer aux réglementations financières. Stripebot utilise des algorithmes pour minimiser le trafic des serveurs Web. Stripe veut s’assurer que notre crawler n’a pas d’impact sur la vitesse ou l’accessibilité des sites Web de nos utilisateurs. ## Identify Stripebot Stripebot s’identifie avec les informations `user-agent` suivantes : ``` Mozilla/5.0 (X11; Linux {version}) AppleWebKit/{version} (KHTML, like Gecko) Chrome/{version} Safari/{version} (Stripebot/{version}; +https://docs.stripe.com/stripebot-crawler) ``` Pour vérifier qu’un crawler Web accédant à votre serveur est bien Stripebot, utilisez la vérification DNS pour vérifier si l’adresse IP enregistrée sur votre serveur se résout au domaine désigné par Stripe : 1. Utilisez un outil de ligne de commande pour effectuer une recherche DNS inversée sur l’adresse IP enregistrée. Vérifiez qu’elle aboutit à une URL dans le domaine `crawl.stripe.com`. Par exemple, si l’adresse IP dans vos logs est `1.2.3.4` : ```bash $ host 1.2.3.4 4.3.2.1.in-addr.arpa domain name pointer 1-2-3-4.crawl.stripe.com ``` L’URL résolue est dans le domaine `crawl.stripe.com`, il s’agit donc probablement de Stripebot. 1. Assurez-vous que l’URL pointe vers l’adresse IP enregistrée en exécutant une recherche DNS directe. Par exemple : ```bash $ host 1-2-3-4.crawl.stripe.com 1-2-3-4.crawl.stripe.com has address 1.2.3.4 ``` L’adresse IP correspond à l’adresse enregistrée sur votre serveur, ce qui indique qu’il s’agit de Stripebot. ## Contrôler l’accès de Stripebot aux pages Stripebot suit principalement le [protocole d’exclusion des robots RFC 9309](https://www.rfc-editor.org/rfc/rfc9309.html). Il reconnaît les lignes suivantes (insensibles à la casse) dans un fichier `robots.txt` : - `User-Agent` : le robot auquel s’applique le groupe de règles suivant - `Autoriser` : un chemin d’URL que le robot peut parcourir - `Disallow` : un chemin d’URL que le robot ne peut pas parcourir Stripebot suit les règles du premier groupe qui a un `agent utilisateur` de `Stripebot`. S’il ne trouve pas de groupe correspondant, il suit les règles du premier groupe qui a un `agent utilisateur` de `*`. Dans les deux cas, s’il trouve plusieurs groupes correspondants, il suit uniquement les règles du premier. Par exemple, le groupe de règles suivant permet explicitement à Stripebot d’accéder au chemin d’accès `/stripe-stuff`, et le bloque pour accéder au chemin d’accès `/private` : ``` User-Agent: Stripebot Allow: /stripe-stuff Disallow: /private ``` > #### robots.txt mise en cache > > Si vous mettez à jour le fichier `robots.txt`, la mise en cache peut empêcher Stripebot de reconnaître immédiatement les modifications. En outre, si `robots.txt` existe, mais que la tentative de lecture du fichier renvoie une erreur, Stripebot peut utiliser une version mise en cache (si disponible). ## Obtenir de l’aide avec Stripebot Si vous avez des questions ou des préoccupations concernant Stripebot, envoyez-nous un e-mail à stripebot@stripe.com. Si votre problème concerne des noms de domaine spécifiques, indiquez-les dans votre message.