Le robot d'exploration Web Stripebot
Découvrez comment Stripe utilise un crawler Web pour accéder aux sites Web des utilisateurs.
Stripebot est l’outil d’exploration Web automatisé de Stripe qui collecte les données des sites Web de nos utilisateurs. Nous utilisons ces données pour fournir des services à nos utilisateurs et nous conformer aux réglementations financières.
Stripebot utilise des algorithmes pour minimiser le trafic des serveurs Web. Stripe veut s’assurer que notre crawler n’a pas d’impact sur la vitesse ou l’accessibilité des sites Web de nos utilisateurs.
Identify Stripebot
Stripebot s’identifie avec les informations d'agent utilisateur
suivantes :
Pour vérifier qu’un crawler Web accédant à votre serveur est bien Stripebot, utilisez la vérification DNS pour vérifier si l’adresse IP enregistrée sur votre serveur se résout au domaine désigné par Stripe :
- Utilisez un outil de ligne de commande pour effectuer une recherche DNS inversée sur l’adresse IP enregistrée. Vérifiez qu’elle aboutit à une URL dans le domaine
crawl.
. Par exemple, si l’adresse IP dans vos logs eststripe. com 1.
:2. 3. 4
L’URL résolue est dans le domaine crawl.
, il s’agit donc probablement de Stripebot.
- Assurez-vous que l’URL pointe vers l’adresse IP enregistrée en exécutant une recherche DNS directe. Par exemple :
L’adresse IP correspond à l’adresse enregistrée sur votre serveur, ce qui indique qu’il s’agit de Stripebot.
Contrôler l’accès de Stripebot aux pages
Stripebot suit principalement le protocole d’exclusion des robots RFC 9309. Il reconnaît les lignes suivantes (insensibles à la casse) dans un fichier robots.
:
User-Agent
: le robot auquel s’applique le groupe de règles suivantAutoriser
: un chemin d’URL que le robot peut parcourirDisallow
: un chemin d’URL que le robot ne peut pas parcourir
Stripebot suit les règles du premier groupe qui a un agent utilisateur
de Stripebot
. S’il ne trouve pas de groupe correspondant, il suit les règles du premier groupe qui a un agent utilisateur
de *
. Dans les deux cas, s’il trouve plusieurs groupes correspondants, il suit uniquement les règles du premier.
Par exemple, le groupe de règles suivant permet explicitement à Stripebot d’accéder au chemin d’accès /stripe-stuff
, et le bloque pour accéder au chemin d’accès /private
:
robots.txt mise en cache
Si vous mettez à jour le fichier robots.
, la mise en cache peut empêcher Stripebot de reconnaître immédiatement les modifications. En outre, si robots.
existe, mais que la tentative de lecture du fichier renvoie une erreur, Stripebot peut utiliser une version mise en cache (si disponible).
Obtenir de l’aide avec Stripebot
Si vous avez des questions ou des préoccupations concernant Stripebot, envoyez-nous un e-mail à stripebot@stripe.com. Si votre problème concerne des noms de domaine spécifiques, indiquez-les dans votre message.