Stripebot Web クローラー
Stripe が Web クローラーを使用してユーザー Web サイトにアクセスする方法をご紹介します。
Stripebot は、ユーザーの Web サイトからデータを収集する Stripe の自動 Web クローラーです。収集されたデータは、ユーザーにサービスを提供し、金融規制に準拠するために使用されます。
Stripebot はアルゴリズムを使用して、Web サーバートラフィックを最小限に抑えます。Stripe は、クローラーがユーザーの Web サイトの速度やアクセシビリティに影響を与えないようにしたいと考えています。
Stripebot を特定する
Stripebot は、次の user-agent 情報で自分自身を識別します:
Mozilla/5.0 (X11; Linux {version}) AppleWebKit/{version} (KHTML, like Gecko) Chrome/{version} Safari/{version} (Stripebot/{version}; +https://docs.stripe.com/stripebot-crawler)
サーバーにアクセスする Web クローラーが実際に Stripebot であることを確認するには、DNS 検証を使用して、サーバーにログに記録された IP アドレスが Stripe 指定ドメインに解決されるかどうかを確認します。
- コマンドラインツールを使用して、ログに記録された IP アドレスに対して DNS 逆引き検索を実行します。これが
crawl.ドメイン内の URL に解決されることを確認します。たとえば、ログの IP アドレスがstripe. com 1.の場合、次のようになります。2. 3. 4
$ host 1.2.3.4 4.3.2.1.in-addr.arpa domain name pointer 1-2-3-4.crawl.stripe.com
解決された URL は crawl. ドメインにあるため、おそらく Stripebot です。
- DNS の正引き検索を実行して、URL がログに記録された IP アドレスを指していることを確認します。以下に例を示します。
$ host 1-2-3-4.crawl.stripe.com 1-2-3-4.crawl.stripe.com has address 1.2.3.4
IP アドレスがサーバーでログに記録されたアドレスと一致し、それが Stripebot であることを示しています。
Stripebot のページへのアクセスを制御する
Stripebot は、ほぼ RFC 9309 Robots Exclusion Protocol に従います。robots. ファイルの次の行を認識します (大文字と小文字は区別されません)。
User-Agent: 次のルールグループが適用されるボットAllow: ボットがクロールできる URL パスDisallow: ボットがクロールできない URL パス
Stripebot は、Stripebot の User-Agent を持つ最初のグループのルールに従います。一致するグループが見つからない場合は、User-Agent が * である最初のグループのルールに従います。いずれの場合も、一致するグループが複数見つかった場合は、最初のグループのルールのみに従います。
たとえば、次のルールグループは、Stripebot が /stripe-stuff パスにアクセスすることを明示的に許可し、/private パスにアクセスすることをブロックします。
User-Agent: Stripebot Allow: /stripe-stuff Disallow: /private
robots.txt キャッシュ
robots. ファイルを更新すると、キャッシュによって Stripebot がその変更をすぐに認識できなくなる場合があります。また、robots. が存在していても、ファイルを読み取ろうとするとエラーが返される場合、Stripebot はキャッシュされたバージョン (利用可能な場合) を使用することがあります。
Stripebot についてサポートを受ける
Stripebot についてご不明な点やお困りのことがございましたら、stripebot@stripe.com までメールでお問い合わせください。特定のドメイン名に関する問題がある場合は、メッセージに含めてください。