Stripebot Web クローラー

Stripe が Web クローラーを使用してユーザー Web サイトにアクセスする方法をご紹介します。

Stripebot は、ユーザーの Web サイトからデータを収集する Stripe の自動 Web クローラーです。収集されたデータは、ユーザーにサービスを提供し、金融規制に準拠するために使用されます。

Stripebot はアルゴリズムを使用して、Web サーバートラフィックを最小限に抑えます。Stripe は、クローラーがユーザーの Web サイトの速度やアクセシビリティに影響を与えないようにしたいと考えています。

Stripebot を特定する

Stripebot は、次のユーザーエージェント 情報で自分自身を識別します：

サーバーにアクセスする Web クローラーが実際に Stripebot であることを確認するには、DNS 検証を使用して、サーバーにログに記録された IP アドレスが Stripe 指定ドメインに解決されるかどうかを確認します。

コマンドラインツールを使用して、ログに記録された IP アドレスに対して DNS 逆引き検索を実行します。これが crawl.stripe.com ドメイン内の URL に解決されることを確認します。たとえば、ログの IP アドレスが 1.2.3.4 の場合、次のようになります。

解決された URL は crawl.stripe.com ドメインにあるため、おそらく Stripebot です。

DNS の正引き検索を実行して、URL がログに記録された IP アドレスを指していることを確認します。以下に例を示します。

IP アドレスがサーバーでログに記録されたアドレスと一致し、それが Stripebot であることを示しています。

Stripebot のページへのアクセスを制御する

Stripebot は、ほぼ RFC 9309 Robots Exclusion Protocol に従います。robots.txt ファイルの次の行を認識します (大文字と小文字は区別されません)。

User-Agent: 次のルールグループが適用されるボット
Allow: ボットがクロールできる URL パス
Disallow: ボットがクロールできない URL パス

Stripebot は、Stripebot の User-Agent を持つ最初のグループのルールに従います。一致するグループが見つからない場合は、User-Agent が * である最初のグループのルールに従います。いずれの場合も、一致するグループが複数見つかった場合は、最初のグループのルールのみに従います。

たとえば、次のルールグループは、Stripebot が /stripe-stuff パスにアクセスすることを明示的に許可し、/private パスにアクセスすることをブロックします。

robots.txt キャッシュ

robots.txt ファイルを更新すると、キャッシュによって Stripebot がその変更をすぐに認識できなくなる場合があります。また、robots.txt が存在していても、ファイルを読み取ろうとするとエラーが返される場合、Stripebot はキャッシュされたバージョン (利用可能な場合) を使用することがあります。

Stripebot についてサポートを受ける

Stripebot についてご不明な点やお困りのことがございましたら、stripebot@stripe.com までメールでお問い合わせください。特定のドメイン名に関する問題がある場合は、メッセージに含めてください。