ChatGPTのアクセスを拒否。GPTBotにクロールさせない方法。デザイナー、コーチ、ディレクター / 井川

igawa design.

Memo

ChatGPTのスクレイピング、GPTBotのサイトクロールを禁止。

です・ます調の文章でなくてすみません。当初は個人的なメモ書きだったためです。

ChatGPTにクロール(情報を収集)されたくないとき。

ChatGPTは便利な反面、勝手にAIに学習されると困るという場合がある。

例えば、、、

  • 個人情報が含まれるサイト。
  • 著作権があるコンテンツ。
  • ログインが必要な有料サイト。

など。

そのような場合は、「robots.txt」でWebサイトのクロールを拒否することができる。
いくつかの手段があるが、OpenAIが公式に発表している方法がある。


ChatGPTのアクセス拒否。GPTBotにサイトをクロールさせないOpenAIによる説明サイトのスクショ。

参照元サイト:OpenAI Platform(英語。ブラウザで翻訳可。)


GPTBotのアクセスを禁止するコード。

ChatGPTのクローラーはGPTBotと呼ばれる。このBotのアクセスを避けたいときは、「robots.txt」にコードを追加すると良い。

(「robots.txt」には複数形の「s」が必要。)

サイト全体のアクセスを禁止。

下記のコードを「robots.txt」に貼り付け、サイトのルートディレクトリへ設置する。

User-agent: GPTBot
Disallow: /
サイトの一部のアクセスを許可。

サイトの一部のコンテンツのみに、アクセスできるようにすることも可能。
次のような形式で、ディレクトリへのアクセスを許可 or 拒否できる。

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
  • Allowで、ディレクトリ(上記例:directory-1)のクロールを許可する。
  • Disallowで、ディレクトリ(上記例:directory-2)のクロールを許可しない。

ユーザーエージェントで識別する場合。

ユーザーエージェントは、下記の文字列で識別できるとのこと。

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

IPアドレスによりブロックする場合。

IPアドレスは、次の一覧が公開されている。

20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28

参照元サイト:OpenAI Platform(英語。ブラウザで翻訳可。)

ChatGPTのアクセスを拒否。GPTBotにクロールさせない猫ちゃんの画像。

以上、参考になれば幸いです。


AI 関連メモ。

Chat D-ID 関連メモ。
ChatGPT 関連メモ。
OpenAIのロゴ。
Bard 関連メモ。
Googleのロゴ。
DALL·E 関連メモ。

Webデザインは実務数年、職業訓練校講師数年、フリーランス数年、計15年以上のキャリアがありますが、一気にがぁっと書いています。(元々はメモ書きでしたので順次見直し、更新しています。) 事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ訂正いたします。 写真は主にUnsplashPixabayのフリー素材を利用させていただいております。その他の写真や動画もフリー素材やパブリックドメイン、購入素材、もしくは自前のものを使用しております。

デザイナー、ディレクター、講師、コーチ / 井川宜久

免責事項について

  • 記事ページ(Memosのページ)は当初は文字通りメモ書きでした。その後、修正や更新をしております。
  • 事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ早急に対応いたします。
  • 一個人のポートフォリオサイトですので、万一損害・トラブル等が発生した場合でも、一切の責任を負いかねます。