Як заборонити/заборонити OpenAI ChatGPT використовувати контент вашого сайту

OpenAI повідомив, що відтепер він може сканувати Інтернет для покращення своїх систем.

OpenAI опублікував стандарти Robots.txt для блокування GPTBot — https://platform.openai.com/docs/gptbot. GPTBot — це user agent сканера OpenAI.

Вони не кажуть, що GPTBot використовується для створення наборів даних, які використовуються для навчання ChatGPT. Це можливо, але вони не говорять про це явно. Тому майте це на увазі, якщо ви думаєте заблокувати GPTBot, щоб він не потрапляв до навчальних наборів даних OpenAI, тому що це не обов'язково станеться.

Інша причина полягає в тому, що існує загальнодоступний набір даних від CommonCrawl, який вже сканує Інтернет, тому OpenAI немає сенсу дублювати цю роботу.

Детальніше про те, як заблокувати ChatGPT.

Повний рядок агента користувача для GPTBot виглядає наступним чином:

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

Його можна заблокувати (заборонити) через файл robots.txt за допомогою наступних рядків:

User-agent: GPTBot
Disallow: /

GPTBot також підпорядковується наступним директивам, які контролюють, які частини веб-сайту дозволені для сканування, а які заборонені:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

OpenAI також публікує діапазон IP-адрес, який можна використовувати для ідентифікації офіційного GPTBot (на відміну від краулера, який підміняє агента користувача) — https://openai.com/gptbot-ranges.txt

Можна заблокувати цей діапазон IP-адрес через .htaccess, але він може змінюватися, а це означає, що файл .htaccess потрібно буде оновлювати.

Цей момент не можна переоцінювати, діапазон IP-адрес може змінюватися, тому завжди перевіряйте, які найактуальніші діапазони IP-адрес.

Тому зручніше використовувати діапазон для підтвердження агента користувача і блокування GPTBot за допомогою файлу robots.txt.