AI bot analytics

Как понять, что GPTBot и ClaudeBot реально читают ваш сайт

Повод простой: все чаще владельцы сайтов видят в логах GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot и других AI-ботов. Но сам факт визита почти ничего не доказывает. Важно другое: какие страницы они читали, какой статус получили и есть ли у сайта понятные входы для машинного чтения.

200бот получил страницу нормально

499соединение оборвалось до завершения

/llms.txtу бота есть короткий маршрут чтения сайта

Коротко: трекер AI-ботов нужен не для красивой цифры в стиле “нас посетил GPTBot”. Он нужен, чтобы увидеть, получает ли AI нормальный доступ к важным страницам, не упирается ли в ошибки, редиректы, тяжелый фронтенд или пустые machine-readable файлы.

Почему обычной Метрики мало

Яндекс Метрика и похожие счетчики отлично показывают людей: визиты, клики, формы, заявки, конверсии. Но AI-боты часто не исполняют JavaScript как обычный браузер. Значит, если смотреть только клиентскую аналитику, можно вообще не увидеть важную часть картины.

Для AI-ботов нужен серверный слой: смотреть user-agent, путь, метод, статус ответа, referrer, время, повторяемость обхода и то, какие entrypoint-файлы были прочитаны.

Каких ботов нужно отличать друг от друга

GPTBotбот OpenAI для обхода публичного веба, который может использоваться для улучшения и безопасности моделей. Это не то же самое, что поиск в ChatGPT.

OAI-SearchBotбот OpenAI для поисковых функций ChatGPT. Если вам важна видимость в поиске ChatGPT, его нельзя путать с GPTBot.

ChatGPT-Userвизит, инициированный пользователем ChatGPT или Custom GPT. Например, человек попросил ChatGPT открыть или разобрать страницу.

ClaudeBotбот Anthropic для сбора публичного контента, который может использоваться для развития моделей Claude.

Claude-SearchBotпоисковый бот Claude. Его важно отделять от обучающего обхода, потому что это ближе к AI-поиску и видимости в ответах.

Claude-Userвизит, который происходит, когда пользователь Claude просит прочитать конкретную страницу.

Главная мысль: “AI-бот зашел” - это слишком грубо. Для бизнеса важнее понять, это был обучающий crawler, поисковый crawler или пользовательский запрос из AI-интерфейса.

Что означает статус 499 в логах

Если в логах у AI-бота много статусов 499, это тревожный, но не панический сигнал. Обычно 499 означает, что клиент закрыл соединение до того, как сервер нормально закончил ответ.

На практике это может быть из-за тяжелой страницы, долгого ответа сервера, цепочки редиректов, защиты, таймаута, проблем с HTTPS или слишком медленного backend-ответа. Для человека сайт может “как-то открываться”, а для бота чтение будет регулярно обрываться.

2xx: все хорошо, бот получил контент.
3xx: бот попал в редирект. Один нормальный редирект допустим, цепочки лучше сокращать.
4xx: бот не получил страницу. Нужно смотреть robots.txt, блокировки, WAF, неверные URL.
5xx: проблема на сервере. Для AI-читаемости это плохой сигнал.
499: соединение оборвалось. Нужно проверить скорость, вес страницы и серверные таймауты.

Что именно стоит трекать

Люди

page_view, запуск проверки, готовый отчет, скачивание PDF, клик по тарифу, старт оплаты, успешная или неуспешная оплата.

AI-боты

GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, Claude-SearchBot, Claude-User, PerplexityBot, Google-Extended и другие user-agent.

Entrypoints

/llms.txt, /agenthub.json, /.well-known/agenthub.json, /company-profile.json, /p/*/index.json.

Ошибки

Статусы 4xx, 5xx, 499, странные редиректы, пустые ответы, заблокированные JSON и страницы, которые бот не может прочитать.

Зачем это бизнесу, а не только разработчику

Потому что AI-боты - это уже отдельный слой дистрибуции информации. Они не заменяют SEO и не гарантируют продажи, но показывают, может ли сайт быть нормально прочитан системами, которые отвечают пользователю вместо привычного списка ссылок.

Если бот ходит только на главную и получает 499, это одно. Если он читает /llms.txt, /company-profile.json, JSON-LD и ключевые страницы с услугами, это уже совсем другая картина. Сайт начинает не просто “существовать в интернете”, а отдавать машинам структурированный маршрут чтения.

Как это сделано в Агентхабе

Мы разделяем аналитику на два слоя. Людей считаем через браузерные события: проверка сайта, отчет, PDF, клики по тарифам и оплатам. Ботов считаем на сервере: по user-agent, пути, статусу ответа и обращению к agent-ready файлам.

В админке это превращается в простые карточки: люди сегодня, AI-боты сегодня, проверки, отчеты, заявки, оплаты, топ AI-ботов, топ страниц для машинного чтения, разбивка статусов и последний визит GPTBot, OAI-SearchBot или ClaudeBot.

Важная граница честности: наличие GPTBot или ClaudeBot в логах не означает, что сайт попадет в ответы AI. Но если бот вообще не может получить важные страницы, если его режет защита или если у сайта нет понятного machine-readable слоя, шансов на корректное понимание точно меньше.

Что проверить у себя

Открываются ли главная, услуги, контакты и важные страницы с кодом 200.
Нет ли лишних цепочек редиректов с www на без www, http на https и обратно.
Не закрыты ли важные страницы и JSON-файлы в robots.txt.
Есть ли /llms.txt, /company-profile.json и /.well-known/agenthub.json.
Получают ли AI-боты не только HTML, но и канонические факты: кто вы, что делаете, где работаете, какие контакты основные.

Практический следующий шаг

Если хочется быстро понять, насколько сайт уже готов к AI-чтению, начните с бесплатной проверки. Она смотрит не только на наличие файлов, а на доступность, структуру, trust, JSON-LD и agent-ready entrypoints.

Проверить сайт Как разместить файлы

Материал адаптирован под подход Агентхаба к AI-бот аналитике и machine-readable слою. Для фактической части использованы официальные страницы OpenAI по crawler-ботам, справка Anthropic по ClaudeBot/Claude-User/Claude-SearchBot и документация Google по Google-Extended.

Источники: OpenAI Crawlers, Anthropic crawler docs, Google crawlers.