Кто ходит на ваш сайт кроме людей в 2025 году?
Провел исследование трафика нескольких ресурсов. Выгрузил 7+ млн серверных логов. Больше половины всех запросов к сайту — это вовсе не люди, а разнообразные боты и автоматизированные сервисы (сканеры, пауки, парсеры всех мастей). Ниже — ключевые выводы.
1. Боты уже давно стали нормой
На сайтах с высокой посещаемостью доля ботов легко может достигать 50–60 %. Это означает, что вы тратите деньги и ресурсы на обслуживание чужих потребностей и ботов, а не настоящих посетителей или клиентов. CDN, серверы, хостинг — всё это расходуется зря. Интересно, когда CEO компаний и проектов додумаются до того, чтобы ставить задачи на анализ полезного трафика, а остальное фильтровать, тем самым колоссально экономить на облаках. На данный момент об этом заботятся CTO или DevOps в лучшем случае.
Что делать: анализируйте или фильтруйте вредоносный трафик. Это не так сложно.
2. Привычные инструменты аналитики врут
Google Analytics или Яндекс Метрика больше не справляются так, как раньше:
- Браузеры скрывают важные данные (например, источник перехода). Шифрование данных.
- Расширения типа AdBlock блокируют счётчики.
- Часть пользователей не запускает JavaScript.
Итог: ваши отчёты показывают красивые, но неточные цифры.
Что делать: совмещайте серверную аналитику (логи сайта) с небольшим JS-датчиком, чтобы видеть реальную картину. Такой подход фильтрует всех ботов, которые не умеют выполнять JavaScript. А это большинство, как показал анализ. Также сделайте белый список для полезных легальных краулеров.
3. Новые лидеры среди ботов — AI-сервисы
Теперь первые места среди автоматических посетителей занимают:
- ChatGPT (GPTBot)
- Amazon Bot (Alexa, сервисы Amazon)
- Meta (Facebook)
- Perplexity и т. д.
Они заходят не просто так, а собирают ваш контент, чтобы обучать свои нейросети, а потом продавать полученные знания вам же обратно.
Классические поисковые роботы Google и Bing уже уступают первенство AI-ботам.
Что делать: решать вам, в зависимости от деталей вашего бизнеса. Если вас индексируют нейронки, это потенциально может привлечь дополнительный трафик, так как ИИ-сервисы часто цитируют источники активными ссылками. Но обратная сторона — на ваших данных будут обучать новые релизы. Также может проводиться анализ контента на предмет того, сгенерирован он нейросетью или написан человеком и уникален. Это может влиять на SEO вашего сайта, понижая, например, генеративный контент и повышая авторский (уникальный).
4. Узкие специалисты
Следующие по популярности это:
- SEO-платформы (Ahrefs, Semrush, Serpstat) — парсят HTML, метатеги, микроразметку, скорость ответа.
- Security-сканеры — ищут версии CMS, JS-библиотек, открытые директории, составляют отчёты об уязвимостях.
- Маркетинговые агрегаторы — собирают цены, отзывы, характеристики товаров для сравнительных витрин.
Они анализируют ваш контент, структуру сайта и ищут уязвимости. Иногда это полезно, но чаще это лишняя нагрузка на сайт и расходы (ни разу такой сервис не уведомил о найденных проблемах).
Выгода от сбора данных — исключительно достаётся самим компаниям, которые эти данные продают прямо или косвенно. Например, конкуренты смогут получить аналитику вашего сайта, ссылочную массу или характеристики контента. Или уязвимости для последующего взлома.
Что делать: мониторить и фильтровать.
5. Грязные боты — простые и эффективные
Есть и простые автоматические программы (например, написанные на Python, Go, Java), которые откровенно копируют ваш контент, чтобы затем переписать его с помощью нейросетей и публиковать у себя на сайте или в соцсетях. Этих «гостей» легко определить и ограничить. Признаки — агрессивные таймауты, отсутствие Accept-Language
и Referer
, скачки IP по диапазонам хостеров. Они не церемонятся даже изменить User-Agent
и часто представляются как библиотеки языка программирования, на которых написаны:
Go-http-client/1.1
python-requests/2.25.1
Java/1.8.x
Что делать: однозначно жёстко фильтровать. Ставьте для неизвестных UA speed-limit (например, 2 rps) или заставляйте проходить JS-challenge/капчу.
6. Определение AI-контента теперь — бизнес
Пока идут споры, можно ли определить, что текст написан нейросетью, компании уже продают сервисы, которые умеют это делать. Правда, точность оставляет желать лучшего.
Что делать: не постить генеративный контент as is без обработки — «выпаливается» это на ура. Пара хаков:
- Прогоните через несколько нейронок. Оригинальность вырастет.
- Изучите очевидные признаки генеративного контента и удаляйте их (можно автоматически).
- Используйте старые методы (помните, как переводили туда-обратно с одного языка на другой? Теперь то же самое можно делать с помощью LLM).
- Для более масштабного и технологического подхода можно строить от своего контента эмбеддинг и проверять на семантическую близость (именно так делают поисковики и AI-сервисы).
Как быть в этой ситуации?
- Считайте реальную стоимость трафика, учитывая долю автоматических запросов.
- Настройте чёткие правила для роботов (ограничение по скорости, доступности контента).
- Используйте простые и прозрачные инструменты для анализа трафика, совмещая серверную и клиентскую аналитику.
- Игнорировать новую реальность нельзя. Она влияет на ваши расходы, аналитику и даже ценность контента.
Технический план (для тех, кто хочет углубиться):
Политика доступа
- Чётко описываем, кому разрешено сканирование (
Allow
) и на каких условиях (Maximum-requests-per-second). - Для AI-ботов указываем в ответах
X-Robots-Tag: noai, noimageai
, если контент нельзя использовать для ML (новый draft-стандарт).
Автоматическая классификация
- ML-модель на N-gram UA-строк + фичи уровня TCP: TTL, MSS, порядок заголовков.
- Делаем три коридора: «легальные», «условно-доверенные», «под сомнением». Последним отдаём «облегчённую» версию фронта.
Чёткие бизнес-метрики
- Не общий трафик, а стоимость одного запроса в сервер-логе.
- Считаем, сколько стоит 1 % перераспределения нагрузки, и сравниваем с ценой внедрения защиты.