Обычный пользователь может удивиться, зачем его мучают капчей при входе на сайт.
Происходит это потому, что помимо людей на сайты ходят роботы. Роботы сканируют страницы сайта, получают свежие цены из интернет-магазина, смотрят и копируют объявления, накручивают лайки и просмотры, оставляют комментарии. Всё то, что владелец сайта ожидает от настоящих посетителей.
Но настоящий посетитель не будет загружать 3000 страниц за 3 минуты. А робот — легко. На роботов тратятся ресурсы и зачастую они создают нагрузку, которая мешает настоящим посетителям выполнять их действия.
Есть роботы, которых владелец сайта ждёт, например — робота-паука от Яндекса. А есть те, которых нужно не пускать — они нарочно перегружают сайт и мешают настоящим покупкам.
Вначале программисты придумали ставить для роботов препятствия. Разгадайте капчу, чтобы пройти дальше. Остановило ли это злоумышленников? Нет — за вредоносного робота капчи разгадывают за копейки сотрудники аутсорс-компаний из Пакистана или Бангладеша. Другую часть капчей разгадывают с помощью роботов с машинным зрением. Такие же определяют номера автомобилей на камерах контроля скорости.
Наказание несём мы с вами — помогаем распознавать светофоры и пешеходные переходы. Да, это развивает автономный транспорт, но я хотел зайти посмотреть видосики, а не бесплатно обучать ещё одного робота для корпорации.
Чтобы снизить нагрузку и облегчить жизнь программистам, многие сайты стали отдавать данные через API-шлюзы — без дизайна, рекламы и сразу оптом. Зачем листать страницы, если можно загрузить 100 статей сразу? Но только крупные или новые сайты сделали API. И владелец робота может хотеть именно ту информацию, которую владелец сайта в API не включил.
Для легальных роботов появились согласованные точки доступа. Папка .well-known в корне сайта служит для общения с поисковыми роботами, проверкой SSL-сертификата и работе с автоматизированными сервисами. Также в корне сайта можно обнаружить файл robots.txt, который явно говорит, куда роботам можно ходить, а куда нельзя. Если бы все роботы были послушны!
В этом году появилась новая массовая проблема — на сайты стали приходить ИИ-агенты. Они могут оказаться желаемыми посетителями, но для них нет своего входа и условий обслуживания. Уже сейчас они создают дополнительную нагрузку, иногда очень значительную. Пытаются решить задачи пользователя под видом пользователя. Но пока ещё не разгадывают капчи. Они хоть и представляют легальных пользователей, но поражены в правах как нелегальные роботы. Думаю, скоро мы услышим про специальные интерфейсы для взаимодействия с такими посетителями.