В корне большинства сайтов лежит файл robots.txt
. Он описывает, куда можно ходить поисковым роботам, а куда нельзя. Эти файлы — очень интересное чтиво. Там перечислены страницы, которые владелец сайта хочет уберечь от попадания в поисковики.
Новый стандарт llms.txt
предназначен для LLM-агентов, которые приходят на сайт. Его предложили в конце прошлого года, а уже сегодня его поддерживают Anthropic, Cloudflare, Perplexity и другие.
Примерная структура такого файла:
# Название проекта > Краткое описание и цель сайта ## Раздел 1 - [Описание страницы 1](url1) - [Описание страницы 2](url2) ## Раздел 2 - [Важный ресурс](url3) ## Optional - [Менее важный ресурс](url4)
Важные детали:
– Получив команду зайти на сайт, робот первым делом ищет этот файл в корне сайта.
– Файл служит гидом по работе с сайтом для LLM: о чём сайт, какие разделы и страницы есть на сайте, что в них содержится, как искать информацию.
– Это приводит к экономии токенов и контекстного окна: агент не загружает избыточный html и скрипты, не блуждает по сайту в поисках нужной ему страницы.
– Также в выигрыше владелец сайта — агенты не нагружают сервер, а быстро решают свою задачу и уходят. Для некоторых сайтов, LLM-трафик уже вносит ощутимый вклад в нагрузку.
– Есть вариант стандарта llms-full.txt
. В этот файл можно выгрузить полное содержание сайта, без ссылок на страницы. На тот случай, если у вас небольшой сайт или документация.
– Файл использует markdown. Это нативная разметка, с помощью которой общаются ChatGPT, Claude и другие LLM, а программисты используют её для документации в репозиториях. Также на markdown работает Obsidian.
Примеры файлов:
– https://docs.anthropic.com/llms.txt
– https://docs.anthropic.com/llms-full.txt
– https://www.fastht.ml/docs/llms.txt
– https://llmstxt.org/llms.txt
Сайт стандарта: https://llmstxt.org
Каталоги сайтов, уже использующих стандарт: https://llmstxt.site/ https://directory.llmstxt.cloud/
Думаю, что очень скоро генерацию и обновление этих файлов будут поддерживать популярные CMS и SEO-плагины. Yoast SEO уже это внедрили.
Уже сегодня можно такой файл разместить. Вдруг, LLM станет чаще рекомендовать ваш контент?