Дефицит данных для обучения LLM

Мы с вами уже распознавали капчи со светофорами, велосипедами и дорожными переходами — обучали компьютерное зрение для автономных автомобилей. Этот датасет состоит из фотографий с реальных камер, в материале нет дефицита.

Основная же масса лучшего контента защищена авторскими правами. Сейчас регулярно возникают судебные разборки, потому что модели обучают на книгах, изображениях, коде и музыке без разрешения правообладателей. Я не думаю, что такие датасеты попадают под добросовестное использование (fair use), ведь результаты работы моделей конкурируют с произведениями оригинальных авторов.

Вероятно, скоро оригинального контента будет меньше, чем контента сделанного с нейросетями. Получится, что нейросети будут обучаться на контенте друг друга. В Nature вышла статья, где описывают явление model collapse: когда модели обучаются на сгенерированных данных, то с новыми циклами качество ответов начинает сильно деградировать и модели начинают выдавать бред.

Чтобы получить данные для обучения, крупные сервисы уже включают в пользовательские соглашения пункты, разрешающие обучать нейросети на контенте пользователей. Но пользователи будут воспитаны на контенте нейросетей…

Так что вместе с улучшением технологий нас ждёт ухудшение контента. Тупеем вместе с LLM.

Дефицит данных для обучения LLM

More posts

API для проверки самозанятых

Обожаю консультации

Последний шанс залететь на Перелидоз 2026 🚀

Если вы в теме агентского