Мы с вами уже распознавали капчи со светофорами, велосипедами и дорожными переходами — обучали компьютерное зрение для автономных автомобилей. Этот датасет состоит из фотографий с реальных камер, в материале нет дефицита.
Основная же масса лучшего контента защищена авторскими правами. Сейчас регулярно возникают судебные разборки, потому что модели обучают на книгах, изображениях, коде и музыке без разрешения правообладателей. Я не думаю, что такие датасеты попадают под добросовестное использование (fair use), ведь результаты работы моделей конкурируют с произведениями оригинальных авторов.
Вероятно, скоро оригинального контента будет меньше, чем контента сделанного с нейросетями. Получится, что нейросети будут обучаться на контенте друг друга. В Nature вышла статья, где описывают явление model collapse: когда модели обучаются на сгенерированных данных, то с новыми циклами качество ответов начинает сильно деградировать и модели начинают выдавать бред.
Чтобы получить данные для обучения, крупные сервисы уже включают в пользовательские соглашения пункты, разрешающие обучать нейросети на контенте пользователей. Но пользователи будут воспитаны на контенте нейросетей…
Так что вместе с улучшением технологий нас ждёт ухудшение контента. Тупеем вместе с LLM.