Для обучения GPT-5 не хватит качественных данных из всего интернета

Непроверенная информация в интернете — теперь проблема не только для людей, но и для ИИ. Разработчики самых передовых моделей столкнулись с тем, что им не хватает качественных данных для обучения. Некоторые ресурсы, например, авторитетные СМИ, блокируют доступ к своему контенту. На материалах других моделей ИИ обучать нельзя — он от этого «глупеет».

Дефицит качественных текстов может затормозить развитие отрасли уже в ближайшие 2 года. Теперь с кризисом столкнулись даже однозначные лидеры рынка, такие как OpenAI и Anthropic. GPT-5 планируют обучать на транскриптах публичных выступлений и подкастов на YouTube — это способ хоть как-то получить качественные данные.

На первый взгляд кажется, что проблему легко решить: достаточно нанять тех, кто пишет качественные тексты, и попросить их производить контент специально для обучения ИИ. Например, заключить контракт с онлайн-изданием или электронной библиотекой. Однако на практике всё не так просто.

Пабло Вильялобос, ученый из Исследовательского института Epoch, говорит, что для обучения того же GPT-5 понадобится 60–100 триллионов токенов. Не совсем понятно, равен токен в этом случае слову или только его составной части. Но даже по самым скромным ожиданиям, понадобятся 240–400 миллиардов страниц А4 и около 1 миллиарда книг. Британская библиотека — самое большое книгохранилище в мире с фондом хранения в 170 млн книг. Чтобы соответствовать аппетитам передовых ИИ, нужно 5–8 Британских библиотек, причем материалы в них должны быть уникальными. По словам Вильябоса, если обучать GPT-5 на подходящих текстах в интернете, ему не хватит 10–20 триллионов токенов.

Ещё можно обучать ИИ на личных переписках, однако широкая общественность не хочет отдавать свои данные разработчикам. Илон Маск и Цукерберг обучают свои модели на контенте, который создают пользователи их соцсетей, однако он не всегда связный и качественный.

Пока Пабло Вильябос прогнозирует, что угроза нехватки данных в 2026 году будет уже 90%, стартап DatologyAI пытается решить эту проблему другим подходом. В нем БЯМ обучают методом «школьной программы» — предоставляют информацию в определенном порядке, от простого к сложному, чтобы ИИ сам нашёл в ней связи и сделал выводы. По словам Ари Морксоса, основателя стартапа, это позволяет повысить эффективность модели, уменьшив объём входящих данных вдвое. Однако пока это не подтвердили в других исследованиях.

И Google, и OpenAI думают над созданием рынка данных для обучения нейросетей. На нем будут определять, насколько определенная информация полезна для конкретной модели, и какая цена будет справедливой. Возможно, возникнет целая новая сфера экономики, в которой будут трудится производители контента для обучения ИИ. Пока дальше планов работа над рынком не заходит.

OpenAI и Anthropic также начали эксперименты с «высококачественными синтетическими данными». Это наилучшие тексты, созданные самими нейросетями. Здесь разработчикам нужно быть предельно осторожными — некоторые испытания показали, что нейросети теряют производительность и деградируют от таких учебных материалов.

Пожалуйста, оцените статью:
Ваша оценка: None Средняя: 5 (1 vote)
Источник(и):

ХайТек+