Прогноз на ближайшее будущее
Американский предприниматель Илон Маск (Elon Musk) вслед за другими экспертами заявил, что объем доступных данных для обучения ИИ практически исчерпан, пишет Techcrunch. Миллиардер подчеркнул необходимость перехода к использованию синтетических данных, которые уже применяют Microsoft и Google.
По словам Маска, в мире закончились человеческие данные для обучения нейронных сетей, причем произошло это еще в 2024 г. По его оценке, решить эту проблему могут только синтетические данные - особый тип информации, которую ИИ генерирует самостоятельно в процессе своего обучения. Миллиардер отметил, что с их помощью нейронные сети смогут сами оценивать себя т.е. ИИ будет попросту проходить процесс самообучения.
По информации Techcrunch, в настоящее время именно нехватка данных для обучения ИИ-моделей – это главная проблема, сдерживающая создание по-настоящему революционных ИИ-моделей по типу общего ИИ или Artificial General Intelligence (AGI). Эффективность нового подхода можно будет оценить уже в 2025 г., когда, как ожидается, состоится релиз GPT-5, который должен стать первым полноценным AGI.
В свою очередь Илон Маск прогнозирует, что к концу 2025 г. ИИ-модели станут умнее любого человека. По его мнению, вероятность того, что ИИ превзойдет интеллект всех людей, вместе взятых, к 2030 г. составляет 100%.
По информации программистов ИИ-стартапа Writer, обучение на синтетических данных экономит средства. К примеру, разработка ИИ-модели Palmyra X 004, для которой почти полностью использовались синтетические источники, обошлась всего в $700 тыс., а для сравнения, сопоставимая по размеру модель компании OpenAI стоит $4,6 млн.
Проблема нехватки данных
Современные ИИ-модели, и в частности, получившие широкое распространение большие языковые модели (LLM), полагаются на огромные объемы данных, стремясь использовать все существующие качественные источники для обучения. До 2015 г. вычислительные мощности были ключевой проблемой для развития ИИ-технологий, но в последние годы темпы технологического прогресса начали опережать скорость создания новых данных для выборок. С появлением мощных чипов многие исследователи в области ИИ еще в 2020 г. стали беспокоиться, что дефицит качественных данных, используемой для тренировки ИИ-моделей, не за горами.
Бывший главный научный сотрудник OpenAI Илья Суцкевер (Ilya Sutskever) тоже считает, что будущее - за синтетическими данными. Он предсказал, что в отличие от нынешнего ИИ-моделей, будущие ИИ-системы смогут решить проблемы шаг за шагом, напоминающим процесс человеческого мышления.
Сооснователь ИИ-стартапа Anthropic Джек Кларк (Jack Clark) отмечает, что их ИИ-модели были обучены на значительном проценте всех данных, которые когда-либо существовали в интернете.
В то же время технический директор OpenAI Мира Мурати (Mira Murati) летом 2024 г. не дала четкого ответа на вопрос, использовали ли ИТ-разработчики данные социальных сетей для обучения модели Sora. Упомянутые свидетельства - косвенное подтверждение того, что ведущие компании в области ИИ уже так или иначе столкнулись с дефицитом доступных данных для обучения ИИ-моделей и могут использовать неразрешенные источники. Ведь против создателя ChatGPT OpenAI то и дело подают иски о нарушении авторских прав, из-за чего компания даже была вынуждена расширить штат юристов.
При этом техногиганты, среди которых компании OpenAI и Microsoft, уже активно используют синтетические данные, чтобы обучать свои флагманские ИИ-модели. По оценкам аналитиков Gartner, 60% данных, используемых нейронными сетями в этом направлении, специально сгенерированы. При этом есть риски, что ИИ-модели из-за такого подхода могут стать более предвзятыми и ограниченными, поскольку специально созданный для обучения контент неизбежно базируется на уже имеющихся материалах.
В мае 2024 г. центр Human-Centered Artificial Intelligence (HAI) Стэнфордского университета также выпустил отчет о развитии ИИ. В его первой главе, говорится о том, что эксперты ожидают исчерпания публичных текстовых данных в промежутке между 2026 и 2032 г. Предыдущие оценки этой группы ученых предсказывали нехватку качественных выборок для языковых моделей уже в 2024 г., но впоследствии улучшили свои прогнозы. Более благоприятные перспективы исследователи строят относительно визуальных данных - изображений и видео: их нехватку модели машинного обучения начнут испытывать к 2038-2046 г.