13 Тамыз 2025

OpenAI выпустила GPT-5

OpenAI выпустила GPT-5 — новейшую систему искусственного интеллекта, основанную на лучших «качествах» моделей o1 и o3. В GPT-5 объединены все предыдущие разработки в единую адаптивную архитектуру.

По словам представителей компании, такая конструкция позволяет системе адаптировать «мыслительные усилия» к сложности каждой задачи, чтобы получать более надёжные и точные ответы.

Сегодня GPT-5 становится доступен для всех пользователей Plus, Pro, Team и даже для тех, кто пользуется бесплатной версией. Для клиентов Enterprise и Edu доступ откроется на следующей неделе.

Единая система с адаптивным анализом

OpenAI утверждает, что GPT-5 не просто модель, а целая система. Для большинства запросов используется быстрая и эффективная gpt-5-main. Более сложные задачи решает gpt-5-thinking. Специальный алгоритм в реальном времени выбирает, какую модель применить, в зависимости от сложности вопроса, контекста разговора или даже явных подсказок пользователя, например, «подумай об этом как следует». Этот алгоритм постоянно улучшается благодаря обратной связи от пользователей.

Пользователи Pro также получают доступ к GPT-5 Pro — версии, которая тратит ещё больше времени на обдумывание сложных вопросов. В тестах, на которые ссылается OpenAI, внешние эксперты в 67,8% сложных случаев отдавали предпочтение GPT-5 Pro, а не GPT-5 thinking.

Более высокая производительность в тестах и реальных задачах

OpenAI утверждает, что GPT-5 устанавливает новые стандарты в программировании, здравоохранении и писательском мастерстве. В программировании модель должна отлично справляться с созданием сложных интерфейсов и отладкой больших кодовых баз. По данным компании, GPT-5 достигает 74,9% на SWE-bench Verified и 88% на Aider Polyglot, снижая количество ошибок на 2/3 по сравнению с o3.

Модель также призвана давать более точные ответы на вопросы, связанные со здоровьем, выступая в роли «активного собеседника», который задаёт уточняющие вопросы. В сложном тесте HealthBench Hard модель GPT-5 набрала 46,2% баллов по сравнению с 31,6% у o3. Однако OpenAI подчёркивает, что GPT-5 не заменит врача. Другие тесты показывают аналогичные результаты, в том числе 94,6% на AIME 2025 (математика, без инструментов) и 84,2% на MMMU (мультимодальное понимание). Сообщается, что GPT-5 Pro набирает 88,4% на тесте GPQA, где нужно ответить на очень сложные научные вопросы.

Меньше галлюцинаций, больше прозрачности

Уменьшение количества галлюцинаций — одно из ключевых обещаний GPT-5. По словам OpenAI, при включенном веб-поиске вероятность фактических ошибок в модели примерно на 45% ниже, чем в GPT-4o. В режиме «thinking» количество ошибок снижается на 80% по сравнению с o3. В открытых тестах, основанных на фактах, таких как LongFact и FActScore, GPT-5 выдает примерно в 6 раз меньше галлюцинаций, чем o3.

Даже без веб-поиска улучшения очевидны. В тестах LongFact-Concepts, LongFact-Objects и FActScore у GPT-5 (thinking) уровень галлюцинаций составляет в среднем от 0,8 до 1,4%, тогда как у o3 — от 24 до 38%. Это означает, что GPT-5 допускает более чем в 5 раз меньше фактических ошибок, чем o3, даже без доступа к актуальным веб-данным.

Модель разработана так, чтобы честно признавать свои ограничения. В ходе одного из тестов моделям задавали вопросы о несуществующих изображениях из бенчмарка CharXiv. По данным OpenAI, o3 в 86,7% случаев давала уверенные, выдуманные ответы, в то время как GPT-5 делала это только в 9% случаев. В целом доля ложных ответов в репрезентативных диалогах снизилась с 4,8% у o3 до 2,1% у GPT-5.

«Safe Completions»: новый подход к обеспечению безопасности ИИ

В GPT-5 появилась новая система безопасности — "Safe Completions". Об этом подробно рассказано в исследовательской статье. Она заменяет старый метод «жёсткого отказа», который OpenAI считала слишком категоричным, особенно в сложных и неоднозначных темах. Ведь информация из таких тем может быть использована как во вред, так и во благо.

Вместо того чтобы полностью блокировать запросы, GPT-5 фокусируется на обеспечении безопасности вывода. Модель старается дать максимально полезный ответ в рамках правил безопасности, что может означать высокоуровневый, частичный или альтернативный ответ. По данным OpenAI, эксперты-люди сочли этот подход более безопасным, полезным и сбалансированным в целом. В соответствии с этим модель GPT-5-thinking получила оценку "высокая производительность" в биологии и химии по итогам тестирования от OpenAI. Эксперты, включая специалистов из CAISI (США) и UK AISI, работали более 5000 часов, чтобы оценить её возможности.

Новые инструменты и больше возможностей для разработчиков

GPT-5 добавляет в API несколько новых функций. Теперь разработчики могут настраивать сложность и многословность рассуждений модели. «Custom Tools» можно вызывать с помощью обычного текста, а не строгого JSON, что должно уменьшить количество ошибок при работе со сложными входными данными. Контекстное окно расширено до 272 000 входных токенов и 128 000 выходных токенов.

API предлагает три размера моделей: gpt-5, gpt-5-mini и gpt-5-nano. OpenAI утверждает, что gpt-5 — это самый мощный вариант «мышления», стоимость которого начинается от 1,25 доллара за миллион входных токенов и 10 долларов за миллион выходных токенов.

Сам ChatGPT претерпевает некоторые изменения. Новая модель стала гораздо менее «подхалимской» — по данным OpenAI, в ходе тестирования такое поведение сократилось с 14,5% до менее чем 6%. Пользователи также смогут настраивать внешний вид своих чатов и, в качестве предварительной версии, выбирать один из четырёх предустановленных стилей общения, таких как «Циник» или «Ботаник».

Tagged under