OpenAI выпускает GPT-5.2 после предупреждения Google об угрозе «красного кода»

В попытке не отставать (или опережать) конкурентов выпуск моделей происходит стабильно: GPT-5.2 представляет собой третий крупный выпуск модели OpenAI с августа. GPT-5 был запущен в том же месяце с новой системой маршрутизации, которая переключается между режимами мгновенного ответа и имитации рассуждений, хотя пользователи жаловались на ответы, которые казались холодными и клиническими. Ноябрьское обновление GPT-5.1 добавило восемь предустановленных параметров «индивидуализации» и было направлено на то, чтобы сделать систему более интерактивной.

Числа растут

Как ни странно, хотя выпуск модели GPT-5.2 якобы является ответом на производительность Gemini 3, OpenAI решила не публиковать на своем рекламном сайте какие-либо тесты, сравнивающие две модели. Вместо этого в официальном сообщении в блоге основное внимание уделяется улучшениям GPT-5.2 по сравнению с его предшественниками и его эффективности в новом тесте OpenAI GDPval, который пытается измерить задачи профессиональной работы, связанные с знаниями, в 44 профессиях.

Во время пресс-брифинга OpenAI поделилась некоторыми сравнительными тестами конкурентов, включая Gemini 3 Pro и Claude Opus 4.5, но отказалась от версии о том, что GPT-5.2 был срочно выпущен на рынок в ответ на Google. «Важно отметить, что над этим работали уже много-много месяцев», — сказал Симо репортерам, хотя мы отметим, что выбор того, когда его опубликовать, является стратегическим решением.

Согласно общим данным, GPT-5.2 Thinking набрал 55,6 процента в SWE-Bench Pro, тесте разработки программного обеспечения, по сравнению с 43,3 процента для Gemini 3 Pro и 52,0 процента для Claude Opus 4.5. В GPQA Diamond, научном тесте для выпускников, GPT-5.2 набрал 92,4 процента против 91,9 процента у Gemini 3 Pro.

Тесты GPT-5.2, которыми OpenAI поделилась с прессой.

Кредит: OpenAI / Venturebeat

OpenAI утверждает, что GPT-5.2 Thinking превосходит или связывает «профессионалов-людей» в 70,9 процентах задач в тесте GDPval (по сравнению с 53,3 процента для Gemini 3 Pro). Компания также утверждает, что модель выполняет эти задачи более чем в 11 раз быстрее и менее чем за 1 процент затрат на специалистов-людей.

Сообщается, что GPT-5.2 Thinking также генерирует ответы с на 38 процентов меньшим количеством путаниц, чем GPT-5.1, по словам Макса Шварцера, руководителя постобучения OpenAI, который рассказал VentureBeat, что модель «галлюцинирует значительно меньше», чем ее предшественница.

Тем не менее, мы всегда относимся к критериям с долей скептицизма, потому что их легко представить в позитивном для компании виде, особенно когда наука об объективном измерении производительности ИИ не совсем догнала корпоративные предложения по продажам человеческих возможностей ИИ.

Для получения независимых результатов тестов от исследователей, не входящих в OpenAI, потребуется время. В то же время, если вы используете ChatGPT для рабочих задач, ожидайте компетентных моделей с постепенными улучшениями и некоторой лучшей производительностью кодирования, добавленной для хорошей меры.