GPT-5.5 на вершине ИИ-Олимпа: триумф с тревожным секретом

Техно
VESTI.LV
Дата публикации: 24.04.2026 10:15
GPT-5.5 на вершине ИИ-Олимпа: триумф с тревожным секретом

Новейшая модель GPT-5.5 от OpenAI сенсационно возглавила Intelligence Index по версии Artificial Analysis. Она обошла ближайших конкурентов на три пункта, разрушив прежнее равновесие среди ведущих ИИ-разработчиков, но её впечатляющее лидерство омрачено одной весьма тревожной особенностью.

Модель GPT-5.5 от OpenAI заняла лидирующую позицию в авторитетном Intelligence Index, составленном Artificial Analysis. Эта инновационная разработка уверенно обошла своих ближайших конкурентов на целых три пункта, положив конец равновесию между ведущими игроками рынка, такими как OpenAI, Anthropic и Google.

Лидерство с оговорками

Эксперты Artificial Analysis получили уникальную возможность заранее протестировать модель, оценив все пять уровней её мыслительных способностей: xhigh, high, medium, low и non-reasoning. Несмотря на полученные впечатляющие показатели, в итоговом отчёте присутствует одна весьма серьёзная оговорка.

В рамках бенчмарка AA-Omniscience, предназначенного для проверки фактических знаний и склонности к "галлюцинациям", версия GPT-5.5 xhigh показала наивысшую точность. Модель смогла дать 57% правильных ответов на крайне сложные вопросы, что является поистине выдающимся результатом.

Тем не менее, уровень "галлюцинаций" у этой модели оказался поразительно высоким — целых 86%. Для наглядности, у Claude Opus 4.7 max этот показатель был значительно ниже, всего 36%, а у Gemini 3.1 Pro Preview — 50%.

Что такое "галлюцинации" ИИ?

Важно уточнить, что 86% не означает, будто GPT-5.5 "галлюцинирует" в большинстве своих ответов. По методологии Artificial Analysis, "hallucination rate" — это доля неверных ответов в тех случаях, когда модель не смогла дать абсолютно точный ответ.

Эта категория включает ошибки, частичные ответы или полный отказ от ответа, демонстрируя, как часто ИИ предпочитает уверенно ошибиться, вместо того чтобы признать своё незнание.

Методология AA-Omniscience

Бенчмарк AA-Omniscience был создан специально для обнаружения и анализа этой серьёзной проблемы. Тест состоит из 6000 вопросов, охватывающих 42 темы из шести широких областей знаний.

Среди них: бизнес, гуманитарные и социальные науки, здравоохранение, юриспруденция, программная инженерия, а также наука, техника и математика, при этом модели отвечают без доступа к поиску или внешним инструментам.

Система оценивания строго поощряет только абсолютно верные ответы, наказывая за любые неточности. Примечательно, что модель не получает штрафных баллов, если она отказывается отвечать, демонстрируя неуверенность в своих знаниях.

Взгляд OpenAI на точность

В своём документе System Card компания OpenAI утверждает, что GPT-5.5 значительно превзошла GPT-5.4 по точности. Это улучшение было зафиксировано на основе анализа диалогов ChatGPT, которые ранее пользователи помечали как содержащие фактические ошибки.

В этих конкретных случаях точность отдельных утверждений возросла на 23%, а число фактических ошибок в ответах уменьшилось на 3%. Однако OpenAI акцентирует внимание на том, что это не репрезентативная выборка общего трафика, а лишь тщательно отобранные, наиболее сложные с точки зрения фактологической точности сценарии.

Парадокс новой модели

В конечном итоге перед нами вырисовывается весьма парадоксальная ситуация. GPT-5.5, по данным независимого рейтинга, предстаёт как мощнейшая универсальная модель, которая действительно превосходит своих конкурентов по объёму знаний, согласно бенчмарку AA-Omniscience.

Однако эта модель демонстрирует худшую способность адекватно оценивать собственную уверенность в своих ответах. Для выполнения критически важных задач, таких как проверка фактов, научные исследования или подготовка юридических и медицинских документов, этот недостаток может оказаться не менее существенным, чем её высокий общий балл в рейтинге.

Убедительный, но потенциально неверный ответ от столь мощной модели всё равно требует скрупулёзной проверки. Это особенно важно, когда ИИ работает без возможности обращения к внешним источникам информации или дополнительным инструментам.

ТАКЖЕ В КАТЕГОРИИ

ЧИТАЙТЕ ТАКЖЕ