
Исследование: ИИ теряет точность в длинных диалогах
Исследование Microsoft Research и Salesforce показало, что современные модели искусственного интеллекта заметно теряют точность в длинных диалогах. При анализе более 200 000 разговоров с участием передовых ИИ, таких как GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4, ученые выявили, что системы часто "теряются в разговоре" при усложнении взаимодействия.
При обработке одиночных запросов модели демонстрируют около 90% успешности, однако в длительных диалогах этот показатель снижается примерно до 65%. При этом точность падает лишь на 15%, тогда как уровень ненадежности возрастает на 112%.
Исследователи объясняют это склонностью ИИ к преждевременной генерации ответов - модели пытаются предложить решение еще до того, как пользователь полностью сформулирует запрос. Кроме того, они часто используют первоначальный ответ как основу для последующих реплик, даже если он оказался неверным.
В работе также зафиксирован эффект "раздувания ответов". При многоходовом общении тексты становились гораздо длиннее и содержали больше предположений и неточностей, которые затем закреплялись в контексте диалога. Отмечается, что даже модели с дополнительными "мыслительными токенами", такие как o3 и DeepSeek R1, не смогли полностью избежать этой проблемы.
Авторы подчеркивают, что различия в результатах не означают, что модель внезапно стала менее интеллектуальной, а указывают на ограничения архитектуры в сложных диалоговых сценариях. Исследование также подтверждает прежние заявления о том, что ошибки пользователей и сложные формулировки запросов могут влиять на качество ответов.
Комментариев нет:
Отправить комментарий