ИИ повсюду. Но никто не знает, будет ли он работать завтра так же, как сегодня.ИИ захватил мир. Но есть проблемаТуристические приложения рекомендуют направленияИИ повсюду. Но никто не знает, будет ли он работать завтра так же, как сегодня.ИИ захватил мир. Но есть проблемаТуристические приложения рекомендуют направления

[Перевод] Почему галлюцинации ломают каждую LLM — и что с этим делать

ИИ повсюду. Но никто не знает, будет ли он работать завтра так же, как сегодня.

e2fc0fe48ed0908e6bbd4210d50b8f8d.png

ИИ захватил мир. Но есть проблема

Туристические приложения рекомендуют направления. Чат-боты обрабатывают жалобы. Ассистенты программирования пишут целые функции.

Но вот загвоздка: мы понятия не имеем, будут ли эти системы работать стабильно.

Большие языковые модели обеспечивают работу значительной части современных приложений. При этом они фундаментально непредсказуемы.


Код против черного ящика

В традиционном программировании вы точно знаете, что происходит с любыми входными данными.

Пишете функцию, которая складывает два числа? Можете проследить логику строка за строкой. Можете математически доказать, что она даст правильный ответ каждый раз без исключения.

54cae6a1783f6b12e8f6ea1eef34fa94.png

С LLM все иначе.

Вы задаете вопрос - получаете ответ. Как модель пришла к этому ответу? Понятия не имеете.

22206b4afb5fc37c3d0a493c8994eebf.png

Один запрос - два разных мира

Допустим, мы создаем туристическое приложение. Цель проста: показывать места для посещения на основе запроса пользователя.

c3dfe3ba1b13d1e996bc4d0ce0b12b41.png

Традиционный подход:

  • Разобрать запрос, извлечь ключевую информацию

  • Запросить базу данных с конкретными параметрами

  • Вернуть топ-2 результата

Все детерминировано. Если логика правильная - работает для любого запроса. Гарантированно.

Подход с LLM:

Модель читает промпт и генерирует ответ. Звучит просто. Но вот два запроса:

  • «Покажи мне топ-2 дождливых мест для посещения в марте»

  • «Покажи мне два лучших дождливых места, которые я могу посетить в марте»

Намерение идентично. Но LLM может выдать совершенно разные ответы.

Как доверять системе, которая нестабильна по своей природе?

64b5c02cd5e8455d16e24bc8d294fe67.png

Программисты ненавидят черные ящики

Фундаментальная проблема LLM: нет способа проверить «логику», потому что явной логики не существует.

Мы видим только вход и выход. Что происходит внутри - загадка.

6de403d2e34f748c733ef22167622cff.png

С детерминированным кодом все просто. Что-то сломалось? Открываете код, находите точное место сбоя, исправляете.

С LLM этот подход не работает.

0cac012d771fc6e398c5287943124a84.png

Как разработчики тестируют ИИ сегодня

Честный ответ: с помощью эвристик и надежды.

Вот что делает большинство:

  1. Пробуют кучу возможных запросов

  2. Вручную проверяют, что выдает LLM

  3. Убеждаются, что результаты выглядят корректно

  4. Надеются, что ничего не сломается для других запросов

4676fb51ca0fb02165f28470647082a9.png

Это похоже на бета-тестирование в традиционной разработке. Но с LLM такой подход буксует.


Порочный круг исправлений

Когда пользователь сообщает о проблеме, вы не можете найти «источник». Нет интерпретируемой логики. Непонятно, что именно пошло не так.

Что делают разработчики:

  • Меняют промпт и надеются, что это поможет

  • Тестируют снова

  • Проверяют, не сломалось ли что-то еще

71ac31c519ec078fabd3e33e9fe6cd2c.png

Главный вопрос остается без ответа: как узнать, что изменение промпта исправило проблему в целом, а не просто залатало конкретный случай?


Свет в конце туннеля

Надежность LLM - большая область исследований прямо сейчас.

Над чем работают:

  • Понимание того, что происходит внутри моделей, для лучшей отладки

  • Математические фреймворки для доказательства свойств выходных данных

  • Ограничение моделей для генерации в определенных форматах

  • Систематические подходы к проектированию промптов

Но мы еще не там. Пока разработчики застряли с эвристическим тестированием и надеждой на лучшее.

Пока исследователи ищут решения, практики продолжают работать с тем, что есть. И лучший способ понять ограничения LLM - тестировать их самостоятельно на реальных задачах.

Делегируйте часть рутинных задач вместе с BotHub!

2c4bcc67ac65964c408a8c7608765a55.png

Для доступа к сервису не требуется VPN, и можно использовать российскую карту.


Честность - лучшая политика

Суть проблемы: детерминированный код дает логику, которую можно проверить. LLM дает черный ящик, который можно только прощупывать.

Разработчики не могут быть уверены, что исправление одной проблемы не сломает что-то другое. Не могут гарантировать, что приложение будет работать корректно для всех пользователей.

Если вы создаете что-то с LLM - будьте честны с пользователями об этих ограничениях. Это не слабость. Это зрелость.

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.