Модельный коллапс, цифровое вырождение и реалистичные способы избежать деградации искусственного интеллекта.Эта картинка тоже рано или поздно попадёт в обучающиМодельный коллапс, цифровое вырождение и реалистичные способы избежать деградации искусственного интеллекта.Эта картинка тоже рано или поздно попадёт в обучающи

Нейрослоп на нейрослопе: что под капотом у грядущей катастрофы

Модельный коллапс, цифровое вырождение и реалистичные способы избежать деградации искусственного интеллекта.

Эта картинка тоже рано или поздно попадёт в обучающие датасеты...
Эта картинка тоже рано или поздно попадёт в обучающие датасеты...

Intro: Тихая эпидемия в датасетах

Жил на свете Первый Художник, который никогда не видел кошку. Но по детальному, подробному описанию в древней Изначальной Книге за свою жизнь он нарисовал множество изображений кошек. Некоторые были похожи на настоящих кошек, некоторые похожи на собак, а некоторые вообще ничего общего с кошками не имели, хотя имели четыре лапы, хвост, уши и глаза - всё то, что написано про кошек в книге. А потом Изначальная Книга с описанием кошки куда-то потерялась и множество других людей стали учиться рисовать кошек, опираясь только на рисунки Первого Художника. И каждый раз они что-то добавляли от себя, или чего-нибудь не дорисовывали. И так - из поколения в поколение, сотню лет... В конечном счете, от кошки только и осталось, что четыре лапы, хвост и глаза, как основные признаки, якобы делающие кошку кошкой, а не собакой и не мартышкой. Увидь Первый Художник этого монстра, он бы ни за что не признал в нём милого пушистого домашнего любимца, о котором он когда-то прочёл в Изначальной Книге.

Примерно это сейчас и начинает происходить в мире машинного обучения. Феномен получил название «Model Collapse» (модельный коллапс) - ситуация, когда модели обучаются на низкокачественном контенте, сгенерированном другими моделями.

Проблема уже сейчас перестала быть теоретической. По некоторым пессимистичным оценкам, к 2029 году до 90% публичного контента в интернете может быть сгенерировано или обработано ИИ. И этот контент уже сегодня попадает в общие датасеты, на которых обучаются новые модели. Мы строим Искусственный Интеллект на фундаменте из его же упрощённых симулякров. Мы стремительно приближаемся к точке, за которой «теория мёртвого интернета» - больше никакая не теория.

Фазы катастрофы

  • Фаза насыщения. Первые мощные модели (GPT, DALL-E, Stable Diffusion) обучались на «чистых» человеческих данных: книгах, статьях, фотографиях, и прочих данных, созданных только людьми.

  • Фаза загрязнения. Эти модели начали массово генерировать контент: посты в блогах, иллюстрации для стоков, код на GitHub, ответы на форумах.

  • Фаза рекурсии. Новые модели обучаются на сборе данных из интернета, где теперь значительную долю составляет ИИ-генерированный материал. Они учатся не на разнообразии человеческого опыта, а на паттернах, уже выведенных предыдущими ИИ.

  • ---(Вы здесь)---

  • Фаза деградации (коллапс). Как в игре «Испорченный телефон», с каждым циклом информация теряет детали, становится более шаблонной и смещается к «среднему» выводу модели. ИИ начинает выдавать упрощённые, стереотипные и в конечном счёте ошибочные результаты.

Два сценария будущего

Сценарий 1: Катастрофический (Вероятность: средняя, если сознательное большинство специалистов решит ничего не менять)

Доля ИИ-сгенерированного контента в интернете пересекает критический порог (например, 50-70%). Основные источники для датасетов (соцсети, агрегаторы, низкокачественные СМИ) становятся преимущественно синтетическими. Система входит в необратимую петлю деградации. Качество текстов, изображений и кода, производимых ИИ, начинает стремительно падать уже через 3-5 итераций обучения.

Последствия:

Творческий коллапс. Генеративные модели начнут выдавать предельно клишированный, скучный и однообразный контент. Исчезнет «редкость», неожиданность, истинное творчество. Все попытки поднять температуру приведут лишь к усилению «галлюцинаций».

Фактологическая эрозия. Модели, отвечающие на вопросы, начнут уверенно генерировать бред, основанный не на реальных фактах, а на искажённых интерпретациях предыдущих моделей. Поиск и верификация фактов станут невозможными.

«Цифровая шизофрения»: Модели, обученные на противоречивых, неверифицированных ИИ-данных, начнут демонстрировать крайнюю неустойчивость. Их ответы станут непредсказуемо противоречивыми даже в рамках одного диалога. Возникнут массовые «галлюцинации», принимаемые за истину.

ИИ потеряет способность работать с редкими языками, нишевыми культурными феноменами и экзотическими концепциями, которые будут вымыты из данных как шум.

Результат:
ИИ из инструмента расширения возможностей превратится в механизм культурного и интеллектуального обеднения. В итоге, это катастрофически негативно повлияет на творчество, искусство науку и мораль в обществе. К моменту коллапса большинство людей будет существовать в виртуальной реальности, созданной на базе ИИ. Либо, так или иначе, активно пользоваться этой реальностью. Образуется устойчивый феномен массовой зависимости от нейросетей. И поэтому когнитивные способности пользователей быстро начнут деградировать: на заниженной планке и низкосортных жизненных задачах далеко не уедешь. Даже пытаясь создать свой собственный авторский контент, человеческие мозги будут генерировать всё тот же нейрослоп. Круг замкнётся.

Это приведёт к резкому падению доверия ко всем ИИ-системам. Наступит коллапс рынка контент-генерации (он станет очевидно бесполезным). Начнутся глобальные социальные процессы, напоминающие синдром отмены у наркозависимых. Финансовые системы, также целиком передоверенные ИИ, начнут выдавать сбои, например, массово блокировать счета или отменять транзакции. Попытка это поправить вручную приведёт к мировому финансовому кризису. Следом произойдут серьёзные сбои в науке, образовании и управлении, где решения уже какое-то время основываются на симулякрах, а не на данных реального мира. В худшем из сценариев это приведёт к стремительной эскалации в одном из очагов политической напряжённости. Локальный конфликт быстро превратится в глобальную ядерную войну, и человечество кончится.

Сценарий 2: Устойчивое равновесие (Вероятность: высокая, при активных действиях сознательного большинства специалистов)

Сообщество ML полностью осознаёт проблему и создаёт многоуровневую систему защиты. Тренд на коллапс есть, но он контролируем и компенсируется разработанными механизмами сдерживания.

Механизмы сдерживания:

Наращивается критическая масса человеческого контента. Живые люди пишут книги, делают фото и снимают видео. Этот «свежий приток» чистых данных будет постоянно разбавлять синтетику. Человеческий контент поощряется и всячески продвигается. Авторы качественного контента снова становятся востребованы и уважаемы.

Ведётся постоянный технический аудит. Появляются эффективные детекторы ИИ-контента (на основе стилометрии, статистических аномалий, скрытых цифровых водяных знаков), которые не дают нейроконтенту бесконтрольно попадать в обучающие данные. Весь генерируемый контент помечается криптографически стойким, незаметным для человека, но читаемым для модели знаком. Это позволит фильтровать его на входе в новые датасеты.

Возникает и растёт культура «чистых» датасетов. Создаются премиум-датасеты с верифицированным человеческим происхождением данных (например, «снимки» интернета на 2020 год, сделанные до эры тотального синтетического контента). Они становятся золотым стандартом для обучения и калибровки базовых моделей.

Мы получим двухуровневую экосистему ИИ. Будет масса «бытовых» моделей, обученных на смешанных данных для простых задач, и небольшое количество «элитных» моделей, обученных на чистых данных для критически важных приложений (наука, медицина, образование). Интернет разделится на массовый (бесплатный или условно бесплатный) сегмент, и платный интернет «для богатых», с исключительно человеческим контентом. Проблема нейрослопов не исчезнет, но будет относительно управляемой.

Возможно появление стандартов (например, под эгидой ISO) для моделей, используемых в критических инфраструктурах, обязывающих проводить аудит тренировочных данных и строго отслеживать их происхождение.

Сценарий 3: Оптимистический.
Всё будет хорошо. Но это не точно. Потому что нам просто очень хочется, чтобы всё было хорошо :)

Outro: Это не остановить

Мы уже не сможем остановить генерацию контента ИИ, но мы обязаны научиться ставить на ней контрольные точки. Будущее ИИ зависит не только от архитектуры моделей, но и от экологичности данных. И начинать надо было вчера. А сегодня мы рискуем оказаться в эхо-камере, где наше же отражение, искажённое тысячей зеркал, будет уверенно рассказывать нам, каков мир на самом деле. А потом это нас убьёт.

Вот суровая реальность, с которой столкнется любая достаточно сложная самовоспроизводящаяся система. Я очень надеюсь, что кризис вызовет серьёзную переоценку ценности человеческого созидания. В мире, где синтетический контент дёшев, доступен и подчас выглядит привлекательнее человеческого, так вот, в таком мире подлинно человеческий опыт, творчество и экспертиза станут самым дефицитным и ценным ресурсом. И для развития Искусственного Интеллекта, и для развития нашего с вами интеллекта, который мы почему-то считаем не-искусственным.

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно