За последние два года правообладатели подали десятки исков против компаний, разрабатывающих ИИ, утверждая, что их работы были собраны и загружены в модели без разрешения. По состоянию на конец 2025 года только в США было подано не менее 63 дел о нарушении авторских прав против разработчиков ИИ, и еще больше за рубежом.
Некоторые из этих исков касались текста. Все чаще они касаются изображений и видео. Главный вывод для компаний: собранные визуальные данные больше не являются безопасной основой для коммерческих продуктов.
Узкое место лицензированных визуальных данных
Продвинутым моделям компьютерного зрения одновременно нужны три вещи: конкретный контент, разнообразие и юридическая ясность. Сегодня большинству наборов данных не хватает хотя бы одного из этих элементов.
Собранные веб-изображения обширны, но беспорядочны и рискованны. Устаревшие стоковые архивы чисты, но часто смещены в сторону западных, коммерческих и студийных настроек. Индивидуальные съемки точны, но медленны и дороги.
Лицензионные соглашения теперь находятся в центре многих громких партнерств. Многолетнее соглашение Getty Images с Perplexity, например, дает стартапу доступ к творческим и редакционным визуальным материалам Getty для поиска с помощью ИИ, с указанием авторства и компенсацией.
Дефицит специфического контента
Разработчики могут найти множество общих изображений образа жизни. Проблемы начинаются, когда им нужны нишевые или редкие сценарии.
Подумайте о:
- Промышленных неисправностях на конкретных машинах
- Региональной инфраструктуре и общественных услугах
- Культурных и религиозных настройках, которые редко встречаются в западных стоковых архивах
- Крайних случаях в контекстах безопасности, доступности или инвалидности
Когда таких сцен не существует в масштабе, модели галлюцинируют или дают сбой. Модели, обученные на этом, развивают искаженное представление о реальности. Они плохо работают, когда дело касается людей и мест, которые едва присутствовали в данных, и они генерируют визуальные материалы, которые кажутся странными или откровенно оскорбительными для всех, кто находится за пределами доминирующей рамки.
Качество данных и отсутствие метаданных
Даже когда у команд есть права, сами файлы часто не готовы к обучению. Изображения поступают с неполными тегами, несогласованными категориями или вообще без меток. Отсутствует важный контекст, и это заставляет инженеров гадать или перемаркировать вручную.
Как отрасль реагирует
Под давлением как производительности, так и регулирования, сектор сходится на трех основных ответах.
- Лицензионные платформы как инфраструктура данных
Чтобы заменить собранные веб-изображения, команды ИИ все чаще покупают доступ к лицензированным архивам. Крупные контент-компании теперь продают готовые к обучению пакеты изображений и видео с четкими правами и метаданными, вместо того чтобы оставлять клиентам обратное проектирование согласия постфактум.
Наряду с этими действующими компаниями, новые платформы строятся непосредственно вокруг случаев использования обучения ИИ. Wirestock агрегирует контент создателей, обрабатывает лицензирование и поставляет визуальные наборы данных на явных условиях обучения ИИ (узнайте больше о wirestock здесь).
Для создателей эта работа выглядит меньше как стоковая "загрузи и надейся" и больше как определенные проекты. Через фриланс-работы по фотографии для ИИ, создатели получают брифы и оплату за принятые наборы, которые идут на обучение.
Синтетические данные для заполнения пробелов
Там, где реальные изображения трудно собрать, команды обращаются к синтетическим данным. Они используют инструменты моделирования, 3D-конвейеры или генеративные модели для создания визуальных материалов для конкретных задач, а затем смешивают их с реальным, лицензированным контентом.
Синтетические наборы данных могут охватывать крайние случаи и балансировать распределения, но они все еще зависят от реальных изображений как от точки отсчета. Без этого якоря модели рискуют учиться из замкнутого цикла своих собственных выходных данных.
Регулирование, требующее прозрачности
Законодатели начинают требовать видимости источников обучения. Калифорнийский закон AB-2013, например, потребует от многих разработчиков генеративного ИИ, обслуживающих штат, раскрывать, какие виды данных они использовали и откуда они взялись.
Обучающие данные больше не могут находиться в безымянном хранилище; они должны быть достаточно хорошо задокументированы, чтобы регуляторы, клиенты и создатели могли видеть, как они были собраны.
Что это означает для создателей ИИ
Собранные анонимные папки с изображениями теперь являются обязательством. Они замедляют работу команд, привлекают юридическую проверку и делают каждый новый разговор о продукте сложнее, чем это необходимо.
Более безопасный шаблон - обучаться на визуальных данных, которые вы можете объяснить. Кто-то в вашей команде должен быть в состоянии сказать в одном предложении, что содержит набор данных, откуда он взялся и что позволяет лицензия. Если это невозможно, модель работает на заемное время.
Составьте короткий список моделей, которые важны для дохода или репутации, и задокументируйте их основные источники обучения. Относитесь ко всему собранному или недокументированному как к "на рассмотрении", а затем начинайте заменять эти наборы лицензированными или заказанными данными.
Часто-задаваемые вопросы
Мы не большая лаборатория ИИ. Действительно ли нам нужно беспокоиться об этом сейчас?
Если вы поставляете функции ИИ клиентам, да. Корпоративные покупатели, регуляторы и партнеры начинают спрашивать, откуда берутся обучающие данные, независимо от размера компании.
Какой реалистичный первый шаг для снижения риска наших визуальных данных?
Начните с электронной таблицы. Перечислите ваши ключевые модели, используемые наборы данных и как эти наборы данных были приобретены: лицензированный архив, внутренний контент, публичный сбор или "не уверен". Оттуда выберите одну или две высокоэффективные модели и начните искать лицензированные наборы данных для замены.
Могут ли синтетические данные решить эту проблему самостоятельно?
Нет. Синтетические изображения помогают с охватом и редкими сценариями, но им все еще нужны реальные, лицензированные изображения в качестве ориентира. Без этого якоря модели рискуют дрейфовать в замкнутый цикл своих собственных выходных данных и терпеть неудачу на реальных сценах.
Читайте больше от Techbullion


