Эта статья описывает фреймворк OW-VISCap, который совместно обнаруживает, сегментирует и подписывает как известные, так и неизвестные объекты в видео.Эта статья описывает фреймворк OW-VISCap, который совместно обнаруживает, сегментирует и подписывает как известные, так и неизвестные объекты в видео.

Обучение ИИ видеть и говорить: внутри подхода OW‑VISCap

2025/11/04 17:46
3м. чтение
Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com

Резюме и 1. Введение

  1. Связанные работы

    2.1 Сегментация видеоэкземпляров в открытом мире

    2.2 Плотное описание видеообъектов и 2.3 Контрастные потери для запросов объектов

    2.4 Обобщенное понимание видео и 2.5 Сегментация видеоэкземпляров в закрытом мире

  2. Подход

    3.1 Обзор

    3.2 Запросы объектов открытого мира

    3.3 Головка подписи

    3.4 Межзапросная контрастная потеря и 3.5 Обучение

  3. Эксперименты и 4.1 Наборы данных и метрики оценки

    4.2 Основные результаты

    4.3 Исследования абляции и 4.4 Качественные результаты

  4. Заключение, благодарности и ссылки

\ Дополнительные материалы

A. Дополнительный анализ

B. Детали реализации

C. Ограничения

3 Подход

Учитывая видео, наша цель - совместно обнаруживать, сегментировать и подписывать экземпляры объектов, присутствующие в видео. Важно отметить, что категории экземпляров объектов могут не входить в обучающий набор (например, парашюты, показанные на рис. 3 (верхний ряд)), что помещает нашу цель в условия открытого мира. Для достижения этой цели данное видео сначала разбивается на короткие клипы, каждый из которых состоит из T кадров. Каждый клип обрабатывается с использованием нашего подхода OW-VISCap. Мы обсуждаем объединение результатов каждого клипа в разделе 4.

\ Мы предоставляем обзор OW-VISCap для обработки каждого клипа в разделе 3.1. Затем мы обсуждаем наши вклады: (a) введение запросов объектов открытого мира в разделе 3.2, (b) использование маскированного внимания для объектно-ориентированного подписывания в разделе 3.3 и (c) использование межзапросной контрастной потери для обеспечения того, чтобы запросы объектов отличались друг от друга в разделе 3.4. В разделе 3.5 мы обсуждаем конечную цель обучения.

3.1 Обзор

\ Запросы объектов как открытого, так и закрытого мира обрабатываются нашей специально разработанной головкой подписи, которая дает объектно-ориентированную подпись, головкой классификации, которая дает метку категории, и головкой обнаружения, которая дает либо маску сегментации, либо ограничивающую рамку.

\

\ Мы вводим межзапросную контрастную потерю, чтобы гарантировать, что запросы объектов поощряются отличаться друг от друга. Мы предоставляем подробности в разделе 3.4. Для объектов закрытого мира эта потеря помогает устранить сильно перекрывающиеся ложные срабатывания. Для объектов открытого мира она помогает в обнаружении новых объектов.

\ Наконец, мы предоставляем полную цель обучения в разделе 3.5.

\

3.2 Запросы объектов открытого мира

\

\

\ Сначала мы сопоставляем объекты истинных данных с предсказаниями открытого мира, минимизируя стоимость сопоставления с использованием венгерского алгоритма [34]. Оптимальное сопоставление затем используется для расчета окончательной потери открытого мира.

\

\

3.3 Головка подписи

\

\

3.4 Межзапросная контрастная потеря

\

\

3.5 Обучение

Наша общая потеря обучения составляет

\ Таблица 1: Точность отслеживания открытого мира (OWTA) на валидационных и тестовых наборах BURST для всех, общих (comm.) и необычных (unc.) категорий объектов. Onl. относится к онлайн-обработке кадр за кадром. Лучшие показатели выделены жирным шрифтом, а вторые по величине показатели подчеркнуты.

\ Таблица 2: Результаты плотного описания видеообъектов на наборе данных VidSTG [57]. Off. указывает на офлайн-методы, а onl. относится к онлайн-методам.

\

:::info Авторы:

(1) Anwesa Choudhuri, Университет Иллинойса в Урбана-Шампейн (anwesac2@illinois.edu);

(2) Girish Chowdhary, Университет Иллинойса в Урбана-Шампейн (girishc@illinois.edu);

(3) Alexander G. Schwing, Университет Иллинойса в Урбана-Шампейн (aschwing@illinois.edu).

:::


:::info Эта статья доступна на arxiv по лицензии CC by 4.0 Deed (Attribution 4.0 International).

:::

\

Возможности рынка
Логотип Sleepless AI
Sleepless AI Курс (SLEEPLESSAI)
$0.03006
$0.03006$0.03006
-4.11%
USD
График цены Sleepless AI (SLEEPLESSAI) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

SEC готовится представить структуру для торговли токенами акций на этой неделе

SEC готовится представить структуру для торговли токенами акций на этой неделе

BitcoinWorld Комиссия по ценным бумагам и биржам США (SEC) готовится представить структуру для торговли токенами акций на этой неделе Комиссия по ценным бумагам и биржам США (SEC) ожидается выпустит план уже в ближайшее время
Поделиться
bitcoinworld2026/05/19 05:40
Гонка за место в Верховном суде колеблющегося штата столкнулась с bizarre поворотом в вопросах этики в последний момент

Гонка за место в Верховном суде колеблющегося штата столкнулась с bizarre поворотом в вопросах этики в последний момент

Федеральный судья заблокировал орган, осуществляющий надзор за выборами судей штата в Джорджии, от вынесения этических критических замечаний в отношении пары либеральных судей Верховного суда штата
Поделиться
Rawstory2026/05/19 06:02
Том Ли связывает слабость Ethereum с ростом цен на нефть

Том Ли связывает слабость Ethereum с ростом цен на нефть

Несмотря на краткосрочную слабость, Ли по-прежнему рассматривает токенизацию и инфраструктуру, связанную с ИИ, как долгосрочные драйверы для ETH.
Поделиться
CryptoPotato2026/05/19 05:48

Графики не нужны – зарабатывайте

Графики не нужны – зарабатывайтеГрафики не нужны – зарабатывайте

Копируйте топ-трейдеров за 3 сек. с автоторговлей!