Эта статья описывает фреймворк OW-VISCap, который совместно обнаруживает, сегментирует и подписывает как известные, так и неизвестные объекты в видео.Эта статья описывает фреймворк OW-VISCap, который совместно обнаруживает, сегментирует и подписывает как известные, так и неизвестные объекты в видео.

Обучение ИИ видеть и говорить: внутри подхода OW‑VISCap

2025/11/04 17:46
3м. чтение
Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com

Резюме и 1. Введение

  1. Связанные работы

    2.1 Сегментация видеоэкземпляров в открытом мире

    2.2 Плотное описание видеообъектов и 2.3 Контрастные потери для запросов объектов

    2.4 Обобщенное понимание видео и 2.5 Сегментация видеоэкземпляров в закрытом мире

  2. Подход

    3.1 Обзор

    3.2 Запросы объектов открытого мира

    3.3 Головка подписи

    3.4 Межзапросная контрастная потеря и 3.5 Обучение

  3. Эксперименты и 4.1 Наборы данных и метрики оценки

    4.2 Основные результаты

    4.3 Исследования абляции и 4.4 Качественные результаты

  4. Заключение, благодарности и ссылки

\ Дополнительные материалы

A. Дополнительный анализ

B. Детали реализации

C. Ограничения

3 Подход

Учитывая видео, наша цель - совместно обнаруживать, сегментировать и подписывать экземпляры объектов, присутствующие в видео. Важно отметить, что категории экземпляров объектов могут не входить в обучающий набор (например, парашюты, показанные на рис. 3 (верхний ряд)), что помещает нашу цель в условия открытого мира. Для достижения этой цели данное видео сначала разбивается на короткие клипы, каждый из которых состоит из T кадров. Каждый клип обрабатывается с использованием нашего подхода OW-VISCap. Мы обсуждаем объединение результатов каждого клипа в разделе 4.

\ Мы предоставляем обзор OW-VISCap для обработки каждого клипа в разделе 3.1. Затем мы обсуждаем наши вклады: (a) введение запросов объектов открытого мира в разделе 3.2, (b) использование маскированного внимания для объектно-ориентированного подписывания в разделе 3.3 и (c) использование межзапросной контрастной потери для обеспечения того, чтобы запросы объектов отличались друг от друга в разделе 3.4. В разделе 3.5 мы обсуждаем конечную цель обучения.

3.1 Обзор

\ Запросы объектов как открытого, так и закрытого мира обрабатываются нашей специально разработанной головкой подписи, которая дает объектно-ориентированную подпись, головкой классификации, которая дает метку категории, и головкой обнаружения, которая дает либо маску сегментации, либо ограничивающую рамку.

\

\ Мы вводим межзапросную контрастную потерю, чтобы гарантировать, что запросы объектов поощряются отличаться друг от друга. Мы предоставляем подробности в разделе 3.4. Для объектов закрытого мира эта потеря помогает устранить сильно перекрывающиеся ложные срабатывания. Для объектов открытого мира она помогает в обнаружении новых объектов.

\ Наконец, мы предоставляем полную цель обучения в разделе 3.5.

\

3.2 Запросы объектов открытого мира

\

\

\ Сначала мы сопоставляем объекты истинных данных с предсказаниями открытого мира, минимизируя стоимость сопоставления с использованием венгерского алгоритма [34]. Оптимальное сопоставление затем используется для расчета окончательной потери открытого мира.

\

\

3.3 Головка подписи

\

\

3.4 Межзапросная контрастная потеря

\

\

3.5 Обучение

Наша общая потеря обучения составляет

\ Таблица 1: Точность отслеживания открытого мира (OWTA) на валидационных и тестовых наборах BURST для всех, общих (comm.) и необычных (unc.) категорий объектов. Onl. относится к онлайн-обработке кадр за кадром. Лучшие показатели выделены жирным шрифтом, а вторые по величине показатели подчеркнуты.

\ Таблица 2: Результаты плотного описания видеообъектов на наборе данных VidSTG [57]. Off. указывает на офлайн-методы, а onl. относится к онлайн-методам.

\

:::info Авторы:

(1) Anwesa Choudhuri, Университет Иллинойса в Урбана-Шампейн (anwesac2@illinois.edu);

(2) Girish Chowdhary, Университет Иллинойса в Урбана-Шампейн (girishc@illinois.edu);

(3) Alexander G. Schwing, Университет Иллинойса в Урбана-Шампейн (aschwing@illinois.edu).

:::


:::info Эта статья доступна на arxiv по лицензии CC by 4.0 Deed (Attribution 4.0 International).

:::

\

Возможности рынка
Логотип null
null Курс (null)
--
----
USD
График цены null (null) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.