Detalles de la implementación de BSGAL en el conjunto de datos LVIS utilizando CenterNet2 con backbones ResNet-50/Swin-L.Detalles de la implementación de BSGAL en el conjunto de datos LVIS utilizando CenterNet2 con backbones ResNet-50/Swin-L.

Detalles técnicos: Entrenamiento BSGAL, Backbone Swin-L y Estrategia de Umbral Dinámico

2025/12/07 02:00

Abstracto y 1 Introducción

  1. Trabajo relacionado

    2.1. Aumento de Datos Generativo

    2.2. Aprendizaje Activo y Análisis de Datos

  2. Preliminar

  3. Nuestro método

    4.1. Estimación de Contribución en el Escenario Ideal

    4.2. Aprendizaje Activo Generativo en Streaming por Lotes

  4. Experimentos y 5.1. Configuración Offline

    5.2. Configuración Online

  5. Conclusión, Impacto Más Amplio y Referencias

    \

A. Detalles de Implementación

B. Más ablaciones

C. Discusión

D. Visualización

A. Detalles de Implementación

A.1. Dataset

Elegimos LVIS (Gupta et al., 2019) como el dataset para nuestros experimentos. LVIS es un dataset de segmentación de instancias a gran escala, que comprende aproximadamente 160.000 imágenes con más de 2 millones de anotaciones de segmentación de instancias de alta calidad en 1203 categorías del mundo real. El dataset se divide además en tres categorías: rara, común y frecuente, según su ocurrencia en las imágenes. Las instancias marcadas como 'raras' aparecen en 1-10 imágenes, las instancias 'comunes' aparecen en 11-100 imágenes, mientras que las instancias 'frecuentes' aparecen en más de 100 imágenes. El dataset general exhibe una distribución de cola larga, que se asemeja estrechamente a la distribución de datos en el mundo real, y se aplica ampliamente en múltiples configuraciones, incluida la segmentación de pocos ejemplos (Liu et al., 2023) y la segmentación de mundo abierto (Wang et al., 2022; Zhu et al., 2023). Por lo tanto, creemos que seleccionar LVIS permite una mejor reflexión del rendimiento del modelo en escenarios del mundo real. Utilizamos las divisiones oficiales del dataset LVIS, con aproximadamente 100.000 imágenes en el conjunto de entrenamiento y 20.000 imágenes en el conjunto de validación.

A.2. Generación de Datos

Nuestro proceso de generación y anotación de datos es consistente con Zhao et al. (2023), y lo presentamos brevemente aquí. Primero usamos StableDiffusion V1.5 (Rombach et al., 2022a) (SD) como modelo generativo. Para las 1203 categorías en LVIS (Gupta et al., 2019), generamos 1000 imágenes por categoría, con resolución de imagen de 512 × 512. La plantilla de prompt para la generación es "a photo of a single {CATEGORY NAME}". Utilizamos U2Net (Qin et al., 2020), SelfReformer (Yun and Lin, 2022), UFO (Su et al., 2023) y CLIPseg (Luddecke and Ecker, 2022) respectivamente para anotar las imágenes generativas en bruto, y seleccionamos la máscara con la puntuación CLIP más alta como anotación final. Para garantizar la calidad de los datos, las imágenes con puntuaciones CLIP por debajo de 0.21 se filtran como imágenes de baja calidad. Durante el entrenamiento, también empleamos la estrategia de pegado de instancias proporcionada por Zhao et al. (2023) para el aumento de datos. Para cada instancia, la redimensionamos aleatoriamente para que coincida con la distribución de su categoría en el conjunto de entrenamiento. El número máximo de instancias pegadas por imagen se establece en 20.

\ Además, para expandir aún más la diversidad de los datos generados y hacer nuestra investigación más universal, también utilizamos otros modelos generativos, incluidos DeepFloyd-IF (Shonenkov et al., 2023) (IF) y Perfusion (Tewel et al., 2023) (PER), con 500 imágenes por categoría por modelo. Para IF, utilizamos el modelo preentrenado proporcionado por el autor, y las imágenes generadas son la salida de la Etapa II, con una resolución de 256×256. Para PER, el modelo base que utilizamos es StableDiffusion V1.5. Para cada categoría, ajustamos el modelo utilizando las imágenes recortadas del conjunto de entrenamiento, con 400 pasos de ajuste fino. Utilizamos el modelo ajustado para generar imágenes.

\ Tabla 7. Comparación de diferentes datos generados.

\ También exploramos el efecto de usar diferentes datos generados en el rendimiento del modelo (ver Tabla 7). Podemos ver que basado en el StableDiffusion V1.5 original, usar otros modelos generativos puede traer alguna mejora de rendimiento, pero esta mejora no es obvia. Específicamente, para categorías de frecuencia específica, encontramos que IF tiene una mejora más significativa para categorías raras, mientras que PER tiene una mejora más significativa para categorías comunes. Esto probablemente se debe a que los datos de IF son más diversos, mientras que los datos de PER son más consistentes con la distribución del conjunto de entrenamiento. Considerando que el rendimiento general ha mejorado hasta cierto punto, finalmente adoptamos los datos generados de SD + IF + PER para experimentos posteriores.

A.3. Entrenamiento del Modelo

Siguiendo a Zhao et al. (2023), utilizamos CenterNet2 (Zhou et al., 2021) como nuestro modelo de segmentación, con ResNet-50 (He et al., 2016) o Swin-L (Liu et al., 2022) como backbone. Para ResNet-50, la iteración máxima de entrenamiento se establece en 90.000 y el modelo se inicializa con pesos primero preentrenados en ImageNet-22k y luego ajustados en LVIS (Gupta et al., 2019), como Zhao

\ Figura 5. Rendimientos del modelo al usar diferentes cantidades de datos generados.

\ et al. (2023) hicieron. Y usamos 4 GPUs Nvidia 4090 con un tamaño de lote de 16 durante el entrenamiento. En cuanto a Swin-L, la iteración máxima de entrenamiento se establece en 180.000 y el modelo se inicializa con pesos preentrenados en ImageNet-22k, ya que nuestros primeros experimentos muestran que esta inicialización puede traer una ligera mejora en comparación con los pesos entrenados con LVIS. Y usamos 4 GPUs Nvidia A100 con un tamaño de lote de 16 para el entrenamiento. Además, debido al gran número de parámetros de Swin-L, la memoria adicional ocupada por guardar el gradiente es grande, por lo que en realidad usamos el algoritmo en el Algoritmo 2.

\ Los otros parámetros no especificados también siguen la misma configuración que X-Paste (Zhao et al., 2023), como el optimizador AdamW (Loshchilov and Hutter, 2017) con una tasa de aprendizaje inicial de 1e−4.

A.4. Cantidad de Datos

En este trabajo, hemos generado más de 2 millones de imágenes. La Figura 5 muestra los rendimientos del modelo al usar diferentes cantidades de datos generados (1%, 10%, 40%, 70%, 100%). En general, a medida que aumenta la cantidad de datos generados, el rendimiento del modelo también mejora, pero también hay cierta fluctuación. Nuestro método siempre es mejor que la línea base, lo que demuestra la efectividad y robustez de nuestro método.

A.5. Estimación de Contribución

\ Por lo tanto, esencialmente calculamos la similitud del coseno. Luego realizamos una comparación experimental, como se muestra en la Tabla 8,

\ Tabla 8. Comparación de usar normalización de gradiente o no.

\ Figura 6. Ilustración de imágenes ruidosas que exhiben varias escalas y categorías de ruido. Cada fila, de arriba a abajo, significa diferentes niveles de ruido, específicamente 0, 40, 100, 200 y 400, respectivamente. Todas las imágenes provienen del dataset CIFAR-10.

\ podemos ver que si normalizamos el gradiente, nuestro método tendrá una cierta mejora. Además, dado que necesitamos mantener dos umbrales diferentes, es difícil asegurar la consistencia de la tasa de aceptación. Por lo tanto, adoptamos una estrategia de umbral dinámico, preestablecemos una tasa de aceptación, mantenemos una cola para guardar la contribución de la iteración anterior, y luego ajustamos dinámicamente el umbral de acuerdo con la cola, de modo que la tasa de aceptación se mantenga en la tasa de aceptación preestablecida.

A.6. Experimento de Juguete

Los siguientes son los ajustes experimentales específicos implementados en CIFAR-10: Empleamos un simple ResNet18 como modelo base y realizamos el entrenamiento durante 200 épocas, y la precisión después del entrenamiento en el conjunto de entrenamiento original es del 93.02%. La tasa de aprendizaje se establece en 0.1, utilizando el optimizador SGD. Un momentum de 0.9 está en efecto, con una disminución de peso de 5e-4. Utilizamos un programador de tasa de aprendizaje de enfriamiento de coseno. Las imágenes ruidosas construidas se representan en la Figura 6. Se observa una disminución en la calidad de la imagen a medida que aumenta el nivel de ruido. Notablemente, cuando el nivel de ruido alcanza 200, las imágenes se vuelven significativamente difíciles de identificar. Para la Tabla 1, usamos Split1 como R, mientras que G consiste en 'Split2 + Noise40', 'Split3 + Noise100', 'Split4 + Noise200',

A.7. Una Simplificación Solo Avanzar Una Vez

\

:::info Autores:

(1) Muzhi Zhu, con igual contribución de la Universidad de Zhejiang, China;

(2) Chengxiang Fan, con igual contribución de la Universidad de Zhejiang, China;

(3) Hao Chen, Universidad de Zhejiang, China (haochen.cad@zju.edu.cn);

(4) Yang Liu, Universidad de Zhejiang, China;

(5) Weian Mao, Universidad de Zhejiang, China y Universidad de Adelaide, Australia;

(6) Xiaogang Xu, Universidad de Zhejiang, China;

(7) Chunhua Shen, Universidad de Zhejiang, China (chunhuashen@zju.edu.cn).

:::


:::info Este artículo está disponible en arxiv bajo la licencia CC BY-NC-ND 4.0 Deed (Atribución-NoComercial-SinDerivadas 4.0 Internacional).

:::

\

Aviso legal: Los artículos republicados en este sitio provienen de plataformas públicas y se ofrecen únicamente con fines informativos. No reflejan necesariamente la opinión de MEXC. Todos los derechos pertenecen a los autores originales. Si consideras que algún contenido infringe derechos de terceros, comunícate a la dirección service@support.mexc.com para solicitar su eliminación. MEXC no garantiza la exactitud, la integridad ni la actualidad del contenido y no se responsabiliza por acciones tomadas en función de la información proporcionada. El contenido no constituye asesoría financiera, legal ni profesional, ni debe interpretarse como recomendación o respaldo por parte de MEXC.

También te puede interesar

OIEA urge a reparar escudo de Chernóbil

OIEA urge a reparar escudo de Chernóbil

L. Moscoso / AFP VIENA.— El Organismo Internacional de la Energía Atómica (OIEA) pidió reparar el sarcófago que protege la central nuclear de Chernóbil, en Ucrania, dañada en un bombardeo en febrero durante la guerra con Rusia. La misión del OIEA en Ucrania confirmó que la cubierta protectora “ha perdido sus funciones de seguridad primarias, incluida la capacidad de contención”, según su último informe. Sin embargo, la agencia constata que no hay “daños permanentes en las estructuras portantes ni en los sistemas de vigilancia”. Se han realizado reparaciones temporales limitadas en el techo, pero una restauración rápida y completa sigue siendo esencial para prevenir un deterioro adicional y garantizar la seguridad nuclear a largo plazo”, declaró el director general de la organización, Rafael Grossi, citado en el informe. El Nuevo Confinamiento Seguro se instaló en 2016 y se inauguró en 2019 con el objetivo de contener los restos radiactivos de la central tras el accidente nuclear de 1986, el peor de la historia. Según el gobierno ucraniano, resultó dañada en febrero pasado por un dron explosivo ruso. El OIEA indicó que se han previsto reparaciones temporales adicionales con el apoyo del Banco Europeo para la Reconstrucción y el Desarrollo (BERD), con el objetivo de que pueda llevarse a cabo “una restauración completa una vez finalizado el conflicto” con Rusia, que está por cumplir cuatro años.   Envían refuerzos Italia enviará en los próximos días generadores de fabricación nacional para reforzar la infraestructura energética de Ucrania ante los ataques rusos contra las instalaciones, informó la primera ministra italiana, Giorgia Meloni, al presidente ucraniano, Volodímir Zelenski, en una conversación telefónica. Zelenski denunció en la red social X que los ataques del domingo con cerca de 250 drones y misiles por parte de Rusia dejaron varios muertos en Sloviansk y Chérnigov, sin dar una cifra, antes de resaltar que la ofensiva causó además daños materiales en siete provincias del país. Ambos líderes analizaron también los resultados de las conversaciones en curso con Estados Unidos para mediar la paz con Rusia.     Aquí podrás acceder a noticias en tiempo real Conoce lo más viral en Facebook Trending  Lee a los columnistas de Excélsior Opinión   clm     Contenidos Relacionados: Hongo oscuro de Chernóbil podría ‘comer’ radiación y proteger a astronautas en el espacioPerros azules aparecen en Chernóbil ¿Qué son? | VIDEOSUcrania denuncia que un ataque ruso ha dejado sin electricidad en Chernóbil
Compartir
Excelsior2025/12/08 18:42
Sheinbaum, Trump y la larga sombra de la Doctrina Monroe

Sheinbaum, Trump y la larga sombra de la Doctrina Monroe

La fotografía del encuentro en Washington es elocuente: Donald Trump, Mark Carney y, al centro, Claudia Sheinbaum, con las banderas de México, Estados Unidos y Canadá alineadas detrás. México ocupa el centro de la imagen; la bandera estadounidense, el centro del fondo. La escena oficial habla del sorteo del Mundial 2026. La escena de fondo, de poder. Para entender cómo le fue a Sheinbaum en su primer cara a cara con Trump conviene mirar esa escena con una historia larga detrás. La Doctrina Monroe nació en 1823, cuando James Monroe advirtió que cualquier intento europeo de colonizar o intervenir en el hemisferio occidental sería “peligroso para nuestra paz y seguridad”. Se presentó como defensa de las nuevas repúblicas latinoamericanas, pero pronto se convirtió en el principio con el que Estados Unidos reclamó una esfera de influencia sobre “su” hemisferio. Dos siglos después, Trump decidió actualizar ese principio. El 2 de diciembre de 2025 firmó el mensaje America 250 y anunció el Trump Corollary: el pueblo estadunidense —“no naciones extranjeras ni instituciones globalistas”— controlará su destino “en nuestro hemisferio”. La Estrategia de Seguridad Nacional retoma esa lógica: hemisferio occidental como prioridad, migración y cárteles como amenazas, aranceles y despliegues militares como instrumentos. En ese marco se produjo el encuentro de Washington. No hubo anuncio sobre el T-MEC ni sobre el levantamiento de aranceles; tampoco, y esto importa, nuevas amenazas. La migración —el tema que podía haber dominado la conversación— quedó en segundo plano frente a tres ejes: Mundial, comercio, cooperación en seguridad. El mensaje final fue continuar el trabajo a nivel técnico. El contexto doméstico también cuenta. A finales de 2025, Sheinbaum mantiene niveles de aprobación altos: distintas encuestas la sitúan por encima de 70% en México. Trump, por su parte, se encuentra por debajo de 40% en Estados Unidos. Sheinbaum eligió una estrategia de contención. Evitó que la reunión se convirtiera en escenario de presión pública sobre México, preservó los canales de diálogo y reforzó un mensaje sencillo: México como socio necesario, no como problema. En lugar de confrontar en la escena, se apoyó en dos recursos: su posición en América Latina y su estilo de liderazgo. Hoy es la única mandataria de izquierda al frente de una de las principales economías del continente que puede sentarse con Trump con esa combinación de peso económico, interdependencia comercial y respaldo ciudadano. El estilo también importa. Frente a una estrategia de seguridad que habla de “narcoterroristas” y contempla despliegues militares en el Caribe y América Latina, Sheinbaum ha reiterado su rechazo a la presencia de tropas estadounidenses en México y ha optado por reforzar la cooperación en inteligencia y aplicación de la ley desde instituciones mexicanas. En la fotografía, esto se traduce en una figura central que viste un diseño mexicano de color violeta entre dos trajes oscuros: una forma de afirmar diferencia sin romper la escena. La reunión en Washington no altera la estructura que describen el Corolario Trump y la Estrategia de Seguridad Nacional: Estados Unidos seguirá considerando al hemisferio su prioridad y a México como pieza clave de su respuesta. Pero tampoco la refuerza con un gesto de castigo público. Si el punto de partida es noviembre —el asesinato de Carlos Manzo, la marcha de la Generación Z, el paro de agricultores y transportistas y la presión creciente sobre su gobierno—, a Sheinbaum le fue mejor de lo que muchos esperaban: una sola frase fuera de lugar podía reforzar la imagen de una presidenta a la defensiva. En vez de eso, el encuentro la devolvió a su terreno de ajedrecista: interlocución institucional, estabilidad y control del mensaje. No cambió las reglas del juego, pero evitó que se endurecieran y ganó algo que algunas lecturas precipitadas habían puesto en duda: tiempo y margen para seguir negociando bajo la larga sombra de la Doctrina Monroe. Columnista: gustavo.riveraImágen Portada: Imágen Principal: Send to NewsML Feed: 0
Compartir
Excelsior2025/12/08 17:10