Cet article définit un nouveau cadre pratique pour l'Apprentissage Incrémental par Instance, se concentrant sur la promotion de modèle rentable et la résistance à l'oubli catastrophiqueCet article définit un nouveau cadre pratique pour l'Apprentissage Incrémental par Instance, se concentrant sur la promotion de modèle rentable et la résistance à l'oubli catastrophique

Solution à la rareté des données : S-CycleGAN pour la traduction de CT en échographie

2025/11/05 00:00
Temps de lecture : 8 min

Abstrait et 1 Introduction

  1. Travaux connexes

  2. Définition du problème

  3. Méthodologie

    4.1. Distillation consciente des limites de décision

    4.2. Consolidation des connaissances

  4. Résultats expérimentaux et 5.1. Configuration de l'expérience

    5.2. Comparaison avec les méthodes de pointe

    5.3. Étude d'ablation

  5. Conclusion et travaux futurs et Références

    \

Matériel supplémentaire

  1. Détails de l'analyse théorique du mécanisme KCEMA dans l'IIL
  2. Aperçu de l'algorithme
  3. Détails des ensembles de données
  4. Détails d'implémentation
  5. Visualisation des images d'entrée poussiéreuses
  6. Plus de résultats expérimentaux

Abstrait

L'apprentissage incrémental par instance (IIL) se concentre sur l'apprentissage continu avec des données des mêmes classes. Comparé à l'apprentissage incrémental par classe (CIL), l'IIL est rarement exploré car l'IIL souffre moins de l'oubli catastrophique (CF). Cependant, outre la conservation des connaissances, dans les scénarios de déploiement réels où l'espace des classes est toujours prédéfini, la promotion continue et rentable du modèle avec l'indisponibilité potentielle des données précédentes est une demande plus essentielle. Par conséquent, nous définissons d'abord un nouveau paramètre IIL plus pratique comme promouvoir les performances du modèle en plus de résister au CF avec seulement de nouvelles observations. Deux problèmes doivent être abordés dans le nouveau cadre IIL : 1) l'oubli catastrophique notoire en raison de l'absence d'accès aux anciennes données, et 2) l'élargissement de la limite de décision existante aux nouvelles observations en raison de la dérive conceptuelle. Pour résoudre ces problèmes, notre idée clé est d'élargir modérément la limite de décision aux cas d'échec tout en conservant l'ancienne limite. Par conséquent, nous proposons une nouvelle méthode de distillation consciente des limites de décision avec consolidation des connaissances vers l'enseignant pour faciliter l'apprentissage de nouvelles connaissances par l'étudiant. Nous établissons également les références sur les ensembles de données existants Cifar-100 et ImageNet. Notamment, des expériences approfondies démontrent que le modèle enseignant peut être un meilleur apprenant incrémental que le modèle étudiant, ce qui renverse les méthodes précédentes basées sur la distillation des connaissances traitant l'étudiant comme le rôle principal.

1. Introduction

Ces dernières années, de nombreux excellents réseaux basés sur l'apprentissage profond ont été proposés pour diverses tâches, telles que la classification d'images, la segmentation et la détection. Bien que ces réseaux fonctionnent bien sur les données d'entraînement, ils échouent inévitablement sur certaines nouvelles données qui ne sont pas entraînées dans les applications réelles. Promouvoir continuellement et efficacement les performances d'un modèle déployé sur ces nouvelles données est une demande essentielle. La solution actuelle de réentraînement du réseau en utilisant toutes les données accumulées présente deux inconvénients : 1) avec l'augmentation de la taille des données, le coût de formation devient plus élevé à chaque fois, par exemple, plus d'heures de GPU et une empreinte carbone plus importante [20], et 2) dans certains cas, les anciennes données ne sont plus accessibles en raison de la politique de confidentialité ou du budget limité pour le stockage des données. Dans le cas où peu ou pas d'anciennes données sont disponibles ou utilisées, le réentraînement du modèle d'apprentissage profond avec de nouvelles données entraîne toujours une dégradation des performances sur les anciennes données, c'est-à-dire le problème d'oubli catastrophique (CF). Pour résoudre le problème CF, l'apprentissage incrémental [4, 5, 22, 29], également connu sous le nom d'apprentissage continu, est proposé. L'apprentissage incrémental favorise considérablement la valeur pratique des modèles d'apprentissage profond et suscite un vif intérêt de recherche.

\ Figure 1. Illustration du nouveau paramètre IIL. À la phase d'apprentissage IIL t > 0, seules les nouvelles données Dn(t) qui sont beaucoup plus petites que les données de base sont disponibles. Le modèle doit être promu en utilisant uniquement les nouvelles données à chaque fois et recherche une performance proche du modèle de données complètes entraîné sur toutes les données accumulées. Le réglage fin avec arrêt précoce ne parvient pas à améliorer le modèle dans le nouveau paramètre IIL.

\ Selon que les nouvelles données proviennent de classes vues, l'apprentissage incrémental peut être divisé en trois scénarios [16, 17] : l'apprentissage incrémental par instance (IIL) [3, 16] où toutes les nouvelles données appartiennent aux classes vues, l'apprentissage incrémental par classe (CIL) [4, 12, 15, 22] où les nouvelles données ont des étiquettes de classe différentes, et l'apprentissage incrémental hybride [6, 30] où les nouvelles données consistent en de nouvelles observations provenant à la fois d'anciennes et de nouvelles classes. Comparé au CIL, l'IIL est relativement inexploré car il est moins susceptible au CF. Lomonaco et Maltoni [16] ont rapporté que le réglage fin d'un modèle avec arrêt précoce peut bien maîtriser le problème CF dans l'IIL. Cependant, cette conclusion ne tient pas toujours lorsqu'il n'y a pas d'accès aux anciennes données d'entraînement et que les nouvelles données ont une taille beaucoup plus petite que les anciennes données, comme illustré à la Fig. 1. Le réglage fin entraîne souvent un déplacement de la limite de décision plutôt que son expansion pour accueillir de nouvelles observations. Outre la conservation des anciennes connaissances, le déploiement réel se préoccupe davantage de la promotion efficace du modèle dans l'IIL. Par exemple, dans la détection des défauts des produits industriels, les classes de défauts sont toujours limitées aux catégories connues. Mais la morphologie de ces défauts varie de temps en temps. Les échecs sur ces défauts non vus doivent être corrigés rapidement et efficacement pour éviter que les produits défectueux ne se retrouvent sur le marché. Malheureusement, la recherche existante se concentre principalement sur la conservation des connaissances sur les anciennes données plutôt que sur l'enrichissement des connaissances avec de nouvelles observations.

\ Dans cet article, pour améliorer rapidement et de manière rentable un modèle entraîné avec de nouvelles observations de classes vues, nous définissons d'abord un nouveau paramètre IIL comme conserver les connaissances apprises ainsi que promouvoir les performances du modèle sur de nouvelles observations sans accès aux anciennes données. En termes simples, nous visons à promouvoir le modèle existant en utilisant uniquement les nouvelles données et à atteindre une performance comparable à celle du modèle réentraîné avec toutes les données accumulées. Le nouvel IIL est difficile en raison de la dérive conceptuelle [6] causée par les nouvelles observations, telles que la variation de couleur ou de forme par rapport aux anciennes données. Par conséquent, deux problèmes doivent être abordés dans le nouveau paramètre IIL : 1) l'oubli catastrophique notoire en raison de l'absence d'accès aux anciennes données, et 2) l'élargissement de la limite de décision existante aux nouvelles observations.

\ Pour résoudre les problèmes ci-dessus dans le nouveau paramètre IIL, nous proposons un nouveau cadre IIL basé sur la structure enseignant-étudiant. Le cadre proposé consiste en un processus de distillation consciente des limites de décision (DBD) et un processus de consolidation des connaissances (KC). Le DBD permet au modèle étudiant d'apprendre à partir de nouvelles observations en étant conscient des limites de décision inter-classes existantes, ce qui permet au modèle de déterminer où renforcer ses connaissances et où les conserver. Cependant, la limite de décision est introuvable lorsqu'il y a insuffisamment d'échantillons situés autour de la limite en raison de l'absence d'accès aux anciennes données dans l'IIL. Pour surmonter cela, nous nous inspirons de la pratique consistant à saupoudrer le sol de farine pour révéler les empreintes cachées. De même, nous introduisons un bruit gaussien aléatoire pour polluer l'espace d'entrée et manifester la limite de décision apprise pour la distillation. Pendant l'entraînement du modèle étudiant avec la distillation des limites, les connaissances mises à jour sont davantage consolidées vers le modèle enseignant de manière intermittente et répétée avec le mécanisme EMA [28]. L'utilisation du modèle enseignant comme modèle cible est une tentative pionnière et sa faisabilité est expliquée théoriquement.

\ Selon le nouveau paramètre IIL, nous réorganisons l'ensemble d'entraînement de certains ensembles de données existants couramment utilisés dans le CIL, tels que Cifar-100 [11] et ImageNet [24] pour établir les références. Le modèle est évalué sur les données de test ainsi que sur les données de base non disponibles à chaque phase incrémentale. Nos principales contributions peuvent être résumées comme suit : 1) Nous définissons un nouveau paramètre IIL pour rechercher une promotion rapide et rentable du modèle sur de nouvelles observations et établir les références ; 2) Nous proposons une nouvelle méthode de distillation consciente des limites de décision pour conserver les connaissances apprises ainsi que les enrichir avec de nouvelles données ; 3) Nous consolidons de manière créative les connaissances apprises de l'étudiant au modèle enseignant pour atteindre de meilleures performances et une meilleure généralisabilité, et prouvons théoriquement la faisabilité ; et 4) Des expériences approfondies démontrent que la méthode proposée accumule bien les connaissances avec seulement de nouvelles données alors que la plupart des méthodes d'apprentissage incrémental existantes ont échoué.

\

:::info Cet article est disponible sur arxiv sous la licence CC BY-NC-ND 4.0 Deed (Attribution-Noncommercial-Noderivs 4.0 International).

:::

:::info Auteurs :

(1) Qiang Nie, Université des sciences et technologies de Hong Kong (Guangzhou) ;

(2) Weifu Fu, Tencent Youtu Lab ;

(3) Yuhuan Lin, Tencent Youtu Lab ;

(4) Jialin Li, Tencent Youtu Lab ;

(5) Yifeng Zhou, Tencent Youtu Lab ;

(6) Yong Liu, Tencent Youtu Lab ;

(7) Qiang Nie, Université des sciences et technologies de Hong Kong (Guangzhou) ;

(8) Chengjie Wang, Tencent Youtu Lab.

:::

\

Opportunité de marché
Logo de SCARCITY
Cours SCARCITY(SCARCITY)
$0.00691
$0.00691$0.00691
-2.26%
USD
Graphique du prix de SCARCITY (SCARCITY) en temps réel
Clause de non-responsabilité : les articles republiés sur ce site proviennent de plateformes publiques et sont fournis à titre informatif uniquement. Ils ne reflètent pas nécessairement les opinions de MEXC. Tous les droits restent la propriété des auteurs d'origine. Si vous estimez qu'un contenu porte atteinte aux droits d'un tiers, veuillez contacter crypto.news@mexc.com pour demander sa suppression. MEXC ne garantit ni l'exactitude, ni l'exhaustivité, ni l'actualité des contenus, et décline toute responsabilité quant aux actions entreprises sur la base des informations fournies. Ces contenus ne constituent pas des conseils financiers, juridiques ou professionnels, et ne doivent pas être interprétés comme une recommandation ou une approbation de la part de MEXC.

Vous aimerez peut-être aussi

Les promotions cryptographiques de X confrontées aux limites de la FCA et du DSA

Les promotions cryptographiques de X confrontées aux limites de la FCA et du DSA

L'article sur les promotions cryptées de X confrontées aux limites de la FCA et du DSA est paru sur BitcoinEthereumNews.com. X (anciennement Twitter) aurait levé son interdiction sur les promotions cryptées de X
Partager
BitcoinEthereumNews2026/03/02 11:28
Les investisseurs se réfugient vers les valeurs refuges alors que le conflit américano-iranien s'intensifie

Les investisseurs se réfugient vers les valeurs refuges alors que le conflit américano-iranien s'intensifie

L'article Investors Flee To Safe Havens As US-Iran Conflict Escalates est paru sur BitcoinEthereumNews.com. Les marchés asiatiques plongent : les investisseurs fuient vers les valeurs refuges alors que
Partager
BitcoinEthereumNews2026/03/02 12:01
La Marque de Mode de Tokyo Se Développe dans le Bitcoin et l'IA

La Marque de Mode de Tokyo Se Développe dans le Bitcoin et l'IA

L'article "Une marque de mode de Tokyo se développe dans le Bitcoin et l'IA" est apparu sur BitcoinEthereumNews.com. Mercredi, le détaillant japonais de vêtements décontractés Mac House a annoncé que les actionnaires avaient approuvé un changement de nom pour Gyet Co., Ltd., signalant un virage stratégique vers les crypto et les actifs numériques. Cette initiative souligne un plan d'entreprise plus large centré sur la cryptomonnaie, la blockchain et l'intelligence artificielle. Elle reflète l'ambition de l'entreprise de lancer un programme mondial de trésorerie Bitcoin, attirant l'attention des observateurs nationaux et internationaux. "Yet" et sa signification mondiale La charte d'entreprise modifiée de Gyet introduit des initiatives numériques de grande envergure, ajoutant des services d'acquisition, de trading, de gestion et de paiement de cryptomonnaies. Les nouveaux objectifs couvrent également le Cloud mining, le staking, les emprunts et prêts, et le Yield Farming, ainsi que le développement de systèmes blockchain, des projets liés aux NFT, et la recherche en IA générative et les opérations de centres de données. Ces changements indiquent une intention claire de diversifier au-delà de l'habillement et de positionner l'entreprise dans les secteurs mondiaux de la technologie et de la finance. Sponsorisé Sponsorisé Le rebranding reflète l'objectif de Gyet d'opérer avec une perspective internationale plus large. Son nouveau nom véhicule trois concepts : "Growth Yet", "Global Yet" et "Generation Yet", signalant un désir de créer de la valeur axée sur la technologie pour les générations futures tout en s'étendant au-delà du marché intérieur japonais. Achat et minage de Bitcoin Gyet a déclaré ses ambitions en matière d'actifs numériques en juin 2025 et a signé en juillet un accord de coopération de base avec la société minière Zerofield. La société a depuis lancé un programme d'acquisition de Bitcoin de 11,6 millions de dollars et teste des opérations de minage dans des États américains comme le Texas et la Géorgie, où les coûts d'électricité sont relativement bas. Son objectif de détenir plus de 1 000 BTC est modeste à l'échelle mondiale, mais le modèle - financement des achats et du minage avec les flux de trésorerie du commerce de détail - reste inhabituel pour une entreprise de vêtements. Au Japon, Gyet suit des entreprises comme Hotta Marusho et Kitabo, qui se sont également diversifiées dans des activités liées aux cryptomonnaies distinctes de leurs opérations d'origine. Cette initiative pourrait accélérer la détention de Bitcoin par les entreprises comme stratégie financière, susciter l'intérêt pour les entreprises minières à l'étranger par des entreprises japonaises, et...
Partager
BitcoinEthereumNews2025/09/18 11:13