BSGAL'ın CenterNet2 ile ResNet-50/Swin-L omurgalarını kullanarak LVIS veri kümesindeki uygulamasının ayrıntıları.BSGAL'ın CenterNet2 ile ResNet-50/Swin-L omurgalarını kullanarak LVIS veri kümesindeki uygulamasının ayrıntıları.

Teknik Detaylar: BSGAL Eğitimi, Swin-L Omurgası ve Dinamik Eşik Stratejisi

2025/12/07 02:00

摘要和1 引言

  1. 相关工作

    2.1. 生成式数据增强

    2.2. 主动学习和数据分析

  2. 预备知识

  3. 我们的方法

    4.1. 理想场景下的贡献估计

    4.2. 批量流式生成主动学习

  4. 实验和5.1. 离线设置

    5.2. 在线设置

  5. 结论、更广泛影响和参考文献

    \

A. 实现细节

B. 更多消融实验

C. 讨论

D. 可视化

A. 实现细节

A.1. 数据集

我们选择LVIS (Gupta等, 2019)作为我们实验的数据集。LVIS是一个大规模实例分割数据集,包含约160,000张图像,涵盖1203个真实世界类别的超过200万个高质量实例分割标注。该数据集根据实例在图像中出现的频率进一步分为三类:稀有、常见和频繁。标记为"稀有"的实例出现在1-10张图像中,"常见"实例出现在11-100张图像中,而"频繁"实例出现在超过100张图像中。整个数据集呈长尾分布,与现实世界的数据分布非常相似,并广泛应用于多种设置,包括少样本分割(Liu等, 2023)和开放世界分割(Wang等, 2022; Zhu等, 2023)。因此,我们认为选择LVIS能更好地反映模型在现实场景中的性能。我们使用官方LVIS数据集划分,训练集约有100,000张图像,验证集有20,000张图像。

A.2. 数据生成

我们的数据生成和标注过程与Zhao等(2023)一致,这里简要介绍。我们首先使用StableDiffusion V1.5 (Rombach等, 2022a) (SD)作为生成模型。对于LVIS (Gupta等, 2019)中的1203个类别,我们为每个类别生成1000张图像,图像分辨率为512 × 512。生成的提示模板为"a photo of a single {CATEGORY NAME}"。我们分别使用U2Net (Qin等, 2020)、SelfReformer (Yun和Lin, 2022)、UFO (Su等, 2023)和CLIPseg (Luddecke和Ecker, 2022)来标注原始生成图像,并选择具有最高CLIP分数的掩码作为最终标注。为确保数据质量,CLIP分数低于0.21的图像被过滤掉作为低质量图像。在训练过程中,我们还采用Zhao等(2023)提供的实例粘贴策略进行数据增强。对于每个实例,我们随机调整其大小以匹配其类别在训练集中的分布。每张图像粘贴的最大实例数设置为20。

\ 此外,为了进一步扩展生成数据的多样性并使我们的研究更具普遍性,我们还使用了其他生成模型,包括DeepFloyd-IF (Shonenkov等, 2023) (IF)和Perfusion (Tewel等, 2023) (PER),每个模型每个类别生成500张图像。对于IF,我们使用作者提供的预训练模型,生成的图像是第二阶段的输出,分辨率为256×256。对于PER,我们使用的基础模型是StableDiffusion V1.5。对于每个类别,我们使用从训练集中裁剪的图像对模型进行微调,微调步骤为400步。我们使用微调后的模型生成图像。

\ 表7. 不同生成数据的比较。

\ 我们还探索了使用不同生成数据对模型性能的影响(见表7)。我们可以看到,基于原始StableDiffusion V1.5,使用其他生成模型可以带来一些性能提升,但这种提升并不明显。具体来说,对于特定频率类别,我们发现IF对稀有类别有更显著的改进,而PER对常见类别有更显著的改进。这可能是因为IF数据更加多样化,而PER数据与训练集的分布更加一致。考虑到整体性能已经在一定程度上得到提高,我们最终采用SD + IF + PER的生成数据进行后续实验。

A.3. 模型训练

遵循Zhao等(2023),我们使用CenterNet2 (Zhou等, 2021)作为我们的分割模型,以ResNet-50 (He等, 2016)或Swin-L (Liu等, 2022)作为骨干网络。对于ResNet-50,最大训练迭代次数设置为90,000,模型初始化权重首先在ImageNet-22k上预训练,然后在LVIS (Gupta等, 2019)上微调,正如Zhao

\ 图5. 使用不同数量生成数据时的模型性能。

\ 等(2023)所做的那样。我们在训练期间使用4个Nvidia 4090 GPU,批量大小为16。至于Swin-L,最大训练迭代次数设置为180,000,模型初始化权重在ImageNet-22k上预训练,因为我们的早期实验表明,与在LVIS上训练的权重相比,这种初始化可以带来轻微的改进。我们使用4个Nvidia A100 GPU进行训练,批量大小为16。此外,由于Swin-L参数数量庞大,保存梯度占用的额外内存很大,所以我们实际上使用算法2中的算法。

\ 其他未指定的参数也遵循与X-Paste (Zhao等, 2023)相同的设置,例如AdamW (Loshchilov和Hutter, 2017)优化器,初始学习率为1e−4。

A.4. 数据量

在这项工作中,我们生成了超过200万张图像。图5显示了使用不同数量生成数据(1%,10%,40%,70%,100%)时的模型性能。总体而言,随着生成数据量的增加,模型的性能也有所提高,但也存在一些波动。我们的方法始终优于基线,这证明了我们方法的有效性和稳健性。

A.5. 贡献估计

\ 因此,我们本质上是计算余弦相似度。然后我们进行了实验比较,如表8所示,

\ 表8. 使用梯度归一化与否的比较。

\ 图6. 展示各种噪声尺度和类别的噪声图像。从上到下的每一行分别表示不同的噪声级别,具体为0、40、100、200和400。所有图像均来自CIFAR-10数据集。

\ 我们可以看到,如果我们对梯度进行归一化,我们的方法会有一定的改进。此外,由于我们需要保持两个不同的阈值,很难确保接受率的一致性。因此,我们采用动态阈值策略,预设一个接受率,维护一个队列来保存前一次迭代的贡献,然后根据队列动态调整阈值,使接受率保持在预设的接受率。

A.6. 玩具实验

以下是在CIFAR-10上实施的具体实验设置:我们采用简单的ResNet18作为基线模型,并进行了200个epoch的训练,在原始训练集上训练后的准确率为93.02%。学习率设置为0.1,使用SGD优化器。动量为0.9,权重衰减为5e-4。我们使用余弦退火学习率调度器。构建的噪声图像如图6所示。随着噪声级别的升高,图像质量下降。值得注意的是,当噪声级别达到200时,图像变得非常难以识别。对于表1,我们使用Split1作为R,而G由'Split2 + Noise40'、'Split3 + Noise100'、'Split4 + Noise200'组成,

A.7. 仅前向传播一次的简化

\

:::info 作者:

(1) 朱慕之,来自中国浙江大学,贡献相同;

(2) 范成祥,来自中国浙江大学,贡献相同;

(3) 陈浩,中国浙江大学 (haochen.cad@zju.edu.cn);

(4) 刘洋,中国浙江大学;

(5) 毛伟安,中国浙江大学和澳大利亚阿德莱德大学;

(6) 徐晓刚,中国浙江大学;

(7) 沈春华,中国浙江大学 (chunhuashen@zju.edu.cn)。

:::


:::info 本论文可在arxiv上获取,遵循CC BY-NC-ND 4.0 Deed (署名-非商业性使用-禁止演绎 4.0 国际)许可协议。

:::

\

Sorumluluk Reddi: Bu sitede yeniden yayınlanan makaleler, halka açık platformlardan alınmıştır ve yalnızca bilgilendirme amaçlıdır. MEXC'nin görüşlerini yansıtmayabilir. Tüm hakları telif sahiplerine aittir. Herhangi bir içeriğin üçüncü taraf haklarını ihlal ettiğini düşünüyorsanız, kaldırılması için lütfen service@support.mexc.com ile iletişime geçin. MEXC, içeriğin doğruluğu, eksiksizliği veya güncelliği konusunda hiçbir garanti vermez ve sağlanan bilgilere dayalı olarak alınan herhangi bir eylemden sorumlu değildir. İçerik, finansal, yasal veya diğer profesyonel tavsiye niteliğinde değildir ve MEXC tarafından bir tavsiye veya onay olarak değerlendirilmemelidir.

Ayrıca Şunları da Beğenebilirsiniz

Western Union Solana'yı Stabil Token ve Takas Ağı İçin Araştırıyor

Western Union Solana'yı Stabil Token ve Takas Ağı İçin Araştırıyor

這篇文章《西聯匯款探索Solana穩定代幣和結算網絡》發表於BitcoinEthereumNews.com。西聯匯款正在整合Solana區塊鏈來開發自己的代幣、錢包和結算網絡,目標是在2026年前為受通脹影響地區推出類似穩定幣的「穩定卡」。此舉保護匯款免受波動經濟中的價值侵蝕。西聯匯款轉向區塊鏈,利用Solana的高速網絡進行安全、高效的全球轉賬。該計劃包括與Anchorage Digital Bank共同開發的美元支付代幣(USDPT),用於穩定價值儲存。西聯匯款在200個國家開展業務,利用其覆蓋範圍通過零售櫃檯分發代幣,在一些依賴匯款的國家中目標覆蓋40%的GDP。了解西聯匯款Solana整合如何通過新的代幣和錢包系統革新匯款。保護資金免受通脹影響——探索數字支付的未來。西聯匯款與Solana合作開發代幣和結算網絡在做什麼?西聯匯款Solana整合標誌著這家傳統金融服務提供商向區塊鏈技術的關鍵轉變。該公司正在建立一個全面的生態系統,包括自己的穩定代幣、數字錢包和由Solana高效區塊鏈驅動的結算網絡。這一策略通過提供保存資金價值的「穩定卡」,解決跨境支付的長期挑戰,特別是在高通脹環境中。西聯匯款的穩定卡如何抵禦通脹?西聯匯款的穩定卡代表了其傳統預付產品的演進,現在通過區塊鏈穩定性得到增強。在像阿根廷這樣的國家,根據國際貨幣基金組織最近的經濟報告,年通脹率超過200%,傳統匯款在幾週內就會失去大量購買力。這種與美元資產掛鉤的卡片保護收款人免受此類貶值影響,使資金在使用前保持價值。包括財務總監Matthew Cagwin在內的高管在全球技術論壇的討論中強調了這一需求。Cagwin指出,由於螺旋式上升的通脹,500美元的匯款實際上可能縮減至300美元...
Paylaş
BitcoinEthereumNews2025/12/07 10:19
Reliance Jio Reportedly Testing JioCoin on Polygon Blockchain

Reliance Jio Reportedly Testing JioCoin on Polygon Blockchain

文章《Reliance Jio據報在Polygon區塊鏈上測試JioCoin》發表於BitcoinEthereumNews.com。Reliance Jio正在Polygon區塊鏈上測試JioCoin,這已由區塊鏈開發者Aishwary通過鏈上活動確認。這與Jio在2025年與Polygon Labs和Aptos建立的Web3獎勵合作關係相關,有潛力覆蓋超過5億用戶,同時通過區塊鏈技術增強電信服務。Jio正在Polygon區塊鏈上測試一種名為JioCoin的新加密貨幣,儘管尚未正式確認。Jio在2025年與Polygon Labs和Aptos合作,為超過5億用戶帶來Web3功能和區塊鏈獎勵。根據Polygonscan和Aptos Labs的報告,約940萬用戶已經在測試Jio的區塊鏈獎勵計劃,使其成為最大的電信Web3項目之一。了解Reliance Jio在Polygon上的JioCoin測試如何可能為5億多用戶革新Web3。通過這份深入分析探索合作關係、獎勵和影響。在加密貨幣新聞中保持領先!什麼是JioCoin,它與Reliance Jio的區塊鏈計劃有何關係?JioCoin是一種新興加密貨幣,據報道正由印度領先電信提供商Reliance Jio Platforms Ltd.在Polygon區塊鏈上進行測試。這一發展建立在Jio在2025年宣布的戰略合作基礎上,與Polygon Labs進行Web3整合,與Aptos建立訂閱者獎勵計劃。雖然Jio尚未發布官方公告,但鏈上證據表明早期測試階段旨在通過區塊鏈獎勵提升用戶參與度。該計劃反映了Jio向去中心化技術的更廣泛推進,利用Polygon的可擴展基礎設施為其龐大用戶群提供潛在的代幣化獎勵。專家指出,這一舉措可能使印度的加密貨幣訪問民主化,而在印度,監管謹慎歷來限制了主流採用。Jio與Polygon和Aptos的合作如何推動JioCoin的發展?Reliance Jio與Polygon Labs的合作始於2025年1月,專注於將Web3功能嵌入Jio的生態系統,服務超過4.5億客戶。Polygon以...
Paylaş
BitcoinEthereumNews2025/12/07 09:55