• <delect id="m4os4"><cite id="m4os4"></cite></delect>
    <nav id="m4os4"><acronym id="m4os4"></acronym></nav>
  • <input id="m4os4"></input>

    焦點(diǎn)訊息:詳細(xì)探討了視覺Transformer在處理長(zhǎng)尾數(shù)據(jù)時(shí)的優(yōu)勢(shì)和不足之處

    2023-06-16 10:10:07來源:聚焦網(wǎng)  

    本篇文章為大家介紹清華大學(xué)在CVPR2023的論文,LearningImbalancedDatawithVisionTransformers(用視覺Transformer學(xué)習(xí)長(zhǎng)尾數(shù)據(jù)),代碼已開源。

    背景

    在機(jī)器學(xué)習(xí)領(lǐng)域中,學(xué)習(xí)不平衡的標(biāo)注數(shù)據(jù)一直是一個(gè)常見而具有挑戰(zhàn)性的任務(wù)。近年來,視覺Transformer作為一種強(qiáng)大的模型,在多個(gè)視覺任務(wù)上展現(xiàn)出令人滿意的效果。然而,視覺Transformer處理長(zhǎng)尾分布數(shù)據(jù)的能力和特性,還有待進(jìn)一步挖掘。


    (資料圖片僅供參考)

    目前,已有的長(zhǎng)尾識(shí)別模型很少直接利用長(zhǎng)尾數(shù)據(jù)對(duì)視覺Transformer(ViT)進(jìn)行訓(xùn)練。基于現(xiàn)成的預(yù)訓(xùn)練權(quán)重進(jìn)行研究可能會(huì)導(dǎo)致不公平的比較結(jié)果,因此有必要對(duì)視覺Transformer在長(zhǎng)尾數(shù)據(jù)下的表現(xiàn)進(jìn)行系統(tǒng)性的分析和總結(jié)。

    本文旨在填補(bǔ)這一研究空白,詳細(xì)探討了視覺Transformer在處理長(zhǎng)尾數(shù)據(jù)時(shí)的優(yōu)勢(shì)和不足之處。本文將重點(diǎn)關(guān)注如何有效利用長(zhǎng)尾數(shù)據(jù)來提升視覺Transformer的性能,并探索解決數(shù)據(jù)不平衡問題的新方法。通過本文的研究和總結(jié),研究團(tuán)隊(duì)有望為進(jìn)一步改進(jìn)視覺Transformer模型在長(zhǎng)尾數(shù)據(jù)任務(wù)中的表現(xiàn)提供有益的指導(dǎo)和啟示。這將為解決現(xiàn)實(shí)世界中存在的數(shù)據(jù)不平衡問題提供新的思路和解決方案。

    文章通過一系列實(shí)驗(yàn)發(fā)現(xiàn),在有監(jiān)督范式下,視覺Transformer在處理不平衡數(shù)據(jù)時(shí)會(huì)出現(xiàn)嚴(yán)重的性能衰退,而使用平衡分布的標(biāo)注數(shù)據(jù)訓(xùn)練出的視覺Transformer呈現(xiàn)出明顯的性能優(yōu)勢(shì)。相比于卷積網(wǎng)絡(luò),這一特點(diǎn)在視覺Transformer上體現(xiàn)的更為明顯。另一方面,無監(jiān)督的預(yù)訓(xùn)練方法無需標(biāo)簽分布,因此在相同的訓(xùn)練數(shù)據(jù)量下,視覺Transformer可以展現(xiàn)出類似的特征提取和重建能力。

    基于以上觀察和發(fā)現(xiàn),研究提出了一種新的學(xué)習(xí)不平衡數(shù)據(jù)的范式,旨在讓視覺Transformer模型更好地適應(yīng)長(zhǎng)尾數(shù)據(jù)。通過這種范式的引入,研究團(tuán)隊(duì)希望能夠充分利用長(zhǎng)尾數(shù)據(jù)的信息,提高視覺Transformer模型在處理不平衡標(biāo)注數(shù)據(jù)時(shí)的性能和泛化能力。

    文章貢獻(xiàn)

    本文是第一個(gè)系統(tǒng)性的研究用長(zhǎng)尾數(shù)據(jù)訓(xùn)練視覺Transformer的工作,在此過程中,做出了以下主要貢獻(xiàn):

    首先,本文深入分析了傳統(tǒng)有監(jiān)督訓(xùn)練方式對(duì)視覺Transformer學(xué)習(xí)不均衡數(shù)據(jù)的限制因素,并基于此提出了雙階段訓(xùn)練流程,將視覺Transformer模型內(nèi)在的歸納偏置和標(biāo)簽分布的統(tǒng)計(jì)偏置分階段學(xué)習(xí),以降低學(xué)習(xí)長(zhǎng)尾數(shù)據(jù)的難度。其中第一階段采用了流行的掩碼重建預(yù)訓(xùn)練,第二階段采用了平衡的損失進(jìn)行微調(diào)監(jiān)督。

    其次,本文提出了平衡的二進(jìn)制交叉熵?fù)p失函數(shù),并給出了嚴(yán)格的理論推導(dǎo)。平衡的二進(jìn)制交叉熵?fù)p失的形式如下:

    與之前的平衡交叉熵?fù)p失相比,本文的損失函數(shù)在視覺Transformer模型上展現(xiàn)出更好的性能,并且具有更快的收斂速度。研究中的理論推導(dǎo)為損失函數(shù)的合理性提供了嚴(yán)密的解釋,進(jìn)一步加強(qiáng)了我們方法的可靠性和有效性。

    不同損失函數(shù)的收斂速度的比較

    基于以上貢獻(xiàn),文章提出了一個(gè)全新的學(xué)習(xí)范式LiVT,充分發(fā)揮視覺Transformer模型在長(zhǎng)尾數(shù)據(jù)上的學(xué)習(xí)能力,顯著提升模型在多個(gè)數(shù)據(jù)集上的性能。該方案在多個(gè)數(shù)據(jù)集上取得了遠(yuǎn)好于視覺Transformer基線的性能表現(xiàn)。

    不同參數(shù)量下在ImageNet-LT上的準(zhǔn)確性。

    同時(shí),本文還驗(yàn)證了在相同的訓(xùn)練數(shù)據(jù)規(guī)模的情況下,使用ImageNet的長(zhǎng)尾分布子集(LT)和平衡分布子集(BAL)訓(xùn)練的ViT-B模型展現(xiàn)出相近的重建能力。如LT-Large-1600列所示,在ImageNet-LT數(shù)據(jù)集中,可以通過更大的模型和MGPepoch獲得更好的重建結(jié)果。

    總結(jié)

    本文提供了一種新的基于視覺Transformer處理不平衡數(shù)據(jù)的方法LiVT。LiVT利用掩碼建模和平衡微調(diào)兩個(gè)階段的訓(xùn)練策略,使得視覺Transformer能夠更好地適應(yīng)長(zhǎng)尾數(shù)據(jù)分布并學(xué)習(xí)到更通用的特征表示。該方法不僅在實(shí)驗(yàn)中取得了顯著的性能提升,而且無需額外的數(shù)據(jù),具有實(shí)際應(yīng)用的可行性。

    相關(guān)閱讀

    精彩推薦

    最新推送

    推薦閱讀

    亚洲成a人v在线观看,五月婷婷综合激情,亚洲视频在线一区,欧美限制级在线观看
  • <delect id="m4os4"><cite id="m4os4"></cite></delect>
    <nav id="m4os4"><acronym id="m4os4"></acronym></nav>
  • <input id="m4os4"></input>
    主站蜘蛛池模板: 国产一级一级一级国产片 | 美女舒服好紧太爽了视频| 激情偷乱在线观看视频播放| 最刺激黄a大片免费观看下截| 婷婷国产偷v国产偷v亚洲| 国产1区2区3区4区| 中文在线最新版天堂| 美女被免费喷白浆视频| 成人综合久久综合| 国产无遮挡又黄又爽高潮| 亚洲人成人77777网站| 欧美精品www| 狠狠躁夜夜躁无码中文字幕| 奇米影视在线观看| 你懂得的在线观看免费视频| 久久久久亚洲精品中文字幕| 裸体跳舞XXXX裸体跳舞| 欧美一级www| 国产成人精品福利网站在线观看 | 亚洲欧美综合一区| 337p日本人体| 极品美女a∨片在线看| 天天摸天天看天天做天天爽 | 亚洲中文无码a∨在线观看| 99精品视频观看| 欧美疯狂做受xxxxx高潮| 奶特别大的三级日本电影| 交换朋友夫妇2| 4hu44四虎在线观看| 极品色天使在线婷婷天堂亚洲| 国产对白受不了了中文对白| 人妻在线无码一区二区三区| 99久久人人爽亚洲精品美女| 精品亚洲麻豆1区2区3区| 天堂资源最新版在线官网| 亚洲欧美日韩综合俺去了| h视频在线观看免费网站| 精品一区二区三区在线观看视频 | 四虎影视成人永久在线播放| 久久久久av综合网成人| 精品亚洲成a人无码成a在线观看|