基于CLIP的視頻時(shí)刻檢索預(yù)訓(xùn)練模型
摘要: 視頻時(shí)刻檢索作為下游任務(wù),依賴預(yù)訓(xùn)練模型提取特征的能力。近年的研究表明,以CLIP為代表的圖像-語(yǔ)言預(yù)訓(xùn)練模型在大規(guī)模數(shù)據(jù)集下能學(xué)習(xí)到有效且通用的語(yǔ)義知識(shí),從而在圖像分類等任務(wù)上表現(xiàn)出強(qiáng)大的遷移能力和零樣本能力。然而其遷移到視頻時(shí)刻檢索任務(wù)仍效果不佳。為解決上述難題,提出了視頻時(shí)刻檢索網(wǎng)絡(luò)VMRNet,該網(wǎng)絡(luò)以CLIP預(yù)訓(xùn)練模型為骨干,并設(shè)計(jì)了用于增強(qiáng)CLIP模型時(shí)序建模能力和... (共7頁(yè))
開(kāi)通會(huì)員,享受整站包年服務(wù)