當前位置:首頁 > 科技文檔 > 電信技術 > 正文

基于多尺度時空卷積的唇語識別方法

電子與信息學報 頁數(shù): 8 2024-11-15
摘要: 現(xiàn)有的唇語識別模型大多采用將單層的3維卷積與2維卷積神經(jīng)網(wǎng)絡結合的方式,從唇語視頻序列中挖掘出時空聯(lián)合特征。然而,由于單層的3維卷積不能很好地提取時間信息,同時2維卷積神經(jīng)網(wǎng)絡對細粒度的唇語特征的挖掘能力有限,該文提出一種多尺度唇語識別網(wǎng)絡(MS-LipNet)以改善唇語識別任務。該文在Res2Net網(wǎng)絡中,采用3維時空卷積替代傳統(tǒng)的2維卷積以更好地提取時空聯(lián)合特征,同時提出時... (共8頁)

開通會員,享受整站包年服務