多维度交叉注意力融合的视听分割网络
视听分割是根据图片和声音定位并精准分割图片中的发声对象。虽然目前大多数研究工作主要侧重于探索视听信息融合方法,但对于视听细粒度挖掘不够深入,特别是在对齐连续音频特征与空间像素级信息方面。因此,提出了基于对比学习的视听分割注意力融合方法(AVSAF)。...
计算机应用研究
2025年06期
立即查看 >
图书推荐
相关工具书