CSpace
一种基于long short-term memory的唇语识别方法
马宁; 田国栋; 周曦
2018-01-15
摘要唇动视觉信息是说话内容的重要载体。受嘴唇外观、背景信息和说话习惯等影响,即使说话者说相同的内容,唇动视觉信息也会相差很大。为解决唇语视觉信息多样性的问题,提出一种基于long short-term memory(LSTM)的新的唇语识别方法。以往大多数的方法从嘴唇外表信息入手。本方法用嘴唇关键点坐标描述嘴唇形变信息作为唇语视频的特征,它具有类内一致性和类间区分性的特点。然后利用LSTM对特征进行时序编码,它能学习具有区分性和泛化性的空间-时序特征。在公开的唇语数据集GRID、MIRACL-VC和Oulu VS上对本方法做了针对分割的单词或短语的说话者独立的唇语识别评估。在GRID和MIRACL...
关键词唇语识别 long short-term memory 计算机视觉
发表期刊中国科学院大学学报
期号1页码:109-117
语种中文