搜狗推出唇语识别技术,不过落地还需时间

目前这一黑科技通用场景的准确识别率还比较低、泛化性不足,技术落地还需时间。

从键盘打字到触控屏,再到现在的语音交互和手势交互,人工智能技术的发展,正在促使人机交互方式向更加多元化方向变革。

当前市场上渐渐出现一种新的人机交互新技术——唇语识别。与语音识别不同,唇语识别是基于机器视觉与自然语言处理于一体的技术,不用听声音,仅靠机器视觉识别说话人唇部动作,就能解读说话者所说的内容,因此在研发难度上也比语音识别大得多。

就在刚刚过去的第四届乌镇互联网大会上,一直专注搜索的搜狗竟然也亮相了唇语识别这一黑科技。12月14日,搜狗在北京举行了媒体沟通会,公开演示了唇语识别这项新技术,包括背后的技术原理、研发动因以及未来的场景应用。

搜狗语音交互中心技术总监陈伟向钛媒体介绍,得益于搜狗自然语言处理方面的强大优势,搜狗首创了复杂端到端深度神经网络技术进行中文唇语序列建模,通过数千小时的真实唇语数据训练,建立了10万词以上的词汇表,取得不错的识别效果。

具体而言,搜狗通过摄像头从图像中连续识别出人的唇形,提取说话人连续的口型变化特征,然后将这些唇语特征放入唇语识别模型进行解码,从唇语文本数据到唇语语言模型进一步获取发音单元,最终输出文字。

目前,搜狗在非特定人开放口语测试集上,即搜狗唇语识别系统的通用识别的准确率在60%以上,超过google发布的英文唇语系统50%以上的准确率;而在垂直场景下,如车载、智能家居等场景下已经达到90%的准确率。

其实唇语识别并不神秘。早在2003年,英特尔公司就曾推出一款名叫视听说识别系统的软件,电脑开发者可以在此基础上研制读懂“唇语”的计算机;而国外技术最纯熟的谷歌,其DeepMind团队在2016年使用BBC新闻视频,对AI系统进行训练,视频总长超过5000小时,然后以当年3月到9月的视频节目进行测试,唇语识别正确率达到了46.8%。

这个正确率虽然不算高,但实际上正常人的唇语识别能力也只在10%左右,一些受过训练的唇语专家则可以达到40%左右。可以想见,唇语识别技术的壁垒之高。

在国内,BAT这些互联网巨头虽未涉足这一领域,但也有一些创新公司在唇语识别技术方面取得了突破。

今年3月,国内专注于大数据可视化的海云数据也试水唇语识别,发布了其与重庆市公安科研所共同研发的唇语识别技术成果。在研发阶段,海云训练了1万小时新闻类节目,来判断嘴型的准确度和语言的准确性。有报道称,海云数据的唇语识别技术在中文识别率已高达71%,英文识别率达到80%。

但陈伟也强调,唇语识别最大的难点在于泛化性。之所以这一技术尚未得到普及,很大程度上是识别率不能做到像语音识别那样高,做不到普适性,应用的意义也就不大。

从谷歌唇语识别系统训练来看,测试集与训练集其实是同源的,都来自广播电视新闻,而众所周知这些播音主持人在发音、吐字、唇形变化等方面都比普通人要标准,如果将测试选择在普通人时,识别率应该会更低。

搜狗为了突破唇语识别的泛化性,一方面通过各类新闻、电视节目的数据进行训练,另一方面通过搜集大量普通人的唇语数据进行训练,提升了唇语识别的泛化效果。另外,具体到车载、智能家居场景时,搜狗团队又通过限定场景、限定语句等形式,对唇语识别准确性做了进一步优化。

因此,在未来场景落地上,搜狗唇语团队将关注两方面,一方面可以和语音识别技术相结合解决远场环境下的语音问题,另一方面唇语识别作为人机交互的形式之一,辅助语音交互及图像识别,在日常生活、安防、公益等各个领域实现广泛应用。

  • 车载场景下,周围噪音过大时会对语音指令产生干扰,通过唇语识别技术则可以规避干扰,保证人车交互的准确性和稳定性,日常不便发声的公共场所也可以保证说话内容的私密性。
  • 在安防领域,由于目前多数监控只有摄像头没有麦克风,往往只能看清嘴型却不知道在说什么,给案情分析带来很多难题,而唇语识别技术可以帮助公安人员获取重要的讲话信息,为公共安全提供有效支持。
  • 在公益事业领域,唇语识别技术还能发挥巨大价值,帮助先天性听障人群或老年人,让他们更好地理解和表达自己。

时至今日,人工智能的发展速度已经完全超出了我们的想象,那些电影里的炫酷黑科技正在一步步成为现实出现在我们的生活中。随着AI技术的发展,相信在不远的将来,唇语识别也能像语音识别、图像识别一样成为我们生活中随处可见的一部分。(本文首发钛媒体,作者/张叶)

本文系作者 张叶 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

快报

更多

18:46

中国诚通旗下诚旸投资今日增持多只中国诚通央国企ETF

18:44

大商所:国庆节假期调整部分期货合约涨跌停板幅度和交易保证金水平

18:38

广东警方打掉127个利用苹果FaceTime实施诈骗的团伙

18:37

贵州茅台:积极探索海外市场路径,不断扩大海外消费群体

18:29

药明康德:受托人完成2024年H股奖励信托计划基本授予条件项下10亿港元H股股票购买

18:29

北京移植“人工心脏”纳入医保,四家医院可报销

18:28

鸿蒙智行首款轿跑SUV智界R7上市,售价25.98万起

18:25

欧洲央行管委穆勒:10月降息并未被“完全”排除

18:24

长三角低空载客新航线试飞:上海浦东至金山仅需20分钟,票价1400元起

18:23

曲江文旅:控股股东所持部分股份司法处置终止

18:17

人福医药:控股股东被债权人申请重整

18:16

2025年湖南省绿色智能计算产业规模预计将突破1万亿元

18:16

人社部:目前全国农民工约3亿人,外出务工农民工1.9亿人

18:15

美检方拟以更重罪名起诉行刺特朗普嫌疑人

18:14

美赞臣在无锡成立健康研究公司,注册资本3亿

18:12

郑商所:国庆节期间调整部分期货合约交易保证金标准和涨跌停板幅度

18:10

荷兰部长访美时强调:“中国是重要贸易伙伴”

18:06

农银金租总裁姜栋林将出任西南证券董事长

18:05

海关总署党委委员、副署长孙玉宁接受审查调查

18:02

上海发布汽车、钢铁、电子信息等工业领域百亿设备更新需求清单

扫描下载App

Baidu
map