在钛媒体在线课“钛坦白”第47期,我们邀请了三位钛客分享对于人机交互方式中的语音交互的看法。本期钛客之一、奇点机智联合创始人兼CTO林德康,是国际计算语言学学会会士(ACL Fellow),前Google研究院高级管理科学家(senior staff research scientist),在加入Google之前担任加拿大阿尔伯塔大学计算机教授。他在自然语言处理及理解领域总共发表过90余篇论文,其研究总计被引用超过14000次,对自然语言解析和词汇语义做出重要贡献。
本文节选自林德康在钛坦白的分享。如果您还不是钛媒体Pro用户,希望查看钛坦白所有干货,进入钛坦白九个专业群交流,并查看更丰富的专业数据和信息,可点击://www.erschrecken.com/pro 注册。
以下根据林德康在钛坦白的分享实录整理:
大家好,很高兴和大家聊聊语音交互这个话题,我们公司正在做一个专为Android生态所打造的应用助手,用户通过语音的方式即可操控手机应用中的各项功能,因此正好有一些心得经验可以和大家分享。
语音助手将成为下一代搜索的核心
2016年是人工智能元年,智能语音技术作为人工智能应用最成熟的技术之一,在智能助手、智能家居、智能车载、智能可穿戴领域有了迅猛发展。
据权威数据显示,2016 年全球智能语音市场规模达 82.2亿美元,同比增长 32.4%。中国智能语音产业市场规模也逐步扩大,2016年59.2 亿元产业规模,同比增长47.1%,预计2017年产业规模将突破100亿,同比增长69.8%,且增速显著高于全球市场,约占全球市场份额14%。
人工智能也已被看作未来手机发展的重要方向之一,从苹果iPhone的 Siri 到微软Windows phone的Cortana,从谷歌Pixel的 Google Assistant到三星S8的 Bixby,从华为Mate 9内置的Alexa到HTC U11的DuerOS,现在几乎每一款旗舰智能手机,都内置了一位“虚拟助手”。
在深度学习出现以后,语音识别从几乎每一句都有错误到现在接近人类的水平,可以说有非常大的进步。语音助手也不再只是机械式地与用户互动,而是能够智能化的分析和感知用户思想。现在的语音交互,与其他交互方式相比,具有三个优势:
一是语音交互的速度快。斯坦福有一项研究表明,语音输入的速度是键盘输入的三倍。
二是语音界面是扁平化的。任何一个功能都可以依据指令直接到达。比如微信里的功能通常需要几个甚至十几个点击才能完成,而用语音说一句就行了。
三是不需要学习。通常每个应用都是经过学习以后才会使用,但使用语音就可以省略学习的过程。
据市场研究公司Fivesight调查,约有72%的美国用户已将语音助手作为对搜索引擎的补充,Siri已成为仅次谷歌之后的第二大移动“搜索引擎”。市场推动下,智能语音助手将成为下一代搜索的核心,以及新生态的核心。
语音交互+图形界面是最好的组合
语音交互过程通常由三部分构成:第一步,把声音转成文字(语音识别);第二步,把文字转换成意图;第三步,把意图变成可以执行的命令,调用各应用API或网页来完成指令。也就是说,第三步舍弃了你手机里的APP和其原有界面,直接在语音助手上集成功能,如打车、外卖等。
那么,对于一个语音助手开发者来说,前两步,比的是AI团队多强大,第三步,比的是你的BD团队多强大。
现在的手机助手一般是用一个聊天界面跟后台服务对接,谷歌的手机助手就集成了谷歌里的问答、导航、本地搜索等多种服务。这个提供问答功能的系统就是我在谷歌的团队做的网页问答系统,你还可以问它天气情况,它显示的是华氏度,如果你问摄氏度是多少,它就会把同样的答案用摄氏度回答出来。
但“对话框+后台服务“也有不尽人意的地方,比如连接后台服务是一个相当复杂的过程, 通常需要工程师去完成。还有在对话框里重现用户体验不是一件容易的事情。还经常做得不如原生应用好。再者语音助手和后台服务的经济利益可能会有冲突。比如航班搜索,它只列出了航班和价格,但是如果需要下单就不在应用助手页面里了。
在从前,命令行界面是很常见的界面,但现在的年轻人也许根本就没见过,微软DOS操作系统的命令行界面,因为只能在一行里输入,所以我称它是“一维”的,我们熟悉的图形界面是“二维”的,而对话框界面退了半步是“1.5维”。
图形界面具有很多的优点,比如语音输入的速度比敲键盘要快得多,但是视觉能够收到的信息要比听到的信息快得多,所以最好的组合是把语音和图形界面结合起来,在图形界面上增加了一层语音交互,原有的图形交互不仅可以继续使用,在应用里的任何地方还可以用语音交互,这样,就形成了一个立体“三维”界面。
语音助手“小不点”如何实现自主学习功能?
小不点与常见的手机助手有两点主要的不同:
一是小不点不会将用户局限在语音助手的对话框里。而 Siri、Google Assistant 等常见的语音助手,都是以应用程序界面的形式出现,即用户与助手的交互锁定在同一个对话框内。
这涉及到用户体验重构的问题。例如,当你在携程 APP 上购买机票时,可以按照时间、价格等因素排序,也可以筛选只考虑某一航空公司的飞机。但想要在语音助手的对话框内实现这些功能非常困难,然而这些功能又恰好是用户的需求所在。小不点的操作模式是直接将用户带入 APP 页面,自然利用 APP 已经实现的功能模块,不需要再对应用程序进行重构。
二是小不点代替用户手指点击界面,这绕开了语音助手对接应用程序 API 接口时所遇到的商务拓展难题。与 Deepsahre 一样,语音助手也普遍需要一家一家地谈合作伙伴。实际上,用户用得越多的应用,越不愿意给你开 API 。因为它不需要你的流量,而且它也不知道开了 API 之后会有什么其他的影响。小不点绕开了 API 的限制,想要小不点“学会”使用某个 APP ,研发人员只需录制这个 APP 相关功能使用时的点击路径即可。
目前,小不点已经“学会”一百多个 APP 的使用方法,而这其中只有百度地图等少数几个应用程序开放了允许第三方调用的 API 接口。有 API 可以调用的时候,我们当然会用,因为 API 的响应速度很快。比如百度提供了导航的API,我们就不必用模拟点击来完成导航任务,而是直接调用API达到结果。
一旦遇到小不点目前还没有实现的APP操作,其中的智能学习功能则可以发挥作用。当用户激活学习功能后,只需按照平时的步骤操作,小不点会自动记录,用户日后再次下达指令后,自动完成所有操作和跳转。目前,安卓应用商店有约 280 万个应用,团队无法靠蛮力记录所有应用程序的所有操作路径。因此,小不点自带的“学习”功能,此时就派上了用场。
比如我想查手机上的流量,小不点帮我做的是在百度上搜索“查流量”,但“小不点”的好处是用户可以教它从前不会做或做错的事情,例如先教它查询流量的过程,再对它说“查询流量”就可以达到我的目的了。用户教给小不点的命令马上就可以使用,甚至可以分享给别人。我想很多人都体验过给父母做技术支持是一件相当不容易的事情,如果很多人教给小不点同一个命令,我们就会把它加到公共库里,这样所有人都可以使用,小不点就会越用越好用,越用越懂你。
教“小不点”查看流量
关于“小不点”录制过程的探讨
群友A:刚才您教小不点查流量时,“小不点”很快就学会了,速度很快,能稍微详细一点儿介绍一下它的学习机制/原理吗?
林德康:“小不点”是用程序点击, 所以比人点得快得多。在录制模式里,用户每一个点击都被我们记下来,然后根据用户说的语句进行推广。这样的话,假如你录了“打车去西直门”,以后再说“打车去国贸”小不点也会做。
群友A:要从用户的输入里提炼出一个核心的命令词进行推广吗?比如 “打车去西直门”里的“打车”?
林德康:大多数时候,这事不难。如果用户说了“西直门”,又把“西直门”填在一个搜索框里,这多半就是参数。泛化需要词向量,查流量的例子其实不需要参数,所以只要记住用户语句和操作序列的对应就好了。
群友:以后它会操作"打车去国贸" 是根据"国贸"跟"西直门"在词库里是相近词来判断的吗?需不需要也识别"打车"这个动词呢?
林德康:“国贸”和“西直门”是同一类东西,可以通过无监督学习的办法得到,它们的词向量会很像。“打车”是需要识别的。
群友B:大部分的命令都需要用户先录吗?
林德康:我们需要“小不点”先能完成很多命令,这样才会有人用。希望以后的大部分命令是用户录制的。
群友B:很多日常用的命令不是很有重复性,花很多时间录制,只用一次两次。用户是否愿意去一个个命令去录呢?
林德康:应该只有少部分用户录制命令就可以了,因为一旦录下来,所有人都有可能用到。
群友B:因为是程序,比人手点击快得多,会按人录入的完整点击操作吗?是不是有多余步骤?多占了存储?
林德康:其他应用使用小不点会占些存储,但是点击本身并不需要多占存储。
(本文独家首发钛媒体,根据ACL会士、奇点机智联合创始人林德康在钛坦白上的分享整理)
……………………………………………………
根据《网络安全法》实名制要求,请绑定手机号后发表评论
不过还有很多难关需要克服,但随着技术的发展,像咪咕灵犀,siri这样的,未来说不定能改变我们的生活方式。