投影机 频道

用指纹识别辟物理入口类Siri们情何以堪

  【IT168 资讯】iPhone4S上市时,用Siri功能打开语音入口的做法,让国内不少的厂商着实兴奋了一把。从传统的语音厂商,例如科大讯飞、云知声……到实力雄厚的搜索巨头百度、搜狗,似乎所有能与智能语音扯上关系、甚至扯不上什么关系的,大家都在行动。

  两年过去了,除了从一开始就抱定B2B2C模式的小i机器人企业估值翻了数倍外,其它的该退退,该淡淡,该回归原有业务回归原有业务……回头看这场狂欢,且不说两年时间空耗了多少资源,也许,根本的问题是这些企业从一开始就没弄明白自己在干的是个什么事儿。

  说是类Siri,其实是类Nuance

  Siri功能其实就是一个智能语音助手,简单的说就是以语音为载体的一种智能人机交互形式。它主要通过两方面的技术来实现。一是语音技术,一是智能人机交互,后者也就是我们平时说的智能机器人。如果用更直观点儿的话说,前者听声音,后者辨意思。

  目前在国际上,语音技术已经比较成熟,代表企业正是被苹果Siri技术整合的全球最大、也是技术最领先的语音厂商Nuance,该公司占据全球该领域80%的市场份额。国内的企业像科大讯飞、云知声、中科信利等均可提供中文语音系统,另外百度、搜狗等也都有涉足。

  而被苹果收购之前的Siri公司做的则是智能人机交互技术,这也是智能语音技术的核心部分。2010年,苹果收购该公司后,用Siri来指代智语音技术,其实是用的“以部分代整体”方法,但却给了所有人一种错觉,从媒体到大众,大家习惯于称呼这些语音厂商为“类Siri”,其实,称之为“类Nuance”才准确。而如果要说“类Siri”,国内只有一家,就是现在还在跟苹果就Siri技术打着专利官司的小i机器人。

  再辨“音”与“义”

  “听声音”的语音技术系统由两部分组成:声音模型和语言模型。

  声音模型:除了要有一个比较好的声音训练模型,还需要用大量标注好的声音语料来训练。由于是基于云端的统一系统,所以要能覆盖到不同的人声。比如:针对中文普通话的训练,就要考虑不同性别、不同年龄层次、以及不同地方口音的声音。这方面要想做好,需要长期、专注的投入。

  语言模型,这个需要大量的语言语料来训练,才能把经声音模型处理得到的声音符号转换成需要的文字。

  在国际上语音技术就是Nuance的天下,它的技术和模型都是最好的。国内做的最好的是科大讯飞。但因为语音技术有着极强的地域特点,因此,Nuance之前在中文语音识别的声音模型和语言模型上的训练不足,他们通过和小i机器人合作,来逐步解决这一问题。

  语义技术是智能机器人的核心技术,主要包括自然语言处理技术、本体理论和语义网络等多种技术,但光有这些技术也还是不够的,还需要配合知识管理、智能推理、短期和长期记忆以及数据挖掘等多种技术,以及大量的知识填充和海量语料进行训练,才能让整个系统智能的运转起来。时间是智能机器人的最大壁垒,因为跟人一样,不管是它的理解能力(上下文关联、场景管理、个性化推理等),还是它的知识储备(数据库完善)都是需要长久的积累。

  如果缺乏智能交互部分技术支持,机器能听懂的就只能是一些指令性的语言,看起来更像是关键词的搜素,而这样的语音交互是绝对称不上“智能”的。但是,在日常我们见到的大多的语音助手恰恰正是这种。

  如某些业内人所言:Siri都没戏,何况类Siri?其实,从目前的技术来看,我们离设想中的“变形金刚”一样的机器人确实还有很远的距离。国际上行业内的共识为:智能机器人的发展特点是从单一领域逐步向跨领域综合服务扩展,而海量领域的综合最终形成通用机器人,而这才是科幻片中那些无所不能的智能机器人。整个行业,看起来很美,做起来很难。

  正如之前网上流传的很广的一个段子:同样是个B,向北走就是NB,向南走就是SB,人生要找对方向。企业更是如此,如果说两年前的跟风还情有可原,那么到了今天如果还认不清方向,那么就只剩可悲、可叹了。

  那么苹果指纹识别了,还有人跟风吗?

0
相关文章