下书看 > 落宝金钱之人工智能 > 第78章 锥处囊中

落宝金钱之人工智能 第78章 锥处囊中

    史蒂芬在房间和家娃一起调试写出来的雷电浏览器。

    亨利和女儿在客厅吵嘴。

    “你告诉怀特,那晚我们在蓝猫小舍了?”

    夏洛特觉得老爹又想借题发挥:

    “是的,但这又没什么。”

    亨利痛苦咆哮:“天呐!

    “夏洛特,你不能再见他了,明白吗!”

    “为什么?”

    亨利大叫:“因为你的话,他现在觉得我杀了他爸!

    “你没觉得有什么问题吗?我觉得问题大了!”

    夏洛特冷不丁:“除非真是你干的。”

    亨利捂住胸口:“夏洛特,你觉得,我能做出那样的事来吗?”

    夏洛特:“你不能阻止我见别人!”

    “我可以!如果有必要,我可以把你送去非洲的寄宿学校,不要逼我!”

    夏洛特根本不怕亨利,嗤笑一声:

    “你很喜欢打受害者的苦情牌,是吧?!”

    亨利很懵:“抱歉,‘受害者的苦情牌’?”

    夏洛特:“作为一家之主,你总是不断重复‘我好惨啊’,这样的老调重弹!”

    亨利痛苦:“就因为我不喜欢你吸嗨后的口不择言吗?

    “我所谓的女儿,要像敌人一样对待我吗?”

    夏洛特正想无情戳穿他中年人的装模作样,突然看到史蒂芬的卧室门,啪哒一声打开,连忙闭嘴。

    秀才遇到兵,耍嘴皮子的最怕动手揍人的。

    史蒂芬戴着耳塞,从冰箱里拿出牛奶,自顾自返回卧室,才不管叛逆期的小妹和中年危机的老爹。

    ——

    谷歌大厦。

    语音识别部。

    虽早已过下班时间,但办公室里依然灯火通明。

    “…使用了非常先进的语音识别技术,几乎将人机对话这一设想变成现实!

    “瞧,在断网状态下,它都能借助机器的识别和理解,将人类的语音信号转换成对应文本。

    “…前端的信号处理、中间的语音、语义识别和对话管理,以及后期的语音合成…简直是艺术品!”

    谷歌的两位工程师测试着维斯顿语音输入法,脸上露出朝圣般的崇拜,还有幻想中的技术被人实现的惊讶。

    “我已经喊老大过来了,咱们继续测试!

    “从小词汇量到大词汇量,再到超大词汇量;

    “从限定语境到弹性语境,再到任意语境;

    “从安静环境到近场环境,再到远场嘈杂环境;

    “从朗读环境到口语环境,再到任意对话环境;

    “从单语种到多语种,再到多…

    “哇喔!断网时,表现优秀;联网时,堪称完美!”

    谷歌语音识别部门的老大,首席工程师威尔,带着一群技术人员围过来。

    众人对两人所说的测试结果难以置信。

    “我们的语音输入法,还处于对每个建模单元的统计概率模型进行描述阶段,哪里冒出来的小公司,meta?已经推出如此成熟的产品了!”

    威尔手心全是汗,花了公司几千万,没开发出最先进的产品,终会有人担责。

    “是和我们一样,采用高斯混合模型(Gmm),用海量数据训练出来的吗?”

    威尔抿着嘴唇,盯着手下操作,“应该不是Gmm,那本质上是一种浅层网络建模,对特征的状态空间分布不能充分描述…特征维度一般也就几十维,对特征之间的相关性也不能进行充分描述…”

    在周杰前世,直到2011年,微软公司基于深度神经网络,才在语音识别系统研究方面取得阶段性的成果。

    由家娃变异进化后优化出来的维斯顿,已远超微软那时的技术。

    此世此时,巨头们在语音识别方面,还处于实验阶段。

    而维斯顿语音输入法,在语音的前端处理涵盖的几个模块,已极度优秀。

    说话人声检测模块,可以有效地检测说话人声开始和结束的时刻,并区分说话人声与背景声。

    回声消除模块,让音箱播放音乐时,消除来自扬声器的音乐干扰,不暂停音乐而进行有效的语音识别。

    唤醒词识别模块,是人类与机器交流的触发方式,就像日常生活中需要与其他人说话时,你会先喊一下那个人的名字。

    麦克风阵列处理模块,对声源进行定位,增强说话人方向的信号,同时抑制其他方向的噪声信号。

    语音增强模块,进一步增强说话人的语音,有效抑制环境噪声,降低远场语音的衰减。

    威尔紧张到嘴里碎碎念:

    “平时自命不凡,但我们在技术方面已完全落伍!

    “这是手机软件,手持设备使用,属于近场环境,语音识别已属完美。

    “厉害的是,维斯顿好像真有智慧一般,具有智能。联网安装到车载、智能家居等设备时,这款手机软件,竟然能自动优化匹配设备!

    “一般语音识别系统,在车载、智能家居等远场环境中,声音传达到麦克风时会衰减得非常厉害,导致一些在近场环境中不值一提的问题被显着放大。

    “需要前端处理技术能够克服噪声、混响、回声等问题,实现远场拾音…我们的技术做不到。

    “但维斯顿轻易做到了!在远场环境下,几次训练数据,就能对模型进行持续优化,提升远场拾音的效果!

    “这是神级产品!我们必须要联系上开发者!”

    最先发现维斯顿厉害的工程师汤姆耸耸肩:“没有任何联系方式!

    “…我和杰瑞认为,维斯顿是通过深度神经网络,采用高维特征训练来模拟,大幅提升了语音识别系统的识别率…

    “实际解码过程中,仍采用传统的隐马尔可夫模型(hmm)、传统的统计语言模型和传统的动态加权有限状态转换机(wFSt)解码器…

    “但在声学模型的输出分布计算时,完全用神经网络的输出后验概率,乘以一个先验概率来代替传统hmm中的Gmm的输出似然概率。

    “这样的语音识别系统的误识别率,与Gmm语音识别系统的误识别率相比,下降了至少25%!

    “我们部门正在研究的语音输入法完了!”

    语音识别的过程需要经历特征提取、模型自适应、声学模型、语言模型、动态解码等多个过程。

    谷歌秘密成立的语音识别部门,在各个环节对维斯顿进行了测试。

    自己设想中的产品完败,更别提产品都还没做出来。

    杰瑞话比较少,直奔主题:“而且,在联网状态下,完美解决了‘鸡尾酒会问题’!”

    “鸡尾酒会问题”显示的是人类的一种听觉能力。

    能在多人场景的语音、噪声混合中,追踪并识别至少一个声音,即便在嘈杂环境下也不会影响正常交流。

    在鸡尾酒会上与朋友交谈时,即使周围环境非常嘈杂,其音量甚至超过了朋友的声音,我们也能清晰地听到朋友说的内容。

    若此时,人们的听觉器官突然受到某个刺激,如远处突然有人喊了自己的名字,或者在非母语环境下突然听到母语,即使声音出现在远处、音量很小,我们的耳朵也能立刻捕捉到。

    机器缺乏这种能力。

    汤姆点头:“我们的产品即使做出来,通过大量数据训练,有信心在识别一个人所讲的内容时,能够体现出较高的精度。

    “但,当说话人数为两人或两人以上时,识别精度就会大打折扣。

    “在给定多人混合语音信号的情况下,从中分离出特定说话人的信号和其他噪声,我们基本能做到。

    “一旦需要同时分离出说话的每个人的独立语音信号…我们,无能为力。”

    汤姆语气沮丧:“在我们的设想中,即使再多训练数据的积累和训练过程的打磨,也没幻想过能基本解决‘鸡尾酒会问题’!”

    威尔眼神阴鸷:“这款产品我们必须拿下!

    “语音搜索、语音翻译、机器朗读、语音导航、语音拍照、语音拨号、语音唤醒、智能语音操控…语音识别技术大有用武之地!

    “更何况,维斯顿能真正做到像正常人类一样与其他人流畅沟通、自由交流!

    “诸位,仔细想想,语音识别的优势和价值一旦被挖掘、发挥出来,必将对即时通信、购物和搜索等垂直应用产生的巨大影响。

    “其中的市场,蕴含多大的利益!”

    都是业内人士,知道老大的意思,众人眼神对视后默默点头。

    前世,苹果公司的ioS手机有Siri,谷歌公司的Android手机有Google Now,微软公司的windows手机有a等。

    智能语音控制成为进入移动互联网的钥匙,人机语音交互越来越频繁。

    老年人视力下降、动作不灵活,低龄儿童一时还不具备手写能力,失明人士无法通过视觉识别事物…

    他们都可以通过语音交互给生活带来方便。

    以谷歌的实力,语音识别秘密部门聘请的人,自然都是优中选优的高手。

    很快,威尔就得到反编译的源代码。

    ##

    #

    多更一章,谢谢书友

    “虚无湮灭”

    “冷漠玫瑰plus”

    “端木黯然”

    书友

    书友

    众位大大的推荐票!

    感谢“虚无湮灭”大大的评论!