博鱼官方网页版-博鱼(中国)




  1. 咨询热线:021-80392549

    博鱼官方网页版-博鱼(中国) QQ在(zài)线(xiàn) 博鱼官方网页版-博鱼(中国) 企业微信
    博鱼官方网页版-博鱼(中国)
    博鱼官方网页版-博鱼(中国) 资讯 > 人(rén)工智(zhì)能 > 正(zhèng)文

    嘘!AI正在悄悄听(tīng)懂你说(shuō)的话

    2019/02/12机器人462

    小时候看特务(wù)电影时,特工们往往有一项必备的技(jì)能(néng),就是隔(gé)着几百米远盯着正在说话的对象,从嘴型判断(duàn)出对(duì)方在说什么。有(yǒu)了这种记忆,导致如今看什么语音识别技术都觉(jiào)得相当一般——我都说出声(shēng)儿了你才听懂(dǒng),算(suàn)什么(me)AI好汉。

    不过最近一(yī)项专利申请表明,微(wēi)软正在向特工学习,推出了无声(shēng)语(yǔ)音识别技术。当AI也能像特工一样,无(wú)声之中辩人言,我(wǒ)们的世(shì)界究竟会有什么不同?

    除去唇语识别,AI还(hái)有(yǒu)什么方式悄悄听懂(dǒng)你(nǐ)的话?

    说起无(wú)声语音(yīn)识别,可能(néng)很多人(rén)第一反(fǎn)应就是复制人类(lèi)的方式,利用图像识别进行辩读唇语(yǔ)。而利用唇(chún)语进行语音识别这种(zhǒng)方式也由来已久,但是识别(bié)的准确率一直不算高。DeepMind曾在2016年做(zuò)过测试,经过1万小时的新(xīn)闻视频(pín)训(xùn)练,AI唇(chún)语准确率达到了46.8%。国内有一家(jiā)企业(yè)曾经提供(gòng)过相关数据(jù):在对(duì)中文新闻视频(pín)的识别(bié)中,准确率(lǜ)达到(dào)了70%。而搜狗所推出的驾驶场(chǎng)景下的(de)唇语识别,因为涉及到的(de)词汇量很少,准确(què)率能(néng)够(gòu)达(dá)到90%。

    可以发(fā)现,相比现在主流语音(yīn)识(shí)别动辄95%、97%的(de)准(zhǔn)确率,唇语识(shí)别准确程度实(shí)在是有(yǒu)些(xiē)拿不上台面。对于中文这种一字一音节的语(yǔ)言来说还好(hǎo),对于英(yīng)文这种连音(yīn)很多(duō)的语言来说(shuō),唇语识(shí)别(bié)要跨越的门槛确实不小(xiǎo)。

    另一方(fāng)面来看,唇语(yǔ)识别所(suǒ)涉及(jí)到伦理问题(tí)实在过于严重。唇语识别(bié)的“射程”太远,如(rú)果这种技术真的发(fā)展(zhǎn)成熟,意味(wèi)着天网之下的(de)我们(men)在交谈时将再无(wú)隐(yǐn)私。在隐私焦虑越来越浓(nóng)的今天,哪(nǎ)家企业(yè)公开研究(jiū)这项技术,只怕是(shì)觉得自己家的公关部门(mén)过得(dé)太清闲。

    因此包括微软在内的产业(yè)和学(xué)界,都在寻找一种更精准(zhǔn)也更隐私的无声语言识别。目前看来,无声语音识(shí)别的技术方向(xiàng)可以被分为两(liǎng)个“派系”,一是(shì)“气宗(zōng)”,另一个是(shì)“电宗”。

    微软所(suǒ)提交(jiāo)的专利,就是(shì)典型的“气宗”——在终端上添加传感器,通过感知用户说话(huà)时的气流(liú)来判断用户说话的内容。这种终(zhōng)端如同一(yī)只小型麦克(kè)风(fēng),置于用户嘴边,用户(hù)在说话时形成的气(qì)流会在设(shè)备中形成反射,经过训练,可(kě)以将这些气流(liú)反射(shè)的信(xìn)号和文(wén)字一(yī)一(yī)对应。

    而“电(diàn)宗(zōng)”则更加神奇,我们知道人在说话时需要调动(dòng)整(zhěng)个(gè)下半张脸的肌(jī)肉,不同的文字发音所调动肌肉(ròu)的方(fāng)式也并不(bú)相同(tóng)。通过对面部EMG(肌电)信号的采(cǎi)集,来学习人类说(shuō)话时面部EMG信号特征,并(bìng)通过神经(jīng)网络的训(xùn)练(liàn)将(jiāng)EMG信号和文字对(duì)应起(qǐ)来(lái)。

    可以看出(chū)这两种无声语音(yīn)识别(bié)都(dōu)有一(yī)个共同的特点,那就是自(zì)主性和(hé)私密(mì)性。不管是EMG信(xìn)号采集还是气(qì)流采集,都需要在(zài)讲话者身(shēn)上佩戴(dài)好设备,而不(bú)是(shì)像(xiàng)图像技(jì)术一样(yàng),能(néng)够在远程且讲话者(zhě)不知情的情(qíng)况(kuàng)下进行采集分析。

    无声语音识别变成真(zhēn)·气(qì)功?

    不论是气宗还是电宗,这些无声语音识别技(jì)术都面临着同样的问(wèn)题——既(jì)然(rán)要用户把(bǎ)话说出来才能进行识别,那(nà)为什么(me)不直接应用语音识(shí)别来进行文字(zì)转换和翻译,非要弄一些和“气功(gōng)”一样没有切实应(yīng)用场景的(de)花招?

    其实无声语音识别(bié)的(de)应用,可(kě)能不(bú)像大家(jiā)想象(xiàng)的那样广泛,它(tā)既不能以最高效的方(fāng)式(shì)帮助听障人士,也不允许被(bèi)应用于(yú)监听等等工(gōng)作。但(dàn)在一些关(guān)键场合下,无声语音识别却可以发挥出奇用。

    我们可以一起开动脑(nǎo)筋,想想在哪里人们(men)需要说话,但却听不到彼此的声(shēng)音。答(dá)案(àn)很简(jiǎn)单,要么是在(zài)声音无法传(chuán)播的地方,要(yào)么(me)是在一(yī)些特别嘈杂的地方。于是无(wú)声(shēng)语音识别就有了如(rú)下的应用场景:灾害现(xiàn)场(chǎng)、舱外探索、水下作业……

    在这类场所中,人们或许为了躲(duǒ)避被污染的空气(qì)、或许为了呼吸氧气(qì),都(dōu)会穿上类似生化服、宇航员服等等特殊服装。穿(chuān)上(shàng)之后既看不到对方的表情,也听不(bú)到对(duì)方的声音,更(gèng)没(méi)办法用语音交(jiāo)互去控制其他(tā)设备了。同(tóng)时(shí)环境(jìng)情况(例如氧气不够充足(zú))往往(wǎng)不允许人们以正常的声音说(shuō)话(huà),加上防护服(fú)的封闭状(zhuàng)况会引起声音的回响,以往的有(yǒu)声语(yǔ)音识别在这种情况下很(hěn)难发挥作用(yòng)。

    这时可以被安置在(zài)防护服内(nèi)部的无(wú)声语(yǔ)音识别(bié)就显(xiǎn)得(dé)很有(yǒu)价(jià)值,讲话者只(zhī)需(xū)要做出口型就(jiù)能向外界传(chuán)递(dì)信息。

    除此之外(wài)还有嘈杂的马路、工厂(chǎng)车间、机场(chǎng)……

    在这些场所(suǒ)中,想要(yào)让对方听清自己的(de)声(shēng)音,往往需要扯着嗓子吼。想让语音识别(bié)准确拾音(yīn),更是难上加难。这时利(lì)用无声语音识别就会轻(qīng)松很(hěn)多,不仅可以准确(què)表(biǎo)达(dá)信息,也能让一些处于这种(zhǒng)场合的工作(zuò)人(rén)员戴上隔音耳塞(sāi)保护自己的听(tīng)力。

    实际上目前在欧洲一些型号的战斗机中,就因为机(jī)舱内噪音巨(jù)大、飞行员之间无法沟通,已经应用上了EMG信号无声语音识别技术(shù)。

    当然,目前相(xiàng)比语音识别(bié)技术、甚(shèn)至相比唇语语音识别,无声语(yǔ)音识(shí)别技术的发展(zhǎn)阶段还很初级,应用效率也不高。

    实际(jì)上(shàng)无声语音识别(bié)是(shì)一(yī)项典型(xíng)的“美好而无用”的AI技(jì)术,它(tā)既完美体现了(le)一系列技术(shù)的排列组合,例如EMG信号无(wú)声语音识别(bié)所体现(xiàn)出(chū)的AI与神经学的结合;又在应用上(shàng)极大程度的受限,即使在(zài)一些声音(yīn)难以传播的场景下,也要考虑计算条件、识别语音(yīn)后信息再传(chuán)递的媒介,更(gèng)不用提复(fù)杂的数据收集(jí)工作了。

    但我们有理由相(xiàng)信,在未(wèi)来AI技术越来越(yuè)普及化、应用成本越来越低时(shí),总(zǒng)会出现(xiàn)一些极端场景应用上这(zhè)些看似无用的技术——也许未(wèi)来(lái)有一天,战斗机的(de)控制(zhì)也要应用上语音交互呢?

    关键(jiàn)词: 人工智能(néng) 机器人(rén)




    AI人工智能网声(shēng)明(míng):

    凡资讯来(lái)源注明为其他媒(méi)体来源的(de)信(xìn)息(xī),均为转载自其他媒体,并不代表本(běn)网站赞(zàn)同其观点,也不(bú)代(dài)表本网(wǎng)站对其真实性负(fù)责(zé)。您若对该文(wén)章内(nèi)容有(yǒu)任何疑问或质疑,请立即与(yǔ)网站(www.baise.shiyan.bynr.xinxiang.zz.pingliang.ww38.viennacitytours.com)联系,本网站将(jiāng)迅速(sù)给您回应并做处理。


    联系电话:021-31666777   新闻、技术文章投稿QQ:3267146135   投(tóu)稿邮箱:syy@gongboshi.com

    工博士人工智能网
    博鱼官方网页版-博鱼(中国)
    扫描二维码(mǎ)关注微信
    扫码(mǎ)反馈(kuì)

    扫一扫,反馈当(dāng)前页面

    咨询反馈
    扫码关注

    微信公众号

    返回顶部

    博鱼官方网页版-博鱼(中国)

    博鱼官方网页版-博鱼(中国)