人工(gōng)智能(néng)让(ràng)手机语音输入法快(kuài)速增长(zhǎng)
大家都知道,在每个(gè)人每天(tiān)高频使(shǐ)用的手(shǒu)机(jī)应用清单中,有一个(gè)低调而重要的存在:手(shǒu)机输(shū)入法。赛诺不久前发布(bù)的《2018上半年中国手机输入法(fǎ)分析报告》显示:2018年手机输入法市场规模将突破(pò)9.8亿,环比增(zēng)长22.5%,其中活跃(yuè)用户占比超过54%,用户(hù)规(guī)模(mó)和数量都保(bǎo)持持续增长(zhǎng)。
这并不难理解,输入法是目前人机交(jiāo)互最重要的入口之一。而经(jīng)过二(èr)十余年发展,手机输入(rù)法在“文字键入(rù)”这(zhè)条单一(yī)路(lù)径上(shàng),已几乎(hū)抵达(dá)技术演化的尽头——颇为欣喜的是,如今,在(zài)智能语(yǔ)音等AI技术的加持(chí)下,手机输入法这个最接地气的入(rù)口,正在摆脱(tuō)文字键入(rù)的单一束缚(fù),开拓新的发展路(lù)径,甚至在一定(dìng)程度上担当着新(xīn)技术“桥头堡”的使(shǐ)命。
譬如百度(dù)8月1日(rì)公布(bù)的2018年(nián)第二(èr)季度未经审(shěn)计的财务报(bào)告显(xiǎn)示,百(bǎi)度营(yíng)收260亿元人民币(bì)(约合39.3亿美元),同(tóng)比增长32%,净(jìng)利润64亿(yì)元(约合9.67亿(yì)美元(yuán)),同比增长(zhǎng)45%。其中AI对(duì)百(bǎi)度(dù)业(yè)务的驱动(dòng)力显著,除了DuerOS和Apollo,百度AI也为百度APP、信(xìn)息流、手(shǒu)机(jī)输入法等(děng)移动端业务带来了高效(xiào)增长,李彦宏(hóng)表示,百度(dù)输入(rù)法语音输入请求量短短一(yī)年(nián)时间内成长到日均(jun1)3.35亿次。相(xiàng)比于(yú)去(qù)年3月百度AI技(jì)术平台体系(xì)(AIG)成立(lì)时,日均语音请求量增长5倍(bèi)。在我(wǒ)看(kàn)来,这种迅猛上扬,一(yī)方面受益于百度语音识别自身体验(yàn)的(de)日趋(qū)完(wán)善(shàn);另一方(fāng)面则(zé)受益于(yú)语音输入已渡(dù)过市(shì)场教(jiāo)育(yù)阶段,正在处于(yú)大规模爆发的风口。
而通过百度输入法的不断迭代(dài)可以发现(xiàn),作(zuò)为一款具备入口意义(yì)的应用,手机输入法早已不再(zài)是一(yī)个简单的(de)“插件(jiàn)”,而是(shì)AI时代(dài)一款(kuǎn)需要不断打磨用户体(tǐ)验的服务型产品。
效(xiào)率至上
如你所知,在最(zuì)新一版百度输(shū)入法中,除了支持(chí)拼音、笔(bǐ)画、五笔、手写和智能英(yīng)文等基(jī)础功(gōng)能,最关(guān)键的技术跃迁,是智能语音输入和AR表情两大全新功能的(de)上线,这极大丰富了(le)用户(hù)的输入体验。
先说(shuō)语音。
从诺基亚到iphoness,从功能机(jī)到智能机,整个移动时(shí)代,就(jiù)是一部人机交互难度不断下降,交互方(fāng)式不断丰富的历史。而诚如“互联网女皇”米克(kè)尔所言(yán):在最近数十(shí)年(nián),人机交互每隔十(shí)年就会发生一次重(chóng)大创新,语音则是当下最高效的输入方式。
在如今所有语音场景之(zhī)中,大多数人最先接触到的,就(jiù)是手机输入法的语音输入功能。相较于手写和(hé)拼音等传统方式(shì),语音输入效率更高,交互方式更自(zì)然,无论是主(zhǔ)动(dòng)的技术(shù)尝(cháng)鲜(xiān)者,还是快(kuài)节奏生活下(xià)的被(bèi)动选(xuǎn)择,这种巨大的(de)便(biàn)捷性(xìng),都让输入(rù)法从文字向语音的大规模迁徙(至少在不方便打(dǎ)字的(de)情景下),成为不可逆(nì)的演化(huà)趋势。
数据也证明这一(yī)点:《2018上半年中国手机输入法分析报(bào)告》就显示,在输(shū)入方(fāng)式选择上(shàng),语音(yīn)输入(rù)占比已提升至41%,用户习惯日(rì)趋养(yǎng)成;此外(wài),更像(xiàng)是某种(zhǒng)交叉印证,最近(jìn)搜狗发(fā)布(bù)的第二季(jì)度(dù)财(cái)报(bào)显示(shì),其(qí)日均(jun1)语(yǔ)音请求量也超(chāo)3亿次(颇值(zhí)得(dé)玩味的是,作为一家“非专门”做输入法的(de)公司(sī),百度(dù)输入法官方公布(bù)的日均语音请求量是(shì)超过3.35亿次,和(hé)搜狗不(bú)相上下(xià))。
总之,一切都指(zhǐ)向一点:语音正在成(chéng)为更多人输(shū)入方(fāng)式的必选项,且他们(men)一旦开始(shǐ)用(yòng)上语音,产生(shēng)的黏(nián)性(xìng)往往非(fēi)常(cháng)高,属于(yú)典型的“一旦(dàn)用(yòng)上就离(lí)不(bú)开”系列。
不过,语音输(shū)入的顺畅,必须拜深厚(hòu)的技(jì)术(shù)功底所赐,倘(tǎng)若准确率不堪(kān)重用,反而会造成(chéng)效率下降——所以(yǐ)说,“准(zhǔn)”是语音输入最基(jī)本的素养。
令(lìng)人欣喜的是,依托(tuō)“百度大脑”的(de)进化,作为百度AI技(jì)术率先落地的产品之(zhī)一,百度输入法(fǎ)凝(níng)聚(jù)了百度深耕(gēng)多年的语音、图像(xiàng)、NLP和知识图谱等(děng)AI能力——尤其(qí)是AI语音技(jì)术,业内皆知,目前识别(bié)率高达97%的百度语音(yīn)曾入选MIT“全球(qiú)十大(dà)突破技术”,并且在手机百(bǎi)度和(hé)百度地图等产品中早已广(guǎng)泛应用,而随着(zhe)DuerOS朋友(yǒu)圈的持续(xù)扩张,也会不断“反哺”百度的语音技术,这种得天独厚的技术和生态优(yōu)势,是其他公(gōng)司不具备的,也势必会夯实(shí)百度输入法语(yǔ)音请求(qiú)量的(de)领先地位。
当然,在提高识别准确率方(fāng)面,百度输入法(fǎ)并未停止进化脚步(bù),最近一次(cì)重(chóng)大突破,就是其搭载了(le)百(bǎi)度第二代深度尖峰(fēng)技术(shù)(Deep Peak2)。“DeepPeak2模型”的全称(chēng)是基于LSTM和CTC的上下(xià)文无关音素组合建模,它最大的技术蜕变,就是将高(gāo)频出现(xiàn)的音素联合在一(yī)起,形成一个音素组(zǔ)合(hé)体,然后将这(zhè)个音(yīn)素组(zǔ)合体视作(zuò)一个基本建模(mó)单元。
这意味(wèi)着,与在过往数十年业界常用的上下(xià)文相(xiàng)关建(jiàn)模方式相比,DeepPeak2能最大程(chéng)度发挥神经网络模型(xíng)的参(cān)数优势,大幅提升中英(yīng)文,多种口音和多种风格(譬(pì)如朗读,聊天,轻声)混合(hé)输(shū)入(rù)的(de)稳定性(xìng)和准确度,目前其(qí)相对正确率较行业(yè)领先水平提升(shēng)20%。另外(wài),难能可贵的一点是,不同于一(yī)些输入法遇上(shàng)“中英混(hún)输”后瞬间变成“车(chē)祸现场”,DeepPeak2同时支持中英文混合建模,让百度输入法具备了非常(cháng)强大的中(zhōng)英文(wén)混合识别能力。
事实上,此(cǐ)次百度(dù)输入法的技术突破(pò),并不令(lìng)人(rén)意外。百度是中国最早通过深度学习技术(shù)在语音识别领域取(qǔ)得突(tū)破的公司之(zhī)一,早在2012年就率先上线了基于DNN的语音识别(bié)模型(xíng)。过(guò)去6年,百(bǎi)度(dù)语音(yīn)一直没有停止(zhǐ)进化,几乎每年(nián)都会上线新的语音(yīn)识别技术——如今DeepPeak2的上线,亦是语(yǔ)音科技史上的一(yī)次巨(jù)大跃迁,要知道,之前国际(jì)上(shàng)也曾(céng)有过类似(sì)建模方式(shì),但(dàn)却没(méi)法(fǎ)避免建(jiàn)模时(shí)出现的过拟合问题,而百度通过声学模型(xíng)学习(xí)和语(yǔ)言信息(xī)学习(xí)相分离(lí)的特殊(shū)训练(liàn)方法(fǎ),将建模单元数目减少了10倍,从(cóng)本质上(shàng)解(jiě)决(jué)过渡拟合的问题,极大提升了(le)识别准确率,殊为(wéi)不易。
而除(chú)了准确率上的不断精益,百度输入法(fǎ)在语音输入功能上(shàng),也不(bú)断产生惊喜。譬如(rú),百度输入法具(jù)备轻声识别能力(lì),无(wú)论(lùn)会场(chǎng)还是课堂,都能降低(dī)语音输入的尴尬;它还具备(bèi)语音速记功能,在这(zhè)一功(gōng)能(néng)的(de)“多人模式”场(chǎng)景下,声纹识别(bié)技术可以自动区分发言人,大幅降低工作者后(hòu)期处理的成本;除此之外,百(bǎi)度输入法(fǎ)支持中文普通话,中(zhōng)文(wén)粤语,英(yīng)语和日语(yǔ)等多语种(zhǒng)识(shí)别;且能让(ràng)用户通过语音完成语音拨号和语音搜索等功能,后者尤为重要,企业基(jī)因所致,百(bǎi)度输入法拥有(yǒu)很强的搜(sōu)索元素,你知道,聊(liáo)天时突然出(chū)现(xiàn)搜索需求,是(shì)很常见(jiàn)的交叉应用场景,通过百度输入法自带的搜索功(gōng)能,可免去切换应用带来的(de)时间折损。
总之不难(nán)发现,在效率维(wéi)度,百度正不断推陈出新,让输(shū)入法成为(wéi)人们日(rì)常最值得仰仗的工具,通过(guò)不断(duàn)夯实用户(hù)的语音输入习惯,延续(xù)着(zhe)移动时代人机交互难度(dù)不(bú)断(duàn)下降,交互方式不断丰(fēng)富的历史(shǐ)脉络。
打磨用户(hù)体验
如果说“效(xiào)率(lǜ)至(zhì)上”是一(yī)款输入法的基本素养,那么(me)“可玩(wán)性”——或者说愉(yú)悦感,则能进(jìn)一步丰富用户体验的维度。而考虑到社交是手机输入法应用最多的场(chǎng)景(数据显示,社交类APP中(zhōng)输入法占比高(gāo)达74%),百度输(shū)入法也一直在(zài)提升用户(hù)在社交场景下(xià)的愉(yú)悦感。
举个例子(zǐ),百度输入法中有(yǒu)70%是90后(hòu),其中60%的人经常玩(wán)“斗图”。针对于此,百度手机输(shū)入法开发了AR表情功(gōng)能,基(jī)于(yú)百(bǎi)度多模(mó)态人(rén)脸识别系(xì)统(tǒng)(支持104点基础模型加眼睛(jīng)、嘴部、眉毛单例模型;全脸识别278点(diǎn)),能准确识(shí)别面部轮廓和表情,用户可制作出只属于(yú)自己的表情、感(gǎn)觉和动作,并直接通(tōng)过输(shū)入法搜索,语音输入和键(jiàn)盘输入时展示出(chū)来。且受益(yì)于AR表情(qíng)功(gōng)能识别速(sù)度快(kuài),表情(qíng)文件小等特点,用(yòng)户可在聊天中轻(qīng)松使用(yòng),刻(kè)画(huà)出自己(jǐ)在虚拟世界中的独特(tè)形象。
百度AR趣味表情
AR表情功能(néng)的上线也意味着,百度(dù)输入法是首家同时支(zhī)持2D、3D表(biǎo)情以及通(tōng)过人脸控制虚拟形象制作表情。而我相(xiàng)信,在(zài)可预见的未来,AI和AR等(děng)新技术对输入法产品的作用会(huì)越来越大,将会有更多新技术被添置到输入法中。在百(bǎi)度的带领下,作为新(xīn)技术“桥头堡”的输入法,有可能进入一个(gè)更灵动的全感官(guān)输入(rù)时(shí)代。
未来由现在筑(zhù)造(zào)。不难发现,依托百度(dù)强大的(de)AI基础,无论是在(zài)“准”这个基本面上的不断深耕,输(shū)入功能的不断完(wán)善,还是可(kě)玩性和(hé)愉(yú)悦感的不断提升(shēng),都(dōu)是百度在输(shū)入领域全方位了解(jiě)用户需求,不断打磨用户体验的(de)体现。这种对(duì)用户体验的打磨,也(yě)让昔日功(gōng)能(néng)单一的手机输入法,具备了“语音(yīn)助手”,“效率工具”和“聊(liáo)天(tiān)伴侣”等多重身份,并在不(bú)同用户手上,得到不同程度的释放。
正如百度高(gāo)级副总裁、AI技(jì)术平(píng)台体(tǐ)系(AIG)总(zǒng)负责(zé)人(rén)王海峰所言(yán):“AI的发展最终还是要回到(dào)‘服务用户需求’的本质,这是我们每一位人(rén)工智能从业者都需要铭记在(zài)心的。利用好人工智能来服务好我们(men)的用户和客户,以及更好(hǎo)地(dì)打(dǎ)磨AI能力来(lái)推动各行各(gè)业的效率(lǜ)提升,是每一位人工智能领域(yù)从(cóng)业者的期望。”
作(zuò)为你我最重(chóng)要的工具伴侣,手机输入法本身正在变得“复杂”,却(què)让(ràng)生活和工(gōng)作变得更为简(jiǎn)单。在我看来,这才(cái)是技术的本分。