“抬头是山,低头(tóu)是煤。”曾在山(shān)西传统煤矿(kuàng)工作8年, 整天(tiān)盯在电脑屏幕前监测矿井瓦斯浓度的郭(guō)梅(méi)从(cóng)来没有想过,有一天自己(jǐ)的工作会和人工智能(néng)有了联系。
两年前,因为(wéi)孩(hái)子来省会城市太原上学,郭梅在(zài)附(fù)近求(qiú)职,做起了数据标注。同样是盯在电脑(nǎo)屏幕前,现在郭梅每天的工(gōng)作(zuò)是给图片、文本或(huò)者(zhě)声(shēng)音进行标注,再把(bǎ)它们交给机器训练和学习。从一开始每天只能标注(zhù)两(liǎng)三百(bǎi)张,到现在的日均完(wán)成1300多张(zhāng),郭梅按件计酬(chóu)的(de)收(shōu)入逐渐提升,已(yǐ)高(gāo)于当地平均收入水(shuǐ)平。
人工智(zhì)能行(háng)业里有句(jù)话(huà):有多少智能,背(bèi)后就有多(duō)少人工。像郭梅一样,AI数据(jù)标注师成为了随(suí)着(zhe)人工智能发展而出现的新兴就业岗(gǎng)位。2020年(nián)2月,“人工(gōng)智(zhì)能(néng)训(xùn)练师(shī)”正(zhèng)式成为(wéi)新(xīn)职业并纳入(rù)国(guó)家职(zhí)业(yè)分类目录。
他们被称为人工智能背后的人。数据采(cǎi)集和标注是他们的主要(yào)工作,目的就是要教会AI认识数据,转化(huà)成AI能消化和吸收的“语言”。有了足够多、足够好(hǎo)的数据(jù),AI才能够学会像人类一样去感知、思考和(hé)决策,更好地为人类(lèi)服务。
这项工作看起来(lái)简单枯燥,但意义非常(cháng)。“就(jiù)像一台车没有汽油走不了,数据就(jiù)是人工(gōng)智(zhì)能发展的燃料(liào)。有了(le)我们的数(shù)据,机器(算(suàn)法)不断迭代,就能推动人工智(zhì)能往更(gèng)好的(de)方向发展(zhǎn)。” 从事数据标注的山西麟诺公司(sī)总经(jīng)理李(lǐ)应维对第一财经表示。
“从没想过做人(rén)工智能”
20出头的(de)李宇(yǔ)龙从(cóng)未亲眼见过自动驾驶汽车,但他(tā)的工(gōng)作却和自动驾驶(shǐ)的AI算法息息相(xiàng)关。
他曾经(jīng)在生产(chǎn)电子(zǐ)类产品的工厂工(gōng)作(zuò),转做(zuò)AI数据标注后,老(lǎo)板交给他(tā)的第一个项目就(jiù)是(shì)“车(chē)道(dào)线(xiàn)打点”。
简单来说,就(jiù)是给无人驾驶进行车道线标(biāo)注。当无人车行驶到一段路时,会自动连续拍摄图片,李(lǐ)宇龙(lóng)要做的,就是对图片上车辆所行驶的(de)车道旁(páng)边两侧的线进行标(biāo)注,识别虚(xū)线还是实线,匹配(pèi)所对(duì)应的(de)属性(xìng),从而告诉人工智能遇(yù)到虚线时车辆可以进行变道(dào),实线不可(kě)以进行变(biàn)道。
当时的李宇龙,还不知道数(shù)据标注师到底(dǐ)是什么,更对(duì)人工智能没有具体概念,老板(bǎn)只交(jiāo)给他一套(tào)规则,让(ràng)他按照规则在电脑上认车道(dào)线。好学的他在短时(shí)间内就掌握了规则和难(nán)点,总结出(chū)了标注车道(dào)的(de)规律。
他把自己的工作比(bǐ)作“幼教“,当他拿出一个(gè)红(hóng)苹果给机器并教会它识别,再(zài)拿一个绿(lǜ)苹果给它(tā)时,因为颜(yán)色差(chà)异,机器就(jiù)无法认出了(le)。李(lǐ)宇龙的工(gōng)作(zuò)就是(shì)不断地帮(bāng)助机器识别不同的颜色、大小(xiǎo),甚至是被咬(yǎo)了一口的苹果或是坏苹果,直到随(suí)便拿出一个苹果,它都能认出来。
李宇龙告诉第一财(cái)经记(jì)者,数据标注的工作是“按件计酬”,他的日均收入在300元左右。数据显示,2019年,太原(yuán)市(shì)的城镇居(jū)民全年人(rén)均可(kě)支配收入36362元。他说,自己的(de)工资水平在整个基地标注师日均收入中处于中等水平,“据我(wǒ)了解,有人日均收入甚至(zhì)能破(pò)千。”
对于自己(jǐ)的工作(zuò),李宇龙(lóng)说,刚(gāng)开始接触时(shí),只把它看做一个(gè)重复性的(de)工作,并没(méi)有想太多。直到后来接触项目多了,涉及(jí)的(de)领域包括教(jiāo)育(yù)、安防(fáng)、金融、交通医疗和电商等,每(měi)天(tiān)都在挑战学习能力,也会想要更深(shēn)入了解自己标注的内容可(kě)以应用到的行业。 虽然还(hái)没有坐(zuò)过无人车,但他说,现在看到无(wú)人驾驶的时候,会(huì)想到(dào)这里面也包含了自己的标注成果。
像李宇龙、郭梅的工作一样,第一财经记者看(kàn)到,在(zài)每一间数据标注的办公室里,都是(shì)类似的工作场(chǎng)景(jǐng):一排排电脑屏幕前,年(nián)轻的数据(jù)标注师根据各(gè)自分配的任务,对文本、图片、语音(yīn)和(hé)视(shì)频做标记(jì)、标重点(diǎn)、打标签、框对象(xiàng)、做注(zhù)释等方式对数据集作出(chū)标注,他(tā)们可能在为(wéi)无人车标注车道线、红(hóng)绿灯(dēng),也可能是在(zài)为肺部影(yǐng)像标注病(bìng)毒数据。
以(yǐ)人脸为例,目前(qián)能实现对约(yuē)150个特征点的标(biāo)注。疫情期间,采(cǎi)集(jí)大(dà)量的戴(dài)口(kǒu)罩(zhào)的(de)人脸照片后,数据标(biāo)注师对人脸的眉毛、眼镜、颧(quán)骨等人脸(liǎn)关键点进行(háng)精准(zhǔn)标(biāo)注,标(biāo)注(zhù)特征点越多,AI就越能精确识别出(chū)戴口罩场景下的人脸。最(zuì)终实现即使不摘(zhāi)口罩,也能精(jīng)确(què)测量体(tǐ)温,或(huò)是通过人脸闸机。
是不是“AI富士康”?
数据标注产业促进了(le)不少(shǎo)城镇和农(nóng)村(cūn)就业,在河南、河北、贵州等地,还出现(xiàn)了一些特色的“数据(jù)标注村”。
据IDC统计,全球(qiú)每年(nián)生(shēng)产的数据量将(jiāng)从2016年的16.1ZB猛增至2025年的(de)163ZB,其中80%-90%是非结(jié)构化数据,这些数据经过(guò)清洗与标注才能被唤醒价值。在我(wǒ)国,每年需要进行标注的(de)语音数据超过200万小时,图(tú)片(piàn)则有数(shù)亿(yì)张,这就产生了源源不断的清洗与标注(zhù)需(xū)求(qiú)。 李应维对第一财(cái)经记者说, 他预计明(míng)年企业的用工将翻一倍(bèi),从160多人扩展到(dào)300人左右。
李(lǐ)应维(wéi)公司所在(zài)的百度(山西)人工智能基础数据产业基地,已经成为(wéi)中国人员和产(chǎn)值规模(mó)第(dì)一的单体数据标(biāo)注基地。AI数据标注师从业(yè)人员超(chāo)过2000人,实(shí)现营(yíng)业(yè)收入超亿元,企业入驻35家(jiā)。该基地(dì)计划在未来5年培养5万(wàn)名AI数据标注师,并引入更多AI合作伙伴。
百度(山西)人(rén)工智能基(jī)础数据产(chǎn)业基(jī)地负责人尉赤告诉记者,人工智能是个高速发展的行业,数据服务(wù)又与人工智能息息相关。“我们的线(xiàn)上众包注册用户有将近(jìn)2000万(wàn)人,目前每个(gè)月在线(xiàn)上为我们提(tí)供服(fú)务(wù)的人将近(jìn)5万人。如果按照行业增长速度来看,培养(yǎng)5万人还不(bú)一(yī)定够。”
不过,数据标注师看上去是人工智能(néng)领域一个“入门”工(gōng)种(zhǒng):技术门(mén)槛低(dī),招工人群范(fàn)围(wéi)广(guǎng)泛。他们(men)通过每天数千次(cì)的重复(fù)动作,和最前沿科技的(de)人工智能产生联系。也因此,外界给(gěi)这个行业贴上了“AI富(fù)士(shì)康”的标签。
数据标注带来了技术红利,但如果人工智能发(fā)展到一定程度,甚至有可能够取代数据标注师的工作。
艾(ài)瑞(ruì)咨询(xún)在一份人工智能相关报告(gào)指(zhǐ)出,随着算(suàn)法需(xū)求(qiú)越来越旺盛,依(yī)赖人(rén)工(gōng)标(biāo)注(zhù)不能满足市场需求,因此(cǐ)增强数据(jù)处理平台持续学习能力,由机器持续学习人工标(biāo)注(zhù),提(tí)升预标注和自动标注能力对(duì)人工的替(tì)代率将成趋势。此外,随着 AI对数据(jù)的要(yào)求越来越高,数据标(biāo)注行业也正逐(zhú)步进入精细化阶段。
对(duì)于数(shù)据标(biāo)注这(zhè)一职业的未来,李应(yīng)维对记者举例,自己公司(sī)一名员工入职后,因为表现优异,不久已被百度(dù)公司聘用。而(ér)且,数据(jù)标注师(shī)也在为人工智能(néng)培养和发现人才(cái)。
尉赤则认为,目(mù)前大家更多地聚焦在数据加工这件事,但如果(guǒ)再往前(qián)看,更多(duō)的是数据的优化(huà)、还有一些相关的(de)解决方案。数据(jù)标(biāo)注是一个很好的入门,进来之后有机(jī)会更深度参与到产业链协作当中,例如后(hòu)续当(dāng)数(shù)据标注越来越机器化,人工和自动化之间(jiān)要有机(jī)的协同,这也对员工提(tí)出了更高(gāo)的要求。
此外,当(dāng)数据标注(zhù)越来越机器化,人(rén)工智能训(xùn)练师是(shì)一个转换工(gōng)种(zhǒng)的机(jī)会,标注员们现(xiàn)在标注数据,未来(lái)可(kě)能向数据(jù)治理(lǐ)、数据解决方案设计和项目管理(lǐ)等方向发展。
例(lì)如,现在李宇龙的工作重心(xīn)已经转向培训,同时接触到更多的项目管理,根据每个项目对应的特点判断与之匹配的能力(lì)。 在他看来,自己(jǐ)比很(hěn)多传统行业(yè)的人们更(gèng)早地接触到未来(lái)的(de)发(fā)展方向和未来(lái)的生活、工(gōng)作场景,“看到了未来的(de)发展(zhǎn)需求,也就比别(bié)人更早找到更多(duō)发展机(jī)会。”