“天下武(wǔ)功,唯快不破”,你需要以“快”制胜。
如今(jīn),全球顶(dǐng)级公司的(de)研究人员和(hé)数(shù)据(jù)科学家团队们都在致力于(yú)创建更为复杂的AI模型。但是,AI模型的创建工作不仅(jǐn)仅是(shì)设计模型(xíng),还需要对模型进行(háng)快速地训练。
这(zhè)就是为什么说,如果(guǒ)想(xiǎng)在AI领(lǐng)域保(bǎo)持领(lǐng)导力(lì),就首先需要有(yǒu)赖于AI基础设(shè)施的领导力。而这也正解(jiě)释了(le)为什(shí)么MLPerf AI训练结(jié)果如此之重要。
通过完成全部6项MLPerf基准测试,NVIDIA展现出(chū)了(le)全球一流的(de)性(xìng)能表现和多功能性。NVIDIA AI平台在训练性能方面创下了(le)八项记录,其中包括三项大规模整体性能纪录和五项基于每个加(jiā)速器的性能纪录(lù)。
表(biǎo)1:NVIDIA MLPerf AI纪录
每个加速器(qì)的比较基于早前报(bào)告的基(jī)于单(dān)一NVIDIA DGX-2H(16个 V100 GPU)、与其他同(tóng)规模相比较(jiào)的(de)MLPerf 0.6的性能(除MiniGo采(cǎi)用的是基于8个V100 GPU的NVIDIA DGX-1 ) |最大规模MLPerf ID:Mask R-CNN:0.6-23,GNMT:0.6-26,MiniGo:0.6-11 |每加速器MLPerf ID:Mask R-CNN,SSD,GNMT,Transformer:全部(bù)使用0.6-20,MiniGo:0.6-10
以上测试结果数据(jù)由(yóu)谷歌、英特尔、百度、NVIDIA、以及创建MLPerf AI基准测试的其他数十(shí)家顶(dǐng)级技术公司和大学提(tí)供背书(shū),能够转化为具有重要意义的创新。
简(jiǎn)而言之,NVIDIA的AI平台如今能够(gòu)在不到两分钟的时间内完成此前需要一个(gè)工作日(rì)才能完成的模型训练。
各公司都知道,释放生(shēng)产(chǎn)力是一件重中之重(chóng)的要务(wù)。超(chāo)级计算机如今(jīn)已经成为了(le)AI的必备工具,树立AI领(lǐng)域(yù)的(de)领导力首(shǒu)先需要强(qiáng)大的AI计算基础设施支持。
NVIDIA最(zuì)新的MLPerf结果很(hěn)好地(dì)展示了将NVIDIA V100 Tensor核心GPU应用于超算级基础(chǔ)设施中所能带来的益处。
在2017年春季的时候,使用搭载了V100 GPU的(de)NVIDIA DGX-1系统训(xùn)练图(tú)像识别模型ResNet-50,需(xū)要花(huā)费整整一个工作日(8小时(shí))的时间。
而如今,同样的任务,NVIDIA DGX SuperPOD使用相同的V100 GPU,采用Mellanox InfiniBand进行互联,并借助可用(yòng)于分布式(shì)AI训练的最新NVIDIA优化型AI软(ruǎn)件,仅需80秒(miǎo)即可完成。
80秒(miǎo)的(de)时间,甚至都不够用来冲一杯咖啡(fēi)。
图1:AI时间(jiān)机器
2019年MLPerf ID(按图表从上到(dào)下的顺序):ResNet-50:0.6-30 | Transformer:0.6-28 | GNMT:0.6-14 | SSD:0.6-27 | MiniGo:0.6-11 | Mask R-CNN:0
AI的必备工(gōng)具:DGX SuperPOD 能(néng)够更(gèng)快速地完成工作负载(zǎi)
仔细观(guān)察今(jīn)日的MLPerf结果,会发现NVIDIA DGX SuperPOD是唯(wéi)一在所有六个MLPerf类别(bié)中耗时都少于20分钟的AI平台:
图2:DGX SuperPOD打破大规模AI纪录
大规模MLPerf 0.6性(xìng)能 | 大规模MLPerf ID:RN50 v1.5:0.6-30,0.6-6 | Transformer:0.6-28,0.6-6 | GNMT:0.6-26,0.6-5 | SSD:0.6-27,0.6-6 | MiniGo:0.6-11,0.6-7 | Mask R-CNN:0.6-23,0.6-3
更进(jìn)一步(bù)观察会发现(xiàn),针对(duì)重(chóng)量(liàng)级(jí)目标检测和强(qiáng)化学习,这(zhè)些最困难的AI问题,NVIDIA AI平台在总体训(xùn)练时(shí)间(jiān)方面脱颖而出。
使用Mask R-CNN深度神经网络的重量(liàng)级目标检测可为用户提供(gòng)高级实(shí)例(lì)分割。其用途(tú)包括(kuò)将其与多个数据源(摄像头、传(chuán)感器(qì)、激光雷达、超声波(bō)等)相结合,以精(jīng)确识别并定位特定(dìng)目标(biāo)。
这类AI工(gōng)作负载有助于训练自动驾驶汽车,为其提供行人和(hé)其他目标的精确位置。另外,在医(yī)疗健康领域,它能够帮助医(yī)生在医疗扫描中查找并识别肿瘤(liú)。其意义的重要性(xìng)非同小可。
NVIDIA的“重(chóng)量级目(mù)标检测”用时不到19分钟,性(xìng)能几乎(hū)是第二名的(de)两倍。
强化学习是另(lìng)一有难度(dù)的类(lèi)别(bié)。这种AI方法能够用于训练工厂(chǎng)车(chē)间机器人,以简化生产。城市也可以(yǐ)用(yòng)这种方(fāng)式来控制交通灯,以(yǐ)减少(shǎo)拥堵。NVIDIA采用NVIDIA DGX SuperPOD,在创纪录的13.57分钟内(nèi)完成了对MiniGo AI强化训练模(mó)型的训练(liàn)。
咖啡(fēi)还(hái)没好,任务(wù)已完成(chéng):即时AI基础设施提(tí)供全球领先(xiān)性能
打破基准测试纪录不是目的,加速创新(xīn)才(cái)是目标。这就是(shì)为什么NVIDIA构(gòu)建的DGX SuperPOD不仅性(xìng)能强大,而(ér)且易于部署(shǔ)。
DGX SuperPOD全面配置了可通过NGC容器注册表(biǎo)免(miǎn)费获取的优化型CUDA-X AI软件(jiàn),可提供开箱即用的全球领先AI性(xìng)能(néng)。
在这个(gè)由130多万(wàn)名CUDA开发者组成的生态系统中,NVIDIA与(yǔ)开发者们合作,致力于(yú)为所(suǒ)有AI框(kuàng)架和(hé)开发环境(jìng)提供有力支(zhī)持(chí)。
我们已经助力优化(huà)了(le)数百万行(háng)代码,让我们的客户能够将其AI项目落地(dì),无论您身在(zài)何处(chù)都可(kě)以找到NVIDIA GPU,无论是在(zài)云(yún)端,还是在(zài)数据中心,亦或(huò)是边缘。
AI基础设施如今(jīn)有够快,未来会更快
更(gèng)好的一(yī)点在于,这(zhè)一平(píng)台的速度一直在提(tí)升。NVIDIA每(měi)月都会发布CUDA-X AI软件的新优化和性能改进,集成(chéng)型(xíng)软件堆栈可在NGC容(róng)器(qì)注(zhù)册表中免费下载,包括(kuò)容器(qì)化的框(kuàng)架、预先(xiān)训练好的模型和脚本。
借(jiè)助(zhù)在CUDA-X AI软件堆栈上的创(chuàng)新,NVIDIA DGX-2H服务器的MLPerf 0.6吞吐量比(bǐ)NVIDIA七个月前发布的(de)结果提升了80%。
图3:基于同一服务器,性能提(tí)升高达80%
对单个历元(yuán)上(shàng)单(dān)一DGX-2H服务器的吞吐量进(jìn)行比较(jiào)(数据(jù)集单次通过(guò)神(shén)经网络)| MLPerf ID 0.5 / 0.6比较(jiào):ResNet-50 v1.5: 0.5-20/0.6-30 | Transformer: 0.5-21/0.6-20 | SSD: 0.5-21/0.6-20 | GNMT: 0.5-19/0.6-20 | Mask R-CNN: 0.5-21/0.6-20