博鱼官方网页版-博鱼(中国)

“天下武（wǔ）功，唯快不破”，你需要以“快”制胜。

如今（jīn），全球顶（dǐng）级公司的（de）研究人员和（hé）数（shù）据（jù）科学家团队们都在致力于（yú）创建更为复杂的AI模型。但是，AI模型的创建工作不仅（jǐn）仅是（shì）设计模型（xíng），还需要对模型进行（háng）快速地训练。

这（zhè）就是为什么说，如果（guǒ）想（xiǎng）在AI领（lǐng）域保（bǎo）持领（lǐng）导力（lì），就首先需要有（yǒu）赖于AI基础设（shè）施的领导力。而这也正解（jiě）释了（le）为什（shí）么MLPerf AI训练结（jié）果如此之重要。

通过完成全部6项MLPerf基准测试，NVIDIA展现出（chū）了（le）全球一流的（de）性（xìng）能表现和多功能性。NVIDIA AI平台在训练性能方面创下了（le）八项记录，其中包括三项大规模整体性能纪录和五项基于每个加（jiā）速器的性能纪录（lù）。

从8小时（shí）到80秒，NVIDIA如何实现（xiàn）AI训练用时大突破？

表（biǎo）1：NVIDIA MLPerf AI纪录

每个加速器（qì）的比较基于早前报（bào）告的基（jī）于单（dān）一NVIDIA DGX-2H（16个 V100 GPU）、与其他同（tóng）规模相比较（jiào）的（de）MLPerf 0.6的性能（除MiniGo采（cǎi）用的是基于8个V100 GPU的NVIDIA DGX-1 ） |最大规模MLPerf ID：Mask R-CNN：0.6-23，GNMT：0.6-26，MiniGo：0.6-11 |每加速器MLPerf ID：Mask R-CNN，SSD，GNMT，Transformer：全部（bù）使用0.6-20，MiniGo：0.6-10

以上测试结果数据（jù）由（yóu）谷歌、英特尔、百度、NVIDIA、以及创建MLPerf AI基准测试的其他数十（shí）家顶（dǐng）级技术公司和大学提（tí）供背书（shū），能够转化为具有重要意义的创新。

简（jiǎn）而言之，NVIDIA的AI平台如今能够（gòu）在不到两分钟的时间内完成此前需要一个（gè）工作日（rì）才能完成的模型训练。

各公司都知道，释放生（shēng）产（chǎn）力是一件重中之重（chóng）的要务（wù）。超（chāo）级计算机如今（jīn）已经成为了（le）AI的必备工具，树立AI领（lǐng）域（yù）的（de）领导力首（shǒu）先需要强（qiáng）大的AI计算基础设施支持。

NVIDIA最（zuì）新的MLPerf结果很（hěn）好地（dì）展示了将NVIDIA V100 Tensor核心GPU应用于超算级基础（chǔ）设施中所能带来的益处。

在2017年春季的时候，使用搭载了V100 GPU的（de）NVIDIA DGX-1系统训（xùn）练图（tú）像识别模型ResNet-50，需（xū）要花（huā）费整整一个工作日（8小时（shí））的时间。

而如今，同样的任务，NVIDIA DGX SuperPOD使用相同的V100 GPU，采用Mellanox InfiniBand进行互联，并借助可用（yòng）于分布式（shì）AI训练的最新NVIDIA优化型AI软（ruǎn）件，仅需80秒（miǎo）即可完成。

80秒（miǎo）的（de）时间，甚至都不够用来冲一杯咖啡（fēi）。

从8小时到80秒，NVIDIA如（rú）何实现AI训（xùn）练用时大（dà）突破？

图1：AI时间（jiān）机器

AI的必备工（gōng）具：DGX SuperPOD 能（néng）够更（gèng）快速地完成工作负载（zǎi）

仔细观（guān）察今（jīn）日的MLPerf结果，会发现NVIDIA DGX SuperPOD是唯（wéi）一在所有六个MLPerf类别（bié）中耗时都少于20分钟的AI平台：

从（cóng）8小时到80秒，NVIDIA如何实现AI训（xùn）练用时大（dà）突（tū）破？

图2：DGX SuperPOD打破大规模AI纪录

更进（jìn）一步（bù）观察会发现（xiàn），针对（duì）重（chóng）量（liàng）级（jí）目标检测和强（qiáng）化学习，这（zhè）些最困难的AI问题，NVIDIA AI平台在总体训（xùn）练时（shí）间（jiān）方面脱颖而出。

使用Mask R-CNN深度神经网络的重量（liàng）级目标检测可为用户提供（gòng）高级实（shí）例（lì）分割。其用途（tú）包括（kuò）将其与多个数据源（摄像头、传（chuán）感器（qì）、激光雷达、超声波（bō）等）相结合，以精（jīng）确识别并定位特定（dìng）目标（biāo）。

这类AI工（gōng）作负载有助于训练自动驾驶汽车，为其提供行人和（hé）其他目标的精确位置。另外，在医（yī）疗健康领域，它能够帮助医（yī）生在医疗扫描中查找并识别肿瘤（liú）。其意义的重要性（xìng）非同小可。

NVIDIA的“重（chóng）量级目（mù）标检测”用时不到19分钟，性（xìng）能几乎（hū）是第二名的（de）两倍。

强化学习是另（lìng）一有难度（dù）的类（lèi）别（bié）。这种AI方法能够用于训练工厂（chǎng）车（chē）间机器人，以简化生产。城市也可以（yǐ）用（yòng）这种方（fāng）式来控制交通灯，以（yǐ）减少（shǎo）拥堵。NVIDIA采用NVIDIA DGX SuperPOD，在创纪录的13.57分钟内（nèi）完成了对MiniGo AI强化训练模（mó）型的训练（liàn）。

咖啡（fēi）还（hái）没好，任务（wù）已完成（chéng）：即时AI基础设施提（tí）供全球领先（xiān）性能

打破基准测试纪录不是目的，加速创新（xīn）才（cái）是目标。这就是（shì）为什么NVIDIA构（gòu）建的DGX SuperPOD不仅性（xìng）能强大，而（ér）且易于部署（shǔ）。

DGX SuperPOD全面配置了可通过NGC容器注册表（biǎo）免（miǎn）费获取的优化型CUDA-X AI软件（jiàn），可提供开箱即用的全球领先AI性（xìng）能（néng）。

在这个（gè）由130多万（wàn）名CUDA开发者组成的生态系统中，NVIDIA与（yǔ）开发者们合作，致力于（yú）为所（suǒ）有AI框（kuàng）架和（hé）开发环境（jìng）提供有力支（zhī）持（chí）。

我们已经助力优化（huà）了（le）数百万行（háng）代码，让我们的客户能够将其AI项目落地（dì），无论您身在（zài）何处（chù）都可（kě）以找到NVIDIA GPU，无论是在（zài）云（yún）端，还是在（zài）数据中心，亦或（huò）是边缘。

AI基础设施如今（jīn）有够快，未来会更快

更（gèng）好的一（yī）点在于，这（zhè）一平（píng）台的速度一直在提（tí）升。NVIDIA每（měi）月都会发布CUDA-X AI软件的新优化和性能改进，集成（chéng）型（xíng）软件堆栈可在NGC容（róng）器（qì）注（zhù）册表中免费下载，包括（kuò）容器（qì）化的框（kuàng）架、预先（xiān）训练好的模型和脚本。

借（jiè）助（zhù）在CUDA-X AI软件堆栈上的创（chuàng）新，NVIDIA DGX-2H服务器的MLPerf 0.6吞吐量比（bǐ）NVIDIA七个月前发布的（de）结果提升了80％。

图3：基于同一服务器，性能提（tí）升高达80％

从8小时到80秒（miǎo），NVIDIA如何实现AI训练用时大突破？