2016年7月爆出了举世震惊的软银234亿英镑收购ARM公司事件,软银首席执行官孙正义就此表示,这一收购标志着软银的一次“范式转变”——投资物联网。诚然,ARM作为垄断了智能手机业的芯片设计公司,最近一两年来正积极向物联网拓展,因为物联网有望在未来数年内成为可替代智能手机产业规模的战略性机遇。
然而,ARM仅仅提供物联网芯片的设计,即便真如Gartner所预测在2020年将有260亿物联网设备,但这也只是物联网的物理基础。如何对这260亿物联设备7×24源源不断产生出来的数据进行分析、判断和商业变现,单靠人工则远远不能满足这一需求,而必须依靠自动化的算法,这就是Gartner所积极倡导的算法经济。
人工智能将成主流商业竞争策略
为什么说人工智能将成主流商业竞争策略?这是因为在算法经济时代,人工智能是终极算法,对终极算法的追求必将成为主流商业竞争策略。
在华盛顿大学教授Pedro Domingos的2015年新书《终极算法》中,有这样论断:“终极算法”就是通过机器学习的方式,自动发现和创造其它所有算法的“主算法”。这个所谓的“主算法”是单一的、全球通用的算法,这个“主算法”对于生物界来说是人类大脑,对于以物联网为基础的机器世界来说就是人工智能。
在过去60年间,全球最顶尖的科学家们一直在研究如何用数学的方式来模拟人类的智能。早期可证明《数学原理》的“逻辑理论家”程序让机器具备逻辑推理能力,中期的专家系统让机器能获得人类的知识,再到后来旨在让机器自主学习知识的机器学习算法,科学家们对人工智能的探索一直没有停止。
进入到2016年,也是人工智能学科诞生60周年之际,基于深度学习的机器学习算法成为人工智能主流,而深度学习的核心就是多层深度神经元网络DNN,这也是目前主流科学家能达到的最为成熟的机器智能。
2016年7月21日,技术解决方案提供商SoftServe发布了Big Data Snapshot 研究报告,研究显示 62% 的大中型公司希望在未来的两年内能将机器学习用于商业分析。这意味着商用多层深度神经元网络DNN,即将成为各大企业追逐的主流商业竞争策略。
硬件进步推动人工智能商用
我们正在进入人工智能的商用时代。经过60年的发展,基于DNN的人工智能已经从高校和实验室走进了企业,并从企业扩散向千家万户。谷歌今年刚发布的智能硬件Google Home、即将量产的阿里互联网汽车、微软人工智能助理Cortana等,都是基于DNN的规模化商业应用。
在更为广泛的传统企业应用层面,一场大规模的人工智能商用化正在开始,这是基于硬件的进步,其中一个显著的进步是GPU在人工智能商用中的崛起。《连线》杂志在2015年底发表了一篇名为《与Google竞争,Facebook开源了人工智能硬件》文章中谈及GPU在人工智能商用时代的崛起。现在,Facebook、Google、微软、百度等大型互联网公司正在转向利用GPU完成人工智能商业应用。
在过去,算法模型依靠CPU计算得出,但人工智能算法的独特性在于分布式并行计算,这并非基于串行计算的CPU所擅长。实际上针对图形图像处理的GPU从一开始就是大规模并行计算,这也是为什么斯坦福大学的吴恩达教授会考虑采用GPU优化人工智能算法的初衷。研究表明,12 颗 NVIDIA GPU 可以提供相当于2,000 颗 CPU 的深度学习性能。
尽管从长期来看,开发真正的人工智能芯片依然是全球学界与企业界共同需要完成的任务,但那仍需要很长时间的探索与实验。从当前人工智能商业化需求来看,把GPU用于人工智能商用显然具有极大的优势。这就是2016年4月,NVIDIA推出基于GPU的全球首款深度学习超级计算机DGX-1的原因。
首款GPU深度学习超级计算机
首款GPU深度学习超级计算机NVIDIA DGX-1基于 NVIDIA Tesla P100 GPU,该 GPU 采用2016年最新的 NVIDIA Pascal GPU 架构。Pascal是第五代GPU架构,于两年前的GPU技术大会(GTC)上公布,产品将于2016年上市,这就是Tesla P100 GPU。
作为新一代GPU架构,Pascal相比于前一代的Maxwell有较大的性能提升。根据NIVIDIA的数据,Pascal GPU 在训练深度神经网络的性能方面有1个数量级的提高。2015年GTC大会上,用4颗Maxwelll GPU训练Alexnet深度神经网络需要25小时,到了2016年GTC大会上用8颗Pascal GPU则只用2小时;对比英特尔双路至强E5服务器训练Alexnet网络需要150个小时,而DGX-1只需要2个小时。
Alexnet神经网络是2012 年国际ImageNet计算机图形识别大赛的冠军深度学习算法,著名的开源深度学习算法Caffe就是基于Alexnet。而到2015 年的 ImageNet 大赛中所有的最好成绩,都是基于深度学习且在 GPU 加速的深度神经网络,这也难怪《连线》杂志惊叹GPU在人工智能时代的崛起。
Pascal GPU 架构的优势在于:引入了NVIDIA独家的新高速总线NVLink,专门用于GPU以及GPU与CPU的高速互连,GPU最高能够以 160 GB/s的双吐带宽访问系统内存,相当于 PCIe传统带宽的5 倍;采用了目前最快、容量最高的堆叠式内存技术HBM2,Tesla P100也是全球首款采用 HBM2 内存的GPU;显著改进编程模型的统一内存,以单一统一虚拟地址来访问系统中所有CPU 和 GPU内存,极大简化了程序的可移植性及数据吞吐能力等。
微软研究院首席语音科学家黄学东表示:“微软正在开发具有 1,000 多层的超级深度神经网络。NVIDIA Tesla P100 的惊人性能将让微软 CNTK 能够加速实现人工智能的突破。”
80万的AI服务器,到底值不值?
NVIDIA DGX-1的定价为12,900美金,约合80万人民币。那么,这个价格到底值不值呢?
NVIDIA DGX-1提供8 颗 Tesla P100 加速器、每颗 GPU 16GB 内存、7TB 固态硬盘 DL 高速缓存等配置,吞吐量相当于250台E5双路X86服务器。那么,按2万元人民币一台E5服务器简单估算,250台即500万的成本,这还不包括机房、网络、能源等额外成本。而DGX-1采用 3U 架上型机箱,可单独使用也可以集成到集群当中,显然用DGX-1做集群更划算。
在集成的软件方面,NVIDIA DGX-1提供了一整套优化的深度学习软件,属于开箱即用型。在NVIDIA的开发者网站Developer.nvidia.com上,有一个Deep Learning深度学习专区,里面提供了Deep Learning SDK开发工具包、NVIDIA DIGITS图像分类与识别软件、Deep Learning开源框架等定制化软件为深度学习提供了全方位的软件支持,可供下载和使用。
其中,Deep Learning SDK开发工具包内含强大的工具及类库,可用于设计、开发和部署面向GPU优化的深度学习应用。其中的类库包括深度学习基础cuDNN、线性代数、稀疏矩阵、多GPU通信以及全面的CUDA C\C++开发环境。NVIDIA DIGITS深度学习管理调度平台为图像视频类数据分类和识别,提供了包括LeNet、AlexNet、GoogLeNet等在内的预设优化算法。除此之外,NVIDIA还定期更新开发者网站,为开发者提供更多的优化算法——如果说GPU已经是深度学习领域不能或缺的组成,那么这款面向人工智能机器学习的NVIDIA DGX-1则让更多企业抛开束缚,以更快的步伐迈向人工智能。
基于NVIDIA GPU的商用人工智能软件还有一个很大的优势,在于GPU的普适性:针对个人电脑的GeForce、针对云和超级计算机的Tesla、针对机器人和无人机的Jetson以及针对汽车的DRIVE PX等所有NVIDIA GPU都共用同一种架构。
百度、谷歌、Facebook、微软是首批把 NVIDIA GPU 应用于深度学习的企业,在近两年内与NVIDIA 在深度学习方面合作的企业激增了近 35 倍至 3,400 多家,涉及医疗、生命科学、能源、金融服务、汽车、制造业以及娱乐业等多个行业。
考虑到NVIDIA DGX-1在硬件、软件和集成服务等方面的明显优势,80万的价格并不为高。NVIDIA DGX-1显然能够大幅提升AI模型的学习和训练时间,加快对于来自物联网上各类图片、视频、语音等非结构化数据的处理速度,比如工业生产线检测的图片、医疗影像视频、道路交通图片与视频分析等等,帮助企业尽快、尽早地从AI算法中受益。
中科曙光成为NVIDIA DGX-1在中国最重要的战略合作伙伴之一,而全球领先的监控产品供应商、中国平安城市解决方案提供商海康威视也成为NVIDIA DGX-1的首单客户,后者将把DGX-1用于视频监控方面的深度学习超级计算机项目上。
NVIDIA DGX-1已经于今年7月正式上市,DGX-1的上市有望激活人工智能的大规模商用。对于企业来说,在跟投物联网项目的同时,需要开始考虑人工智能策略。在大的产业趋势到来之前,只有领先一步,才能步步占据先机。(文/宁川)
【更多精彩内容尽在《云科技时代》微信号:CloudTechTime】