2018年10月10日,英伟达在GTC Europe大会上发布了一款针对数据科学和机器学习的开源GPU加速平台——RAPIDS。
接着,10月23日,英伟达在北京召开了RAPIDS平台的媒体沟通会,英伟达亚太区解决方案架构主管赵立威向媒体详细讲述了RAPIDS平台能为数据科学和机器学习市场提供哪些加速支持。
首先,赵立威介绍RAPIDS开源GPU加速平台具备以下三个特点:第一,它是一个开源平台;第二,它是一个软件平台;第三,这个产品,或者叫技术,主要面向数据科学以及机器学习的市场。
为什么RAPIDS面向的市场锁定在数据科学和机器学习?
数据显示,在数据科学和机器学习的服务器市场每年产生的价值约为200亿美元,如果再加上大数据分析市场,高性能计算市场总价值将增加到360亿美元。
不得不说人类早已步入大数据时代,我们的行为无时无刻不在产生数据,数据呈爆发式增长。海量的用户数据成为企业待挖掘的宝藏。前几年大家都在谈数据,而现在我们谈的更多是数据驱动。
用数据驱动,增强企业的核心竞争力
英伟达创始人黄仁勋在GTC Europe大会上反复提及“数据驱动”一词,互联网、零售、医疗保健、金融服务等行业都是典型的数据驱动型行业。
赵立威谈到,最简单、最容易想到的,可能还是互联网。因为互联网上有很多数据,而且每一天数据都在更新。以电商为例,用户在亚马逊、京东、淘宝等网站上产生浏览记录,留下数据。其中有1/3的采购行为是通过数据分析来获得用户的购买习惯。某种程度上,电商网站比用户更了解自己,更了解你过往的消费行为,了解你的采购意向,由此来评估用户的信用价值,定向推荐信贷产品。
目前,沃尔玛生鲜产品的物流和仓储已经开始使用RAPIDS这款产品。美国运通年交易额达上万亿元美金,风险管控和反欺诈也离不开运用大数据分析及算法的决策支持系统。
海量的数据可以对算法不断地进行训练优化,挖掘出更多有价值的用户数据用来进行业务拓展或投资。数据与算法彼此相互促进,形成良性循环。
RAPIDS为数据科学和机器学习提供加速支持
典型的大数据分析流程可分为三个阶段:数据准备、数据合并和数据降维,RAPIDS开源GPU加速平台能对这一过程进行加速。RAPIDS构建于Apache Arrow、Pandas、Sklearn等流行的开源项目之上,将数据处理和分析、机器学习全部联通在一个管道上,从而带来CPU提速。
有训练结果表明,RAPIDS数据处理速度与现有CPU的系统相比提高了50倍,极大地缩短了数据科学家在数据准备、抽取、转换、处理等过程中耗费的时间。机器学习在训练过程中不断循环,不断优化,通过参数的调整得到更精准的数据,从而提高预测结果。
上图为使用了RAPIDS前后,圆环中的绿色区域为数据科学家等待数据的时长,红色区域为数据科学家进行数据分析和处理的时长。很明显,RAPIDS将深度学习和机器学习整合,为数据科学家与和开发人员节省了大量时间,企业的工作效率也得到了大幅度的提提高。
RAPIDS为数据科学和机器学习领域带来哪些帮助
1、对于数据科学家来说,RAPIDS为GPU提速 数据处理时间较CPU快50倍。等待数据的时间可以用来做训练模型,不断的通过参数的调优改善最终得到的算法,最后可以达到的精度。
2、RAPIDS可以和SPARK、PYTHON、APACHE ARROW以及DASK等其他开源社区,保持非常紧密的合作。
3、RAPIDS平台本身是开源的,可以有更多开源的朋友来贡献他们的代码好和智慧,不断的完善和更新整个平台、丰富RAPIDS的基础特性,服务更多的行业和场景。
(比特网)