您的位置 首页 智能家居

74%企业已采用数据科学平台!IDC新报告,揭秘加速数据分析的核心要诀

数据科学部署挑战多?IDC揭秘中国市场现状,实例教学企业加速高级数据分析。

副标题#e#

74%企业已采用数据科学平台!IDC新报告,揭秘加速数据分析的核心要诀

在数据和算法重新定义的世界中,数字化转型正构成传统企业的新竞争力,但实际被收集和利用的数据,远比人们想象中少。

74%企业已采用数据科学平台!IDC新报告,揭秘加速数据分析的核心要诀▲2014-2023年全球数据空间持续增长(单位:PB)

有效数据量少、模型开发效率低、专业技术人才匮乏,这些问题在企业应用数据分析面前形成了难以跨越的天堑。一边中国市场上超半数的企业已经采用机器学习方法,实现高级数据分析预测,另一边机器学习、数据科学的普及之路仍荆棘丛生。

在这一背景下,IDC发布《数据分析新速度:加速数据科学转变成商业洞察》白皮书,重新审视数据科学的定义与生态,对机器学习、数据科学在中国市场的落地现状进行全面调研。

一、数据爆炸时代:加速AI落地中的困境

在大数据、人工智能等新兴技术的助推下,数据科学从常规数据分析发展到高级预测分析与智能预测,其定义正在被重新审视。

本白皮书中,IDC将机器学习与图算法为主的工作负载定义为数据科学,其核心技术即经典机器学习技术,正在企业用户中开始复兴。据IDC调研,当前中国市场上74%的企业已采用包含机器学习的数据科学平台,其他企业均表示在未来24个月内有计划采用这一平台。

在当前金融应用场景中,80%的分析预测模型采用机器学习模型,支撑预判欺诈风险、优化量化投资等业务应用。而每成功识别一笔欺诈交易行为,每准确预测一次市场行情变化,对企业的经济利益可能是百万级甚至上亿级。

还有在零售场景,随着个性化服务需求升级,更多零售企业正通过机器学习形成线下线上融合的用户画像追踪,实现千人千面精准营销,显著提升用户粘度。

数据科学在文娱、教育、电信、制造、医疗、政府等、媒体、能源、交通、地产等行业中均得到广泛应用。根据IDC提供的数据,中国企业在深度学习和机器学习方面的投入持续增加,高级数据预测分析、经典机器学习相关的市场规模在2018年达到3.0亿美金,预计到2022年将达到29亿美金。

74%企业已采用数据科学平台!IDC新报告,揭秘加速数据分析的核心要诀▲2018-2022年中国人工智能应用市场规模(单位:百万美金)

不过企业要想应用机器学习,还需先解决很多挑战。

首先,数据准备和建模耗时长。其次,数据资源严重匮乏。IDC调研发现,目前只有一线互联网公司拥有超数千PB级别数据,大部分企业的数据量仅在1TB-20TB之间。另外企业积累的大部分数据不能直接用于模型训练,被注入到AI模型的数据不足1%。此外,数据科学工作负载开发效率不高。许多刚涉足机器学习应用的企业,对底层算力和基于硬件的优化缺乏清晰的认知,尚未意识到加速计算给企业开发效率带来的价值。

74%企业已采用数据科学平台!IDC新报告,揭秘加速数据分析的核心要诀▲企业采用加速方案后的效果

要在应用机器学习时绕开这些瓶颈,选择合适的数据科学平台则至为关键。

二、数据科学平台选型:门槛低,速度快

IDC在白皮书中,就平台选择的考量因素给出许多具体可行的建议。

例如使用机器学习平台开发模型时,应与企业实际业务需求充分匹配。

IDC发现,大部分企业已采用加速方案,其中采用GPU加速的居多,占比达50%

74%企业已采用数据科学平台!IDC新报告,揭秘加速数据分析的核心要诀▲企业采用机器学习平台时使用到的加速方案情况

其中,英伟达在2018年10月推出RAPIDS开源GPU加速平台正得到越来越多企业的应用。

英伟达RAPIDS平台致力于加速大规模数据分析和机器学习工作负载,该平台建立在英伟达CUDA-X AI平台之上,提供了一系列面向机器学习、深度学习和高性能计算的专用GPU加速库,这些库与英伟达Tensor Core GPU无缝地配合工作,可加速从数据准备、模型训练到预测的整个端到端流程,大大提升AI任务执行效率和模型精度,同时降低基础架构TCO

当前百度、阿里云、IBM、Oracle、Kinetica、H2O、SAP、SAS、Databricks等公司都已采用英伟达RAPIDS平台加速数据科学研究。

三、应用无处不在,精度效率双提升

从应用角度来看,在国内金融、零售、云计算等多个行业场景中,RAPIDS均已展现出色的加速能力。

1、案例一:提升端到端量化投资预测效果

在金融领域,如何提升开发效率是量化投资工具面临的主要挑战。

宽邦科技打造的AI量化投资平台BigQuant旨在让金融业务人员都能零门槛地使用AI提升投资效率和效果,每月为金融机构和10万C端用户提供数百万次机器学习模型训练。

采用英伟达RAPIDS平台后,其GBDT模型在特征工程提取环节速度提升100倍,聚类算法速度提升200倍,同时系统预测准确度也得以提升。

2、案例二:显著提升理赔审核能力

****做信用评分时,通常用XGBoost在Spark上进行运算,完成一次端到端模型迭代一般需要几天,新的用户行为特征也不能实时更新到模型训练中,会影响后期的精度。

平安科技引入英伟达RAPIDS在英伟达DGX-2超级计算机上进行模型运算,将模型运算速度提升40倍,模型训练时间从周压缩到分钟,不仅大大节省人力成本。

平安科技副总工程师、联邦学习技术部总经理王健宗表示,RAPIDS平台“不仅大大提升了效率,对于精度的提升也指日可待”。

3、案例三:大幅提速数据准备

云计算厂商也在借助RAPIDS平台提升任务执行效率,国内首家提供RAPIDS加速库服务的公有云厂商是阿里云。

机器学习算法往往产生大量数据传输,至今仍难以实现并行化。随着服务器系统引入GPU加速的机器学习算法以及NVIDIA NVLink、NVSwitch等技术,模型训练现可轻松分布在多个GPU和多个节点间,几乎不会产生延迟。

实例上,使用GPU加速的XGBoost训练任务可提速20倍以上。

#p#副标题#e##p#分页标题#e#

74%企业已采用数据科学平台!IDC新报告,揭秘加速数据分析的核心要诀

结语:加速数据分析正渗透到更多行业

数据科学应用的程度正拉大企业间的竞争差距和收益差距,数字化程度好的****、航空公司、酒店等机构,收入及税前利润明显高于数字化落后的同类机构。

企业如果不想在智能化趋势中落后于人,不仅希望有更易上手的数据科学平台,而且需要采用更好的加速方案来缩短开发周期。

IDC预计到2021年,90%的新智能系统将嵌入以决策为中心的加速计算架构,能自动检测和评估当前形势并作出应对决策。这将帮助更多企业优化生产效率,更为游刃有余地去适应客户需求以及竞争环境的快速变化。

免责声明:文章内容不代表本站立场,本站不对其内容的真实性、完整性、准确性给予任何担保、暗示和承诺,仅供读者参考,文章版权归原作者所有。如本文内容影响到您的合法权益(内容、图片等),请及时联系本站,我们会及时删除处理。

作者: dawei

【声明】:第七手机网内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。

为您推荐

无人汽车无法躲避没见过的物体?问题出在训练pipeline上

人类经常会遇到种类新颖的工具、食物或动物,尽管以前从未见过,但人类仍然可以确定这些是新物体。 与人类不同,目前最先进的检测和分割方法很难识别新型的物体,因为它们是以封闭世界的设定来设计的。它们所受的训练是定位已知种类(有标记)的物体,而把未

万字读透自动驾驶3D视觉感知算法

对于自动驾驶应用来说,最终还是需要对3D场景进行感知。道理很简单,车辆不能靠着一张图像上得到感知结果来行驶,就算是人类司机也不能对着一张图像来开车。因为物体的距离和场景的和深度信息在2D感知结果上是体现不出来的,而这些信息才是自动驾驶系统对周

自动驾驶会使共享经济再次火热吗?

自动驾驶技术的发展一直饱受争议,对于自动驾驶的未来,有一个一直绕不开的话题,那就是自动驾驶是否安全。众所周知,自动驾驶的目标是让自动驾驶汽车可以独立完成出行任务,人类将自己出行需求完全交给自动驾驶汽车,在出行过程中的娱乐需求也可以由自动驾

Cruise自动驾驶决策规划技术解析

Cruise自动驾驶决策规划控制负责人Brandon Basso本科毕业于哥伦比亚大学,博士毕业于加州大学伯克利分校,主要研究决策、机器人系统设计和软件架构、机器学习、控制理论等。曾在3D Robotics、Uber自动驾驶公司工作多年,担任重要职位,在无人机和自动驾驶领

自动驾驶汽车比七个月大的婴儿还聪明吗?

到了七个月大的时候,大多数孩子已经认识到,即使看不见物体,它们仍然存在。把一个玩具放在毯子下面,孩子会知道它的存在,他可以伸手到毯子下面把它拿回来。这种对物体恒存在的理解是正常发展的里程碑,也是现实的基本原则。 这也是自动驾驶汽车所没有的。

返回顶部