欢迎访问电脑商情在线! 请免费注册
分享到





位置:首页 > 服务器 > 业界资讯

加速推动AI技术的民主化,英特尔BigDL显身手

作者: 李丽   责任编辑:李丽 2017-08-07 11:30:32
来源:电脑商情网关键字:Apache Spark,开源,深度学习框架,英特尔BigDL

人工智能现在已经不仅仅是火热的话题和技术,因为我们每个人都已经切身体验到了人工智能带来的服务。似乎已经习惯了在各新兴领域做领头羊的英特尔,正在专注于让人工智能进入民主化时代。

应该说,在人工智能方面的布局,英特尔已经具备从硬件、到软件再到上层体验的全技术堆栈。在底层,英特尔有各类丰富的高性能计算库,比如英特尔数学核心函数库MKL,可以说这是英特尔平台上最快的数学运算的高性能计算库,上层则是各种深度学习、机器学习的框架。英特尔在大量现有深度学习的框架下,例如Neon、TensorFlow、Caffe、Torch等方面都做了大量优化工作。

今天,我们在这里重点要介绍将是英特尔在Spark上构建的面向Apache Spark的开源、分布式的深度学习框架——BigDL。

在上海紫竹科学园区英特尔亚太研发有限公司,英特尔公司软件与服务事业部副总裁、系统技术及优化部门总经理Michael Greene在记者的采访中谈到:“在过去几年间可以看到软件开发者的需求在不断进化,从一开始只需要优化计算库,到现在希望有是一个完整的、全面的数据解决方案,这都是驱动或者影响英特尔在软件方面成为数据公司,提供更好、更完整的数据解决方案的动因。BigDL这样的框架,能够为这些开发者提供非常完整的数据分析的结果,而且更易于使用。随着开发者需求的不断进化,英特尔在软件的开发服务也会不断进化。”

加速推动AI技术的民主化,英特尔BigDL显身手

英特尔公司软件与服务事业部副总裁、系统技术及优化部门总经理Michael Greene

针对大规模、分布式的大数据架构优化

在大数据领域,Spark已经成为了业内进行大数据处理分析的主流计算框架。也正是因为Spark多种不同的组件,可以提供诸如SQL的查询、流式的处理、机器学习、图像计算等丰富的功能,英特尔在Spark上构建了面向Apache Spark的开源、分布式的深度学习框架BigDL。

“虽然现在有非常多深度学习的框架,也可以看到来自于深度学习社区各种各样的突破,但是怎样能够使深度学习更方便、更普遍地被一般用户、大数据用户和普通的数学科学家所使用,这是BigDL想要解决的一个问题。多数用户并不是深度学习的专家,所以我们希望能够将深度学习和大数据平台相结合,提供统一的大数据分析平台。” 英特尔大数据首席架构师、资深首席工程师戴金权在采访中谈到了BigDL的核心。

加速推动AI技术的民主化,英特尔BigDL显身手

英特尔大数据首席架构师、资深首席工程师戴金权

BigDL的优点非常明显,用户可以像编写标准的大数据Spark程序一样开发深度学习应用。它可以直接在现有的Hadoop和Spark的集群上运行,不需要对集群做任何修改,并且不需要设置特殊的软件或者硬件,就可以直接重新使用现有的软硬件架构。BigDL本身就具备和主流的深度学习框架Caffe、Torch、TensorFlow等等相同的功能,但它也特别为大数据平台或者大数据的集群、Hadoop集群、Spark集群进行了优化。

目前业内很多企业的大数据的平台,Hadoop和Spark的集群基本都是几百台、几千台甚至上万台的基于英特尔至强处理器的通用服务器集群架构。BigDL和其他的深度学习框架其最大不同就是,它专门为这样的大数据的运行环境所优化。一方面它在单点上利用英特尔的MKL库,多线程编程等等,可以得到非常高的性能。同时又充分利用了Spark架构,可以很方便在集群上进行横向扩展,并且方便跑在几十个甚至上百个节点上。

而事实应用中的情况又是怎么样的呢?

2016年12月30日,英特尔开源了BigDL,一两个星期以后,一位来自eBay的数学科学家回访了英特尔。在这之后,这位科学家所在的企业已经在BigDL上面部署了200个YARN的集群节点。

BigDL构建在大数据平台上,可以做到其他框架很难做到的事,比如SQL查询、流式处理,可以跟此类应用很方便地集成在一起。

人工智能的命题就是利用BigDL深度学习框架来分析它的金融营销的活动情感。用了BigDL的大数据分析平台还可以对互联网用户的评论进行场景情感分析。在医疗领域,3D图片分析和处理功能,可以帮助医疗机构怎么样做更好的3D医疗影像的分析。

顺势而为,BigDL技术变现的实用价值

英特尔为什么要做BigDL?并且将BigDL开源?

“深度学习之所以今天这么有效,当然有非常多的原因,但是其中一个非常重要的原因是由于今天所能够访问到的数据量的不断增加,以及我们在数据上进行高效分析、处理能力的提升。数据规模的扩展推动了深度学习的发展这是趋势之一。“戴金权如此分析当前趋势。

从这个意义上来说,任何数据分析的框架或者技术,包括深度学习的框架技术都要能够很好地在Apache Hadoop为代表的大数据平台上运行和集成。谷歌在2015年的一篇论文总结说,从某种意义上来说,机器学习、深度学习的算法必须能够在一个端到端的复杂的流水线上,和其他的组件非常好地工作在一起,这也是非常重要地构建工业级深度学习应用的要求。

以英特尔与银联及电子支付国家工程实验室基于BigDL所联合构建的端到端的欺诈交易检测应用为例。英特尔构建了十几个独立的神经网络,然后再做组合操作。为了把整个端到端的应用建立起来,需要做大量事情。首先要训练数据,也就是要利用众多的数据库信息、商户信息、每个人的用卡信息、大量的交易日志,包括在线交易、移动交易等等。原始数据首先要进入系统,就要有数据管理的过程,然后对数据进行各种处理,包括Resumption、Feature Engineering、Feature Selection等等。这就需要从数据怎么进入系统,怎么管理数据,管理特征,提取特征入手。这个过程之后进行模型训练,然后对模型进行组合,把这些独立的模型利用各种策略,最后达成最终的预测结果。

这个例子很好地说明,用户想要构建这样一个端到端的深度学习应用,事实上并不是一个模型就能够解决问题的,这需要一个非常复杂的端到端的流水线。利用在Spark上的BigDL,就能很好地利用大数据从Hive到那些数据结构,然后用Spark等等很方便把这个流水线构建出来。

开源BigDL的产业价值

2016年12月30日,英特尔开源了BigDL。BigDL 0.1版本主要专注在怎样提高深度学习在数据科学家中的易用性。比如对组件的支持、对Notebook可视化的编程的环境支持和谷歌Tensorboard可视化的支持,以及更多的RNN功能的支持。做到更加健壮、容易扩展以及对大规模、分布式训练的支持,是BigDL 0.1版本的主要功能体现。

正因为BigDL是跑在Spark上的深度学习的框架,和大数据的架构和云的架构高度契合,所以它在包括AWS、微软Azure、阿里云、Cloudera的Data Science workbench、DataBricks以及Lightbend等在内的重要公有云平台、大数据分析平台上都得到了非常好的支持。这些网站也提供了各种教程,帮助用户在自己的大数据平台或云服务上来使用BigDL。

一个好消息是,BigDL 0.20版本也即将发布。BigDL 0.20提供了更加丰富、更加易用的分布式深度学习的支持,包括对功能性的API的支持。新版本还支持对TensorFlow的模型的导入以及TensorFlow模型定义。

英特尔在开源方面的投入一直有目共睹,仅在大数据开源方面,从Hadoop到Spark、Hbase上的投入与支持等等。通过开源社区、开源软件打造生态圈,使整个产业快速发展,让产业里所有参与者受益。同样,在BigDL上的开发、开源,英特尔也是想让更多的开发者和企业在Spark大数据平台上更快、更容易应用深度学习的解决方案。基于这样的框架,能够用深度学习的技术处理数据,学习数据中的知识,带来更强的生产力。深度学习如果能够到各行各业中得到广泛应用,必将会推动技术变革。英特尔平台

是目前大数据公有云上最主要的平台,大数据、深度学习的任务能够在英特尔平台上高效和方便地运行,对英特尔来说必然是双赢的结果。

网友评论(0) 评论仅代表网友个人观点,不代表CBINews观点。
CBINews网友您好,欢迎发表评论:(注册 后发表评论,可就本文发起辩论,将会获得更多关注)
 CBINews网友  注册邮箱:  

CBI 友情链接:

腾讯科技 |  凤凰科技 |  商业伙伴 |  移动信息化 |  企业网 |  中国软件网 |  CIO时代网 |  更多>>

CBI集团其它网站:

电脑商情在线 | 存储伙伴 | 服务器伙伴 | 中小企业IT网

CBI 地方分站:

上海 |  广州 |  成都 |  西安 |  沈阳 |  武汉 |  南京 |  重庆 |  长沙 |  济南 |  太原 |  合肥 |  长春  |  杭州 |  昆明 |  南宁 |  哈尔滨 |  兰州 |  乌鲁木齐 |  福州 |  郑州 |  贵州

整合营销 |  CBINews刊例 |  《电脑商情报》刊例 |  联系方式 |  版权声明 |  友情链接

内容版权所有:电脑商情在线 北京米迪亚广告有限公司

地址:北京市海淀区中关村南大街28号6层 联系电话:(010)62178877-218

商务、内容合作QQ:15528356 客服电话:13699291170

电脑商情信息服务集团 成都华好网景科技有限公司

ICP证:川B2-20070068-5 川预审H8VZ-RBP6-X228-T60Z号 北京市公安局海淀分局备案编号:1101083710