织梦CMS - 轻松建站从此开始!

澳门星际网址_澳门星际注册开户_澳门星际平台_澳门星际上网导航

当前位置: 主页 > 百度搜索 >

【干货】你真的了解百度大数据引擎??-业界动态-@大数 …

时间:2018-07-11 21:03来源:未知 作者:admin 点击:
此内容为数据派独家内容,数据派是清华大数据产业联合会官方微信公众账号,定期发布清华大数据系列讲座信息,分享讲座实录,欢迎个人转发朋友圈 。大数据引擎,这是一个词,在百度百科上你们可以看到。百度是搜索引擎公司,每天响应来自138个国家和地区的70亿次搜索请求,搜索公司从第一天开始就要收集全网的非结构化数据,同时我们还有大量日志和广告客户的数据,所以数据种类、类型非常复杂,数据量也非常大,今天就不再详细一一讲了。这是我们通常讲的,讲大数据有几个特性,比如说四个、三个,不管怎么样,无外乎就是说它大、时效度高,另外就是数据来源多样性。这里大家可以看到百度的数据大在什么地方,目前差不多有一千PB,但我们数据中心建设是朝着几千个规模建。我们的搜索引擎在很短的时间响应你的需求,背后靠的是大数据的处理能力。上面,基于这些数据,我们又进行了一些处理,比如说训练一些人工智能的模型深度学习,然后需要整理,再往上可以做一些其它事情,比如我们可以向行业输出行业报告,可以预测某个方面的趋势,以及对某一领域的监测,等等。分开来讲,在基础设施方面,这里有几个例子:第一个就是服务器的定制化设计,第二个是我们通过GPU改造服务器的加速和运算能力。同时,我们为了节能,为了减少服务器的占地面积,节省能耗,我们在全球第一家用ARM的芯片代替了英特尔芯片建这个服务器,而且在南京建设之后取得了非常好的效果,这是我们去年年初已经对外讲过这个事情。在万兆交换机方面,这样我们可以大规模提高接入的效率,降低接入成本。另外在整机柜方面,因为我们现在用了大规模的整机柜服务器,使我们效率提高了10倍。另外还有我们自己对IDC的设计,应用了很多节能降耗的措施。在其中有几个我非常引以为豪的地方,比如说在中国的环境下如果用自然冷风的话,因为中国的空气质量相比国外是不一样的,在这种情况下如何防止服务器被腐蚀是个问题,这是其它任何国家都不可能给我们提供的先进经验。大家可能没有这个亲身感受是不知道的,我在百度我是知道的,数据的增长遵循摩尔定律18个月翻一番,但我们是数据高度集中的公司,它的增长速度还要大。比如一年翻一番的情况下,从你的预算到订货到到货到安装到部署上线,对速度的要求是非常高的,如果你跟不上的话就会拖累整个运营。所以,我们为什么要做整机柜和ARM的服务器?都是因为这些要求,所以我们在这方面形成了这样一些技术。在软件方面,我相信大家都会想到,如此庞大规模的数据中心,这些服务器,要形成一个统一的资源池的话,那这个基础架构的转变会很复杂。其他的互联网公司,据我了解,要么是规模没有百度的数据量大,要么业务太繁多,大家知道,百度最主要的就是搜索引擎。这样的数据中心,要形成一个资源池,这在中国还是存在价值的。这是百度搜索的页面,大家应该很熟悉了,但跟我们通常看到的搜索页面有所不同,过去的页面是一个一个的URL的链接,点开之后就离开了百度。但大家看,首先它直接给出了结果,比如说一个什么人多少岁,直接就会告诉你34岁,左边这个搜索结果也是直接的精准答案。在搜索框里,过去我们讲输入关健词,但现在关健词已经不能代表网民在搜索框里输入的内容了。左边是什么什么球星,右边这个就更加绕口了,网民输入的是,谢霆峰爸爸儿子的什么什么,很多网民他们在用搜索引擎的时候,他们想起什么就打什么。所以,我们对自然语言的理解要求就非常高的,所有这些处理背后都是大数据处理的技术。自然语言的处理大家可能会知道,原来是基于语法规则的,现在大量的是从海量的互联网文本里进行统计的,这是目前主要的技术手段。给出直接的答案方面,因为也是从杂乱无章的互联网网页,大到什么程度呢?上千亿个网页,从大量的文本里挖掘这些知识,找到这些答案。跟上一页相关的,在搜索引擎领域里有个很热的词叫知识图谱,就是在上万页网页里找到一些概念图谱,比如在座每个人的名字、每个城市的名字、每个城市的名字,现在在百度里可以找出几十亿这样的概念,以及每两个概念之间的关系,如果建立起来就形成了一个知识的图谱。有了这个知识图谱,就会大大改善搜索的效果。比如说,当我搜索海贼王这三个字的时候,搜索结果不仅出现的是搜索链接,而且直接会给出视频和百度百科上面的介绍,以及跟此相关的其它视频资料,因为你对这个感兴趣可能对同一类其它东西也感兴趣,因为很多人跟你一样搜索过海贼王也同时搜索过其他的,这样就大大提高了搜索引擎的效率。这些,都是我们大数据一个非常典型的应用。在智能交互方面,在语音识别、机器翻译、输入法,以及地图,还有图象识别,等等,各大领域里,用大数据的技术训练模型,使得各种识别的错误率大大下降,语音识别精准度我们基本上能达到95%以上,大家知道百度在语音识别方面起步的并不是太早,后来由于用了大数据的技术,使得百度很快就赶上了行业先进水平。下一步,会在多噪音情况下,使识别率进一步提高。目前,这一块也已经在很多行业里推广使用,不光百度在自己用。这是百度翻译,当你到国外点菜去的时候,你用百度翻译这个应用对菜谱一照,自动就可以把菜谱翻译成中文,让你能看得懂。右边这个图是什么意思呢?手机对准一个食物的时候,就可以知道这是一个什么东西。昨天,刚刚我们跟联合国一起做了一个百度联合国大数据联合实验室,做的第一个项目就是百度回收站,在你家里有很多废弃的物品,用手机一照,自动就能识别是什么东西,以及目前它大概废品回收价格,你把联系方式写好,国家有认证资质的废品回收站,就会到你家把物品收走。这里头,无论是机器翻译还是自动的识别动物,还有其它的物品,背后用的都是大数据。这是三个零件,表示什么意思呢?就是三个部分都可以对外开放,你可以只用开放云,也可以只用数据工厂,也可以只用百度大脑,也可以联合起来都用,这是开放的三个层次。底下的三个箭头,第一个箭头表示的是百度的数据,其它的是各行业的数据,包括你所在行业的数据。因为,百度的数据跟你们的数据之间会发生一些联系,因为我们有6亿多的网民在这里头使用搜索引擎,通过PC的、通过移动的。刚才京东的嘉宾也讲过,对用户是要进行画像的,要知道你的搜索行为,要知道你的偏好,就必须得对搜索历史进行分析,包括你的年龄、职业、经济状况,但是这些东西大家可能觉得数据有隐私的问题,我们不知道是谁,因为你从来没告诉百度你是谁,但我们知道你从哪些帐号里出来,所以我们更清楚这样群体的行为。我们目前的画像正确率可以达到80%多,这是在不知道你身份证号、年龄、性别等等信息的时候。可以分析出你此时此刻此地,对什么比较感兴趣。这两个加起来,可以发挥更大的作用。再往上就是百度支撑的各个行业应用。百度大脑方面,现今人工智能的技术又回归到20年前,就是模拟人脑的结构和思维方式做,我们在模拟人脑200亿个神经网络,未来还要不断拓展,是全世界最多的神经网络,李彦宏说现在只能达到2-3岁,未来随着发展可以做更多的事情。在百度的大数据引擎开放之后,做了这样一些事情,比如说在工业领域里我们做了一些事儿。首先,所有这些功能和效果,都是从百度自身验证出来的,这是个很好的例子,百度有200万块硬盘,其实这个数字我不想透露出来,200万块硬盘每时每刻都有坏的,我如何知道它要坏把它剔除出去再换一块好的硬盘,这是故障率一个很大的障碍。为了自动化,我们不得不对200万块硬盘监测,能够提前知道它将要坏,这个准确率能够达到80%多。提前知道它将要坏,这项技术其实可以用在各行各业,比如说汽车,开了多少公里,什么时候保养,什么时候维修,把这些记录给我之后,数据积累到一定程度,就知道你车什么时候要坏,它可以及时告诉你,赶紧进行保养。其实大家可以想象一下,任何一个领域都存在着同样的事情。第二就是百度的医疗大脑,它来自于各方面的数据,临床数据、可穿戴设备的数据,以及健康体检的资料,等等等等这些数据,经过分析,这里就用到了百度大脑,可以对病人提供个人健康跟踪评估,以及最佳临床方案的建立,对医生或医疗机构,可以提供监测预警。我们在这方面已经取得了不错的效果。最近我们也在跟金融行业合作,金融行业面临着一个很大的问题,就是传统的架构模式,使得他们每年必须花出很多预算对系统进行升级,特别是在大数据新的形势下,因为大数据一个很重要的特点就是数据增长数据是爆发式的,如果扩容的话要付出很大成本,但他现在不想那样了,因为继续那样预算往往都会被超出。在这种情况下,他就需要百度这样一些技术架构,比如分布式数据处理,这会带来一系列问题以及运维监控难题,对金融行业的系统升级起到降低成本的作用。清华大数据产业联合会的微信公众平台,旨在传播数据科学理念,分享数据运营心得,扩展数据应用空间,捕捉数据产业商机。定期发布线下活动预告,独家发布讲座素材,清华大数据产业联合会活动报名唯一渠道。 (责任编辑:admin)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------