桃古绘里香学家一年能有多少钱

Hi 您好!&
<img src="attachments/2013/12/livecast/image.thumb.jpg" alt="率鹏副主任" title="率鹏副主任" width="117" height="90" onMouseOver="toolTip('')" onMouseOut="toolTip()"/>率鹏副主任
<img src="attachments/2013/12/livecast/image.thumb.jpg" alt="首席专家唐雄燕" title="首席专家唐雄燕" width="117" height="90" onMouseOver="toolTip('')" onMouseOut="toolTip()"/>首席专家唐雄燕
<img src="attachments/2013/12/livecast/image.thumb.jpg" alt="张新生副理事长" title="张新生副理事长" width="117" height="90" onMouseOver="toolTip('')" onMouseOut="toolTip()"/>张新生副理事长
<img src="attachments/2013/12/livecast/image.thumb.jpg" alt="何宝宏主任" title="何宝宏主任" width="117" height="90" onMouseOver="toolTip('')" onMouseOut="toolTip()"/>何宝宏主任
<img src="attachments/2013/12/livecast/image.thumb.jpg" alt="大数据带来的启示" title="大数据带来的启示" width="117" height="90" onMouseOver="toolTip('')" onMouseOut="toolTip()"/>大数据带来的启示
<img src="attachments/2013/12/livecast/image.thumb.jpg" alt="大数据改变世界" title="大数据改变世界" width="117" height="90" onMouseOver="toolTip('')" onMouseOut="toolTip()"/>大数据改变世界
<img src="attachments/2013/12/livecast/image.thumb.jpg" alt="大数据离我们有多远" title="大数据离我们有多远" width="117" height="90" onMouseOver="toolTip('')" onMouseOut="toolTip()"/>大数据离我们有多远
&& 图文直播 && “科学家与媒体面对面”第36期--大数据离我们生活有多远
主持人:大家好,今天下午的科学家与媒体面对面活动马上开始。
董千齐:本次活动的主题是大数据离我们的生活有多远。提到大数据,在过去的议论当中是一个热度非常高的词汇,几乎所有人都在讨论大数据背后所带来的科技方面、技术方面的进步,观念上的改变,以及背后所蕴含的巨大价值。有人把大数据形容为未来世界的石油,更有人宣称掌握了大数据的人可以像上帝一样来俯瞰整个世界,包括美国政府已经把对大数据的研究上升为国家战略,可以毫不夸张的说,不仅是在国家层面上,与我们息息相关的每一个角落,其实大数据正在进入我们的生活当中。
董千齐:今天我们就和到场的几位专家学者、来宾和大家一起探讨一下大数据背后蕴含的价值和意义,以及它将在当下和未来对我们的生活所可能造成的影响。介绍一下今天的几位来宾:中国通信学会副理事长兼秘书长张新生;工业和信息化部电信研究院互联网中心主任何宝宏;中国联通网络技术研究院首席专家唐雄燕;中兴腾讯首席架构师、业务总工程师罗圣美;百度公司发展研究中心副主任率鹏。欢迎几位的到来,一起和我们探讨大数据的数据。几位都是产业界以及技术界的专家和学者,一会儿和大家好好聊一聊。何主任不仅是主旨发言的专家,也是今天的专家主持人,接下来把时间交给何主任。
何宝宏:谢谢主办方,给了我们一个很好的机会让产业界、学界能够跟媒体进行沟通,和普通老百姓进行沟通,探讨大数据,没想到今天来了这么多媒体,我觉得我们做科技的人有所失职,没想到老百姓和媒体这么关心大数据。我刚才在路上听到今天的股市很低迷,但是大数据的股票一直在上涨,这也是一个好消息。这个时段由五位专家先做主旨发言,先介绍一下各自对大数据方面的理解和掌握的信息。首先是我本人先介绍,后面陆续请另外几位专家发言。
何宝宏:我简单做一个开场白,因为只有10分钟时间,更多的时间留给媒体互动。我的题目是:大数据会改变世界。我们经常看到媒体说世界是一部战争史、货币史、金融史,大家看了很多材料,反过来看其实也是一部信息史,信息技术的变革改变了世界,数据或者信息技术的每一次革命都必然会迎来人类的一次革命性变化。简单地看,比如早在10万年前人类迎来的是话音时代,突然之间会说话的时候迎来了和动物竞争的压倒性优势,从此地球迎来了它的主人,就是人类,归结为语言的发明。
何宝宏:谢谢主办方,给了我们一个很好的机会让产业界、学界能够跟媒体进行沟通,和普通老百姓进行沟通,探讨大数据,没想到今天来了这么多媒体,我觉得我们做科技的人有所失职,没想到老百姓和媒体这么关心大数据。我刚才在路上听到今天的股市很低迷,但是大数据的股票一直在上涨,这也是一个好消息。这个时段由五位专家先做主旨发言,先介绍一下各自对大数据方面的理解和掌握的信息。首先是我本人先介绍,后面陆续请另外几位专家发言。
何宝宏:我简单做一个开场白,因为只有10分钟时间,更多的时间留给媒体互动。我的题目是:大数据会改变世界。我们经常看到媒体说世界是一部战争史、货币史、金融史,大家看了很多材料,反过来看其实也是一部信息史,信息技术的变革改变了世界,数据或者信息技术的每一次革命都必然会迎来人类的一次革命性变化。简单地看,比如早在10万年前人类迎来的是话音时代,突然之间会说话的时候迎来了和动物竞争的压倒性优势,从此地球迎来了它的主人,就是人类,归结为语言的发明。
何宝宏:五千年前,人类发明了文字,文字使我们的信息迎来了新一轮革命。有了文字我们才有了历史,有了文字我们才有了文明,没有文明我们就没有今天的立法、宗教,这些都不可能产生,贸易等等都取决于文字,所以,有文字的古国才有文明,文明古国都是有文字的。我们迎来了一次新的变革,最大的变革就是使得我们的信息、数据可以传承,更远地传播。大概在1千年之前,我们迎来了一次新的信息技术革命,印刷术,尤其是古登堡西方印刷术的变革,这次变革又使得人类迎来了翻天覆地的变化,古登堡当年发明印刷术的核心目的是为了传播基督教、传播《圣经》。传播《圣经》以后引发了新的一场革命,《圣经》的传播导致的不是基督教更广泛地传播,相反引发了一次宗教革命,大家发现了宗教的问题,迎来了文艺复兴。如果没有印刷术不可能有文艺复兴,产生现代的学校、大学,没有印刷术就没有今天的工业革命,就没有文艺复兴,就迎来不了今天的革命。
何宝宏:所以每次数据的爆发,或者信息技术的革命会导致整个社会的变革。今天我们迎来了新一轮的大数据和大信息时代的革命。如果更广泛地讲,今天所谓的大数据再往前,包括广播、电视、报纸。今天迎来新一轮高潮性的革命,任何一次革命不会是简短的,不会几年、几十年就结束了,往往是数百年对人类的影响。信息革命可以从电信业算,经历了100多年的历史,今天是以互联网为代表的大数据革命,正在颠覆我们很多的思维和方式,新的一次革命必然会迎来人类新的变化。
何宝宏:举几个小的例子,从科普的角度来讲,大数据不是今天就出现的,当一个时代的人没有办法用那个时代的工具来处理的数据就可以称为大数据,你对付不了的就是大数据。现在的大数据是现代人用现代工具处理不了的数据,古人也会遇到同样的问题,比如人口的大数据,古代无论是东方还是西方,政府还是朝廷,都喜欢做人口普查,当然人口普查有各种各样的考量,人口普查就是一个海量的数据,尤其是在中国,在古代希腊可能问题不大,几万人不是很多,中国一普查就是几千万人,我们在东汉时期就有几千万人,几千万人显然是大数据,这个问题怎么处理?很多其他国家也会遇到大数据,人口普查是人类遇到的第一个大数据,数据很大,不知道怎么办。美国宪法规定,美国的人口普查要求是十年一次,1880年的人口普查,把这个活儿干完用了8年,1890年搞完人口普查需要大概13年的时间。就是说下一次人口普查根本没法干了,即使科技发展到今天,我们搞一次人口普查也是费时费力的事情,因为这确实是一个海量数据,结构非常复杂的处理。
何宝宏:任何一次挑战,或者任何一次巨大的问题必然会迎来一次机遇,任何一场危机都必然导致一次新的技术革命。于是就有人发明了穿孔卡片制表机,实现了美国那一次的人口普查,这次人口普查由于新技术应用一年时间就可以完成。我举这个例子是因为今天计算机的前身,今天IBM公司的前身,因为人口普查活干不下去了,才催生了现代信息产业的诞生,今天计算机的诞生,确实是每一次危机都会引出一场新的技术革命。
何宝宏:今天所说的大数据革命也是2008年之后,这五年来信息发生了翻天覆地的变化。这也是唯一的一次技术革命。所谓大数据革命,我们需要更多的是数据,用数据来描述一个世界。我们可以看整个科学,整个科学本质上来说实际是不断将自然界或者人体量化,用数据来描述这个世界的过程,可以简单归纳为这样一个过程。我们看到早期有人口迁徙的大数据,后来发明了长度、重量、体积、面积,用数据来表示,之前不知道,时间、空间、颜色,颜色是用数据来表示不同的颜色,中国人用枣红色、桃红色,现在计算机用非常精确的数据表示不同的颜色,电流、电压、声音、图像,都可以叫做数据化,到今天基因数据化研究、物理学、量子力学、其他数据的研究。我们今年的化学诺贝尔奖获得者在做大数据者的分析,有计算机的数学模型,如何压缩海量化学反映的数据,准确的用数据或者大数据方式描述医学或者描述遗传学,很可能会获诺贝尔奖。同样我们已经看到了,在大学里面获得诺贝尔奖的人,从本质上来说就是做大数据分析的人。
何宝宏:今天还要讲社会关系,看到我们的社交网络,QQ、微信,实际是一种将人类关系数据化的过程,在几年前大家恐怕难以想象人的关系怎么能用数据来表示,现在我们已经做到了。当然在外国互联网最早开始时,我们是被动将我们的数据留在了互联网上让大家处理分析,WEB2.0时代,微博、微信时代我们已经主动往互联网上送信息。特别是在移动互联网时代,随时随地的产生数据,而不是坐在家里PC前面才能产生数据,移动互联网时代我们随时随地产生数据。到了云计算时代,不仅是随时随地产生数据,还希望把整个硬盘上的数据都搬到云计算上让它分析处理,恨不得把整个硬盘都搬到网络上去,作为大数据的组成部分。
何宝宏:到了物联网时代,我们不仅希望这样传数据,因为这样是被动获取数据的过程。现在是互联网自动获取数据,我们的监控系统无时无刻都在传递信息,典型的代表就是今天出现的可穿戴设备,可以想像我们的数据越来越大,世界越来越用数据来描述。为什么今天大家说大数据那么热,有几个原因:一是我们确实是获取数据的渠道太多了,刚才提到物联网、互联网、基因、量子力学等等都是用数据描述世界,采集数据的工具越来越多样化。二是云计算的兴起。数据非常大,但是没有办法用经济有效的方式去处理大数据的时候,数据就没有利用好。数据必须要有低廉的方式、高效处理数据,这个才有用,堆在那儿没有用。我们需要更先进的工具,就是今天出现的云计算,云计算时代可以廉价、高效的处理大数据,所以今天来看大数据。
何宝宏:数据确实已经变成了一种资源,我们以前认为数据是我们在信息化过程中附加产生的东西,是一种附属的东西,而今天要转过来看这个问题,数据是核心,产生数据的过程只是一个过程。信息化围绕着工业、农业、各行各业去运转,下一步希望所有的行业以数据为中心考虑问题,设计流程,管理资产。我们开始以社会为中心的实现信息化,现在希望以数据为中心,重构我们的社会,重构我们的应用,重构我们的管理。
何宝宏:大数据让物质世界变得可计算,这是整个人类的目标,各界都在做这方面的工作。有人说大数据是21世纪的石油,因为我们的数据越来越成为核心的地位,老百姓感觉几年前非常关心电脑,丢了电脑非常心疼,现在丢了电脑、手机可能不心疼,而是里面的数据、硬盘丢失了心疼。这在十年前不能想象,那时数据不重要,计算机很重要,现在每个人都会感觉到硬盘很重要,电脑丢了就丢了,手机换的时候更关心的是里面存的通讯录,所以大家感觉数据的重要性比技术、产品更重要了。
何宝宏:刚才提到了,21世纪的大数据等于20世纪的石油。当然要变成石油大国,需要新的一些技术和新的产业界的努力,我们知道石油在世界上产生很多年,为什么只有到21世纪石油才是一种资源呢,这100年来发明了内燃机,使石油有了新的用途,否则的话石油一直睡大觉。大数据也一样,如果没有云计算的发展和兴起,数据还会在睡觉,因为没有办法有效开采、挖掘出来,被老百姓所利用。举几个案例,数据大了真的会发生革命性变化,我们可以看到,数据多和小的时候,思维会发生很多的变化,处理方式会发生变化。比如黄金是非常稀缺的,我们用的是克或者毫克的方式,我们称大象用船就可以了,但是我们说数据大和小的时候,处理数据的工具和方式完全不一样。再比如学习语言的时候,大学学英语的时候采用的是小数据学习方式,我们每天从小学就开始教语法,从上学到毕业一直在学语法,没有别的硬项,因为没有海量的英语单次训练你,没有环境培养你,因为我们是一个小英语世界。而语文是完全相反的,因为语文的周围有各种各样的语调、数据、信息可以供你训练和学习,所以从幼儿园到小学、中学,我们的语文教科书基本不讲语法,因为我们有海量的数据训练你,当我们的语量发生质的变化时,思维和处理问题的方式是完全不一样的。
何宝宏:还有营销,目前大数据最成熟的应用是互联网广告营销,今年老百姓在搜索或者浏览网页时推出的广告越来越精确,媒体靠广告支撑主要是靠拍卖,而互联网广告已经进展到了一个新的时代,这两年完全是自动的,实时竞价的,某个人在浏览某个网页的时候广告是自动的,动态生成的,比如我本人去浏览一个网页,网站的广告中询问,哪个人愿意投广告,多少人投标,基本上可以分析出来这个人的性格特征,所有的东西是在一秒钟之内完成的,这是实时的广告系统,已经出现了翻天覆地的变化,大概在120毫秒之内可以完成这样一个过程。现在传统媒体投广告没有几个月时间这个活儿干不完。
何宝宏:另外是银行,金融业本身来说是数据的行业,今年互联网金融非常热,根基就是由于大数据技术的来临,大数据的成熟,如果用大数据基于互联网处理时,据一份报告研究,不良贷款率是1%的数量级,是面向小微企业的,而传统银行的不良贷款率大概是5.5&6%。比如在互联网上我们记录每一笔交易的单笔成本是2元人民币成本,传统的银行放一笔贷款时大概需要800&2000元的费用,大家可以想象一下,成本是很高的,而我们只需要2元。所以广大中小企业变成了互联网金融的客户,拉出了金融行业的堰塞湖,银行&面向中小企业、面向中小微企业的很难贷,这个解决了这个问题,因为每一笔贷款成本都变得低廉。确实是,我们迎来了一个新的时代,是让数据说话的时代,我的介绍就到这里。下面请张司长介绍一下他对大数据方面的思考和观点。有请。
张新生:刚才何主任给大家讲了大数据给我们带来的一些生活习惯和方式的转变,以及带来的好处,接着他的话题我谈谈对大数据的看法,就是大数据发展带来的启示。我想从七个方面谈谈对大数据的看法。总体上讲,这七个方面可以缩小成四个方面,也就是要认识大数据的发展,要从资源、理念、工具和应用四个维度来看大数据会更清楚一点,所以我的题目实际上按照思考问题的维度就是四个维度。
张新生:我接着刚才何主任讲到的关于大数据多样化的应用正在改变人们的生活习惯和生活方式,再拔高一点,其实大数据在今天人们的讨论中有人把它提得高度称为是信息资源的应用革命。这是第一个谈法。第二个是大数据带来的是商业和管理的变革。第三个是最重要的大数据干什么,大数据会给人类社会带来价值和知识。如果我们的认识不是从这些角度出发,可能对大数据的认识会有一定的偏颇,所以我在何主任刚才给大家介绍的基础上加这三个作用和重要性。
张新生:大家会问,大数据这么重要,推动大数据的动力是什么?就是说我们为什么要搞大数据?刚才何博士讲给我们的生活、日常活动带来各种各样的好处,但为什么要搞这些事,还要从另一个角度考虑。第一点,从研究大数据的发展来看,推动大数据的核心动力,我们认为是人类对测量记录和分析世界的渴望,数据是什么?有人称数据为已知的,有人叫记录下来的,其实大数据发展的核心动力就是人们渴望能对现实物理社会存在的东西记录下来,能够测量它,并且能够分析。
张新生:互联网、移动互联网、物联网和云计算的快速发展,使人类测量、记录和分析世界成为可能。大家知道,互联网是人们用来进行信息索取、信息共享、信息传递,用来进行社交、交流、沟通,在这样一个互联网上记录着大家大量的日志信息,通过日志信息的分析,可以把你们的行为反映在我们所要获取的某一个层面。随着互联网的发展,移动互联网的快速发展进一步推动了整个互联网向社交转移,今天的移动互联网以社交为主要使用手段,同时在社交这个大的环境下进行信息共享、信息搜索、信息交流。移动互联网最重要的两个分析方法:一是社会分析,二是网络分析。社交网络分析里面,包括一个非常重要的技术,叫数据挖掘。把大家所有的数据通过社会挖掘出来之后,供互联网企业推动或者展示准确广告,实际移动互联网的发展对推动数据挖掘已经作了大量的工作。特别是物联网的发展,物联网把所有社会上只要和人认识社会有关的数据采集上来,再通过整合、分析,挖掘出来,由于现在社会的资源,特别是数据,通过这三种手段为我们创造了最好的大数据分析的基础和条件。
张新生:今天存在的社会现象是什么?是信息爆炸的时代。信息爆炸时代如果不利用,或者没有手段利用我们就会被信息淹死。好在今天我们有了新的技术,叫云技术,我们利用云技术可以对所有的数据进行存储、记录、测量、分析。由于云的出现,使人类测量、记录和分析的世界成为可能,过去我们认识物理世界,可能在分析时是要通过做大量的实证性工作,比如做问卷、访谈,得到一小部分样本来进行分析,做回归计算,最后得出结论。在那种条件下认识整个世界太慢,再加上太复杂,今天不一样了,所有的东西都在我们的网络中,说得具体点就是在大的云计算平台里存储了大量需要去使用的数据。实际上今天要重视的一个最大的现象是可以在网络上精确地在线现实世界全貌的模型,这件事情非常重要,有人说了,今天我们可以把现实世界用投影仪投在幕布上,你想做什么就有了方便的条件了。
张新生:从整体来看,今天要反映在整个网中的数据应该是呈爆炸式的,如果处理得好,可以利用大量的信息,提取有用的数据,获取价值,但如果你没有能力,就变成灾难,被大数据淹死。我们要利用云平台,通过先进技术从海量的信息中挖掘出有质量、有价值的数据,并且使大量有价值的数据能转化成为知识,这就是大数据今天要解决的关键问题,就是要把数据变成知识。
张新生:从目前整体的发展情况来看,最早是互联网企业发现了这个好处,利用大数据,特别是通过分析挖掘数据来为用户提供精确的广告投放。今天的互联网企业70&80%的收入都来自于广告及游戏,所以为用户做精确广告推送是一个非常重要的工作。互联网企业看到这个好处,传统企业实际上看到了社会上有这么多的信息,特别是来自于互联网的、老百姓的信息,来自于物联网的信息,对整个企业来说产生了新的诱惑力和动力。如果企业把信息拿来,再把自己的信息系统数据加在里面,会给企业带来什么?使企业有了新的发展的广阔前景。实际上推广大数据的动力,无论是互联网企业还是传统生产服务型企业,产生了利用大数据提高市场竞争力的强烈愿望,也推动了大数据的发展。大数据的核心到底是什么?作用是什么?实际上这个命题在社会上最近讨论特别多,有各种各样的院士论坛会,有各种各样的研讨会,有大量的研究分析会,都对大数据的核心作用探讨不同的看法。大数据的核心重点在于深度挖掘,通过挖掘产生新的应用,我认为这是大数据的核心和重点。如果不认识到这点,可能对数据的分析和挖掘就不可能引起足够的重视。
张新生:大家可能会问,大数据现在都在做什么事?在目前我们因为技术手段还有一定的限制,以及大数据的分析方法,主要利用大数据进行实时的预测分析,它现在主要的工作是做预测分析,做实情预测,进行风险管理,进行经济形势预测,预测是现在大数据的重点应用。大家可以看在所有大数据讨论中的各种文章,今天由于各种条件的限制,特别是技术条件的限制,主要还是进行预测。对大数据的挖掘、占用和使用,可以帮助企业分析市场和客户特点,提高经营效率。我们的企业实际是今天大数据新的推动力,其实我们的企业真的要对大数据有了一定认识之后,肯定会积极进入到大数据的挖掘过程中,特别是大数据的挖掘、占用和使用,可以帮助企业分析市场和客户的特点提高经济效率,这是第一个对企业的作用。
张新生:第二,还能够引导公众的行为方式,甚至影响公众的思想意识。最重要的是,大数据还有一点,不但可以运用互联网发展,还可以运用物联网发展,物联网典型的就是智慧城市发展中利用大数据来发展智慧城市,实际智慧城市最重要的是两点,通过智慧城市来提高政府对城市的管理水平,提高对城市的服务水平,同时通过大数据来解决智慧城市,提高整个政府在社会决策和管理中的水平。大数据的用途争来争去,我认为主要在这里。
张新生:大家可能会问大数据的现状是什么。不同的国家、不同的地区都有不同的看法。从美国来看,他们认为,特别是Gartner在日报道中,对通过720家企业开展大数据调研认为,全国大数据应用和服务深处于早期布置阶段。我讲另外一个看法,认为可能现在大数据还处在炒作期,在经济发展阶段中叫预期膨胀期,但炒作期不意味着不好,不意味着这个事不成立,而是通过这一个阶段,通过充分的炒作,大家可能会对它认识得更清楚。
张新生:2012年10月美国在《哈佛商业论坛》的封面上就把大数据作为封面展示,他们认为大数据的时代已经到来。今年7月9日,有一个大数据时代的作者维克托在论坛上发表讲话,说我们现在要对大数据积极推动,他认为什么时候进入到大数据时代,是到2020年。大数据到底干什么?现在大数据的阶段是什么?大家肯定认为它的发展是有好处。大数据的概念定义是什么?讲得非常多,大家的认识也不同。什么叫大?很难定义。这个大会随着信息量和技术变化而变化,比如今天讲的数据是PB级,在两年以前认为大数据是T级,明年、后年可能到了Z级,到了E级,还有人认为什么叫大数据?大数据是在高度信息化条件下来自各源头、不同渠道的结构化和非结构化的数据。我认为是量已增长到目前技术难以管理其复杂化的数字。最近技术人员在继续研究什么是大数据,凡是利用Nosql、Mapreduce、机器学习等技术对大量复杂数据进行存储和分析的过程就叫大数据,但是目前看来对大数据的认识上逐步接近,利用新技术是大家公认的。
张新生:大数据有什么特征?大家都在讲技术特征,但是大家的认识都不同。一是量特别大,就是海量。什么才能定义海量?有T级,现在有PB级的,有人说现在不到PB级就不叫海量,但随着时间的发展,可能还会变化。我认为是大到目前的技术无法管理的数据量就叫大数据,大到这个程度的时候要搞一个数据分析,要花多大的代价?现在一个企业搞PB级的数据中心都会吓出冷汗。二是多样性,数量的数据种类,它的种类非常复杂,我们统称为两类:一种是结构性,一种是非结构性。结构性的好处理,非结构性的不好处理。现在大量的非结构,有人认为75%是非结构,有人认为是95%。我们现在的技术手段与关系分析的数据库来处理是没法处理的。三是速度,产生的频率和传送频率非常快,就是实时,如果现在的技术能够实现实时传送,是非常困难的事情。很多院士说其实搞大数据最麻烦的是哪儿来的数据,这些数据都是垃圾,都是低质量的数据,我们要它干什么,我们从大海里捞针,捞出来的针还不知道有没有价值。但是还有些专家说不管它有没有价值都留下来,我们以后再挖掘,有待挖掘它的价值。现在没有价值,不意味着将来没有价值。现在看太难了,要从大海里捞出那一点有价值的东西花多少钱,存储到数据里,特别是PB级的。我个人认为是高投入、高技术、高成本。
张新生:它的分析方法很简单,从大数据来讲核心就是分析和挖掘,不像过去一样是小样本,现在是把所有的数据作为样本,这是第一点。第二点,不再追求精确性。第三点,关注相关性,只知道是什么,不要为什么。但是今后的世界一定要知道为什么,但是它今天所做的工作只给我们讲了是什么。当然,大数据是一个工具,把得到的数据可以多次反复利用,并且可扩展,并且有互用性。实际大数据的技术也很多,但目前来看大数据的技术仍然是制约我们发展中的一个重要的值得突破和创新的点。有几点影响妨碍我们使用大数据:一是获取、分析和服务能力不能对满足海量非结构化的实时的数据进行处理和分析。二是不能按人们的想象获取高质量、有价值的数据,并将获取有价值的数据转化为知识。到今天为止,大数据没有一整套流程,应该是需求牵引、问题导向、案例指导、系统分析,应该建立这个流程。三是大数据哪儿来?谁给你?由于数据权利的问题,数据是有知识产权的,由于种种权利的问题,你想得到数据不容易。所以数据来源问题、数据质量问题,特别是数据共享开放问题等一系列的法律法规,到目前为止可能在大数据发展过程中需要逐步完善和建立。最重要的一条,在今天来看,如何在保持性能、能耗与成本最优化的条件下处理PB级或更大规模的数据,或者说大数据的技术和解决方案怎么降低成本,是我们现在最关心的,也是我们发展的瓶颈。
张新生:今天来看,大数据还有一个最关键的问题,最终搞大数据关键是人,我们在发展大数据过程中需要大量的数据科学家,数据科学家是今天在发展大数据中是非常稀缺的人才。大数据可以给我们带来好的一面,同时大数据也是整体推动信息产业发展的重要环节,但是要想推动大数据的发展,我们还存在着一些必须克服、必须创新的技术,同时发展中还存在瓶颈。随着我们的发展,克服了这些之后,大数据就会健康稳定持续发展。谢谢各位!
何宝宏:谢谢张司长给我们介绍了大数据的概念、发展以及瓶颈等等,下面有请唐雄燕院长。
唐雄燕:各位媒体界的朋友下午好,我报告的题目是《大数据的来源价值》。实际我想谈两个问题,大数据从哪里来,用到哪里去。大家听说过,最近两三年产生的数据可能比人类历史上四万年产生的数据还要多,实际就是由于互联网的发展,互联网是大数据来源的最重要的地方。由于互联网的发展,使得相应的娱乐、商务、生产生活、社交都在互联网上进行,在互联网上会存在大量数据的传播和处理。尤其是移动互联网的发展,移动互联网的特点是:随时、随身、随地。随着数据的产生有更的基础,这一切推动了数据的爆炸性增长。有一些具体的数据我在这里不多说了,我们国家移动互联网的发展,整个用户超过了8亿,这一切为数据的产生提供了很好的基础。
唐雄燕:另外一个大数据的重要来源,或者说更有潜在价值的就是物联网,当然物联网是互联网的拓展,物联网就是机器的联网,使得海量的传感器随时采集数据,会进一步加剧数据的海量性、多样性、复杂性,而且大量是非结构化的数据。由于物联网的发展,增强了大数据的实用性,大家认为互联网是虚拟的世界,但是物联网已经把这样一个虚拟的或者是信息的世界和实体的基础设施世界进行了紧密的结合。过去大家都听过智慧地球的概念,就是希望把实体的基础设施和信息基础设施合为统一的全球基础设施。
唐雄燕:在这样的基础上,大量的传感器这里有几个例子,大家都在开车,你的车上可能会有几十或者到几百的传感器,会产生大量的数据,每个小时你的车上产生的数据是5-250GB的数据。现在谷歌在做无人驾驶的汽车,每秒钟要产生多大的数据,1GB的数据,会有大量数据的产生。到2020年,全球会有300亿的机器联网,尤其是中国,我们有大量的人口,有更多的家庭,这中间会占有更重要的位置。一种预测是到那时候,中国普通的家庭每个家庭会有40&50个智能终端,一个家庭产生的数据是20TB,就是我们国家图书馆的藏书相当于2600万册,这个会有40TB,一个家庭一年产生的数据相当于半个国家图书馆,所以这是一个非常海量的数据。
唐雄燕:大家也知道,数据是哪儿来的?实际也是我们大家贡献出来的。平时有很多隐私的话可能不会跟家里人说,但可能告诉百度了,上网搜什么东西,百度知道;你的社交关系谁掌握?大家用微信、QQ,社交关系就在那里;你的购物爱好和习惯可能淘宝网知道、京东网知道;你的通话记录、上网记录哪里有,三个运营商可能都有;你的身份、家庭房产信息这些哪里有,政府有;你到哪里刷了信用卡,银行知道;去了哪里,现在在哪里,定位的位置和信息,你的手机,应用可能都会掌握。最近大家可能关注美国的斯诺登事件,他已经贡献出一个情报,美国国防局每天搜集的手机位置信息近50亿条,在互联网上可能大量的信息都是存在网上。
唐雄燕:现在城市有大量的监控设备,伦敦有50万个监控摄像头,他们统计说每个人每天被摄像头拍照300次,北京我没有找到最新的数据,我有一个2010年的数据,北京已经有40万个摄像头,可能现在更多。伦敦能拍到300次,不知道我们每个人每天被摄像头拍到多少次。20年前我们做互联网时有一句话,在互联网上没有人知道你是一条狗,但今天你是不是狗网络比你更知道。有一句笑话,狗身上有多少虱子,可能网络也都知道。到底哪儿有大数据,第一点就是互联网企业。美国三大大数据公司,谷歌、Facebook、亚马逊,中国真正掌握大数据的,当然在我们的三个大的互联网企业,百度、腾讯、阿里,他们是目前大数据的主导拥有者和使用者。电信运营商在里面也有大量的数据,金融机构、其他行业、政府,也有相应的数据。
唐雄燕:关于大数据的价值,前面几位专家也都谈到了,有不同的说法,奥巴马说大数据是未来的新石油,在达沃斯论坛上讲数据已经成为一种新的经济资产类,像货币和环境一样,数据实际上也是和化学元素一样的原子材料,将来我们的产业形成有做数据材料的、数据加工、数据服务的,这一切会成为新兴的产业,所以数据也是生产力。刚才提到了《大数据时代》这本书,讲到将来要让数据说话,让数据发声,那时候可能不知道世界的因果关系是什么样,但是我们知道它是什么。
唐雄燕:要在数据里面找出有价值的东西来,这就是大数据技术的核心,迅速完成数据价值的提纯,前面讲到监控,监控了你一整天,可能真正有用的数据发现你干了坏事没有一两秒钟,这中间怎么找出来,就是数据挖掘技术的关键。大数据可以用到社会的方方面面,军事、政治、社会管理、医疗卫生、交通、物流、金融服务、消费、食品安全、环境、气象,和我们的生活息息相关。通过大数据的应用,达到了什么样的目的?对我们的管理来说实现了更高效的管理,对商业来说可能实现了更精确的营销,对于社会的很多事件的发生,或者是环境的预测来说,它提供了更及时的预测,也提供了更优质的服务。举几个例子,大家看过大数据相关的书籍可能都会知道,谷歌流感趋势的案例,谷歌通过对搜索的分析,可以判断流感的趋势。这和美国的疾控中心的数据完全是一致的,而且它的速度会更快,疾控中心拿到这个数据会有一两个星期的延期,因为需要统计或者相关用户和下面的疾控监测站提出数据,但有延期,而谷歌能够实时进行处理。这几年看到数据都是非常准确的,今年出了一点小问题,谷歌流感趋势明显高过了流感峰值的水平,大数据也有不靠谱的时候,可能是处理中有一些数据的噪音,也可能有更多人转载导致了数据不一定完全准确。
唐雄燕:精确营销的案例:Target店的例子,17岁的女孩怀孕了,这个店自动给她发婴儿尿布或者童车的优惠卷,她的父亲非常有意见,到店里面去。因为也是一个误会,但后面是他的数据挖掘系统,怀孕期间可能有不同的购买行为,通过购买行为的分析知道你怀孕了,给你推送相应的广告,甚至将来会一直跟踪你,有了婴儿之后根据婴儿的生长周期会定期推送产品,这是精准营销的案例。
唐雄燕:马云也讲了他的一个例子,他预测了2008年的经济危机,他就是提前半年的时间可以从询盘上推算出世界贸易发生了变化,这些都是大数据应用中间很典型的案例。前面讲了大数据可以运用在我们生活的方方面面,交通、医疗,举一个医疗的例子,我们的智慧医疗实现完全可以在大数据的帮助下来实现,现在大家非常关心个人的健康,可以通过大数据的利用实现健康的服务,可以辅助临床的诊断和用药决策,为公共卫生机构提供更加及时的统计分析,为药品的研发、治疗方案提供数据分析,因为在医疗行业有非常多的数据,而且有很多非结构化的数据,像影像数据,心脏病患者的风险监控,平时可能有心脏病做一个心电图看不出来问题,医生花几十秒的时间随便一看,没有历史数据无法进行分析,现在有了大数据,可以对累计数据进行分析,远程实时监测的话可以预测心脏病发生机率并做出预判的处理。
唐雄燕:运营商也是拥有大数据的地方用户上网记录,每月超过2万亿条,联通的移动用户不到3个亿,每个人每个月贡献几千条的上网记录。为什么会有这么多?你每次浏览这样一个网页就会产生几十条,甚至上百条的记录,这是非常大的数。过去我们没有利用这个数,但是我们现在建立了一个系统,对上网记录进行相应的存储,现在你到联通去,你如果是联通用户,你的手机可以自动查询上网的记录详单,过去是无法提供的,而现在可以查询你到底上了哪些网站,我们都有纪录,你自己可以查询,这是一个非常典型的大数据的应用。
唐雄燕:还可以利用上网的数据来对移动网络进行相应的优化,一个城市到底多少人,有可能政府搞不清楚,但是可能通过运营商来看有多少手机在使用就可以算出这个城市有多少人口、相应的交通状况,有很多数据可以挖掘。整个大数据的利用上,我们还处于非常初步的阶段。现在每天可采集的原始数据大概达到990TB,现在用于自身的提升和网络质量的改善国外很多的运营商已经利用了更多数据的信息进行商业化的服务,这里我列了一些国外的运营商的例子,他们会做得更好,地理位置、出行规律都可以利用起来,提供相应的商业化服务。大数据在使用时用户数据时一定要匿名化,不能涉及用户隐私,最好不要人工干预,这样大家可能会觉得数据会被人看到,都是及时处理,提供统计化的数据,而不是具体到某一个人的隐私数据。
唐雄燕:我们国家大数据应用面临的挑战,一是数据的开放共享问题,二是数据安全和隐私保护问题,三是大数据应用的风险防范问题。四是大数据对社会影响的问题。五是大数据技术创新问题。我们国家标准化工作任重而道远。
何宝宏:谢谢唐院长。刚才提到了百度是一家大数据的公司,也涉及到一些隐私,下面听听百度的专家介绍他们的实践,以及在保护隐私方面的措施。
率鹏:感谢各位专家,特别感谢今天会议的主办方给我提供这样一个机会和大家进行交流和学习。我是百度发展研究中心的率鹏,前面专家讲了很多,我希望在尽可能短的时间内通过我的介绍让大家对百度这样的企业如何去做大数据,如何利用大数据方面,给大家一个形象和具体的认识。
率鹏:大数据时代无疑已经到来。在过去两年中,全球产生的信息占到人类整体掌握信息总量的90%,现在每天全球产生的数据相当于国家图书馆整个馆藏总量的1500倍,这也是为什么一夜之间大数据的概念兴起。
率鹏:大数据的基本概念以及一些大的量级的概念我就不做过多介绍了,包括它的主要特点、数据的来源,但是我想说一件事情,现在很多人讲大数据本身是一种现象,并不是一种技术,我个人也在一定程度上同意这个观点,但我想强调的是,如果我们真的要做大数据,一定要有相应的技术,没有技术支撑的大数据是没有办法应用起来的。
率鹏:从百度现在的情况看,目前百度掌握的数据体量是在EB级别,EB下面是PB,1个EB是1000个PB,1000个PB下面是TB,也就是一千个TB,如果你家里的电脑里面安装有一个TB的硬盘,那么百度现在掌握的数据大概是这块硬盘装满后容量的10倍。我换另外一个说法,整个人类社会现在掌握的整体的信息量大概在100个EB到1000个EB之间,就是百度现在掌握的信息量大约是全人类掌握信息量的不足百分之一,但高于千分之一的水平。
率鹏:我们大数据的技术用于支撑这些技术的软硬件设备,包括硬件和软件的基础设施。百度现在投入了很多人力、资金,吸纳了世界上最顶尖的做人工智能的学者做数据智能,成立了相关的数据研究院。这是我们在人工智能方面的尝试,现在基于深入学习的人工智能技术也已经广泛运用在了百度产品中,可以用在语音、图像、文字的处理阶段。我想给大家展示的是通过这样一些设备和技术,百度现在能够做到什么。现在大家看到的项目我们称为&百度知心&,主要指屏幕右侧的部分。用户在百度上面搜索刘德华,除了在屏幕左侧展现刘德华基本的信息,比如说百词条、新闻动态,同时在右侧向您展现用户在访问刘德华信息过程中可能会感兴趣的其他资料。比如说他的代表作品,比如他的基本家庭情况,他的个人基本生活信息,甚至是和刘德华关系目前紧密的一些其他艺人的资料,这样一些信息恰恰是我们对于用户在百度上对刘德华大量的搜索行为总结和归纳的基础上,才把这些知心的信息归纳并且展现出来的。
率鹏:第二个例子叫做泛需求满足。泛需求实际更贴近于每一个人每一天的真实生活状态,大家看到的例子叫做类似《北京遇上西雅图》的电影。类似这个概念从机器的角度是很难判断的,即使对于每一个人,其实每个人对于什么叫做类似,什么叫做不同也有非常模糊的界定,大数据使得我们对这样一种概念的处理成为一种可能。用户在搜《北京遇上西雅图》电影时我们确实能给出用户一系列和这个电影的主题、表现形式、影视风格都非常相似的电影,用户看了我们的推荐,他会觉得这确实是类似《北京爱上西雅图》这部电影。另外一个例子,用户搜的紫色的小花,那我会给出很多花卉的类似,它一定是紫色的,同时这个花一定不大,这样的搜索结果都是通过对于大数据的归纳和处理总结出来的。
率鹏:似的例子有很多,比如谢霆锋是谁的儿子,谢霆锋的儿子是谁,这两个问题在计算机看来是非常相似的,但是从人的理解和角度来讲是截然不同的,我们现在对这样的问题已经能给出让用户满意的答案。对于一个特定的产品,通过互联网大量的用户评价、销售信息等等这样的信息归纳,我们能够客观评价这个产品对用户来说到底是好还是不好,是否值得用户购买,是否应该推荐给用户购买,这也是通过大数据能够做到的事情。
率鹏:云搜索,百度层面的云技术已经成熟,并且在众多产品中有应用,如果大家感兴趣,可以下载百度的语音助手,这个东西用起来还是很方便,而且趣味性比较强。
率鹏:这个展示的是明星脸,可能大家比较熟悉它的另外一个名字叫PK大咖,在今年的移动互联网上也是一段传奇,上线两天就攀升到了整个榜单的首位,并且有一段时间我的微信朋友圈里面,我所有的朋友都在PK大咖,你拍一张自己的照片,百度能告诉你哪个明星和你长得最像,相似度有多少,当然也有比较惨的,拍出来之后像大猩猩。还有图书的识别,相似图片的检索。
率鹏:这个是百度翻译,目前我们通过大数据和学习的技术,已经上线了24种语言不同的翻译工具,并且用各种各样专用的测评工具进行监测,这个翻译质量在行业中是非常领先的。这24种语言中有12种,整个百度翻译的团队没有人是懂这门语言的,大数据的技术使我们完全在不了解、不懂得、不能够理解这种语言的情况下,仅仅靠技术本身就开发出一个非常好翻译工具,这在以往的时代是难以想象的。
率鹏:主办方交给我一个议题,主要讲一下用户的行为预测,我准备了几个基本的例子:一、计算广告学。这恰恰是用户行为预测最好的案例。今年美国的一名学者一个教授提出了一个新的理论,讲用户在互联网上寻求一种服务,或者想购买一个产品,他可能会分为若干个阶段,比如解决方案,获取信息,分析评估,以至于最后真的去购买了产品或者服务。用户在这个过程中的各种行为实际上是可以通过技术对他进行预测,并且与这个用户去互动起来的。这也是计算广告学一个很好的应用。同时计算广告学不仅把用户可能最需要的产品推荐给用户,还赋予了用户在这个过程中与我们进行互动的能力,就是说用户最终的点击或者购买的行为,实际对下一次是否还会继续推荐这个产品是有影响的。在这个过程中,我们把用户引入进来,通过这样一种形式最终优化了用户在互联网上享受各种便利服务的体验。
率鹏:社会热点的实时监控与预警。比如我们可以预测十一黄金周,我们提前会知道华山会成为今年黄金周的旅游热点。比如一些公共和群体聚集性事件,在百度上可以第一时间发现,比如昆明的集会,还有其它类似的大型活动。刚才有专家举了谷歌预测流感的例子,百度现在和中科院合作,也在对国内的艾滋病流行趋势进行预测,这是我们初步分析预测的结果,应该说还是比较准确的。
率鹏:在社会问题方面,现在大家看到的是百度依托我们的客户行为和消费数据做的经济指数的预测,由于我们的预测和统计局的统计方式不同,它是在经济形势发生变化的初期就可以感知获取的,所以在重大的拐点上我们的预测结果可能要领先于传统的统计机构发布的预测结构长达5个月,这样的统计结果如果能好好地利用起来,不管对于业界还是对于政府进行管理和调解是有着非常大的作用的。
率鹏:在制造业方面,大数据同样可以用在产品研发、用户线上体验、精准营销等方面,比如说我们现在帮助中国一汽设计车型,也在帮助中国平安设计一些新的险种,应用前景都是非常好的。
率鹏:总的来说我们希望通过大数据的应用串起民生的节点,帮助大家改善自己的生活。谢谢。
何宝宏:刚刚介绍了很多百度成功的案例,下面请罗圣美来给我们介绍一下他们这方面的考虑和实践。
罗圣美:前面各位专家把基本概念和应用做了介绍,下面我介绍一下基本的市场概念的需求,我着重说一下在大数据方面和生活紧密相关的两个案例,什么是大数据和我们的关系。
罗圣美:智能终端、物联网终端、宽带这三大技术的发展确实促进了现代数据信息的流动,这些流动导致了我们在数据的处理和数据应用方面带来一些新的市场机会,无论从技术、产业和应用来说,目前大数据成为业界的热点。带来的三大变化,前面专家介绍有四大特征,第一个变化我们原来其实大数据本质问题,如果从数学角度来说,就是常用的函数处理,只不过在新的情况下函数处理的内涵发生了很多变化,比如说X不单纯是数据的采样,有多个维度,有可能上亿个维度。抽样的数据原来是采样,现在是全样,就是说根据数据达到一个比率,所有的信息都已经在函数里的处理过程中。
罗圣美:再就是过程,我们现在追求的不是数据本身,是建立一个合适的数据模型进行数据挖掘,得到想要的东西,在数据挖掘中得到重要的内容。原来静态的数据,或者说看起来毫无价值的数据,通过动态的实时处理,得到有效的、及时的使用价值,在技术方面,通过海量的信息处理带来的三大变革,就是对传统初中数学学过的函数理念发生了巨大的变化。
罗圣美:电信网络和传统的其他网络的不同,这些信息相对都比较真实,也许在互联网上有些信息有伪装,有些信息可能是匿名产生的,但是在电信网络的信息,通过这些信息的分析和挖掘可以得到人们真实的生活信息,包括号码、短信、上网和位置等,这些带来了未来跟信息业相关的发展,包括智能管道,智能地感知业务,用户喜欢不喜欢,给用户带来的体验好不好,是不是可以产生新的业务带来市场营销策略的转变,这些都推动了电信服务业转型。
罗圣美:传统的信息业一般是指通信业,通信现在变成了通讯,通讯变成了大数据的发展,这些发展是和我们现在信息社会的发展是紧密相关联的,包括数据的转变,数据的分析和挖掘,数据的处理和存储,都是大数据的关键技术。
罗圣美:说两个案例,和我们生活紧密相关,这样大家能更好地理解,科普方面能够知道技术是怎么影响我们的生活的。现在我们受到信息带来便利的同时还有一种痛苦,就是垃圾短信,以前是垃圾邮件,现在是垃圾短信比较多。每天搞垃圾短信处理的人,每天或者每周都会接到国家安全部门送来得名单,名单列举的都是这几周要监控的敏感词,这些敏感词包括政治事件、反动言论,敏感词导致的结果是从短信开始发送的那一刻,我们就要开始监控,传统是怎么监控的?所有的用户发送的所有短信,我们要和关键词进行匹配,如果以一个省为单位可能有两三千万用户,每天我们知道的关键词的TP量级在几十、上百,按这个比例每天都在递增。年左右,短信的发送量实时延迟很大,是我们在匹配,看这些词是不是在不该出现的范围内,如果不该出现就去掉,导致垃圾短信处理数量占的资源远远比不过正常短信处理所占的资源,所以短信的延迟比较高,影响了用户的感受。也许两个人坐在旁边发个短信说句话,可能短信还没有过来,原因在于我们在进行垃圾短信处理,海量的发送短信的信息和匹配、过滤的关键词,对人们的生活影响很大。
罗圣美:大数据技术研究的垃圾短信是怎么处理?不是这种处理方法,而是纯粹的人工匹配去处理,我们是建立一个模型,这个模型就是我们下面看到的模型,正常人的生活,向所有人发送短信,是有目标客户群的,是根据发生日常关系的,在一定区域范围内的,有一定职业或者社交网络的人,而不是我们说的垃圾短信,一个人向所有人的,没有目标或者连续号段的发出,这样导致的结果是模式不同,而不是关键词不同。
罗圣美:从关键词角度来说,道高一尺,魔高一丈,知道关键词怎么匹配,知道怎么限制流量,进行变化和变动。但是如果建立数字网络关系,提前一个月左右可以知道他和哪些人有关系,在什么社交圈活动,正常发送短信给谁,我把这个一匹配,这时候我建立的不是纯粹的运算,而是智能运算,这时候就知道任意时刻发生的一个短信是不是建立在网络模型当中,如果我们知道了就可以通过学习的方法实时控制垃圾短信的处理。这样得到的结果是采用一些新的基于大数据的学习,深入挖掘,建立网络模型,这时候我们就不再遭受垃圾短信之苦。
罗圣美:前面有专家说在大数据领域有著名的一本书,开创了历史的先河,维克托写的书里面举了一个案例,也是我们做的,运营商感受到了未来的智能或者大数据处理带来的影响力,所以他们做了很大的变革,就是专门成立了大数据的挖掘部门,就是我们说的西班牙电信,他们做的是在匿名情况下做海量的用户实时位置分析,背景就是外国人很看中隐私,不会给你号码,但是基于位置的流动信息是属于群体行为的分析,不在隐私监控范围之内。通过这种方式,可以每秒记录30万字的用户位置,每天记录50亿次的用户的大数据数据的实时位置更新信息,如果把这两个信息结合起来,可以很容易知道在这个区内活动的用户的范围,可以很好地进行用户或者群体用户的行为分析,包括集会、商业流动、人群的去向或者是聚集的态势分析,可以对商业广告定向分析,提供安全舆情监测等等,BBC做了专门的广播,认为未来大数据影响的不仅仅是一个人,影响的是整个社会,创造了很多新的岗位分析的价值,包括大数据的科学家,大数据的经济分析师,也许未来很多行业范围就是基于此产生的,未来的就业发展、经济发展带来很多新的变革。
罗圣美:我就简单介绍这么多,谢谢大家。
何宝宏:谢谢罗总,几位专家都各自介绍了自己的想法,大家可能讲得比较专业,相信媒体朋友有很多问题想提问,后面我把时间交给董主任。
董千齐:谢谢几位嘉宾,其实今天几位讲的信息对于在座各位来说也是大数据,我们回去之后需要根据这些信息提炼出最有代表性的、最能够打动读者的标题和内容,这本身也是一种数据分析,大家有什么问题可以向几位来宾提问。
北京日报:刚才听了各位老师的介绍,大数据对我们还是很新鲜的事,很多事情我们还不是太了解,还是一个比较新鲜的概念。首先,大数据到底能够做什么?刚才各位老师讲了之后我们有了一些了解,但是好象还不是特别清楚。除了一些商家分析消费习惯,定向广告,这些相对容易理解。大数据究竟还能做什么,我们还不是很清楚。刚才百度的率鹏老师讲到了一些,能不能再具体展开一些,比如怎么对汽车厂家提供帮助,能不能把这些东西具体展开?
北京日报:另外一个问题,关于大数据,既然有这么多的应用,将来会不会成为比较大的产业?我想请问一下唐教授,如果说将来会发展成一个成熟的产业,能估计一下是什么样的规模吗?或者说从业人员大概是什么样的结构,是少数的高端人才就能够搞定的一个产业吗?还是说要大量雇佣低端的,大概这个产业是什么样的?谢谢。
率鹏:我先回答您第一部分的问题,关于大数据具体能有哪样的应用,其实想象的空间是非常广泛的,除了前面我们讲到的大数据对于国家的安全,比如对于垃圾短信,包括敏感信息流动的监控,对于经济、社会方面的贡献都有影响之外,最主要的还是改变我们每个人的生活,我想再补充两个民生方面的例子。
率鹏:从民生的角度来看,最近最火的就是互联网金融,今年开始很多互联网公司都开始涉足到了金融领域,大家感知比较明显的像支付宝推出了余额宝,大家可以把闲钱放进去,很多互联网公司也都开始做理财产品,这些还有一些是大家感知不是那么明显,但是大众应用非常典型的,比如现在有很多小贷的产品,或者说P2P,就是点对点做信贷的产品,这些小贷的公司客户往往是非常小的中小企业,甚至是个人客户。过去从企业的规模上、征信信息上非常难以到银行取得贷款,而且银行也不会向这么小的企业发放贷款。通过大数据,通过在互联网上经营行为、信用信息的采集,赋予了很多互联网的金融公司向这些企业发放小贷,帮助他们进行企业发展的能力。
率鹏:从教育方面来看,实际上在线教育在中国当今教育资源分布非常不均匀的情况下,已经成为了越来越重要的发展形势。在线教育上大数据可以帮助我们做到两点:一是帮助教育或者培训类机构更好地组织零散的大数据资源。二是对于一个特定的在线教育的受众,他在享受在线教育内容时,不再是像过去一样千篇一律的,不管谁来都是这些课程,而是赋予了这些培训机构根据教育的受众的个人特点来为他定制相对个性化的教育方案的能力。
率鹏:从教育方面来看,实际上在线教育在中国当今教育资源分布非常不均匀的情况下,已经成为了越来越重要的发展形势。在线教育上大数据可以帮助我们做到两点:一是帮助教育或者培训类机构更好地组织零散的大数据资源。二是对于一个特定的在线教育的受众,他在享受在线教育内容时,不再是像过去一样千篇一律的,不管谁来都是这些课程,而是赋予了这些培训机构根据教育的受众的个人特点来为他定制相对个性化的教育方案的能力。
率鹏:医疗方面也是如此,一方面可以通过远程医疗来解决医疗资源分布不均的问题,大数据能使你在不同的医疗机构之间就医产生的大量数据、大量报告汇总起来,形成个人的健康档案。同时现在穿戴化医疗设备发展越来越迅速,今年大家可能会见到戴在手腕上的血压计,不是气压的,而是戴在手腕上,你对它没有什么感知,但是它可以监测你的脉搏、血压、心跳信息,把你来源于医院健康档案的信息和进行穿戴化设备,每时每刻产生的实时的健康信息综合在一起,这就为医疗带来了全新的领域。
率鹏:其他方面的例子还有很多,我想说的是大数据给予了我们更多的可能性,使得过去做不到的事情现在成为了可能,并且这项技术一定会在不远的将来更加深刻地改变每个人的生活。谢谢。
唐雄燕:讲到大数据产业的问题非常大,我个人的理解,大数据应该是我们的战略性新型产业中间新一代信息技术重要的产业部分,大数据本身是和很多产业都相关的,和互联网产业、物联网产业、电信产业是有很大关联性的,到底体量有多大,具体的预测数据我也很难说,看你把什么内容包括进去。我个人感觉是万亿级在将来是非常大的,现在很多地方可能已经有几千亿的产业规模。整个大数据包括数据的采集,数据采集实际也有很多和传感、物联网领域有很大的关联性,数据的处理又和云计算相关的产业相关,数据的应用和各个行业相关,实际上将来很多的企业慢慢发展成为大数据企业,像刚才百度谈到的,百度是一个互联网企业,他很可能也是一个大数据的企业,电信运营商今天是做信息服务、网络服务,未来也可能会成为大数据的企业,很多企业会转变为大数据的企业,包括医疗、金融等等,将来也是大数据产业中很重要的部分,所以大数据将来会是无处不在,但是大数据的从业到底是哪些人,也会有不同的成份,不光是高科技,实际也会有蓝领的需要。如果讲大数据的话它是一个材料,和石油、矿藏一样,需要有采集数据的人员,需要有探矿的,各种各样的人都需要,有高职的,也有稍微低职一些的工作。
唐雄燕:另外是数据的分析和处理,这可能需要工程技术人员,也需要各个行业的分析人员,比如医疗行业,可能要应用医疗的大数据,真正应用得好可能还需要懂医疗本身知识的人员,会是交叉的学科,数据有很多的技术,需要软件技术人员,是融合、跨界的产业,应该说也是非常有前景的产业。
张新生:刚才说到大数据这个词,我在发言中讲到了,目前我们谈大数据主要从四个维度看,一是它是什么东西?是资源。什么人希望使用这个资源,在社会上只要有需求资源的一定想使用大数据的服务和应用。第二个维度是它只是一个工具,我们用它来认识世界、了解世界,但是这个世界比我们过去提供更加有利的手段,过去要从很复杂的问卷调查、访谈到最后得出答案,今天要通过大数据,从方法上可以实现一下就知道为什么。第三个维度是它是一个整体的应用,将来应用面的扩大和使用大数据应用和服务的企业以及每个小的结构,今天在信息的推动上,既是信息的消费者又是信息的生产者。互联网发展到一定程度之后,特别是进入到互联网制造,或者是互联网的其他生产产业领域,将来可能既是生产者又是生产资料的需求者,大家都对大数据整体的需求有一定的高度后,会整体延伸到社会的各个领域。只要是这个技术服务延伸到各个领域,会产生很大的作用和影响力,同时会对产业产生巨大的推动作用,因为大数据本身对整个发展产业,我们今天认识大数据是从四个维度认识,它只是云计算里面的应用和服务,它是一个工具,是一个思维方式,是一种应用。
张新生:整个产业的发展是伴随着应用的不断深入和普及可能才能产生更大的影响力和作用,今天看大数据,大家还依然在争论,在认识和了解的过程中,对它的认识提高了,但将来它会产生多大的经济社会效益,可能还要随着各种限制条件的进一步放宽,比如今天想获得大数据,要有各种权限,不是想要就能给你的,信息单位或者每一个企业自己的信息是不给你的。社会有很多企业信息不开放的,所以大数据实现的第一步就比较困难,所以有很多限制条件。但是随着整体的应用扩大,整体作用和影响力才能发挥出来。我个人认为,大数据作为一种新的信息技术的制高点,作为互联网发展的制高点,肯定将来的发展会有非常好的前景。但是今天对大数据还在讨论过程中,今天强调的大数据是在我们过去在数据挖掘的基础上往高走了一步,不管怎么说有四个特征,这四个特征必须是我们目前要认真对待的,如果把这些问题的门槛都之后可能会上一个新的台阶。它的前景刚才大家都讲的很清楚了,对产业的促进和推动作用,随着它的应用不断深入可能会产生不同的作用。谢谢。
中国科学报:我有几个问题,我想问一下专家们,大数据的应用让我们每个人都暴露在了大数据的技术面前,可能大家都有切身的体会,我们在上网、刷银行卡时都会把自己的信息暴露出来,这时候就产生了关于隐私保护的问题。在这个过程中,如果我们能够得到比较好的解决,个人需要注意什么?我们的企业应该承担什么样的社会责任?政府应该在隐私保护方面出台哪些方面的政策?这是第一个问题。
中国科学报:第二个问题,和在座的新闻媒体的记者们有关系,我已经注意到百度推出了自媒体平台,现在整个传播环境的变化导致传统媒体,尤其是纸媒的生存环境发生了很大的变化,最终可能来源于信息技术的改变。我想问一下率鹏主任,您对传统新闻媒体在信息时代的巨变面前,可以给我们提供哪些建议,比如这样一个行业如何在大数据时代来临面前,尤其是信息技术快速发展的时代,作为传统媒体这个行业应该注意什么?
中国科学报:第三个问题,我想问一下工信部的两位专家,既然刚才讲信息具有类似于石油的战略地位,国家在将来大数据的准入和应用方面是否会出台类似于准入制度,或者由国家来垄断,因为我们觉得将来整个社会的运行在数据的信息平台运作,类似于一个虚拟社会,如果一个虚拟社会没有政府,没有一个规则管理它的话,其实我们每个人都是不安全的。谢谢。
张新生:我先说说隐私,随着大数据的发展,个人隐私的保护成为全世界各个国家认真讨论并且十分重视的一个非常重要的方面,其实在美国、大数据发展比较快的国家,都已经相应制定了关于大数据保护,特别是针对老百姓隐私方面的大数据保护的法律法规。从国外制定的相关政策看,第一认为在保护老百姓隐私方面,特别是企业在应用老百姓隐私时要负责保护老百姓的隐私,如果企业在使用老百姓隐私过程中发生了泄漏,发生了一些不该做的事,企业承担完全责任,这是国外的情况。再一点,有些企业在使用大数据时,在使用个人隐私信息时,往往不是把一个人的信息作为分析的依据,往往是把一千人为基础、一万人为基础的日志信息打包之后进行统计分析,得出来人的行为分析,这样对个人隐私来说起到了一定的防止外泄或者受到侵害的作用。通过立法或者谁去使用数据谁负责任。我个人认为,隐私保护问题一定要注意,这涉及到每个老百姓。我觉得这件事中国的政府真应该关注,并且要在今天发展大数据的初级阶段就赶快建立相应的法律法规,否则的话老百姓的隐私真的会受到相应的影响,所以我个人认为这个事很重要。
何宝宏:我补充一下,大数据会对个人隐私保护带来一些新的挑战,因为我们确实处理这个数据的能力更强了,所以用户保护隐私方面的问题面临新的变化。第一,目前为止大数据很多分析处理主要是数据的采集分析,是一些大型的企业在做,因为小企业没有那么多数据去分析,像百度这种大公司做得多一些。对于大公司大家可以看到网上有很多条款,对于数据的保护,用户隐私的保护是非常严格的,包括最近国内的十家公共云服务的企业做了内部评测,包括隐私方面,每家都非常严格,有一套办法,包括一些统计结果等等。
何宝宏:但是这个数据还会扩展,对于政策制定来说,原来对用户的隐私保护更多侧重于隐私本身是什么比如个人的名字、电话号码、银行帐号等等,大数据时代除了保护这些信息,需要一些新的思路和方法,比如说世界经济论坛今年提出来新的考虑,我们如果只是保护用户信息的采集环节,在大数据时代这其实是不完整的,因为总有一些其他的信息能够分析出来有些涉及用户隐私的信息,现在业界正在讨论的议题是我们将用户隐私保护的政策和法律制,从采集环节过渡到使用的环节,就是说企业掌握这个数据,或者掌握这些分析,这是允许的,而不应该禁止企业做这些事。要禁止的行为是拿这些数据不能做什么,可以做什么,这是大家的共识。我们应该将隐私保护更加关心它的使用环境,关注采集之后使用的目的。现在互联网企业都是优化它的服务,改善用户的体验,没有出卖用户隐私的事情,当然个别人、个别企业会发生泄漏,这也是有可能发生的。
何宝宏:于国家战略,确实涉及到这个问题,一是数据是一个资源,拥有数据就拥有资源,各国也在不遗余力地发展自己的大数据产业,尤其是在斯诺登事件之后,大家意识到数据确实是资源,不仅有商业价值,还有军事、国防等战略以及。我们国家目前与大数据相关的国家战略是有的,我们看到云计算、物联网、智慧城市等等,国家出台的战略中都提到了关于大数据的应用以及价值的问题,迄今为止专门针对大数据的国家战略还没有出台,毕竟这是一个非常新的事情,目前只是散落在国家战略其他的环节中。
唐雄燕:对个人来说,我们到底应该怎么办。我有几个体会,对于个人来说,还是要相信大的企业,因为相对靠谱。前面讲到了,对于大企业来说,在隐私的保护上相对会有比较完善的手段,也不敢轻易去作恶,因为讲到隐私保护,包括大数据的使用,运营商其实有非常多的数据,为什么现在不敢去挖掘、使用,也是有顾虑,在什么情况下可以使用,包括一些商业公司说社交关系我们也都掌握,谁给谁打电话,有可能运营商是知道的,你把这些告诉我商业广告做起来很容易,但是我们不敢去做,现在很多东西在国家的法律法规没有允许的情况下不敢轻易做。对用户来说,相信大的公司,百度、阿里、腾讯,他如果要作恶的话,代价是非常大的。但一些小的企业,比较容易出问题,对个人来说,使用的话尽量还是采用大公司的产品,这样保障性更大。
唐雄燕:随着大数据的发展,可能为信息安全创造了好的机会,有了大数据,将来骗子在互联网上也是透明的,如果有什么行为,很快就可以把他抓住。有了大数据,有可能会增强信息的安全。刚才罗主任也讲到了垃圾短信的问题,有了大数据之后,你要发垃圾短信,你的行为很快就会被锁定,将来可以通过大数据把他的骗子行为控制住,这也是一个很重要的方面。
罗圣美:刚才说到安全一共是三点:一是要注意保护自己的隐私。大家都知道,现在互联网的信息是分布在不同地方的,所以每个人的很多信息,如果你是实名注册,相关隐私不注意保护的话,从互联网可以画像,把你这个人的身份、年龄、家庭、位置、社会关系都可以挖出来,和你个人提高安全意识是有很大关系的。二是使用这些安全的数据的企业,其实有两大类,一类是互联网企业,第二类是电信企业,他们有安全保护措施,有技术解决方案,但现在只是针对群体,而不是针对个体的信息挖掘,这是我们遵循的基本原则。如果展现一个人,叫什么名字,在什么单位,发生了哪些行为,在哪些位置上面有哪些相关的事宜,从法律角度来说是违法的。所以在这个方面,作为使用数据的单位,要有这样一个法律意识。三是政府的管理,大数据国家战略现在还没有统一的管理政策,但是上次有几位院士开了一个会,提出来把大数据作为新一代的中国信息产业发展很重要的契机,这里面又涉及到一系列问题,除了本身的信息安全管理之外,还有数据来源,数据的传播渠道,数据对未来的产业或者行业发展有一整套的政策制定,不仅仅是安全政策。仅仅通过安全手段,我想是保护不了大家的安全,所以对大数据产业的发展,作为国家战略来说,通盘的规划,在21世纪使用信息技术或者使用大数据技术来发展我国新一代信息产业的发展,还是有很好的促进的。
率鹏:我觉得大数据和个人隐私的问题首先是国家有相关的法律进行保护和约束,其次在去年我们看到有一些网站出现了问题,比如说用户的登陆信息泄漏,其实这不是大数据带来的问题,而是企业没有尽到没有相关信息保护责任的问题,这样的信息都是用密文的形式保护的话,即使发生了一些泄漏的问题也不会给用户带来太大的危害,在法律法规的约束下,如果企业尽到责任的话,还是有能力保障大数据时代的用户信息安全问题的。最主要的还是在于大数据的用户信息究竟是用一种什么样的使用方法。网上有一个流传很广的段子,一个男孩和一个女孩去相亲,这个女孩说你介绍一下自己的情况,这个男孩说名下有很多套房产,也有若干车,条件挺不错的,女孩说留个电话,这男孩就给了,这个女孩拨了一下这个号码,有2万多人标介为黑中介,这也是大数据对个人安全的保护,如果善加利用的话,实际上来源于这些广泛的信息来源数据是可以帮到你的。
率鹏:在隐私问题上,我重点强调两个概念:一是符号化。二是用户特征。符号化的意思是当我们去识别一个用户的时候,实际上是用和他的真实信息不相关的符号标记这个用户的,这个符号是通过算法来保证的,它使得当你下一次登陆时依然能够识别出和上一次登陆是同一个用户,但是我却从技术上没有办法通过这个符号反推出这个人在真实生活中的姓名、电话和住址,这些信息和这个符号都是没有办法关联起来的,是单向的识别,而不是在网络上肖像和真实身份挂接起来,这就使得基本享受了大数据带来的优势,同时又规避了信息安全的风险。
率鹏:用户特征是意味着在大数据时代企业感兴趣的往往是这个用户的特征,而不是家庭地址、电话号码真正敏感的信息。比如说,我希望知道你是一个20&30岁年龄段,生育过子女,处于高等教育学历的女性,这些都是你的特征,但是我并不想知道你姓甚名谁,今年多大,有几个小孩,这些数据反而是不重要的。如果说我们在数据使用过程中严格遵循这些原则的话,我们就能够发挥好的方面,规避掉不良的风险。当然我觉得实际上很多时候用户面临一些隐私的问题,比如把照片发到微博上,或者在求职过程中把真实的履历信息以一种公开的形式放在互联网上,可能会带来一些困扰,但是这样的困扰与用户本身对个人信息的保护意识不足,也是直接相关的。所以我觉得在大数据时代,我们迫切需要向用户加强对于他保护自身的个人信息意识的教育,就是我们讲的安全上网的普及知识教育,这个也特别重要。
率鹏:我再尝试回答一下传统媒体和新媒体的问题,传统媒体和新媒体之间首先是一种合作的关系,传统媒体现在也越来越多的依赖于新媒体的平台去进行相关的营销、推广、传播活动,同时新媒体也还是非常注重来自传统媒体的合作,传统媒体毕竟有它的优势,比如传统媒体会使用最庞大的采访、内容获取的能力,这些都是新媒体不具备的,所以首先一定是合作关系。其次,我觉得在新技术面前,不管是传统媒体,还是新媒体,大家都是公平的,比如凤凰网,同样在用大数据的技术,或者在用新媒体的技术去向他的用户进行各种各样的推广,当然不只凤凰网,几乎所有的主流门户网站上的广告,背后同样是在用精准的营销技术去做推广和促进。在这些新技术面前,大家都有同等的机会,只要能够紧密跟踪形势发展,并不会因为新技术本身而使得传统媒体有怎样的发展劣势,或者说未来会缩小,或者被淘汰,我觉得还是发展方式的问题,所以一方面是合作,一方面是面对新技术,还是要积极利用它进行发展。谢谢。
董千齐:刚才率鹏先生提到了符号化和群体特征,我想到了自古就有的另外一个很流行的事物,比如双子座、狮子座等等,都是来自于共同群体、相似群体的符号化特征的研究,也许不知道是谁,但是知道是同一个星座的。
董千齐:我有一个问题,刚才几位都提到关于互联网隐私的话题,在大数据使用过程中,作为个人来说,我并不希望我所做的每一件事情会暴露在任何人的面前。刚才提到我们国家有这方面的打算,现在有没有具体的时间表?刚才有专家说网络比你更知道我是一个人还是一只狗,但有时候我不想让别人知道我是一个人还是一只狗。我们的国家有没有时间表来保护大家的隐私,至少我有不希望我的隐私暴露。比如前一段时间我在某电商网站上购物之后,就有诈骗电话给我打电话,他居然知道我所有的地址、电话、邮件和购买物品的信息,让我觉得挺震惊的,如果靠企业自律我相信并不是根本性的解决办法,必须有国家层面的部署,有没有这样的时间表?
何宝宏:2013年以来关于个人信息保护确实有不少的进展,我们国家立法需要一个过程。今年1月份的时候,全国人大通过了关于个人用户隐私保护的决定,是具有法律效力的。在今年上半年,工信部根据全国人大的决定,出台了关于互联网和电信网个人信息保护的条例,来保护用户的隐私,变得比较具体了。就是用户在使用互联网、电信网时,哪些数据是受法律保护的,不能传出去,是有明文规定的,是有一些做法的,这块在进一步细化。很多电信公司不能做大数据,与这个条例的出台有很大关系,因为提出了很多数据保护的一系列要求,但政策还需要不断细化。包括用户的名字,有一系列列表,这些是严格禁止外传的。刚才提到邮寄地址,这些没有写进去,当时没有考虑物流业个人隐私保护问题。
罗圣美:前面很多专家介绍了大数据带来的价值、未来的发展潜力,维克托写了《大数据时代》之后紧接着写了另一本书,叫《删除》,提出了很重要的问题,一朝被蛇咬,十年怕井绳,说的是记忆的作用。还说洗心革面,重新做人,大数据的存在会导致洗不了面,其原因就是所有的历史记录,你不知道,你忘了,但是它记录在我们的存储服务器当中,带来的社会变革会有另外一个问题,所有的历史的污点或者是自己的个人隐私,不管你愿不愿意承认,总在某个地方保存着,总在某个社会的某个角落会被人发现和利用,我们制定产业政策时,我的建议,不是国家和部委有没有这个信息,但是对于信息技术,无论是删除还是锁定,或者说另外一种安全加密的保密措施,也许未来像这样的隐私数据需要有另外一种方法保存,而不是无论怎么变,总是让你提心吊胆的过一辈子。这是我的想法。
唐雄燕:生活在这样一个信息时代,可能这些东西是不可避免的,因为你在使用这样一些服务,实际就把你的隐私已经放到了网络上面去。数据的匿名化,处理的机器化,我们的数据处理人工一定要看不见。百度大量的数据,百度的老总可能也不能看到这样的数据,一定要有这样的原则,这些数据是没有看得到的,可能就在网络里面、机器里面,人可能看不到,人看到的结果肯定是统计化的结果,一定要坚持这样一些原则,将来才能避免这样一个问题。
董千齐:我来问今天的最后一个问题,刚才唐先生提到大数据的信息共享非常重要,现在百度、腾讯、联通都有自己的数据库,我们知道产业之间的数据共享都不是非常容易的事情,因为并不是完全开放的。您所谓的信息共享是什么?怎么来实现,或者说是民间互相共享还是从国家层面来实现共享?我们知道各个门类,比如搜索引擎,阿里,FaceBook,他们的分类是不一样的,怎么实现共享?
唐雄燕:每个企业、政府都有自身的数据,数据的开放和共享是很大的问题,比如腾讯、百度获得的数据是有付出的,提供了相应的服务,拿到了这样一个数据,但这个数据不会轻易交给另外一个企业,但数据本身是有价值的,大家可能形成数据交换的机制,这个交换机制也应该形成市场化的交换机制,有些东西可能能共享出来,我前面讲到国外的运营商可能把用户的定位信息给贡献出来,当然他肯定是有商业的交换的,一定要建立数据的商业市场化机制。政府的公共数据,当然可以采用开放的,因为它是全民的,要采用不同的方式。
董千齐:从政策角度上怎么看?
张新生:数据是从信息中挖掘出来的,特别是有价值的数据,是非常重要的资源。它是资源,大家都想拥有,特别想共享,实际国外目前也出现了一些数据共享或者是数据交易的情况,比如说在国外的一些电信运营商,比较具体的是西班牙电信,专门把挖掘出的数据提供给有需求的人,但他们做这些交易,实际上他们认为是发挥价值最大作用最好的方法,但前提是一定要建立交易相关的规则,以及建立交易的相关规定,这才有利于交易。从我目前的了解,三个互联网运营企业都在做大数据分析,并且都有一个想法,将来一定要把数据作为资产,作为他们可交易的产品,趋势肯定是这样的,但是需要我们国家尽快建立交易有关的法律法规,这很重要。
何宝宏:数据分两类,一类是公共数据,比如政府所掌握的数据,或者公益企业一类属于商业性数据,公共数据面临的是开放和共享的问题,已经有几十个国家,关于政府数据开放的联盟性质的,有很多国家的政府数据正在开放,我们国内正在从信息公开走向数据开放,还需要一个过程,各国都会走这么一个过程。商业性数据肯定要交易,因为这是资产,交易产生新的价值,所以一定是交易的。现阶段,在交易方面的规则、标准还没有建立起来,但是我知道国际上也会有一些商业性的关于数据交易或者交换的平台、联盟等等,国内也有一些联盟会陆续建起来,我知道很多企业正在筹建关于交易的问题,或者是数据交换的问题,一种是两两交易,目前咱俩说好,咱俩互换是有保证的,另外是多点交易,慢慢开始这个过程。标准和政策的制定是不断摸索的过程,是需要随着市场去探索的,因为谁也不知道会发生什么事情,我们已经监深度地介入到关于目前国内数据交易的活动中去来探讨这方面的政策、标准制定,这需要时间。
董千齐:今天几位和我们分享了关于大数据的信息,大数据已经进入我们生活的方方面面了,不论你接受还是不接受它,它就在那里,不近不远,大数据离我们的生活有远大,其实大数据已经在我们的生活当中,我们希望它能够更好地为我们的生活服务。非常感谢各位来参加我们这一期科学家与媒体面对面的活动。
大数据是当下高温热词,它凭借规模超乎想象的海量资讯数据,通过收集、分析、存储的一些新方法,正深刻地改变人们生产生活的方方面面。虽然其概念被热炒,但大数据本身并不是技术,而是一种可以催生出技术的时代现象。记录和管理这些数据成为信息时代的突出特征。在日常生活中人们可能意识不到,也不懂玄妙的科技内核,但是这些庞大的、看似平常而又琐碎的数据其实已经形成了一种宝贵的资源。
在国外,大数据在农业研究、金融市场、气象预报、交通管理、新闻报道等方面已经应用得很广泛。比如,沃尔玛基于每个月网购的数量判断客户购买物品时的喜好,优化商品柜台的排列,销量猛增;印第安纳大学学者从成千上万的留言中把微博分成六种心情,从中算出的道琼斯指数,准确率高达87%;&&& 美国大数据也应用于军事领域,美国搜查到拉登也是通过大数据;美国中情局利用大数据将分析搜集数据的时间由63天缩短为27分钟。我国对大数据的搜集和利用主要体现在电子商务上。例如电商通过物流掌握许多用户的数据,进行线上线下联动;通过分析购买商品的数据,精确的进行商品推荐等。
大数据都有哪些应用?大数据距离普通个体到底有多远?大数据作为新兴产业应如何科学理性发展?本期&科学家与媒体面对面&邀请到相关领域知名专家、学者和企业代表,围绕&大数据离我们生活有多远&为主题进行科普。
一、活动时间:日下午2:00-4:00
二、活动地点:中国科技会堂 B103
三、举办单位:
主办:中国科协科普部、调宣部
承办:中国通信学会、中国科普研究所、中国科技新闻学会
协办:中国科协网、中国互联网协会、网络科普联盟
四、活动主题:大数据离我们生活有多远
五、活动背景
大数据是当下高温热词,它凭借规模超乎想象的海量资讯数据,通过收集、分析、存储的一些新方法,正深刻地改变人们生产生活的方方面面。虽然其概念被热炒,但大数据本身并不是技术,而是一种可以催生出技术的时代现象。记录和管理这些数据成为信息时代的突出特征。在日常生活中人们可能意识不到,也不懂玄妙的科技内核,但是这些庞大的、看似平常而又琐碎的数据其实已经形成了一种宝贵的资源。
在国外,大数据在农业研究、金融市场、气象预报、交通管理、新闻报道等方面已经应用得很广泛。比如,沃尔玛基于每个月网购的数量判断客户购买物品时的喜好,优化商品柜台的排列,销量猛增;印第安纳大学学者从成千上万的留言中把微博分成六种心情,从中算出的道琼斯指数,准确率高达87%;&&& 美国大数据也应用于军事领域,美国搜查到拉登也是通过大数据;美国中情局利用大数据将分析搜集数据的时间由63天缩短为27分钟。我国对大数据的搜集和利用主要体现在电子商务上。例如电商通过物流掌握许多用户的数据,进行线上线下联动;通过分析购买商品的数据,精确的进行商品推荐等。
大数据都有哪些应用?大数据距离普通个体到底有多远?大数据作为新兴产业应如何科学理性发展?本期&科学家与媒体面对面&邀请到相关领域知名专家、学者和企业代表,围绕&大数据离我们生活有多远&为主题进行科普。
六、主要话题及专家分工:
1. 大数据对我国和国际社会的影响。(何宝宏)
2. 大数据的概念、特征、技术。(张新生)(罗圣美)
3. 大数据多样化的应用正在改变我们的生活、习惯及工作方式。(唐雄燕)(罗圣美)(率鹏)
4.大数据时代人类的行为预测和隐私保护。(率鹏)(何宝宏)
5. 推动大数据发展要做的几方面工作。
七、参加人员
张新生,中国通信学会副理事长兼秘书长
何宝宏,工业和信息化部电信研究院互联网中心主任
唐雄燕,中国联通网络技术研究院首席专家
罗圣美,中兴通讯首席架构师,业务总工程师
率鹏,百度公司,发展研究中心副主任
专家主持人:何宝宏
八、专家简介
张新生,中国通信学会副理事长兼秘书长,历任信息产业部科技司副司长、工业和信息化部电信管理局正司级巡视员,多年从事组织拟订并实施信息产业技术规划、政策和标准的工作,对我国TD-SCDMA、推动互联网行业的发展做出过重要贡献。
何宝宏工业和信息化部电信研究院互联网中心主任,云计算发展与政策论坛秘书长,中国通信标准化协会(CCSA)IP与多媒体工作委员会副主席,中国下一代互联网示范工程(CNGI)专家委副秘书长。长期从事互联网技术、标准、政策和发展战略等的研究。
唐雄燕工学博士,教授级高工,中国联通网络技术研究院首席专家,&新世纪百千万人才工程&国家级人选,享受政府特殊津贴专家。1998年至今在电信运营企业从事研发和技术管理工作,现任中国联通网络技术研究院首席专家,兼任北京邮电大学兼职教授、博士生导师,工业和信息化部通信科技委委员兼传送与接入专家咨询组副组长,中国通信标准化协会泛在网技术工作委员会副主席,中国通信学会学术委员会委员,北京通信学会常务理事兼青年工作委员主任。主要专业领域为宽带通信、IP网络、光纤传输、接入网、下一代网络、泛在网、未来网络等。主持了企业许多重大技术工作,还担任了多个国家级科研课题的负责人。出版专著6部,发表技术论文150余篇。
罗圣美中兴通讯首席架构师,业务总工程师。现任科技部十二五国家重点专项(中国云)专家组专家,中国云计算专家委员会委员,工信部软件与集成电路促进中心云计算研究中心专家,南京邮电大学产业教授。多年从事电信和移动互联网技术研究和产品规划工作,历任中兴通讯研发工程师、系统工程师、项目经理、技术总工和首席架构师等岗位,对移动互联网、云计算和大数据有深入研究和理解。
率& 鹏百度公司,发展研究中心副主任。毕业于清华大学计算机科学与技术系,从事互联网相关的产业技术和前沿领域研究,涉及搜索引擎、云计算与大数据、移动互联网及其安全问题,管理和参与相关领域的多项研究课题任务。在加入百度前,工作于国家发展改革委高技术司,承担国家电子政务和信息安全方面的规划、重大项目审批和管理等工作。
九、活动形式:
1.第一阶段:专家围绕主题进行阐述(60分钟)
2.第二阶段:专家与媒体围绕主题进行互动(60分钟)
张新生,中国通信学会副理事长兼秘书长
何宝宏,工业和信息化部电信研究院互联网中心主任
唐雄燕,中国联通网络技术研究院首席专家
罗圣美,中兴通讯首席架构师,业务总工程师
率鹏,百度公司,发展研究中心副主任
专家主持人:何宝宏

我要回帖

更多关于 古玩核桃的品种 的文章

 

随机推荐