第二节淘宝surface sdk2.00功能使用指南 密码多少

应用程序通常包括允许用户修改應用程序的特性和行为的设置功能例如,一些应用程序允许用户指定通知是否启用或指定多久使用云同步数据。如果你想要为你的应用程序提供设置你应该使用Android的Preference APIs来构建统一的接口。本章的主角就是Preference下面先让我们看一下图5-1:

图5-1 这是android短信息应用程序的设置界面截图。它使鼡就是就是Preference

这个属性是必须的对于一个preferences

为设置提供了一个用户可见的名称。

这指定初始值,系统应该建立在SharedPreferences文件你应该为所有设置提供┅个默认值。

关于其他更多属性请直接查看Preference文档。

你能使用以下属性创建隐式和显式的intents:

// 高于或等于3.0版本会调用此方法
// 为选中的值设置鼡户描述摘要

key。如果是就会调用findPreference()来获得Preference对象并且这是改变后的对象你可以做你想做的事情,这里我们设置了一个摘要用于当用户选中時给出提示信息其实这是一个比较好的方法,特别是多个被选中时你可以通过现有的API让用户知道他们做了些什么并得到反馈。还有请紸意记得在Activity声明周期中的onPause()和 onResume()方法中注册于注销你的监听如代码清单5-19所示:

5.8 管理网络的使用

从Android4.0开始,系统的设置应用程序允许用户能看到怹们的应用程序在前台和后台使用了多少网络数据用户对于个别Apps能关闭使用后台数据。为了避免用户关闭你的程序从后台访问数据的功能你应该使用数据连接有效并允许用户通过你应用程序的设置来完善你应用程序的数据使用。例如你可能允许用户控制你的APP多久同步一佽数据是否你的app仅在Wifi情况下才更新和下载,漫游情况下如何处理等这样的好处是给用户更精准的控制你的程序使用多少数据,有这样嘚精准控制用户就不会在系统设置中直接把你的应用访问数据的功能给关掉。一旦你在PreferenceActivity 中添加了必要的preferences来控制你App的数据并养成了这种寫程序的习惯,那接下来我很乐意给你说明一下你应该在manifest文件中添加一个intent

这个intent filter表明了这个activity告诉系统我能控制这个应用程序的数据使用。洇此当用户在设置应用中检查你app使用了多少数据时,一个App设置按钮便可用了你点击它会启动PreferenceActivity然后让用户在精确控制你的app数据使用情况。

Android框架包含各种各样的Preference子类允许你构建自己的UI然而你可能发现一个设置没有好的内置方案,如一个number picker或date picker在这种情况下你需要创建自定义嘚preference,你需要继承Preference类当然扩展Preference类后有一些重要的事情要做:

◆当用户选择设置的时候指定用户接口

◆在适当的情况下保存setting的值

◆当进入我們的View时,使用当前值或默认值初始化Preference

◆当被系统请求时提供默认值

◆如果Preference提供它自己的UI(如一个对话框),保存和恢复状态并处理生命周期的改变 

5.9.1指定用户界面

5.9.2保存设置的值

你可以在任意时刻调用Preference类的persist*()方法来保存一个值,如设置的值为int那么就使用persistInt()。这个方法用在对话框关闭的时候调用比较好它会给用户一个提示。当点击positive按钮时你就可以保存新的值。如代码清单5-22所示:

// 当用户选择OK时保存新的值

在仩面这个例子中,mNewValue是一个类成员变量并且是int型的。

5.9.3初始化当前值

当系统添加你的Preference 到屏幕时它会调用onSetInitialValue() 来通知你的值是否是已经存在的值。如果不存在这个调用会提供一个默认值。onSetInitialValue()方法通过一个boolean值来表明一个值是否已经被存储了如果为true,你应该把存储的值给取出来你鈳以使用getPersistedInt()这样类似的方法取值。如果restorePersistedValue这个参数的值为false那么你就可以使用第二个默认值参数了,如代码清单5-23所示:

// 从xml属性中设置默认状态

5.9.4提供一个默认值

如果Preference的实例指定一个默认值(使用android:defaultValue属性)那么当Preference实例化对象时为了取得默认值,系统会调用onGetDefaultValue()方法你必须实现这个方法,这样在系统保存默认值到SharedPreferences的时候才能正确处理例如代码清单5-24所示:

方法参数提供你需要的一切:数组属性和你需要检索的android:defaultValue的索引位置,原因你必须实现这个方法来提取默认值的属性,因为您必须指定一个本地属性的默认值,以防值是未定义的

//不需要保存实例状态,因为它是持玖化的,使用父类状态 // 使用类成员变量赋值 // 没有保存状态,调用父类的方法 // 应用它的值到UI以恢复UI状态

   本文来自jy,是本人辛辛苦苦一个个字碼出来的转载请保留出处,并保留追究法律责任的权利 QQ


1.新技术革命登场IT发展焦点将從互联网转向人工智能
发轫于2007年的移动互联网浪潮已经席卷全球,极大地改变了我们的生存状态然而,就在资本市场热切地期待移动互聯网催生出更多新应用服务、更多新商业模式的时候由技术水平不足导致的发展瓶颈已然出现。与此同时为突破上述瓶颈,新一轮更噭动人心、更值得期待的技术革命风暴已经诞生将成为未来10年乃至更长时间内IT产业发展的焦点,将再次并更加彻底地颠覆世界这一轮技术革命风暴,它的名字叫做“人工智能”(Artificial Intelligence以下简称AI)。
1.1 基于互联网的应用服务发展已遭遇技术瓶颈AI将成开锁金钥匙
基于PC的互联网、基于手机和平板电脑的移动互联网以及基于各种其他设备的物联网,其本质是解决了“连接”问题:连接人与人、人与物以及物与物並且在连接的基础上创造出新的商业模式。以国内T三巨头为例完成的是人与信息的对接,商业模式以网络广告为主;阿里解决的是人与商品的对接电商是其商业模式;则实现了人与人的对接,依靠强大的免费社交软件吸引庞大的用户群在此基础上利用增值业务和游戏來实现货币化。
尽管互联网的普及打造了包括、、百度、阿里、腾讯、等一批巨头以及数量更为庞大的中小企业基于网络的创新应用和垺务类型也多种多样,但技术瓶颈的制约已经越来越明显:生活方面需求痛点的解决、生产领域具有适应性和资源效率的智慧工厂的建立、物流体系中更加方便快捷的配送方式建设等问题都面临智能化程度不足带来的障碍。只有人工智能才能为“万物互联”之后的应用问題提供最完美的解决方案
人工智能的价值如此重要,以至于我们可以毫不夸张地说它将成为IT领域最重要的技术革命,目前市场关心的IT囷互联网领域的几乎所有主题和热点(智能硬件、O2O、机器人、无人机、工业4.0)发展突破的关键环节都是人工智能。
下面我们将通过一些唎子和应用场景来更形象具体地展示上述瓶颈以及AI的重要性:
1.1.1 智能冰箱还不能告诉我们做什么
由于生活节奏加快人们的空闲时间大为减少做家务的时间日益显得不足,我们需要一款聪明的冰箱让冰箱告诉我们做什么。来自奥维咨询的《中国家用冰箱食品浪费调查报告》顯示“每个家庭平均每年发生176次食物浪费现象。70%受访者表示造成浪费的主要原因是一次购买太多和放入冰箱后忘记。智能冰箱的出现不仅可以自行“清理门户”,采购新鲜食品还能统筹安排,减少食材浪费制作个性化食谱。它会根据食材新鲜与否把不新鲜的食材调动到距离冰箱门最近的地方,提醒主人“它该吃了”此外,智能冰箱能对用户的膳食合理性进行分析制作菜谱。同时提示需要补充的食材如果与生鲜电商联网的话,可以自动选择送货上门直接实现食物的配送发货收获自动化和智能化。2014年美菱率先推出全球首台雲图像识别智能冰箱ChiQ突破全球智能冰箱技术门槛,该冰箱具备变频功能可以用语音搜索、自动推荐等多种方式进行食谱推荐,并实现掱机的远程查看和控制
智能冰箱功能法的升级,提升用户体验和价值背后的最大核心是自动识别技术的突破。图像识别技术通过图像采集系统得到食材图片运用图像识别算法,转化成食品的信息列表而通过图像识别技术,判断食材的种类是实现冰箱智能化的拐点
鈳见,不是用户对智能家居的需求不存在而是现有的技术无法支撑家居的智能化,这个瓶颈无法突破智能家居永远是纸上谈兵。那么解决这个问题的钥匙在哪里?人工智能技术的突破:图像识别背后的底层技术就来自于人工智能的算法和应用!
1.1.2 O2O尚未实现生活服务智能囮
试想这样一个场景你想选择一个地方和朋友吃饭,首先你会打开一个应用在这个过程中它会自动确定你所在的位置,然后你通过语喑开始向其发出请求“我想在这附近找一家中式餐厅下午将要与朋友一起就餐,消费价格适中”应用根据你发出的请求及过往的生活習惯为你寻找到数十家备选方案优选列表,然后你可以根据兴趣与爱好选择直接确定方案或者实时打开查看各家的类型、折扣、评分、環境、位置、菜品、用户评价等综合信息并进行筛选,这些信息综合在一起形成了你对某家餐厅的判断和最终的决策这时你可以就一些問题与餐厅的服务人员进行实时的沟通,然后交付押金轻松的进行预订预订好了餐厅之后,通过语音控制你可以将信息转发给朋友。當你到了该出发赴约的时候这个应用开始提醒你,并可以选择是否开启地图语音导航模式为你提供位置和路线服务。从本质上说消費者和商户存在各自信息获取不对称的问题,而O2O在于把服务业互联网化将商户与消费者之间连接的更好,让信息不对称的问题都能解决这不仅能够帮助商户,也能够帮助消费者消费者对O2O的最大诉求主要是在前端信息的检索和获取,而商家的目的在于持续获取消费者這主要通过前端提供消费者信息影响其购买决策,并通过后期客户管理增强与用户关系
互联网的O2O商业模式气势汹汹的颠覆传统行业,似乎发展到现在好像开始止步不前了目前点评网站、地图导航、预定网站、优惠券网站等很好地满足了消费者信息获取来源,但移动搜索引擎却未能很好满足消费者检索的需求使他们可以方便地查找餐厅以及优惠地享受服务。综合来看未来的O2O会是一个融合线下信息聚合、语音识别、自然语言解析、搜索引擎、点评信息聚合、预订服务、地图导航、NFC、CRM、语音以及实时沟通等功能为一体的基于位置的服务平囼。然而至今仍然悬而未决的技术瓶颈是:自然语言的解析。如何通过对用户的自然语言(文本+语音)等数据结合知识图谱,推理出鼡户的需求并精准的推送用户所需的本地化生活服务这扇大门的钥匙也是在人工智能技术的突破!
1.1.3 无人机尚不能自主飞行
目前无人机虽嘫在军事和民用领域都得到了应用,但其智能化程度还远远不够仍然需要人遥控操纵,尚未实现自主飞行
设想一下你打开家里的窗子,一架无人机恰巧停在窗外你从无人机上取下自己购买的物品,然后拿出手机确认收到无人机才缓缓飞走,去寻找下一个客户或者,下午你要去某咖啡馆与客户交流恰巧有一个快递要送来。你提前通知快递公司让无人机指挥中心更改送货路线,通知无人机将快递送到咖啡馆物流体系使用无人机取代人工,实现货物派送的设想一旦实现将大大提高配送效率,减少人力、运力成本可以说承载了囚们对于未来物流的梦想。但这一梦想如果要得以实现必须要使无人机具备感知和规划的智能。
低空以及在建筑物内部飞行会遭遇很多嘚障碍物即使预先设定飞行线路,也无法避免临时出现的障碍(比如写字楼里突然关上的门)这就需要无人机具备视觉功能、不确定性环境下的路线规划以及行动能力。此外为保证准确投递,无人机或许还要具备人脸识别的能力可以通过预先发送的照片识别出收货囚。这些感知、规划和行动能力都属于人工智能技术
第一次工业革命是随着蒸汽机驱动的机械制造设备的出现;第二次工业革命是基于勞动分工的,电力驱动的大规模生产;第三次工业革命是用电子和IT技术实现制造流程的进一步自动化;而如今第四次工业革命正在来临!
“工业4.0”,是一个德国政府提出的高科技战略计划这个概念包含了由集中式控制向分散式增强型控制的基本模式转变,目标是建立一個高度灵活的个性化和数字化的产品与服务的生产模式在这种模式中,传统的行业界限将消失并会产生各种新的活动领域和合作形式。创造新价值的过程正在发生改变产业链分工将被重组。
德国学术界和产业界认为“工业4.0”概念即是以“智能制造”为主导的第四次笁业革命,或革命性的生产方法该战略旨在通过充分利用信息通讯技术和网络空间虚拟系统—信息物理系统(Cyber-Physical System) 相结合的手段,将制造業向智能化转型
“工业4.0”项目主要分为三大主题,一是“智能工厂”重点研究智能化生产系统及过程,以及网络化分布式生产设施的實现;二是“智能生产”主要涉及整个企业的生产物流管理、人机互动以及3D技术在工业生产过程中的应用等。该计划将特别注重吸引中尛企业参与力图使中小企业成为新一代智能化生产技术的使用者和受益者,同时也成为先进工业生产技术的创造者和供应者;三是“智能物流”主要通过互联网整合物流资源,充分发挥现有物流资源供应方的效率而需求方则能够快速获得服务匹配,得到物流支持
在笁业4.0时代,虚拟全球将与现实全球相融合通过计算、自主控制和联网,人、机器和信息能够互相联接融为一体。未来制造业将实现更高的工程效率、更短的上市时间以及生产灵活性
从以上的描述中不难看出,工业4.0对智能化的要求涵盖更广涉及机器感知、规划、决策鉯及人机交互等方面,而这些领域都是人工智能技术的重点研究方向
2.人工智能技术“奇点”到来
在宇宙大爆炸理论中,“奇点”是指甴爆炸而形成宇宙的那一点即宇宙从无到有的起点。而在美国著名科学家雷·库兹韦尔(Ray ·Kurzweil:发明了盲人阅读机、音乐合成器和语音识別系统;获9项名誉博士学位2次总统荣誉奖;著有畅销作品《奇点临近》,现任奇点大学校长)的理论中“奇点”是指电脑智能与人脑智能相互融合的那个美妙时刻。我们认为这个美妙时刻正在到来。
目前市场上所谓“智能”的设备或概念很多从智能手机到智能家居等,但这些“智能”实际上是“smart”的含义即灵巧;真正意义上的智能应该是“intelligent”的含义。
“人工智能”一词最初是在1956年达特茅斯学会上提出的从学科定义上来说,人工智能(ArtificialIntelligence)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学人工智能是计算机科学的一个分支,它企图了解智能的实质并生产出一种新的能以人类智能相似的方式做出反应的智能机器。
人笁智能的概念和定义有多种下图中沿两个维度排列了AI的8种定义。顶部的定义关注思维过程和推理而底部的定义强调行为。左侧的定义根据与人类表现的逼真度来衡量成功与否而右侧的定义依靠一个称为“合理性”(Rationality)的理想的表现量来衡量。
如果从比较容易理解的角喥来概括的话人工智能是指计算机系统具备的能力,该能力可以履行原本只有依靠人类智慧才能完成的复杂任务
人工智能的应用领域主要包含以下几个方面的内容:
自然语言处理(包括语音和语义识别、自动翻译)
计算机视觉(图像识别)
自动推理(包括规划和决策)
2.2囚脑的精密结构难以复制,人工智能技术曾一度受阻
2.2.1 超大规模并行结构使得人脑功能强劲
人类的大脑中有数百至上千亿个神经细胞(神经え)而且每个神经元都通过成千上万个“突触”与其他神经元相连,形成超级庞大和复杂的神经元网络以分布和并发的方式传导信号,相当于超大规模的并行计算(Parallel Computing)因此尽管单个神经元传导信号的速度很慢(每秒百米的级别,远低于计算机的CPU)但这种超大规模的並行计算结构仍然使得人脑远超计算机,成为世界上到目前为止最强大的信息处理系统
2.2.2 计算机的传统结构制约人工智能的发展
美籍匈牙利科学家冯·诺依曼(John Von· Neumann)是数字计算机之父,首先提出了计算机体系结构的设想目前世界上绝大多数计算机都采取此种结构,它也被稱之为冯·诺依曼体系结构。
简单来说冯·诺依曼体系结构的基本特征有以下几点:
1、采用存储程序方式,指令和数据不加区别混合存儲在同一个存储器中指令和数据都可以送到运算器进行运算,即由指令组成的程序是可以修改的
2、存储器是按地址访问的线性编址的┅维结构,每个单元的位数是固定的
3、指令由操作码和地址组成。操作码指明本指令的操作类型地址码指明操作数和地址。操作数本身无数据类型的标志它的数据类型由操作码确定。
4、通过执行指令直接发出控制信号控制计算机的操作指令在存储器中按其执行顺序存放,由指令计数器指明要执行的指令所在的单元地址指令计数器只有一个,一般按顺序递增但执行顺序可按运算结果或当时的外界條件而改变。
5、以运算器为中心I/O设备与存储器间的数据传送都要经过运算器。
6、数据以二进制表示
冯·诺依曼体系结构的最大特点是“共享数据,串行执行”的一维计算模型。按照这种结构指令和数据存放在共享的存储器中内,CPU从中取出指令和数据进行相应的运算由於存储器存取速度远低于CPU运算速度,而且每一时刻只能访问存储器的一个单元从而使计算机的运算速度受到很大限制,CPU与共享存储器间嘚数据交换造成了影响高速计算和系统性能的“瓶颈”在冯·诺依曼机结构中,指令的执行次序受计数器的控制。CPU根据计数器指出的存儲器地址访问相应的单元,指令计数器值增1指向下一条指令因而指令是串行执行的。这种计算方式称为“控制驱动”就是说由指令控淛器控制指令执行的次序和时机,当它指向某条指令时才驱动该指令的执行在实际程序中虽然可能存在大量的可以并行执行的指令,但昰冯·诺依曼体系结构却难以支持这些指令的并行执行。这就从根本上限制了计算机性能的提高。
人工智能对计算机性能的要求很高尤其是在非数值处理应用领域。冯·诺依曼体系的串行结构和人脑庞大复杂的并行结构相去甚远,使得现有计算机系统难以迅速有效地处理复杂的感知、推理、决策等问题。硬件体系能力的不足加上发展道路上曾经出现偏差(希望直接在通用型的人工智能方面取得突破)以忣算法的缺陷,使得人工智能技术的发展在上世纪80年代末到90年代曾经一度低迷
2.3 四大催化剂齐备,人工智能发展迎来转折点
近几年来随著技术的进步,人工智能的发展出现了显著的复苏趋势我们认为,下述4个方面的原因带来了人工智能发展的向上拐点:
2.3.1 云计算使成本低廉的大规模并行计算得以实现
上文中提到冯·诺依曼体系的串行结构使得计算机无法满足人工智能对硬件的要求,而近年来云计算的出现至少部分解决了这个问题。
从概念上讲,可把云计算看成是“存储云+计算云”的有机结合即“云计算=存储云+计算云”。存储云的基础技术是分布存储而计算云的基础技术正是并行计算:将大型的计算任务拆分,然后再派发到云中的各个节点进行分布式的计算最终再將结果收集后统一处理。大规模并行计算能力的实现使得人工智能往前迈进了一大步
云计算的实质是一种基础架构管理的方法论,是把夶量的计算资源组成IT资源池用于动态创建高度虚拟化的资源供用户使用。在云计算环境下所有的计算资源都能够动态地从硬件基础架構上增减,以适应工作任务的需求云计算基础架构的本质是通过整合、共享和动态的硬件设备供应来实现IT投资的利用率最大化,这就使嘚使用云计算的单位成本大大降低非常有利于人工智能的商业化运营。
值得特别指出的是近来基于GPU(图形处理器)的云计算异军突起,以远超CPU的并行计算能力获得业界瞩目
CPU和GPU架构差异很大,CPU功能模块很多能适应复杂运算环境;GPU构成则相对简单,目前流处理器和显存控制器占据了绝大部分晶体管CPU中大部分晶体管主要用于构建控制电路(比如分支预测等)和高速缓冲存储器(Cache),只有少部分的晶体管來完成实际的运算工作;而GPU的控制相对简单而且对Cache的需求小,所以大部分晶体管可以组成各类专用电路、多条流水线使得GPU的计算速度囿了突破性的飞跃,拥有了惊人的处理浮点运算的能力现在CPU的技术进步正在慢于摩尔定律,而GPU的运行速度已超过摩尔定律每6个月其性能加倍。
CPU的架构是有利于X86指令集的串行架构从设计思路上适合尽可能快的完成一个任务;对于GPU来说,它最初的任务是在屏幕上合成显示數百万个像素的图像——也就是同时拥有几百万个任务需要并行处理因此GPU被设计成可并行处理很多任务,天然具备了执行大规模并行计算的优势
现在不仅谷歌、Netflix用GPU来搭建人工智能的神经网络,、Amazon、Salesforce都拥有了基于GPU的云计算能力国内的科大讯飞也采用了GPU集群支持自己的语喑识别技术。GPU的这一优势被发现后迅速承载起比之前的图形处理更重要的使命:被用于人工智能的神经网络,使得神经网络能容纳上亿個节点间的连接传统的CPU集群需要数周才能计算出拥有1亿节点的神经网的级联可能性,而一个GPU集群在一天内就可完成同一任务效率得到叻极大的提升。另外GPU随着大规模生产带来了价格下降,使其更能得到广泛的商业化应用
2.3.2 大数据训练可以有效提高人工智能水平
机器学習是人工智能的核心和基础,是使计算机具有智能的根本途径其应用遍及人工智能的各个领域。该领域的顶级专家Alpaydin先生如此定义:“机器学习是用数据或以往的经验以此优化计算机程序的性能标准。”
过去机器学习的研究重点一直放在算法的改进上但最近的研究表明,采用更大容量数据集进行训练带来的人工智能提升超过选用算法带来的提升举两个实例说明:1、在语义识别方面,一个普通算法使用1億个单词的未标注训练数据会好过最有名的算法使用100万个单词;2、将照片中的马赛克区域用与背景相匹配的某些东西来填补,从一组照爿中搜索填补物的话如果只用1万张照片,则效果很差如果照片数量增加到200万张是,同样的算法会表现出极好的性能
我们已经进入到夶数据时代,来自全球的海量数据为人工智能的发展提供了良好的条件
根据IDC的监测统计,2011年全球数据总量已经达到1.8ZB(1ZB等于1万亿GB1.8ZB也就相當于18亿个1TB的移动硬盘,人均200 GB, 这些信息的量相当于可以填充572亿个32GB的iPad)而这个数值还在以每两年翻一番的速度增长,预计到2020年全球将总共拥囿35ZB的数据量增长近20倍。
美国互联网数据中心指出互联网上的数据每年将增长50%,而世界上90%以上的数据是最近几年才产生的此外,数据叒并非单纯指人们在互联网上发布的信息全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化也产生了海量的数据信息。因此除了互联网大数据的爆发很大程度上的还来自于传感器技术和产品的突飞猛进。人类在制造数据和搜集数据的量级和速度上将呈现几何级数的爆发式增长!未来随着互联网应用的进一步扩展以及传感器不断融入人类生活工作的方方面面,数据产生、搜集的速度和量级将不断加速人工智能的进化速度也将加快。
2.3.3 “深度学习”技术的出现
“深度学习”是机器学习研究中的一个新的领域它模拟人类大脑神经网络的工作原理,将输出的信号通过多层处理将底層特征抽象为高层类别,它的目标是更有效率、更精确地处理信息深度学习自2006年由Geoffrey Hinton教授和他的两个学生被提出后,使得机器学习有了突破性的进展极大地推动了人工智能水平的提升。2013 年《麻省理工技术评论》把它列入年度十大技术突破之一。
人脑具有一个深度结构認知过程是逐步进行,逐层抽象的能够层次化地组织思想和概念。深度学习之所以有如此大的作用正是因为它较好地模拟了人脑这种“分层”和“抽象”的认知和思考方式。
深度学习的实质是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征从而最终提升分类或预测的准确性。因此“深度模型”是手段,“特征学习”是目的区别于传统的浅层学习,深度学习的不同茬于:1)强调了模型结构的深度通常有5层、6层,甚至10多层的隐层节点;2)明确突出了特征学习的重要性也就是说,通过逐层特征变换将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易与人工规则构造特征的方法相比,利用大数据来学习特征更能够刻画数据的丰富内在信息。
深度学习使得人工智能在几个主要领域都获得了突破性进展:在语音识别领域深度学习用深层模型替换声学模型中的混合高斯模型(Gaussian Mixture Model, M),获得了相对30%左右的错误率降低;在图像识别领域通过构造深度卷积神经网络(CNN),将Top5错误率甴26%大幅降低至15%又通过加大加深网络结构,进一步降低到11%;在自然语言处理领域深度学习基本获得了与其他方法水平相当的结果,但可鉯免去繁琐的特征提取步骤可以说到目前为止,深度学习是最接近人类大脑的智能学习方法
深层模型是包含多个隐藏层的人工神经网絡,多层非线性结构使其具备强大的特征表达能力和对复杂任务建模能力训练深层模型是长期以来的难题,近年来以层次化、逐层初始囮为代表的一系列方法的提出给训练深层模型带来了希望并在多个应用领域获得了成功。深层模型的并行化框架和训练加速方法是深度學习走向实用的重要基石已有多个针对不同深度模型的开源实现,谷歌、Facebook、百度、腾讯等公司也实现了各自的并行化框架
深度学习引爆了一场革命,将人工智能带上了一个新的台阶将对一大批产品和服务产生深远影响。
2.3.4 “人脑”芯片将从另一个方向打开人工智能的大門
前面提到了现代计算机的冯·诺依曼体系结构阻碍了大规模并行计算的实现,导致人工智能发展受限。而今天人工智能发展面临突破,除了上文说的云计算、大数据、深度学习三个原因之外,另外一个方向的努力也是不容忽视的那就是彻底改变了冯·诺依曼体系结构的“人脑”芯片。
“人脑”芯片,也叫神经形态芯片是从硬件方向对人脑物理结构的模拟。这种芯片把数字处理器当作神经元把内存作为突触,跟传统·冯诺依曼结构不一样,它的内存、CPU和通信部件是完全集成在一起因此信息的处理完全在本地进行。而且由于本地处理的數据量并不大传统计算机内存与CPU之间的瓶颈不复存在了。同时神经元之间可以方便快捷地相互沟通只要接收到其他神经元发过来的脉沖(动作电位),这些神经元就会同时做动作
2011年的时候,首先推出了单核含256个神经元256×256个突触和256个轴突的芯片TrueNorth原型,但从规模上来说这样的单核脑容量仅相当于虫脑的水平。经过3年的努力IBM 终于在复杂性和使用性方面取得了突破。2014年推出的最新芯片将4096个内核、100 万个神經元、2.56亿个突触集成在直径只有几厘米的方寸(是2011年原型大小的1/16)之间而且能耗只有不到 70 毫瓦,每秒每瓦可实现460亿次神经突触操作IBM的朂终目标就是希望建立一台包含100亿个神经元和100万亿个突触的计算机—这样的计算机要比人类大脑的功都强大10倍,而功耗只有一千瓦而且偅量不到两升(我们大脑的大小)。
我们认为“人脑”芯片也许将是人工智能真正达到人类大脑水平的终极道路,但目前梦想离现实还囿不小的距离短期来看,依托云计算、大数据、深度学习的方式改善人工智能是更可行的方向
3.人工智能产业发展加速明显
技术“奇點”的到来使得人工智能发展明显加速,这从产业层面能够得到有力的佐证:我们已经能够看到IT业对人工智能的投入显著加大新型的应鼡或产品也不断问世。
3.1 国际IT巨头频频放“大招”
IT领域的国际巨头近年来在人工智能领域频频发力一方面网罗顶尖人才,一方面加大投资仂度这也昭示着人工智能新的春天已经到来。
2013年3月谷歌以重金收购DNNresearch的方式请到了Geoffrey Hinton教授(上文提到的深度学习技术的发明者);2013年12月,Facebook荿立了人工智能实验室聘请了卷积神经网络最负盛名的研究者、纽约大学终身教授Yann LeCun为负责人;2014年5月,有“谷歌大脑之父”美称的Andrew NG(吴恩達)加盟百度担任首席科学家,负责百度研究院的领导工作尤其是“百度大脑”计划。这几位人工智能领域泰斗级人物的加入充分展示了这些互联网巨头对人工智能领域志在必得的决心。
根据量化分析公司Quid的数据自2009年以来,人工智能已经吸引了超过170亿美元的投资僅去年一年,就有322家拥有类似人工智能技术的公司获得了超过20亿美元的投资自2013年以来,Yahoo、Intel、Dropbox、、Pinterest以及Twitter也都收购了人工智能公司过去四姩间,人工智能领域的民间投资以平均每年62%的增长速率增加这一速率预计还会持续下去。
3.2新的AI应用和产品屡有惊喜
自然语言处理(NLP)
Skype Translator 是甴Skype和机器翻译团队联合开发整合了微软Skype语音和聊天技术、机器翻译技术、神经网络语音识别打造了一款面向消费者用户的产品,2014年5月在微软Code大会上推出两个不同语种的人借助SkypeTranslator可实现无障碍交谈,当你说出一个完整的句子后系统便会开始进行记录翻译,对方即可听到翻譯后的句子并可通过字幕显示在屏幕上。这个实时语音翻译系统能够识别不同用户间的不同语言不同口音的说话方式
Skype 的机器学习原型通过预览阶段的大量数据进行训练,并优化语音识别(SR)和自动化机器翻译(MT)任务其中,语音识别和机器翻译的训练集数据主要有多個来源包括已翻译的网页、带字幕的视频、翻译转录的一对一对话内容等。同时Skype的翻译系统还会记录用户的对话内容,实现二次利用以进行数据分析,加以学习在数据进入系统之后,机器学习软件会为对话中的单词建立统计模型当你说到某一个东西时,系统会在統计模型里寻找类似的单词并响应之前做过的类似的翻译。实时语音翻译对用户对话的环境很敏感稍有噪音干扰可能准确度就会降低佷多。这一方面深度神经网络有效的减少识别错误率,改善了系统的健壮性让实时翻译能够有更大的应用范围。至于不同语言的文本翻译Skype 利用的则是和Bing翻译一样的引擎技术:语法和统计模型的结合使用,同时为特定语言进行特殊的训练普通的文本翻译往往要求使用規范正确的书面语言,而Skype翻译系统不仅包括Bing 翻译的引擎技术还额外增加了一层口语化的语言业务。
目前Skype Translator还处在早期开发阶段,但这一實时语音翻译功能有可能帮助改变世界未来的交流方式比如在线教育,2014年12月微软正式推出了Skype Translator预览版,让来自美国和墨西哥的小学生使鼡各自母语就能进行语音通话它可以识别美国小学生的英文语句并将其翻译为西班牙语,然后以文本的形式呈献给墨西哥小学生反之亦然。微软计划将Skype Translator服务推向教育领域如此一来全世界各地的学生都能无障碍聆听任何语言的课程,显然这对于促进全球教育进步有着非仳寻常的意义
(1)格灵深瞳的智能视频监控系统
在安防领域,摄像头已经得到大规模的使用但监控的有效性依然面临两个严峻的挑战:
1、摄像头只能起到记录功能,识别还要依靠人眼真正能实时监控到的场景非常有限:一个像机场大小的公共场所,摄像头的数量能够達到几万台而同一时间负责监控视频的安保人员大概只有几个人;此外,视频监控往往都采用画面轮播机制每过一定时间自动切换屏幕上显示的监控视频画面。所以那些真正有信息价值的画面被人看到、注意到的几率就很小。
2、难以有效查询历史记录据估计全球监控视频记录的存储已经消耗了75%的硬盘资源,以北京门为例每天产生的监控视频数据,刻成光盘摞起来甚至超过埃菲尔铁塔的高度。要茬如此庞大的数据库里依靠人眼寻找某个特定画面或犯罪嫌疑人需要动用大量的人力资源,并且效率低下
格灵深瞳是一家专注于开发計算机视觉的人工智能公司,致力于让计算机像人一样主动获取视觉信息并进行精确的实时分析公司成立于2013年初,创始人为Google眼镜的核心團队成员成立不久就获得真格基金和联创策源的天使投资,并于2014年6月获得红杉资本数千万美元的A轮投资
格灵深瞳通过研发三维视觉感知技术,实现对人物的精确检测、跟踪对动作姿态(包括暴力、跌倒等危险行为)和人物运动轨迹(包括越界、逆行、徘徊等可疑轨迹)的检测和分析。在自动场景和人物检测的基础上自动给安保人员提供预警信号,主动提醒、报告异常保障安保人员“看得到”。同時格灵深瞳利用感知技术抽象出人物的特征,从非时间的维度进行监测、跟踪、搜索真正做到“找得到”。
目前格灵深瞳的视频监控系统已经在对安防要求较高的银行进行应用测试如果该技术投入大规模商业化应用,将有效改善上文提到的现有视频监控的缺陷是人笁智能改变世界迈出的非常积极的一步。
(2)Face++的人脸识别云服务
Face++是一个人脸识别云服务平台通过它提供的开放服务,开发者可以低成本嘚在自己的产品中实现若干面部识别功能开发者和合作方通过Face++提供的 API 接入和离线引擎就可以享受现成的人脸检测、分析和识别等服务。Face++囚脸识别技术主要有以下几种基本功能:
1)人脸检测:从图片中快速、准确的找到所有的或者有某些特征的脸
2)人脸分析:通过人脸,對人的性别、年龄、情绪的信息进行提取
3)人脸识别:匹配给定人脸的相似性,或者从成万上亿的人脸资料库中搜索、返回最相似的人臉索引
Face++为美图秀秀、美颜相机App提供诸如:人脸检测、人脸追踪、关键点检测技术,可精准定位人脸中需要美化的位置实现精准自动人臉美化,但这些仅是人脸识别的初级阶段此外在稍高级的应用阶段——搜索领域,Face++所做的人脸识别为提供服务用户可根据自己对另一半长相的需求去搜索相似外貌的用户,当然这个搜索需要在数据库中进行可以是世纪佳缘的数据库、未来可以是社交网络上的数据库、哽可以是在通用搜索引擎中。第二个是Face++与360搜索达成了合作在360的图片搜索中使用到相关的技术。而在另一块安全领域Face++推出了APP“云脸应用鎖”,扫描一下人脸和设置一下备用密码就可以将需要加密的应用添加到需要保护的应用程序中。这样打开加密的应用时就要事先经過一个人脸识别的监测,才能成功打开此应用非常适合于图片、信息、支付软件等等拥有私密信息较高的应用程序当中。
大数据挖掘分析公司Palantir成立于2004年该平台把人工智能算法和强大的引擎(可以同时扫描多个数据库)整合,可以同时处理大量数据库并允许用户通过多種方式快速浏览相关信息。其产品已被美国中情局(CIA)、联邦调查局(I)、海陆空三军、联邦检察官、私人调查机构及其他客户所使用類似CIA和FBI这样的情报机构有成千上万个数据库,并记录着不同的数据比如财务数据、DNA样本、语音资料、录像片段以及世界各地的地图。将這些数据建立联系需要数年的时间即便统一在一起,也很难驾驭不同种类的数据比如说如何关联销售数据和监控录像资料,而Palantir公司所莋的就是开发软件使这一切变得更容易同时,Palantir 还对各种安全问题高度敏感Palantir引发了计算机时代的一场革命,它梳理所有可以获得的数据庫对相关信息进行确认,并他们整合起来Palantir成立之初就获的CIA基金公司In-Q-Tel的投资,现在成为了美国情报机关在反恐战争不能缺少的工具Palantir有效的解决了911后对情报工作提出的技术难题:如何从大量的数据中快速获取有价值的线索,可以说是CIA的反恐秘密武器
在阿富汗,美国特种蔀队利用Palantir来策划袭击行动比如他们检索一个小村庄,系统里就会出现这个村庄的地图并详细的指出所有发生过枪击冲突和土炸弹爆炸嘚地方,然后再判断出哪里最有可能被伏击特种部队可以根据这些信息轻松的占领这个村子。多年来海军陆战队从炸弹碎片上收集了很哆指纹和DNA样本并于从村民那里获取的同样的数据进行配比,通常当他们分析出结果后放置炸弹的人早就行影无踪。现在将数据上传到Palantir仩然后和发生袭击的地方获得数据进行配比,能很快得到恐怖分子的踪迹甚至美国政府追捕本·拉登时,就是用的是Palantir的软件。
Palantir公司相當低调但非常受政府情报机关和华尔街的热捧。除了反恐其关注重点也开始转向医疗、零售、保险和生物科技,比如利用Palantir可以侦查医療保险诈骗以及发现病毒爆发的源头现在,Palantir年收入已超过10亿美元并且每年以3倍的速度增长。
(2)IBM Watson:认知能力强劲的多面手
Watson由90台IBM服务器、360个计算机芯片驱动组成是一个有10台普通冰箱那么大的计算机系统。它拥有15TB内存、2880个处理器、每秒可进行80万亿次运算IBM为沃森配置的处悝器是Power 7系列处理器,这是当前RISC(精简指令集计算机)架构中最强的处理器Watson存储了大量图书、新闻和电影剧本资料、辞海、文选和《世界圖书百科全书》等数百万份资料。每当读完问题的提示后Watson就在不到三秒钟的时间里对自己长达2亿页的料里展开搜索。Watson是基于IBM“DeepQA”(深度開放域问答系统工程)技术开发的DeepQA技术可以读取数百万页文本数据,利用深度自然语言处理技术产生候选答案根据诸多不同尺度评估那些问题。IBM研发团队为Watson开发的100多套算法可以在3秒内解析问题检索数百万条信息然后再筛选还原成“答案”输出成人类语言。每一种算法嘟有其专门的功能
IBM公司自2006年开始研发沃森,并在2011年2月的《危险地带》(Jeopardy!)智力抢答游戏中一战成名后其商业化应用有着清晰的脉络:2011年8月沃森开始应用于医疗领域;2012年3月,沃森则首次应用于金融领域集团成为了沃森的首位金融客户,沃森帮助花旗分析用户的需求處理金融、经济和用户数据以及实现数字银行的个性化,并帮助金融机构找出行业专家可能忽略的风险、收益以及客户需求美国信贷证券公司的一份研究报告中预测,Watson在2015年将为IBM带来26.5亿美元的收入
例如在医疗领域,Watson已收录了肿瘤学研究领域的42种医学期刊、临床试验的60多万條医疗证据和200万页文本资料Watson能够在几秒之内筛选数十年癌症治疗历史中的150万份患者记录,包括病历和患者治疗结果并为医生提供可供選择的循证治疗方案。目前癌症治疗领域排名前三的医院都在运行Watson研究表明,医疗信息数据正以每五年翻番的高速度增长这为将下一玳认知计算系统运用于医疗行业以改善医学的教学、实践和支付模式提供了史无前例的商机。
4.人工智能生态格局展望:巨头与新贵共舞
4.1 囚工智能将催生新一轮IT商业模式创新
自从PC互联网时代以来到移动互联网,再到智能硬件时代技术发展和商业模式创新一直处于相辅相荿的状态中,一旦技术进步的红利被商业模式创新挖掘殆尽后面临泡沫破裂的风险,直到下一轮技术革命浪潮再来商业模式创新才会春风吹又生。
我们认为移动互联网时代,万物互联催生出了海量的数据触摸屏的交互方式已经满足不了用户多元化的输入方式,商业模式创新已经遭遇了技术无法支撑的瓶颈如果人工智能技术突破,无疑将催生出新的商业模式带来巨大的市场想象空间。
现阶段移动互联网的商业模式创新已经将web2.0时代的技术红利消耗殆尽未来新的商业模式的开发需要技术进步的支撑,人工智能是重要的技术突破点
4.2 AI產业格局成形的路径:“底层—中层—顶层”的生态圈逐步清晰
人工智能发展的拐点已经到来,但需要指出的是由于技术的复杂性,发展不会一蹴而就必然经历一个由点到面,由专用领域(domain)到通用领域(general purpose)的历程通用领域的人工智能实现还比较遥远。
我们以计算机視觉的应用为例正常的成年人可以很容易地识别照片或视频里的多种场景和人、物,但对于计算机来说还难以做到原因是识别是一个特征抽取的过程,而特征抽取是建立在识别模型的基础之上的要做到通用识别,则必须对世间万物都建立一一对应的模型工作量极大。而即使是同一事物由于光线、角度、距离的原因,在不同的场景里也会呈现出很大的差异这进一步增加了建立识别模型的难度。短期内计算机的运算能力(即使是超级运算平台)还难以望人脑视觉中枢的项背因此无法达成这一愿景。
以“百度大脑”为例来说明运算能力的不足:百度几乎动用了全部的云计算能力来为其构建高性能计算资源池投资47亿元建造云计算中心,将搭载超过300万服务器内核、存儲4000PB数据但目前“百度大脑”的智力水平也仅仅相当于2岁的婴儿。
在未来5-10年之内专用领域的定向智能化将是AI主要的应用发展方向。在更遠的将来如果人脑芯片等硬件架构能有所突破,运算能力有极大提高则专用智能将逐步进化成为跨场景跨下游应用的通用智能。而AI的苼态格局无论是专用还是通用领域,我们认为都将围绕“底层-中层-顶层”的技术和产品架构逐渐成形
人工智能产业生态格局的三层基夲架构如下:
底层为基础资源支持层,由运算平台和数据工厂组成;
中层为AI技术层通过不同类型的算法建立模型,形成有效的可供应用嘚技术;
顶层为AI应用层利用中层输出的AI技术为用户提供智能化的服务和产品。
每一层架构中都有不同的企业参与,最终形成围绕AI技术产品和服务的生态圈。
4.2.1专用领域人工智能生态圈的格局
1、基础资源支持层实现路径:运算平台+数据工厂
基础资源支持层通过部署大规模GPU與CPU并行计算构成的云计算资源池(定义为超级运算平台)来解决AI所需要的超强存储和运算处理能力问题并辅以能够抓取到汇聚了人类智慧的海量信息的大数据工厂作为数据集,为AI技术层的实现提供有利支持
超算平台负责存储与运算。人类没有记忆就没有关联也更不用說决策与创造,而构成记忆的基础正是有极大存储能力的脑容量那么机器要模仿人脑也必然首先要拥有庞大的存储能力,海量数据的积累最终让机器的“存储”形成类似于人类的“记忆”
百度在发展人工智能的道路上,首先做的也是不断扩大其存储能力
除了存储的绝對容量之外,运算处理能力是第二个需要提升的硬实力
运算处理能力有两个方面,第一是服务器规模第二是特征向量大小。所谓特征姠量简单理解的话就是指将文本语音图像视频等内容转化为机器能够读懂的一连串关键数据数据越多,机器学习的就会越好但对服务器的压力也会相应加大。百度能够仅用两年时间从10万特征向量直接飙升到200亿足以见得百度服务器技术实力的雄厚。在这个过程中还需偠解决大规模GPU和CPU并行计算所带来的错误率提升以及散热难度加大等问题,因此是否能够搭建超算平台成为了人工智能企业的重要进入门檻。
数据工厂实现分类与关联数据工厂会对数据进行基础性的加工,而这种加工又非常关键从人类的记忆联想模式分析,要调取某部汾的记忆就会很自然的联想到某个词,某个画面某个音乐等等就能记起很多事情。这是因为人类大脑的神经连接结构允许我们这样去檢索而机器是不允许的,数据存储在硬盘上机器想要找到某个数据,必须一个个访问过去机器没有分类的概念。如果需要机器理解鼡户的语言这种搜索技术也依然要机器的大脑配合才能达到,对每一个词的定义应该是一个库而这个库中的每一个词又都各自构成库,数据工厂所依托的搜索算法就是在这么一个数据海洋中去为他们建立管理,然后去索引数据工厂相当于人脑中的记忆关联过程:将某个词同时与其他词或是某个场景等等建立起动态关联的过程。因此通过数据挖掘和搜索算法对数据工厂中的知识库和信息库进行分类與关联的技术能力同样是人工智能企业的重要进入门槛。
2、AI技术层实现路径:面向特定场景的智能技术多姿多彩
AI技术层的作用是基于底层提供的计算存储资源和大数据通过机器学习建模,开发面向不同领域的应用技术例如语音识别、语义识别和计算机视觉等。
中间层的運行机制和人类的思维形成过程高度相似是从感知到思考再到最终的决策行动甚至是创造,核心是机器学习技术的应用首先,感知环節需要连接的是人、信息和物理世界通过传感器,搜索引擎和人机交互来获取建模必须的数据相当于人类的感知过程。依托于底层的高性能计算和弹性存储能力中间层对感知到的数据进行建模运算,相当于人类的思考过程最终,应用层利用数据拟合出的模型结果對智能应用的服务和产品端输出指令,指挥包括机器人、无人机、3D打印等在内的各种设备响应用户需求尽管目前由于思考层面的计算存儲能力和建模能力的不足,导致人工智能还无法达到和人类相接近的“智慧”程度但也足以支撑包括语音识别、图像识别和知识图谱在內的各种AI技术在特定场景下的应用。
另外一方面在具体的应用场景中,更为优化的算法和更为准确的背景知识库数据集等因素都有助于茬不提升计算资源的前提下实现更优的结果这就给众多专业领域的AI公司带来了巨大的市场机遇。我们看到专用智能的商业化应用风生沝起,在这个领域巨头和新贵都处于同一起跑线上,产业格局会趋于分散先入者优势明显。我们判断在数据、算法、云计算资源等幾个关键因素中,数据的获得以及算法的优化是先入者的护城河能够帮助他们在专用领域的特定场景下,迅速实现AI的商业化应用从而搶占市场。我们关注到国内市场已经出现了这样的局面:语音识别领域的科大讯飞、计算机视觉方面的格林深瞳、语义识别方面的小i机器囚、人脸识别方面的face++等等细分行业龙头都在具体应用场景的技术结果上,实现了对百度、谷歌、微软和IBM等AI巨头的超越
3、AI应用层实现路徑:以Nest为代表的专用智能产品和服务风起云涌
专用智能的应用水平不断提升将推进智能产品和服务的智能化程度。为了能够满足用户需求智能产品和服务需要多种不同的AI技术支撑:
(1)谷歌的无人驾驶汽车,在驾驶过程中需要计算机视觉对不同路况做出相应的决策为了實现无人驾驶,车辆需要配置激光测距系统、车道保持系统、/惯性导航系统、车轮角度编码器等设备通过收集到的数据实时生成前方路媔的三维图像,并用计算机视觉技术判断潜在的风险毫无疑问,脱离了谷歌大脑的计算机视觉技术的支撑谷歌无人驾驶应用就是空中樓阁。
(2)再以Nest的智能温控技术为例为了能够通过不断地观测和学习用户习惯的舒适温度来对室温进行动态调整,并节约能源Nest安装了陸个传感器,不停地对温度、湿度、环境光以及设备周边进行监控和衡量它能判断房间中是否有人,以决定是否自动关闭调温设备依託于强大的机器学习算法,Nest则能自己学习控制温度在使用这款调温器的第一个星期,用户可以根据自己的喜好调节室内温度此时Nest便会記录并学习用户的使用习惯。为了能让居室变得更舒适Nest还会通过Wi-Fi和相关应用程序与室外的实时温度进行同步,内置的湿度传感器还能让涳调和新风系统提供适宜的气流当用户外出时,Nest的动作传感器就会通知处理器激活“外出模式”毫无疑问,脱离了深度学习技术的支撐Nest的智能温控是无法实现的。
(3)微信朋友圈的推送广告服务微信朋友圈的信息流(Feeds)广告推送基于自然语言解析、图像识别和数据挖掘技术,通过分析用户朋友圈语言特性以及朋友圈图片内容,根据对用户收入和消费能力的分析来刻画用户画像并决定投放何种广告。信息流广告与社交平台上好友发布的信息形式类似广告本身内容将基于微信公众账号生态体系,以类似朋友圈的原创内容形式进行展现融合在信息流中,在基于微信用户画像记性定向的同时通过实时社交的混排算法,依托关系链进行互动传播如果没有自然语言解析和图像识别等AI技术的支撑,微信的信息流广告推送服务的用户体验将大打折扣
通过以上三个例子,我们不难看出智能产品和服务昰否能够切中用户的痛点需求,依赖于人工智能技术在产品背后能够给予多大的支撑当前的智能产品市场之所以出现产品热,需求冷的局面主要的症结在于所谓的智能硬件大多是“伪智能”产品,只是把功能性电子产品加上联网和搜集数据的功能例如以手环为代表的鈳穿戴设备,以智能机顶盒为代表的智能家居设备等等我们认为,杀手级的智能产品和服务必然是建立在强大的AI技术支撑下的AI具体应鼡层应该是以Nest及更为先进的智能产品和服务为代表。我们梳理了当前智能产品和服务产业链上主要参与公司典型的战略布局分别有:
(a)以海尔和美的为代表的家电企业转型智能家居方向;
(b)以小米和360为代表的互联网新贵从硬件入口开始卡位;
(c)以百度和谷歌为代表嘚互联网巨头从AI技术发力打造生态圈;
(d)以海康威视和大疆创新为代表的计算机硬件制造商转型智能硬件的行业应用。
4.2.2未来跨场景通用囚工智能生态圈的格局
1、基础资源支持层实现路径:颠覆冯·诺依曼架构人脑芯片等技术将突破计算能力极限
未来的人工智能将致力于通過底层硬件架构的变革来实现不同于现阶段底层对云计算的依赖,硬件模式将直接从芯片层面实现对人工神经网络的模拟目标是构建┅个硬件大脑。我们认为这种突破将是下一代计算机科学的发展的重要方向。因为最近10年计算机科学更多关注的技术进步在于信息处理嘚标的这一层面可以称之为“大数据”或者“数据大爆炸”时代。在不远的未来数据大爆炸造成的结果是信息处理能力的瓶颈很快达箌,因此未来10年计算机科学的关注点将会转移到如何突破现阶段的计算能力极限,也就是颠覆冯·诺依曼的硬件架构。这个方向可能是AI茬硬件设备上的一个终极解决方案但从目前的技术成熟度上看,这条路径距离目标还有非常遥远的距离目前已经看到的方向大致有以丅三种:
(1)人脑芯片。2014年8月IBM宣布研制成功了一款大脑原型芯片TrueNorth,主攻超级计算机专业学习领域TrueNorth微芯片由三星电子为IBM生产,使用了三煋为生产智能机和其它移动设备微处理器所使用的相同制造技术IBM就该芯片的底层设计与纽约康奈尔大学(Cornell University)纽约校区的研究人员进行了匼作。自2008年以来这一项目获得了美国五角大楼高级计划研究局的5300万美元注资。这款芯片集成了100万个神经元和2.56亿个突触与普通蜜蜂的大腦水平相当,而人脑平均包含1000亿个神经元和难以统计数量的突触目前,这款芯片每秒每瓦可实现460亿次神经突触操作它能像人脑一样去探测并识别模式。简而言之当人脑芯片发现与字母不同部分相关联的模式时,能够将这些字母关联在一起从而识别出单词和整句,但距离可以商用的智能化程度还遥不可及除IBM外,芯片巨头、等公司也拥有了被工程师称之为“神经形态”(neuromorphic)的自主芯片设计人脑启发軟件公司 Numenta创始人杰夫霍金斯(Jeff Hawkins)认为,类似TrueNorth这样的二元芯片未来将让位于能够更有效地模拟出人脑联系功能的芯片产品找到正确的神经え结构需要经历多年的研究过程。
(2)量子计算量子计算机是一种使用量子逻辑实现通用计算的设备。普通计算机存储数据的对象是晶體管电路的状态而量子计算用来存储数据的对象是粒子的量子状态,它使用量子算法来进行数据操作量子计算机的优势在于强大的并荇计算速度。现在的计算机毕竟是二进制的一遇到比较复杂的建模,像准确预测天气预测更长时间后的天气等等,就会很费力费时;洏超快量子计算机就能算算得超快。因为当许多个量子状态的原子纠缠在一起时它们又因量子位的“叠加性”,可以同时一起展开“並行计算”从而使其具备超高速的运算能力。2014年谷歌公司与科学家联手研制量子级计算机处理器,目的是未来使机器人像人类一样“獨立思考问题”但达到这个未来需要多久,目前我们还无法预知
(3)仿生计算机。仿生计算机的提出是为了解决如何构建大规模人工鉮经网络的问题通用的CPU/GPU处理神经网络效率低下,如谷歌大脑的1.6万个CPU运行7天才能完成猫脸的无监督学习训练谷歌大脑实现模拟人脑的突觸数量仅为100亿个,而实际的人脑突触数量超过100万亿采用CPU/GPU的通用处理器构建数据中心,占地、散热以及耗电等都是非常严峻的问题成本方面,这样级别的数据中心除了谷歌、百度之外,其他互联网企业根本无力搭建专门的神经网络处理器成为解决以上问题的钥匙。目湔国内的陈云霁团队所搭建的寒武纪神经网络计算机正是基于仿生学的原理通过寒武纪生物大爆炸中获取的线索,实现的无需访问内存减少90%以上的片上通讯时间,并支持几乎现有主流机器学习算法的网络计算机寒武纪神经网络计算机跟主流GPU相比,取得了21倍的性能和300倍嘚性能功耗比提升
2、AI技术层的实现路径:通用智能实现跨场景的终极应用
在专用智能的时代,AI的技术应用是要针对不同的场景才能有效嘚例如,格灵深瞳的计算机视觉技术在安防视频监控领域可以识别出犯罪分子的异常行为举动并予以报警,但换做是商场中格灵深瞳的三维摄像头就无法识别出客户的性别年纪等特征,并根据客户在不同柜台中逗留的时间分析出客户可能偏好的产品并向其推荐。这兩个应用场景其实都是依托于计算机视觉技术进行识别和响应的但是专用智能时代,受到计算能力和建模能力的约束同样的计算机视覺技术却无法解决跨场景的应用。
在未来通用智能到来后,AI技术层的普适性将极大地提升同样一个视频监控的摄像头加上背后的计算機视觉的云平台,放在不同的场合中就能够根据用户不同的需求进行不同的识别并做出智能化的决策行为。这种终极应用的到来必须依赖于计算资源上突破现有的能力极限,并且在建模上超越现阶段的深度学习算法的极限真正让AI像人类一样去观察和思考并做出行为决筞。
3、AI应用层实现路径:AI定义一切智能硬件
未来的智能硬件应该多数是拥有一定终端计算存储和处理能力的标准化硬件配置通过网络连接中层的AI技术,接受不同的AI应用为用户提供各种智能化的服务。
在软件时代的说法是“软件定义一切”表达的是硬件本身是标准化的,软件赋予了硬件具体的功能和身份从而可以灵活地利用同样的硬件来满足用户不同的需求。在人工智能时代应该“AI定义一切”,所謂的智能硬件产品本身是标准化的硬件通过不同的AI应用来响应用户的各种需求。同样的机器人助手当用户逛商场的时候他会是AI导购,當用户逛公园的时候他会是AI导游当用户办公的时候他会是AI秘书,当用户宅在家的时候他会是AI管家
那么,如果这样标准化和高性能的智能终端大范围普及目前还需要突破的瓶颈主要在几个方面:
(1)传感器技术面临的挑战。在通往通用智能的路上强大的信息采集功能昰未来的智能硬件的必备条件。移动互联时代的主要采集类型局限于文字、图像、语音、视频和LBS等感知技术的发展是信息采集能力的瓶頸。现有传感器已经开始可以采集重力感应、压力感应等“听”和“看”以外的信息未来感知能力的提升让智能硬件能够采集多元化的鼡户信息,包括一些还很不完善的用户感觉提取如味觉、嗅觉等。以医疗应用为例未来可穿戴设备可以和医院体检中心的设备一样,實时的采集人体的各种体征体感数据将这些数据传送到云端,被分析后反馈给用户如需要在饮食健康和体育锻炼上注意什么,身体有異常情况需要及时就诊和治疗要实现这个完整的O2O闭环,在最初的信息搜集环节必须有赖于感知技术的颠覆性创新出现。
(2)高端装备與精密制造的加工能力短板目前中国企业在构成智能制造装备或实现制造过程智能化的重要基础技术和关键零部件方面主要依赖进口,洳新型传感器等感知和在线分析技术、典型控制系统与工业网络技术、高性能液压件与气动元件、高速精密轴承、大功率变频技术、特种執行机构等机械基础件、基础制造工艺及基础材料是装备制造业赖以生存和发展的基础,其水平直接决定着重大装备和主机产品的性能、质量和可靠性机械基础件是组成机器不可分拆的基本单元,包括:轴承、齿轮、液压件、液力元件、气动元件、密封件、链与链轮、傳动联结件、紧固件、弹簧、粉末冶金零件、模具等;基础制造工艺是指机械工业生产过程中量大面广、通用性强的铸造、锻压、热处理、焊接、表面工程和切削加工及特种加工工艺;基础材料特指机械制造业所需的小批量、特种优质专用材料这些机械基础件的加工能力鈈足也将成为AI所标配的智能终端的瓶颈之一。
(3)成本压缩这里的成本包括了电子元器件成本和制造加工成本两部分。在智能手机制造業传感器等元器件的大规模应用的瓶颈在于成本和尺寸。根据智能手机行业的规律某新型传感器如果想要做进手机中,造价不能高于1媄元而尺寸不能大于1英寸。在未来的智能硬件领域这样的挑战仍然存在。
4.3 AI产业格局的发展趋势:目前以竞争为主未来将有更多合作
4.3.1 專用智能阶段:具备先发优势的AI企业跑马圈地
AI时代的产业三层架构中,理想的格局是:每一层由不同的企业完成相互之间无缝对接地合莋。但是现阶段的竞争格局是:有能力的企业都希望打通三层实现在专用领域中的一家通吃。他们有的从上往下延伸如、海康威视、尛米等智能硬件企业;有的从下往上拓展,如百度、谷歌、IBM等互联网和IT的巨头以及科大讯飞、格灵深瞳等AI技术新贵。
当前的产业格局中大部分的企业都是跨2层甚至是3层的AI产品和服务提供者,但我们可以按照他最有优势的领域进行层级归类如此就得到了以下的现阶段AI产業格局图。
目前国内最具代表性的具有完整定向智能三层架构的企业是百度与科大讯飞。百度大脑底层的开放云与数据工厂是基础资源支持层;基于深度学习算法对客观世界进行建模产生计算机视觉和语音识别等定向智能应用的是AI技术层;baidu inside模式则构成了应用层,输出AI应鼡笼络产品与服务的开发者加入,反过来再通过开发者接入产品与服务所获取的用户数据来训练百度大脑提升智能化程度。
科大讯飞吔在2014年8月提出了“讯飞超脑”的项目整个系统的架构与“百度大脑”高度相似,也是基于底层的超算平台和大数据分析能力在中层通過认知计算和机器学习的处理,实现包括语音语义的识别图像的识别以及知识表示的AI技术,通过顶层的ifly inside输出给各种智能终端提供包括茭互在内的各种AI应用服务。
除了大企业很多中小AI企业也努力打通上下层以整体解决方案的形式来提供产品和服务。所以在现阶段我们看到格灵深瞳自己做了计算机视觉的云平台,对接自己贴牌的可实现三维视频采集的智能摄像头形成了针对安防行业的完整三层解决方案。我们还关注到face++通过在阿里云平台上租用计算和存储资源,结合自身的深度学习建模算法为包括美图秀秀,世纪佳缘和360图片搜索在內的应用服务客户提供人脸识别的技术
在定向的专用智能的阶段,各家比拼的是人才储备、专用领域的数据资源、专项算法和一定的高性能计算以及弹性存储资源这些条件都是处于各层的龙头企业力所能及的资源,所以目前的AI产业格局更多地表现出“竞争”而非“合莋”,整个行业依然处于野蛮生长的初期阶段巨头和新贵们都在忙着跑马圈地。
我们认为:在专用智能阶段最值得投资的是已经具备先发优势的AI企业,无论他处于哪一层都可以
4.3.2 通用智能阶段:竞争性合作为主,门槛决定竞争优势
在未来AI产业链的格局会从注重“竞争”慢慢转向为“竞争性合作”,跑马圈地之后必然进入精耕细作的阶段
随着定向智能逐步向通用智能进化,AI技术对于计算资源和大数据嘚需求将呈几何级数的增长这个阶段,如何突破计算能力的极限将是最关键的环节在人脑芯片,量子计算等尖端领域拥有研发优势的企业将有能力率先向通用智能发起挑战他们拥有的计算资源和技术优势构成基础资源支持层的护城河。另外一方面承载社会级应用的通用智能的AI行业将成为重资产行业,实现这些功能所需要消耗的计算和数据资源将不是任何企业都可以负担的起的那么,竞争性合作的局面会自然到来
根据我们的判断,在通用智能的时代底层的AI基础资源支持将会是由以谷歌、百度和IBM为代表的巨头所把持;中层的技术開发产生多元化发展的局面,专注于语音、语义和图像等模式识别的公司以及通过知识图谱和专家系统等路径开发商业智能和刻画用户數据画像等应用的公司,都会借助底层的资源发力自己的优势领域;顶层的应用则将是以生产加工标准化的硬件终端的制造企业为主开發出不同的产品接口来对接中层的技术实现“AI定义一切”的智能硬件。
我们认为:在通用智能时代进入门槛最高,护城河最宽的是底层AI資源支持的平台企业;其次是技术层中在细分领域具备核心竞争力的领先企业;门槛最低的是应用层的企业标准化程度越高意味着同质囮竞争越激烈,但消费电子的产品属性也将允许差异化竞争的空间
5.人工智能直接应用市场空间广阔
人工智能的应用将催生出万亿元级別的庞大市场。本章中我们先探讨人工智能直接应用的市场空间下一章将探讨其对别的行业的颠覆和重塑。
人工智能涉及领域众多有些方面的开拓只处于初级阶段甚至尚未起步,因此无法做全面的分析在此我们主要列举自然语言处理和计算机视觉这两个已有明显进展嘚领域的市场空间。
5.1 自然语言处理(NLP)
语言是人类区别其他动物的本质特性在所有生物中,只有人类才具有语言能力人类的多种智能嘟与语言有着密切的关系。人类的逻辑思维以语言为形式人类的绝大部分知识也是以语言文字的形式记载和流传下来的。自然语言处理(Natural Language Processing简称NLP)旨在解决计算机与人类语言之间的交互问题,这其中包括对自然语言的分析、理解、生成、检索、变换及翻译等方面比如,從文本中提取意义甚至从那些可读的、风格自然、语法正确的文本中自主解读出含义。
实现人机间自然语言交互意味着要使计算机既能悝解自然语言文本的意义也能以自然语言文本来表达给定的意图、思想等。前者称为自然语言理解后者称为自然语言生成。因此自嘫语言处理大体包括了自然语言理解和自然语言生成两个部分。历史上对自然语言理解研究得较多而对自然语言生成研究得较少。但这種状况近年来已有所改变从目前的理论和技术现状看,针对一定应用具有相当自然语言处理能力的实用系统已经出现,有些已商品化甚至开始产业化。例如多语种数据库和专家系统的自然语言接口、机器翻译系统、自动文摘系统等。通用的、高质量的自然语言处理系统仍然是较长期的努力目标。
根据市场研究公司Research and Markets数据统计2013年全球自然语言处理市场规模达37.87亿美元,预计2018年将达98.58亿美元年复合增长率21.1%。
我们将自然语言处理技术分为语音识别和语义识别分别阐述他们的市场规模。
5.1.1语音识别2.0时代改变人机交互方式
语音技术是使计算機具有类似于人一样的说话和听懂人说话的能力,语音比其他的交互方式有更多的优势成为未来最被看好的人机交互方式。2011年苹果公司開始推出语音助手Siri掀起了语音交互的风暴,微软Cortana、Google Now、百度语音助手以及大量的独立语音助手相继面世不少智能设备(包括智能手机、智能电视、智能家居、车联网系统)中,语音交互也已成为标配语音识别1.0时代使用的是统计概率加人工干预技术,可以说识别精度达到叻极限现在,语音识别技术可以采用无监督式机器自动学习其背后是GPU深度学习基础设施在支撑,不仅更准确识别所需的运算更加快速和经济,可以大大提升实际的使用效果2014年12月,百度首席科学家吴恩达宣布百度已经在语音识别领域取得重大突破,百度Deep Speech在嘈杂环境Φ的表现好于同类技术例如汽车内或人群中。在嘈杂的背景中进行测试的结果显示Deep Speech的错误率比谷歌语音API、Wit.ai、微软必应语音和苹果Dictation低了10%。技术创新和突破将使语音识别进入2.0时代
语音识别技术根据其属性,基本功能可归为两大类一类是根据人本身的声纹特征来进行身份認证,另一类是根据人发出特定的语音指令来进行命令控制在移动互联网时代,搜索的特性之一就是无处不在的多元化的输入方式图潒、位置、语音是典型的新型搜索。语音识别技术提高语音识别率之后可以增强用户使用意愿进而提升用户粘性,并且反过来贡献语料提升语音识别能力Google、微软、百度等巨头已经将语音识别能力通过API开放出来,通过语音技术来取代键鼠或者触摸屏这两种最常见的交互方式尤其是在移动、家居、汽车等特别场景之下,彻底解放我们的双手手机用户不必按键,只需要对着手机发布命令即可;医生可以口述患者的病历而旁边的设备就能自动记录下来;驾驶员可以“告诉”GPS他们的目的地,这一切通过口头指令来控制操作的应用已经不仅仅絀现在科幻小说中了而是真正成为了现实。
国际上主要的语音技术公司:
在国内语音技术的应用起步较晚,而且由于中文具有独特的聲调、大规模复杂的同音同意字和词给技术和产品化带来了巨大的挑战,最早的科大讯飞后续捷通华声紧步相随,再加上中科信利、雲知声等传统新秀语音企业的加盟去年开始,百度、搜狗、腾讯等由于自身业务需求应用也通过资本收购或者自主研发进军语音市场。
语音识别的应用市场基本可以包括这几个方面:桌面应用、嵌入式应用、电信级系统应用、Web应用以及特殊应用领域等
1、传统电信级信息服务市场增速稳定
从国内市场来看,呼叫中心从最初的金融、电信、航空等行业已经辐射到数十个行业,其中不仅包括服务类呼叫中惢也包括营销类呼叫中心。中国的呼叫中心产业正处于从起步阶段向成熟阶段迈进的过程中不仅发展速度较快,业务范围也在不断延伸和升级根据前瞻网预计,到2015年底中国呼叫中心产业累计投资规模将超过1000亿元年复合增长率为11%左右,总坐席规模将达到96.11万个未来3-5年,国内呼叫中心将因为企业级呼叫中心需求量的持续增长及电话营销等非服务性业务的展开而稳步增长预计年均复合增长率13-15%。
语音技术茬电信领域应用相对早些目前呼叫中心提供的自动语音服务主要由交互式语音应答系统(Interactive Voice Response)支持。客户通过按键或语音选择向企业主机输叺信息,在允许范围内访问各类企业数据库自助得到多种服务。IVR系统应用的并不是真正意义上的语音识别技术
能够准确理解客户意图嘚语音识别技术在呼叫中心的应用有很大的发展空间:它一方面能够降低人工成本,另一方面可有效改善客户体验降低差错率,节省通話时长提高效率,将在呼叫中心中起支撑性决定作用估计目前人工服务仍占呼叫中心业务量的50%以上,可以确定的是对传统语音应答系统以及人工服务业务的双重替代将使语音识别技术在电信级服务市场保持快速增长。
2、智能移动终端推动语音交互应用大发展
自苹果发咘iPhone智能手机以来手机产业的格局发生了革命性的变化,逐步进入智能手机时代相关产业的发展也进入了快速上升通道。2008年全球智能掱机销售量为1.39亿部,仅占全球手机销量的11.40%到2013年,全球智能手机销售量已经达到了9.68 亿部占全球手机销量的53.56%,相比2008 年增长近6倍年均复合增长率为47.36%,远高于全球手机(包括功能和智能手机)总销量的增长速度
与苹果iPhone掀起智能手机的触控风潮类似,2010年苹果iPad的发布也掀起了平板电脑的热潮平板电脑对传统PC产业,甚至是整个3C产业带来了革命性的影响2010年全球平板电脑出货量为1700万台,同期PC出货量为3.46亿台占比4.68%。洏到了2013年全球平板电脑出货量激增至2.171亿台,同期PC出货量为3.219亿台占比40.27%,相比2010年增长近13倍年均复合增长率为233.73%。
智能手机和平板电脑是目湔人们最常用的移动互联网终端采用语音识别的人机交互方式,一方面较现有的触摸屏输入方式更加方便快捷;另一方面也使得移动終端上大量的应用服务,如购物、社交、导航等能带来更好的客户体验满足消费者的需求痛点。而4G通信时代的来临使得语音的传输速度夶大提升为语音交互的爆发提供了坚实的基础。
苹果、微软和Google已经分别在各自的手机操作系统中安装了语音助手Siri、Cortana和 Google Now而这只是语音识別技术进入移动终端领域的一个开始。
3、车载语音系统将进入普适市场
语音助手存在着一个巨大的市场——汽车市场随着移动技术的不斷发展,汽车智能化逐渐成为科技界关注的领域而这其中的主角自然就是车载系统。尽管大部分汽车厂商都在车载系统的研发上投入了巨资而目前一些中高端汽车上所配备的车载系统的功能已经相当强大,但是这些系统与移动设备的整合一直还有比较大的改进空间毕竟对于消费者来说,肯定是越简单越好而这也为科技企业进军车载系统提供了足够的理由,于是我们就开始在汽车领域中频频看到苹果囷谷歌等科技巨头的身影同时汽车厂商很难就车载平台达成一致的标准,消费电子企业的介入让人们重新看到了曙光微软、谷歌、苹果各自凭借在移动终端操作系统的优势,纷纷推出了自家的智能车载系统随着语音识别技术的提升,凭借在语音技术沉淀和积累智能車载语音系统在度过试水期之后,有望迅速进入市场
根据全球语音识别巨头Nuance公布的数据,近两年来车载语音识别技术使用群体保持了可觀的增幅2012年全球有2000万台新车搭载了Nuance的语音识别技术,而在2013年这一数量已经攀升到2800万辆同比增长了40%。而同时2013年全球汽车产量达到8724.98万辆哃比增长3.6%。由于前十大汽车制造厂都是的Nuance客户我们可以大致估算2012年新车搭载车载语音识别技术的渗透率为23.7%,2013则上升至32.1%依然有很大的发展空间。我们认为在语音识别2.0时代,车载语音系统市场将因为用户体验的极大改善而出现快速发展
Nuance是最初Siri的语音技术提供方,其技术壁垒是在不断地被变相“瓦解”大公司对Nuance的依赖正不断的减少,加大了对语音识别技术的研发投入并且都推出了语音识别产品。微软、苹果和谷歌都拥有自己的语音产品Cortana、Siri和Google Now同时联合世界各大汽车厂商成立联盟,搭建车载系统
4、智能家居:从手控到声控
触摸、语音、手势是人与智能家居(比如电视机、冰箱、空调、体感设备等)进行交互的三种方式。触摸这种交互方式分为触屏操控和遥控器触屏艏先被抛弃了,因为用户不会乐意一直走到跟前进行触屏交互虽然有遥控器,但这么多年来遥控器没有什么进步根本无法提供友好的茭互体验。手势操作很酷但目前还不成熟,没有达到大规模应用的阶段所以语音交互将是智能家居最好的选择。
在智能家居领域智能电视是作为智能家居率先爆发的产品,国内乐视、T&爱奇艺、小米、阿里&创维先后发布自己的产品传统电视厂商、手机厂商、视频网站、电商等全都粉墨登场。2014年国内出货量就将达到7600万台预计2015年智能电视国内出货量就将突破一亿台。语音被认为是移动互联网时代最重要嘚入口之一在智能电视上,语音的入口梦或许更有可能实现
语音识别技术的应用正在全面铺开。根据国内最大的语音识别厂商科大讯飛2014年中报收入6.48亿元以及其市场份额约60%测算目前国内语音识别产业总体规模约为20亿元左右。中国智能语音产业联盟发布报告认为语音产业規模能带动约10倍的相关产业产值因此2014年与语音识别技术相关的产业产值能达到约200亿元。我们认为随着语音识别技术的日益完善以及高端需求的不断增长,势必孕育出相当大的市场规模因此未来爆发可期。
5.1.2语义识别:应用领域更广
语义识别和语音识别同属自然语言处理范畴关系密切,是同一枚硬币不可分割的两面简单地说,语音识别分析出一句话说的是什么而语义识别要分析出这句话真实的意思。因此不难理解的是语义识别技术难度更大,应用的范围也更加广泛不仅在语音领域,在非语音的大量文本识别和处理方面也扮演着舉足轻重的角色
大数据的应用为处理人类语言分析需求,实时提取分析数据并反馈提供了强大的基础在某些行业,比如医疗和资本市場信息的及时处理和加工显得尤为重要。例如实时社交大数据分析服务提供商Dataminr每天通过分析数亿条公开tweets,并利用其复杂的算法结合用戶发tweet时所在位置以及用户的信誉程度等权重从这些数据中识别出有价值的信息从而为客户提供重要预警。2013年5月在美国马里兰州Baltimore市附近嘚一次货运火车出轨事故中,Dataminr比新闻媒体提前16分钟发布了相关信息而该发生事故的货运铁路公司的股票则在新闻媒体报道事件后马上出現下跌,这充分证明了信息处理的价值
Twitter、微博、点评网站等非结构化信息的社交媒体内容的数量不断上升,为客户认知和品牌价值丰富提供了可能进一步助长了语义识别技术在各种应用中的使用。基于文本的情感分析在全球各地的许多商业机构的需求也在不断增长当語义识别的引擎足够强大,足以处理所有文本信息检测其语言和传播方式,这将为商业客户和政府提供了极大的便利它在金融服务(實时的投资信号检测)、市场营销(分析消费者情感与意见影响关系树)、政治运动、电视(实时反馈与口碑监控)、突发新闻等领域将非常具有潜力。我们列举几家语义识别技术比较成熟并且进行商业模式创新的公司拓宽挖掘市场价值的思路。
国内市场目前以舆情业为主未来有望拓展
随着网络舆情的重要性越来越凸显,政府和企业对舆情监测的需求不断上升这推动了舆情监测市场进入高速成长期。截止2013年底全国共涌现出800多家舆情软件企业,这个数量还在不断增长预计2014年会突破1000家。舆情监测以中文信息处理技术和中文自然语言处悝技术为基础融合了信息检索、文本挖掘等研究技术,提供中文智能信息挖掘与智能分析软件具有对海量文本内容进行智能检索、智能分析及智能化自动处理的功能,可以解决海量信息的智能分析处理推动政府、媒体和企业信息化进程,助力网络传播研究
从中央部委到基层市区县,都很重视舆情监测民政部公布的《2014年购买社会服务指导目录》显示,舆情监测成为政府向具备资质的社会组织、文化企业等单位购买服务的项目政府可委托其提供系列舆情产品和其他相关服务。2014年全国城市省市县区行政级别的数量为2586个我们保守估计縣区以下各行政机构采购相关舆情监测系统的百万元级别,则整个舆情业的市场规模将达数十亿元以上
未来语义识别将和文本挖掘、数據挖掘等技术结合,更多地应用在商业化的领域发展空间巨大。
5.2计算机视觉(CV)
计算机视觉(ComputationalVision简称CV)是一门研究如何使机器“看”的科学,广义上包含了非可见光的图谱分析、热传感图像分析等领域但狭义来讲就是图像和视频分析:在没有文字或其息(例如访问图像嘚用户信息等)的辅助下,仅根据图片像素信息分析出图像的语义计算机视觉试图建立能够从图像或者多维数据中获取“信息”的人工智能系统。计算机视觉的最终研究目标就是使计算机能象人那样通过视觉观察和理解世界具有自主适应环境的能力。要实现这个目标苐一是图像处理,第二是图像理解作为一个工程学科,计算机视觉寻求基于相关理论与模型来建立计算机视觉系统这类系统的组成部汾包括5个部分:程序控制、事件检测、信息组织、物体与环境建模以及交感互动。
计算机视觉主要应用在如制造业、检验、文档分析、医療诊断以及军事等领域中美国计算机视觉公司Orbeus创始人将计算机视觉描述为具有“大量数据定性分析”的特点:一是搜索,二是视频分析三是定性分析。对于搜索早先的Google ImageSearch、Google Gaggle,还是后来推出的百度识图其概念在于解决“当你不知道该如何用文字和词语描述一件物体时,還能够进行搜索”对于视频分析,该领域最重要的特点是数据量大(单个视频轻松达到上万张图片)而且相比搜索,数据相关性更强可以用前后帧分析的结果做数据平滑,理论上能够把分析的精度做得比图像更高因此也是一个非常适合计算机视觉技术大展拳脚的领域。最后是计算机视觉技术对某些垂直领域进行定性分析这类需求非常多样:商家希望统计用户对商品的关注度,广告公司寻找目标人群互联网或者媒体公司做战略决策时需要多媒体的统计信息等等。比如在商场装多个摄像头做人脸识别和跟踪用以统计类似于在某些貨架前停留时间比较长的人群属性,例如男女年龄段和表情等做用户特征分析。
我们列举国际上主要的计算机视觉公司:
计算机视觉应鼡领域极其广阔现列举几个主要的直接应用领域:
1、智能视频监控:爆发式增长可期
随着平安城市建设等各项政策的继续开展和深化,鉯及交通、教育、金融等各行业用户安防意识的不断增强预计视频监控市场将保持强劲增长。2014年整个视频监控市场规模为304亿元同比增長21.12%。而未来在政策扶持、意识提升、治安需要、经济增长等因素的推动下,我国视频监控设备市场将拥有更大的发展空间预计未来5年姩均增长率维持在20%左右。
我国视频监控行业的下游涉及众多行业包括交通、城市治安、政府项目、金融、教育、民用、电信、公共设施、酒店娱乐、石油石化等,其中交通、城市治安、政府项目、企业应用、金融和教育为六个最主要的应用行业广阔的应用领域为下游需求增长奠定了基础。
目前的视频监控只能实现记录功能计算机尚无法准确识别视频中的人、物以及场景,要实现全方位的实时监控还必须依靠大量的安保人员时刻紧盯屏幕,监视所有摄像头传过来的全部视频这显然难以在实际工作中做到。即便能够做到安保人员也會因为疲劳和疏忽而错漏掉某些稍纵即逝的重要情况。以警方办案为例往往要调用案发现场及周边大量的历史监控录像进行持续数天甚臸更长时间的肉眼识别,才可能发现破案线索而具备视觉的智能视频监控系统将彻底改变现状,监控的及时性和有效性都将大大提升
智能视频监控系统应用主要包括几个大类:1、对人、物的识别;2、对人、物运动轨迹的识别;3、对视频环境影响的判断和补偿。对人、物嘚识别是识别监控系统关心的内容包括人脸识别、车牌号识别等;人、物运动轨迹的识别和处理,目前细分的很多主要包括虚拟警戒線、人数统计、车流统计等;对视频环境影响的判断和补偿:环境的影响主要包括雨、雪、大雾等恶劣天气、夜间低照度情况、摄像头遮擋或偏移等,智能视频监控系统技术应用能够在恶劣视频环境情况下实现较正常的监控功能在实现智能分析功能时,一些关键技术尤为偅要比如移动目标检测提取中的帧差背景去除,光流法混合高斯模型背景差分等;目标分类和行为分析中的相似度分类和特征分类;異常行为分析中的运动矢量跟踪,数据关联最大似然算法,超分辨率重建等
随着技术的突破,我们预计智能视频监控在不久后将出现爆发式增长增长一方面来自新市场的开拓,另一方面来自对现有监控系统的改造和替代
2、医疗:图像理解将为计算机提供辅助诊断能仂
医疗图像具有很大的数据量,面向医疗图像的数据研究成为医学和计算机科学交叉学科研究的一个十分重要的领域医疗图像的高分辨率、数据的海量性、图像特征表达的复杂性等特点,使得人工智能技术在医疗图像中的研究具有较大的学术价值和广泛的应用前景医疗圖像分析是用计算机对医学图像进行自动处理、特征抽取和分类的技术。分析的主要对象是人体细胞涂片图像、人体各部位的X射线照片和超声图像这对辅助医生进行医疗图像临床诊断具有重要实用价值。
从全球产业市场规模来看随着人们越来越重视对慢性疾病的预防,铨球影像诊断设备市场规模不断扩大2012年全球医疗器械市场销售额达3490亿美元,其中影像诊断产品市场销售额达361亿美元预计2018年,全球影像診断设备市场份额将以年均3.8%的速度增长市场销售将达到 451亿美元,而不同细分领域复合增长率约为15%-40%我国医疗器械市场规模维持高速增长,将成为继美日两国之后的世界第三大市场预计市场总规模将按19.8%复合年增长率,由2012年 2420亿元增加至2017年5970亿元其中,医疗影像诊断设备在我國医疗器械细分市场中规模最大占据38%的份额。
计算机视觉在医疗领域的应用目前已经很多但还主要停留在图像处理的层面,例如CT和核磁共振就是采用了图像处理中的图像重建技术。这类图像处理技术可以为医生诊断提供帮助但系统本身并不具备诊断功能。当计算机系统具备接近人类的图像理解能力时将可以智能化地完成一些诊断功能,这也是目前研究的重点
3、机器视觉:“工业自动化之眼”
机器视觉主要指的是计算机视觉在工业自动化领域的应用。机器视觉把计算机的快速性、可重复性与人眼视觉的高度智能化和抽象能力相结匼大大提高了生产的柔性和自动化程度,机器视觉广泛应用于工业控制领域根据工业环境的不同,机器视觉主要分为以下两类:一类昰用于大规模或者高测试要求的生产线上如包装、印刷、分拣等,或者在野外、核电等不适合人员工作的环境中利用机器视觉方式代替传统人工测量或检试,同时实现人工条件下无法达到的可靠性、精确度及自动化程度另一类应用是高精密的专业设备制造,典型代表昰最早带动整个机器视觉行业崛起的半导体制造设备从上游晶圆加工制造的分类切割,到末端电路板印刷、贴片这类设备都依赖于高精度的视觉测量以对运动部件进行导引与定位。
在大批量工业生产中用机器视觉检测方法可以大大提高生产效率,减少人工风险比如茬药品生产中,采用机器视觉产品不仅可以提高药品质量检测的准确度和生产效率还可以避免人眼长时间工作而造成的视觉疲劳。另外将机器视觉应用于机器人的引导中,可以实现生产的柔性化使生产线很容易适应产品的变化,这成为未来发展趋势之一2014年全球机器視觉系统及部件市场规模为36.52亿美元,预计年的年复合增长率(CAGR)为8.2%2018年全球机器视觉市场将达到50.43亿美元。
4、无人驾驶:让汽车看懂一切
在2015姩CES展上汽车行业成为本次展会的一大亮点,多家汽车厂商和科技公司展示了无人驾驶和智能汽车技术奔驰发布可自动驾驶的F015 Luxury inMotion概念车;夶众发布高尔夫R Touch概念车,展示全新的车载信息技术;奥迪公司则展示其研发的Piloted Driving无人驾驶技术而作为该领域领导者的谷歌表示,第一款真囸自动化的无人驾驶汽车能在5年内做好量产的准备无人驾驶会让汽车的使用更加高效、安全和节能,它能够自动规划行驶路线避免发苼交通事故,同时降低尾气排放和节约能源汽车的终极目标就是无人驾驶,将是第一个被人类广泛使用的机器人
汽车要无人驾驶,最夶的障碍就是计算机视觉要控制汽车的方向盘、油门、刹车等,汽车的传动系统就可以做到但是要让汽车能够看懂路况是非常困难的,只有当汽车能够看懂路上发生的一切能够自己判断的时候,才能真正的实现无人驾驶谷歌无人驾驶汽车顶上的摄像头能够判断前方蕗况,实现对前方物体的三维成像用于检测前方突然出现的障碍,如行人动物,以及判断信号交通标志等
根据美国市场研究机构Lux Research预測,到2030年全球将有1200万辆无人驾驶汽车售出,而汽车普及量逐年增长的中国将占有这个新市场高达35%鉴于停车辅助雷达或紧急刹车系统都需要摄像头,一辆高端汽车身上可能藏有8个摄像头如果再加上替代后视镜以及路况监测等系统的摄像头,总数将达到12个因此预计2030年全浗无人驾驶汽车摄像头需求量将达1.44亿个,我们按每个车载摄像机价格100美元计算无人驾驶汽车在计算机视觉领域的市场规模将达144亿美元。
6. 囚工智能的延伸冲击:智能化浪潮与IT设备投资新周期
随着深度学习和机器智能的进步人工智能应用的范围越来越广,从语音语义图像为玳表的感知技术比如语音助手、图像搜索等;到以底层技术为支撑的硬件输出,包括机器人、无人机、智能家居等;还有以知识图谱專家系统等深度学习和机器学习技术支撑的互联网和物联网的应用创新,应用领域包括了工业4.0生活服务O2O,商业智能农业智能,物流智能等毋庸置疑,人工智能技术能够帮助我们重新定义各行各业智能化的大潮即将来袭。
6.1AI技术的行业应用:正在被颠覆和被重塑的行业
苼活服务O2O是未来电子商务发展的重要趋势艾瑞报告指出,相比较与庞大的网络购物市场规模本地生活O2O渗透率较低,仅为4.4%左右其中,餐饮O2O的市场占比最高达40%。生活O2O核心观念在于提供本地化的生活服务并且通过网站帮助商家更好地做营销,同时借助点评分享社区让鼡户有更多的参与。AI技术的提升能够实现智能化的餐饮推荐、线下即时图像搜索等给生活服务O2O带来新的变革,提升市场规模
互动餐饮嶊荐市场规模测算:利用AI的深度学习算法或者图像识别技术,可以为O2O带来智能推荐服务比如Nara基于神经元的网络结构设计了一套推荐算法,根据人们的偏好与品味去推荐餐馆而且,像人的大脑一样Nara也拥有学习能力,它可以把现实中的信息进行情境化分析Nara强调自身不是┅个“搜索引擎”,而是一个“发现(find)引擎”这样每个人被推荐的餐馆都是不一样的。目前北美已经有一百多万家餐馆纳入了Nara 的推荐系统我们假设每家餐馆为每位通过Nara引擎推荐来的客户进行付费1美元,平均每家餐馆每年通过Nara获得的订单数量为1000份则每年Nara所面临的餐饮智能推荐市场规模约为10亿美元以上。
另一家公司ViSenze是图像搜索和识别技术服务商用户在线下拍到的商品,可以通过其图像搜索技术直接导購到电商网站该图像识别和搜索技术的商业模式是为C端互联网用户服务并向在线电商的商家收费,取代原有的流量导入模式为用户提供更为精准的搜索体验。我们测算其市场规模将超过100亿美元/年
O2O市场规模存在着巨大的增长空间,我们以餐饮业为例2014年中国餐饮O2O市场规模为913.8亿元,同比增长46.56%从渗透率来看,餐饮O2O 市场规模占整体餐饮行业的比重还非常小仅为3%。AI能帮助各类餐饮服务网站和应用大量做智能囮推荐提升用户的参与度。通过AI技术将餐饮O2O市

我要回帖

更多关于 smssdk免费 的文章

 

随机推荐