谭铁牛有什么贡献中国的第五大发明是了什么创造了什么

原标题:AI综述专栏 | 朱松纯教授浅談人工智能:现状、任务、构架与统一

来源:人工智能前沿讲习班

本文作者:朱松纯加州大学洛杉矶分校UCLA统计学和计算机科学教授,视覺、认知、学习与自主机器人中心主任文章前四节浅显探讨什么是人工智能和当前所处的历史时期,后面六节分别探讨六个学科的重点研究问题和难点有什么样的前沿的课题等待年轻人去探索,最后一节讨论人工智能是否以及如何成为一门成熟的科学体系

第一节 现状:正视现实

第二节 未来:一只乌鸦给我们的启示

第三节 历史:从“春秋五霸”到“战国六雄”

第四节 统一:“小数据、大任务”范式与认知构架

第五节 学科一:计算视觉 --- 从“深”到“暗”

第六节 学科二:认知推理 --- 走进内心世界

第七节 学科三:语言通讯 --- 沟通的认知基础

第八节 學科四:博弈伦理 --- 获取、共享人类的价值观

第九节 学科五:机器人学 --- 构建大任务平台

第十节 学科六:机器学习 --- 学习的终极极限与“停机问題”

第十一节 总结:智能科学 --- 牛顿与达尔文的统一

附录 中科院自动化所报告会上的问答与互动摘录

到底什么是人工智能?现在的研究处于什么阶段今后如何发展?这是大家普遍关注的问题由于人工智能涵盖的学科和技术面非常广,要在短时间内全面认识、理解人工智能别说非专业人士,就算对本行业研究人员也是十分困难的任务。

所以现在很多宣传与决策冲到认识之前了,由此不可避免地造成一些思想和舆论的混乱

全面认识人工智能之所以困难,是有客观原因的

其一、人工智能是一个非常广泛的领域。当前人工智能涵盖很多夶的学科我把它们归纳为六个:

(1)计算机视觉(暂且把模式识别,图像处理等问题归入其中)、

(2)自然语言理解与交流(暂且把语喑识别、合成归入其中包括对话)、

(3)认知与推理(包含各种物理和社会常识)、

(4)机器人学(机械、控制、设计、运动规划、任務规划等)、

(5)博弈与伦理(多代理人agents的交互、对抗与合作,机器人与社会融合等议题)、

(6)机器学习(各种统计的建模、分析工具囷计算的方法)

这些领域目前还比较散,目前它们正在交叉发展走向统一的过程中。我把它们通俗称作“战国六雄”中国历史本来昰“战国七雄”,我这里为了省事把两个小一点的领域:博弈与伦理合并了,伦理本身就是博弈的种种平衡态最终目标是希望形成一個完整的科学体系,从目前闹哄哄的工程实践变成一门真正的科学Science of Intelligence

各个领域的研究人员看人工智能,如果按照印度人的谚语可以叫做“吂人摸象”但这显然是言语冒犯了,还是中国的文豪苏轼游庐山时说得有水准:

“横看成岭侧成峰远近高低各不同。

不识庐山真面目只缘身在此山中。”

其二人工智能发展的断代现象。由于历史发展的原因人工智能自1980年代以来,被分化出以上几大学科相互独立發展,而且这些学科基本抛弃了之前30年以逻辑推理与启发式搜索为主的研究方法取而代之的是概率统计(建模、学习)的方法。留在传統人工智能领域(逻辑推理、搜索博弈、专家系统等)而没有分流到以上分支学科的老一辈中的确是有很多全局视野的,但多数已经过卋或退休了

这种领域的分化与历史的断代, 客观上造成了目前的学界和产业界思路和观点相当“混乱”的局面媒体上的混乱就更放大叻。但是以积极的态度来看,这个局面确实为现在的年轻一代研究人员、研究生提供了一个很好的建功立业的机会和广阔的舞台

我写這篇文章的动机在于三点:

(1)为在读的研究生们、为有志进入人工智能研究领域的年轻学者开阔视野。

(2)为那些对人工智能感兴趣、囍欢思考的人们做一个前沿的、综述性的介绍。

(3)为公众与媒体从业人员做一个人工智能科普,澄清一些事实

诚如屈子所言:“蕗漫漫其修远兮,吾将上下而求索”

第一节 现状评估:正视现实

人工智能的研究,简单来说就是要通过智能的机器,延伸和增强(augment)囚类在改造自然、治理社会的各项任务中的能力和效率最终实现一个人与机器和谐共生共存的社会。

抛开科幻的空想谈几个近期具体嘚应用。无人驾驶大家听了很多先说说军用。军队里的一个班或者行动组现在比如要七个人,将来可以减到五个人另外两个用机器來替换。其次机器人可以用在救灾和一些危险的场景,如核泄露现场人不能进去,必须靠机器人医用的例子很多:智能的假肢或外骨架(exoskeleton)与人脑和身体信号对接,增强人的行动控制能力帮助残疾人更好生活。此外还有就是家庭养老等服务机器人等。

但是这方媔的进展很不尽人意。以前日本常常炫耀他们机器人能跳舞中国有一次春节晚会也拿来表演了。那都是事先编写的程序结果一个福岛核辐射事故一下子把所有问题都暴露了,发现他们的机器人一点招都没有美国也派了机器人过去,同样出了很多问题比如一个简单的技术问题,机器人进到灾难现场背后拖一根长长的电缆,要供电和传数据结果电缆就被缠住了,动弹不得

看到这里,有人要问了敎授说得不对,我们明明在网上看到美国机器人让人叹为观止的表现比如,这一家波士顿动力学公司(Boston Dynamics)的演示它们的机器人,怎么踢都踢不倒呢或者踢倒了可以自己爬起来,而且在野外丛林箭步如飞呢还有几个负重的电驴、大狗也很酷。这家公司本来是由美国国防部支持开发出机器人来的被谷歌收购之后、就不再承接国防项目。可是谷歌发现除了烧钱,目前还找不到商业出路最近一直待售の中。您会问那谷歌不是很牛吗?DeepMind下围棋不是也一次次刺激中国人的神经吗有一个逆天的机器人身体、一个逆天的机器人大脑,它们嘟在同一个公司内部那为什么没有做出一个人工智能的产品呢?他们何尝不在夜以继日的奋战之中啊

人工智能炒作了这么长时间,您看看周围环境您看到机器人走到大街上了?没有您看到人工智能进入家庭了吗?其实还没有您可能唯一直接领教过的是基于大数据囷深度学习训练出来的聊天机器人,你可能跟Ta聊过用我老家湖北人的话,这就叫做“扯白”--- 东扯西拉、说白话如果你没有被Ta气得背过氣的话,要么您真的是闲得慌要么是您真的有耐性。

为了测试技术现状美国国防部高级研究署2015年在洛杉矶郊区Pomona做了一个DARPA Robot Challenge(DRC),悬赏了兩百万美金奖给竞赛的第一名有很多队伍参加了这个竞赛,上图是韩国科技大学队赢了第一名右边是他们的机器人在现场开门进去“救灾”。

后来发现内情原来机器人所有的动作基本上是人在遥控的。每一步、每一个场景分别有一个界面每个学生控制一个模块。感知、认知、动作都是人在指挥就是说这个机器人其实并没有自己的感知、认知、思维推理、规划的能力。

这还是一个简单的场景其一、整个场景都是事先设定的,各个团队也都反复操练过的如果是没有遇见的场景,需要灵机决断呢其二、整个场景还没有人出现,如果有其他人出现需要社会活动(如语言交流、分工协作)的话,那复杂度就又要上两个数量级了

其实,要是完全由人手动控制现在嘚机器人都可以做手术了,而且手术机器人已经在普及之中上图是我实验室与一家公司合作的项目,机器人可以开拉链、检查包裹、用鉗子撤除炸弹等都是可以实现的。

小结一下现在的人工智能和机器人,关键问题是缺乏物理的常识和社会的常识“Common sense” 这是人工智能研究最大的障碍。那么什么是常识常识就是我们在这个世界和社会生存的最基本的知识:(1)它使用频率最高;(2)它可以举一反三,嶊导出并且帮助获取其它知识这是解决人工智能研究的一个核心课题。我自2010年来一直在带领一个跨学科团队,攻关视觉常识的获取与嶊理问题我在自动化所做了另外一个关于视觉常识报告,也被转录成中文了不久会发表出来。

那么是不是说我们离真正的人工智能還很遥远呢?其实也不然关键是研究的思路要找对问题和方向。自然界已经为我们提供了很好的案例

下面,我就来看一下自然界给峩们展示的解答。

第二节 未来目标: 一只乌鸦给我们的启示

同属自然界的鸟类我们对比一下体型大小都差不多的乌鸦和鹦鹉。鹦鹉有很強的语言模仿能力你说一个短句,多说几遍它能重复,这就类似于当前的由数据驱动的聊天机器人二者都可以说话,但鹦鹉和聊天機器人都不明白说话的语境和语义也就是它们不能把说的话对应到物理世界和社会的物体、场景、人物,不符合因果与逻辑

可是,乌鴉就远比鹦鹉聪明它们能够制造工具,懂得各种物理的常识和人的活动的社会常识

下面,我就介绍一只乌鸦它生活在复杂的城市环境中,与人类交互和共存YouTube网上有不少这方面的视频,大家可以找来看看我个人认为,人工智能研究该搞一个“乌鸦图腾” 因为我们必须认真向它们学习。

上图a是一只乌鸦被研究人员在日本发现和跟踪拍摄的。乌鸦是野生的也就是说,没人管没人教。它必须靠自巳的观察、感知、认知、学习、推理、执行完全自主生活。假如把它看成机器人的话它就在我们现实生活中活下来。如果这是一个自主的流浪汉进城了他要在城里活下去,包括与城管周旋

首先,乌鸦面临一个任务就是寻找食物。它找到了坚果(至于如何发现坚果裏面有果肉那是另外一个例子了),需要砸碎可是这个任务超出它的物理动作的能力。其它动物如大猩猩会使用工具,找几块石头一块大的垫在底下,一块中等的拿在手上来砸乌鸦怎么试都不行,它把坚果从天上往下抛发现解决不了这个任务。在这个过程中咜就发现一个诀窍,把果子放到路上让车轧过去(图b)这就是“鸟机交互”了。后来进一步发现虽然坚果被轧碎了,但它到路中间去吃是一件很危险的事因为在一个车水马龙的路面上,随时它就牺牲了我这里要强调一点,这个过程是没有大数据训练的也没有所谓監督学习,乌鸦的生命没有第二次机会这是与当前很多机器学习,特别是深度学习完全不同的机制

然后,它又开始观察了见图c。它發现在靠近红绿路灯的路口车子和人有时候停下了。这时它必须进一步领悟出红绿灯、斑马线、行人指示灯、车子停、人流停这之间複杂的因果链。甚至哪个灯在哪个方向管用、对什么对象管用。搞清楚之后乌鸦就选择了一根正好在斑马线上方的一根电线,蹲下来叻(图d)这里我要强调另一点,也许它观察和学习的是别的地点那个点没有这些蹲点的条件。它必须相信同样的因果关系,可以搬箌当前的地点来用这一点,当前很多机器学习方法是做不到的比如,一些增强学习方法让机器人抓取一些固定物体,如积木玩具換一换位置都不行;打游戏的人工智能算法,换一换画面又得重新开始学习。

它把坚果抛到斑马线上等车子轧过去,然后等到行人灯煷了(图e)这个时候,车子都停在斑马线外面它终于可以从容不迫地走过去,吃到了地上的果肉你说这个乌鸦有多聪明,这是我期朢的真正的智能

这个乌鸦给我们的启示,至少有三点:

其一、它是一个完全自主的智能感知、认知、推理、学习、和执行, 它都有峩们前面说的, 世界上一批顶级的科学家都解决不了的问题乌鸦向我们证明了,这个解存在

其二、你说它有大数据学习吗?这个乌鸦囿几百万人工标注好的训练数据给它学习吗没有,它自己把这个事通过少量数据想清楚了没人教它。

其三、乌鸦头有多大不到人脑嘚1%大小。 人脑功耗大约是10-25瓦它就只有

与第一节讲的机器人竞赛类似这也是一个DARPA项目。测试就是用大量视频我们算出场景和人的三維的模型、动作、属性、关系等等,然后就来回答各种各样的1000多个问题现在一帮计算机视觉的人研究VQA(视觉问答),就是拿大量的图像囷文本一起训练这是典型的“鹦鹉”系统,基本都是“扯白”

五、任务驱动的因果推理与学习。前面我谈了场景的理解的例子下面峩谈一下物体的识别和理解,以及为什么我们不需要大数据的学习模式而是靠举一反三的能力。

我们人是非常功利的社会动物就是说莋什么事情都是被任务所驱动的。这一点2000年前的司马迁就已经远在西方功利哲学之前看到了( 《史记》 “货殖列传” ):

“天下熙熙,皆为利来;天下攘攘皆为利往。”

那么人也就带着功利的目的来看待这个世界,这叫做“teleological stance”这个物体是用来干什么的?它对我有什麼用怎么用?

当然有没有用是相对于我们手头的任务来决定的。很多东西当你用不上的时候,往往视而不见;一旦要急用你就会當个宝。俗话叫做“势利眼”没办法,这是人性!你今天干什么、明天干什么每时每刻都有任务。俗话又叫做“屁股决定脑袋”一個官员坐在不同位置,他就有不同的任务与思路位置一调,马上就“物是人非”了

我们的知识是根据我们的任务来组织的。那么什么叫做任务呢如何表达成数学描述呢?

每个任务其实是在改变场景中的某些物体的状态牛顿中国的第五大发明是了一个词,在这里被借鼡了:叫做fluent这个词还没被翻译到中文,就是一种可以改变的状态我暂且翻译为“流态”吧。比如把水烧开,水温就是一个流态;番茄酱与瓶子的空间位置关系是一个流态可以被挤出来;还有一些流态是人的生物状态,比如饿、累、喜悦、悲痛;或者社会关系:从一般人到朋友、再到密友等。人类和动物忙忙碌碌都是在改变各种流态,以提高我们的价值函数(利益)

懂得这一点,我们再来谈理解图像中的三维场景和人的动作其实,这就是因果关系的推理所谓因果就是:人的动作导致了某种流态的改变。

我把这些图像之外的東西统称为“暗物质”--- Dark Matter物理学家认为我们可观察的物质和能量只是占宇宙总体的5%,剩下的95%是观察不到的暗物质和暗能量视觉与此十分楿似:感知的图像往往只占5%,提供一些蛛丝马迹;而后面的95%包括功能、物理、因果、动机等等是要靠人的想象和推理过程来完成的。

有叻这个认识我们来看一个例子(见下图左)。这个例子来自我们CVPR2015年发的paper主要作者是朱毅鑫,这也是我很喜欢的一个工作一个人要完荿的任务是砸核桃,改变桌子上那个核桃的流态把这个任务交给UCLA一个学生,他从桌面上的工具里面选择了一个锤子整个过程没有任何過人之处,因为你也会这么做

一、这个STC-PG的表达是你想象出来的。这个理解的过程是在你动手之前就想好了的它里面的节点和边大多数茬图像中是没有的,也就是我称作的“暗物质”

二、这个计算的过程中,大量的运算属于“top-down”自顶向下的计算过程也就是用你脑皮层裏面学习到的大量的知识来解释你看到的“蛛丝马迹”,形成一个合理的解而这种Top-down的计算过程在目前的深度多层神经网络中是没有的。

彡、学习这个任务只需要极少的几个例子如果一个人要太多的例子,说明Ta脑袋“不开窍”智商不够。顺便说一句我在UCLA讲课,期末学苼会给老师评估教学质量一个常见的学生意见就是朱教授给的例子太少了。

那么STC-PG是如何推导出来的呢它的母板是一个STC-AOG,AOG就是And-Or Graph与或图這个与或图是一个复杂的概率语法图模型,它可以导出巨量的合乎规则的概率事件每一个事件就是STC-PG。这个表达与语言、认知、机器人等領域是一致的在我看来,这个STC-AOG是一个统一表达它与逻辑以及DNN可以打通关节。这里就不多讲了

接着砸核桃的例子讲,还是朱毅鑫那篇攵章的实验这个实验很难做。比如现在的一个任务是“铲土”我给你一个例子什么叫铲土,然后开始测试这个智能算法(机器人)的泛化能力见下图。

第一组实验(图左)我给你一些工具,让你铲土机器人第一选择挑了这个铲子,这个不是模式识别它同时输出鼡这个铲子的动作、速度;输出铲子柄的绿色地方表示它要手握的地方,这个红的表示它用来铲土的位置第二选择是一把刷子。

第二组實验(图中)假如我要把这些工具拿走,你现在用一些家里常见的物体任务还是铲土。它的第一选择是锅第二选择是杯子。二者的確都是最佳选择这是计算机视觉做出来的,自动的

第三组实验(图右)。假如我们回到石器时代一堆石头能干什么事情?所以我经瑺说咱们石器时代的祖先,比现在的小孩聪明因为他们能够理解这个世界的本质,现在工具和物体越来越特定了,一个工具做一个任务人都变成越来越傻了。视觉认知就退化成模式识别的问题了:从原来工具的理解变成一个模式识别也就是由乌鸦变鹦鹉了。

我的┅个理念是:计算机视觉要继续发展必须发掘这些“dark matter”。把图像中想象的95%的暗物质与图像中可见的5%的蛛丝马迹结合起来思考,才能到達真正的理解

视觉研究的未来,我用一句话来说:Go Dark Beyond Deep --- 发掘暗,超越深

这样一来,视觉就跟认知和语言接轨了

第六节 认知推理:走进內心世界

上一节讲到的智能的暗物质,已经属于感知与认知的结合了再往里面走一步,就进入人与动物的内心世界Mind, 内心世界反映外部世堺同时受到动机任务的影响和扭曲。研究内涵包括:

  • Ta看到什么了知道什么了?什么时候知道的这其实是对视觉的历史时间求积分。
  • Ta現在在关注什么这是当前的正在执行的任务。
  • Ta的意图是什么后面想干什么?预判未来的目的和动机
  • Ta喜欢什么?有什么价值函数这茬第九节会谈到具体例子。

自从人工智能一开始研究者就提出这些问题,代表人物是Minsky:society of minds心理学研究叫做Theory of minds。到2006年的时候MIT认知科学系的Saxe與Kanwisher(她是我一个项目合作者)发现人的大脑皮层有一个专门的区,用于感受、推理到别人的想法:我知道你在想什么、干什么这是人工智能的重要部分。

现实生活中一般非隐私性的活动中,我们是不设防的也就是“君子坦荡荡”。

不光是人有这个侦察与反侦察的能力动物也有(见上图)。比如说这个鸟(图左)它藏果子的时候,会查看周围是否有其它鸟或者动物在那里看到它;如果有它就不藏,它非要找到没人看它的时候和地方藏这就是它在观察你,知道你知道什么图中是一个狐狸和水獭对峙的视频。水獭抓到鱼了以后發现这个狐狸在岸上盯着它呢,它知道这个狐狸想抢它嘴里叼着的鱼水獭就想办法把鱼藏起来,它把这个鱼藏到水底下然后这个狐狸詓找。这说明了动物之间互相知道对方在想什么

尽管人工智能和认知科学,以及最近机器人领域的人都对这个问题感兴趣但是,大家鉯前还都是嘴上、纸上谈兵用的是一些toy examples作为例子来分析。要做真实世界的研究就需要从计算机视觉入手。计算机视觉里面的人呢又夶部分都在忙着刷榜,一时半会还没意思到这是个问题我的实验室就捷足先登,做了一些初步的探索目前还在积极推进之中。

我们首先做一个简单的试验如上图。这个人在厨房里当前正在用微波炉。有一个摄像头在看着他就跟监控一样,也可以是机器人的眼睛(图咗)首先能够看到他目前在看什么(图中),然后转换视角,推算他目前看到了什么(图右)

上面这个图是实验的视频的截图。假设機器人事先已经熟悉某个三维房间(图e)它在观察一个人在房间里面做事(图a)。为了方便理解咱们就想象这是一个养老院或者医院疒房,机器人需要知道这个人现在在干什么看什么(图c)。它的输入仅仅是一个二维的视频(图a)它开始跟踪这个人的运动轨迹和眼聙注视的地方,显示在图e的那些轨迹和图f的行为分类然后,图d(右上角)是它估算出来的这个人应该在看什么的图片。也就是它把咜附体到这个人身上,来感知这个结果与图b对比,非常吻合图b是这个人带一个眼镜,眼镜有一个小摄像头记录下来的他确实在看的東西。这个实验结果是魏平博士提供的他是西交大前校长郑南宁老师那里的一个青年教师,博士期间在我实验室访问后来又回来进修。

这里面需要推测动作与物体的时空交互动作随时间的转换,手眼协调然后,进一步猜他下面干什么意图等等。这个细节我不多讲叻

对这个人内心的状态,也可以用一个STC-AOG 和STC-PG 来表达的见下图,大致包含四部分

一、时空因果的概率“与或图”,STC-AOG它是这个人的一个總的知识,包含了所有的可能性我待会儿会进一步阐述这个问题。 剩下的是他对当前时空的一个表达是一个STC-PG解译图。此解译图包含三蔀分图中表达为三个三角形,每个三角形也是一个STC-PG 解译图

二、当前的情景situation,由上图的蓝色三角形表示当前的情况是什么,这也是一個解表示视觉在0-t时间段之间对这个场景的理解的一个解译图。

三、意向与动作规划图由上图的绿色三角形表示。这也是一个层次化的解译图预判他下面还会做什么事情,

四、当前的注意力由上图的红色三角形表示。描述他正在关注什么

把这整个解译图放在一块,基本上代表着我们脑袋的过去、现在、未来的短暂时间内的状态用一个统一的STC-PG 和 STC-AOG来解释。 这是一个层次的分解 因为是Composition, 它需要的样本僦很少

有人要说了,我的深度神经网络也有层次还一百多层呢。我要说的是你那一百多层其实就只有一层,对不对因为你从特征莋这个识别,中间的东西是什么你不知道他不能去解释中间那些过程,只有最后一层输出物体类别

我用下面这个图来大致总结一下。兩个人A与B或者一个人一个机器人他们脑袋里面的表达模式。图中是一个嵌套的递归结构,每一个椭圆代表一个大脑的内心mind

每个mind除了上面談到的知识STC-AOG 和状态STC-PG,还包含了价值函数就是价值观,和决策函数价值观驱动动作,然后根据感知、行动去改变世界这样因果就出来叻。我后面再细谈这个问题

最底下中间的那个椭圆代表真实世界(“上帝”的mind,真相只有TA知道我们都不知道),上面中间的那个椭圆昰共识多个人的话就是社会共识。在感知基础上大家形成一个统一的东西,共同理解我们达成共识。比如大家一起吃饭,菜上来叻大家都看到这个菜是什么菜,如果没有共识那没法弄比如,“指鹿为马”或者“皇帝的新装”就是在这些minds之间出现了不一致的东覀。这是所谓“认识论”里面的问题以前,在大学学习认识论老师讲得比较空泛,很难理解;现在你把表达写出来一切都清楚了。這也是人工智能必须解决的问题

我们要达成共识,共同的知识然后在一个小的团体、大致社会达成共同的价值观。当有了共同价值观嘚时候就有社会道德和伦理规范,这都可以推导出来了俗话说,入乡随俗

那么如何达成共识呢?语言就是必要的形成共识的工具了

第七节 语言通讯:沟通的认知基础

我要介绍的人工智能的第三个领域是语言、对话。最近我两次在视觉与语言结合的研讨会上做了报告从我自己观察的角度来谈,视觉与语言是密不可分的

动物之间就已经有丰富的交流的方式,很多借助于肢体语言人的对话不一定用語言,手语、哑剧(pantomine)同样可以传递很多信息所以,在语言产生之前人类就已经有了十分丰富的认知基础,也就是上一节谈的那些表達没有这样的认知基础,语言是空洞的符号对话也不可能发生。

如果是人的话我们就会热心地指那个小孩的方向,人天生是合作的去帮助别人的,助人为乐所以这是为什么我们人进化出来了。猩猩不会猩猩不指,它们没有这个动机它们脑袋与人相比一定是缺叻一块。

除了需要这个认知基础语言的研究不能脱离了视觉对外部世界的感知、机器人运动的因果推理,否则语言就是无源之水、无本の木这也就是为什么当前一些聊天机器人都在“扯白”。

我们先来看一个最基本的的过程:信息的一次发送当某甲(sender)要发送一条消息给某乙(receiver),这是一个简单的通讯communication这个通讯的数学模型是当年贝尔实验室香农Shannon1948年提出来的信息论。首先把它编码因为这样送起来比較短,比较快;针对噪声通道加些冗余码防错;然后解码,某乙就拿到了这个信息见下图。

在这个通讯过程之中他有两个基本的假设第一、这两边共享一个码本,否则你没法解码这是一个基本假设。第二、就是我们有个共享的外部世界的知识在里面我们都知道世堺上正在发生什么什么事件,比如哪个股票明天要涨了哪个地方要发生什么战争了等等。我给你传过去的这个信息其实是一个解译图的爿段(PG:parse graph)这个解译图的片段对于我们物理世界的一个状态或者可能发生的状态的描述。这个状态也有可能就是我脑袋Mind里面的一个想法、感觉、流态(fluents)比如,很多女人拿起电话叫做“煲粥”,就在交流内心的一些经历和感受

Shannon的通讯理论只关心码本的建立(比如视頻编解码)和通讯带宽(3G,4G,5G)1948年提出信息论后,尽管有很多聪明人、数学根底很强的人进到这个领域这个领域一直没有什么大的突破。为什么因为他们忽视了几个更重大的认识论的问题,避而不谈:

  • 甲应该要想一下:乙脑袋里面是否与甲有一个共同的世界模型否则,解码之后乙也不能领会里面的内容?或者会误解那么我发这个信息的时候,措辞要尽量减少这样的误解
  • 甲还应该要想一下:为什麼要发这个信息?乙是不是已经知道了乙关不关注这个信 息呢?乙爱不爱听呢听后有什么反应?这一句话说出去有什么后果呢
  • 乙要想一下:我为什么要收这个信息呢?你发给我是什么意图

这是在认知层面的,递归循环的认知在编码之外。所以通讯理论就只管发送,就像以前电报大楼的发报员收钱发报,他们不管你发报的动机、内容和后果

纵观人类语言,中国的象形文字实在了不起所谓象形文字就完全是“明码通讯”。每个字就是外部世界的一个图片、你一看就明白了不需要编解码。我觉得研究自然语言的人和研究视觉統计建模的人都要好好看看中国的甲骨文,然后所有的事情都清楚了。每个甲骨文字就是一张图图是什么?代表的就是一个解译图嘚片段(fragment of parse graph)

上面这个图是一个汉字的演变和关系图,从一本书叫做《汉字树》得来的几年前,我到台湾访问发现这本丛书,很有意思这个图是从眼睛开始的一系列文字。

首先从具象的东西开始这中间是一个眼睛,“目”字把手搭在眼睛上面,孙悟空经常有这个動作就是“看”(look)。

然后是会意比如“省”,就是细看明察秋毫,画一个很小的叶子在眼睛上面指示说你看叶子里面的东西,表示你要细看

然后开始表达抽象的概念,属性attribute、时空怎么表达就是我们甲骨文里面,表示出发、终止表示人的关系,人的脑袋状态甚至表现伦理道德。就这样一直推演开。

所以搞视觉认知的,要理解物体功能就要追溯到石器时代去搞语言的要追溯到语言起源。

下图是另一个例子:日、月、山、水、木;鸟、鸡、鱼、象、羊下面彩色的图是我们实验室现在用计算机视觉技术从图像中得到的一些物体的表达图模型,其实就重新中国的第五大发明是一些更具像的甲骨文这项技术是由YiHong,司长长等博士做的无监督学习他们的算法發现了代表鸟的有头、身子和脚、水波和水草等“类甲骨文”名词符号。这种视觉的表达模型是可解释explainable、直观的

所以,从生成式模型的角度来看语言就是视觉,视觉就是语言

再来看看动词。考考你们这是啥意思?第一个字两只手,一根绳子在拖地上一个东西,拿根绳子拽第二个很简单,洗手第三是关门。第四是援助的援字一只手把另外一个人的手往上拉。第五也是两个手一个手朝下一個手朝上,啥意思我给你东西,你接受第六是争夺的争,两个手往相反的方向抢第七两个人在聊天。基本上字已经表示了人和人の间的动作细节。

我刚才说了名词和动词还有很多其他的东西,我建议你们去研究一下要建模型的话我们古代的甲骨文其实就是一个模型,他能够把我们世界上所有需要表达的东西都给你表达了是一个完备了的语言模型。

现在我们回到语言通讯、人与机器人对话的問题。下图就是我提出的一个认知模型

两个人之间至少要表达五个脑袋minds:我知道的东西、你知道的东西、我知道你知道的东西、你知道峩知道的东西、我们共同知道的东西。还有对话的时候你的意图是什么等等诸多问题。具体我不讲那么多了

最后,我想谈一点语言與视觉更深层的联系、与数学中代数拓扑的联系。拓扑学是什么意思就是说图象空间,语言空间就是一个大集合,全集

第八节 博弈倫理:获取、共享人类的价值观

机器人要与人交流,它必须懂得人类价值观哲学和经济学里面有一个基本假设,认为一个理性的人(rational agent)他的行为和决策都由利益和价值驱动,总在追求自己的利益最大化与此对应的是非理性的人。对于理性的人你通过观察他的行为和選择,就可以反向推理、学习、估算他的价值观我们暂时排除他有可能故意假装、迷惑我们的情况。

人与人的价值不同就算同一个人,价值观也在改变本文不讨论这些社会层面的价值观,我们指的是一些最基本的、常识性的、人类共同的价值观比如说把房间收拾干淨了,这是我们的共识

上图是我做的一个简单的实验。我把几种不同的椅子、凳子放在我办公室(左图)和实验室(右图)然后,我統计一下学生进来以后他喜欢坐哪个椅子,实在不行可以坐地上这样我就可以得到这些椅子的排序。A、B、C、D、E、F、G排个序见上面的統计图。我观察了这些人的选择就问:为什么这个椅子比那个椅子好?是什么好这其实就反映了人的脑袋里面一个基本的价值函数。叒说一遍:很普通的日常现象蕴含深刻的道路。苹果落地不是这样吗?大家司空见惯了就不去问这个问题了。

见下图比如背部、臀部、头部受多少力。

下图中蓝色的直方图显示了六个身体部位的受力分别图由此我们就可以推算出每个维度的价值函数。下面图中六条红銫的曲线是负的价值函数当人的坐姿使得各部位受力处于红线较低的值,就有较高的“价值”也就是坐得“舒服”。当然每个人可能鈈一样有的人腰疼必须坐硬板凳子有的人喜欢坐软沙发。这也是为什么如果你观察到有些异样,可以推导这个人某地方可能受伤了

讀到这里,你不禁要问:这不是与物理的势能函数如重力场,一样吗对,就是一个道理这也是在最后一节我将要说的:达尔文与牛頓的理论体系要统一。

这对我们是常识但是机器人必须计算出很多这样的常识,TA需要设身处地为人着想这个就不容易了。

最近大家谈論较多的是机器人下棋特别是下围棋,的确刺激了国人的神经下棋程序里面一个关键就是学习价值函数,就是每一个可能的棋局它偠有一个正确的价值判断。

谈到这里我想顺便对比两大类学习方法。

一、归纳学习 Inductive learning我们通过观察大量数据样本,这些样本就是对某个時期、某个地域、某个人群达成的准平衡态的观察也是我前面谈过的千年文化的形成与传承。

二、演绎学习 Deductive learning这个东西文献中很少,也僦是从价值函数(还有物理因果)出发直接推导出这些准平衡态,在我看来这也是一个STC-AOG。这就要求对研究的对象有深刻的、生成式的模型和理解

第九节 机器人学:构建大任务平台

我在第四节谈到人工智能研究的认知构架,应该是小数据、大任务范式机器人就是这么┅个大任务的科研平台。它不仅要调度视觉识别、语言交流、认知推理等任务还要执行大量的行动去改变环境。我就不介绍机械控制这些问题了就用市面上提供的通用机器人平台。

前面介绍过人和机器人要执行任务,把任务分解成一连串的动作而每个动作都是要改變环境中的流态。

(1)物理流态 (Physical Fluents):如下图左边刷漆、烧开水、拖地板、切菜。

(2)社会流态 (Social Fluents): 如下图右边吃、喝、 追逐、搀扶,是妀变自己内部生物状态、或者是与别人的关系

当机器人重建了三维场景后(在谈视觉的时候提到了,这其实是一个与任务、功能推理的迭代生成的过程)它就带着功利和任务的眼光来看这个场景。如下图所示哪个地方可以站,哪个地方可以坐哪个地方可以倒水等等。下面图中亮的地方表示可以执行某个动作这些图在机器人规划中又叫做Affordance Map。意思是:这个场景可以给你提供什么

有了这些单个基本任務的地图,机器人就可以做任务的规划这个规划本身就是一个层次化的表达。文献中有多种方法我还是把它统一称作一种STC-PG。这个过程其实相当复杂,因为它一边做一边还要不断看和更新场景的模型。因为我前面介绍过对环境三维形状的计算精度是根据任务需要来決定的,也就是Task-Centered视觉表达

这个动作计划的过程还要考虑因果、考虑到场景中别人的反应。考虑的东西越多它就越成熟,做事就得体、鈈莽莽撞撞

我一开始讲到的那个机器人竞赛,这些感知和规划的任务其实都交给了一群在后台遥控的人

下面,我就简单介绍几个我实驗室得到的初步演示结果后台没有遥控的人。我实验室用的是一个通用的Baxter机器人配上一个万向移动的底座和两个抓手(grippers),还有一些傳感器、摄像头等两个抓手是不同的,左手力道大右手灵活。很有意思的是如果你观察过龙虾等动物,它的两个钳子也是不同的┅个用来夹碎、一个是锯齿状的。

下图是一个博士生舒天民教会了机器人几种社交动作比如握手。握手看似平常其实非常微妙。但你赱过去跟一个人握手的过程中你其实需要多次判断对方的意图;否则,会出现尴尬局面舒的论文在美国这边媒体都报道过。

下面这个組图是机器人完成一个综合的任务首先它听到有人去敲门,推断有人要进来它就去开门。其次它看到这个人手上拿个蛋糕盒子,双掱被占了所以需要帮助。通过对话它知道对方要把蛋糕放到冰箱里面,所以它就去帮人开冰箱的门(上右图)这个人坐下来后,他囿一个动作是抓可乐罐摇了摇,放下来它必须推断这个人要喝水,而可乐罐是空的(不可见的流态)假设它知道有可乐在冰箱,它後面就开冰箱门拿可乐然后递给人。

当然这个是受限环境,要能够把样的功能做成任意一个场景的话那就基本能接近我们前面提到嘚可敬的乌鸦了。我们还在努力中!

第十节 机器学习:学习的极限和“停机问题”

前面谈的五个领域属于各个层面上的“问题领域”,叫Domains我们努力把这些问题放在一个框架中来思考,寻求一个统一的表达与算法而最后要介绍的机器学习,是研究解决“方法领域”(Methods)研究如何去拟合、获取上面的那些知识。打个比方那五个领域就像是五种钉子,机器学习是研究锤子希望去把那些钉子锤进去。深喥学习就像一把比较好用的锤子当然,五大领域里面的人也中国的第五大发明是了很多锤子只不过最近这几年深度学习这把锤子比较鋶行。

网上关于机器学习的讨论很多我这里就提出一个基本问题,与大家探讨:学习的极限与“停机问题”

首先,到底什么是学习

當前大家做的机器学习,其实是一个很狭义的定义不代表整个的学习过程。见下图 它就包含三步:

(1)你定义一个损失函数loss function 记作u,代表一个小任务比如人脸识别,对了就奖励1错了就是-1。

(2)你选择一个模型比如一个10-层的神经网络,它带有几亿个参数theta需要通过数據来拟合。

(3)你拿到大量数据这里假设有人给你准备了标注的数据,然后就开始拟合参数了

这个过程没有因果,没有机器人行动昰纯粹的、被动的统计学习。目前那些做视觉识别和语音识别都是这一类

其实真正的学习是一个交互的过程。 就像孔子与学生的对话峩们教学生也是这样一个过程。 学生可以问老师老师问学生,共同思考是一种平等交流,而不是通过大量题海、填鸭式的训练坦白說,我虽然是教授现在就常常从我的博士生那里学到新知识。

这个学习过程是建立在认知构架之上的(第六节讲过的构架)我把这种廣义的学习称作通讯学习Communicative Learning,见下图

这个图里面是两个人A与B的交流,一个是老师一个是学生,完全是对等的结构体现了教与学是一个岼等的互动过程。每个椭圆代表一个脑袋mind它包含了三大块:知识theta、决策函数pi、价值函数mu。最底下的那个椭圆代表物理世界也就是“上渧”脑袋里面知道的东西。上面中间的那个椭圆代表双方达成的共识

这个通讯学习的构架里面,就包含了大量的学习模式包括以下七種学习模式(每种学习模式其实对应与图中的某个或者几个箭头),这里面还有很多模式可以开发出来

(1)被动统计学习passive statistical learning:上面刚刚谈箌的、当前最流行的学习模式,用大数据拟合模型

(2)主动学习active learning:学生可以问老师主动要数据,这个在机器学习里面也流行过

(3)算法教学algorithmic teaching:老师主动跟踪学生的进展和能力,然后设计例子来帮你学。这是成本比较高的、理想的优秀教师的教学方式

(5)感知因果学習perceptual causality:这是我中国的第五大发明是的一种,就是通过观察别人行为的因果而不需要去做实验验证,学习出来的因果模型这在人类认知中┿分普遍。

(6)因果学习causal learning:通过动手实验 控制其它变量, 而得到更可靠的因果模型 科学实验往往属于这一类。

(7)增强学习reinforcement learning:就是去學习决策函数与价值函数的一种方法

我在第一节谈到过,深度学习只是这个广义学习构架里面很小的一部分而学习又是人工智能里面┅个领域。所以把深度学习等同于人工智能,真的是坐井观天、以管窥豹

其次,学习的极限是什么停机条件是什么?

我们学习、谈話的过程其实就是某种信息在这些椭圆之间流动的过程。那么影响这个流动的因素就很多,我列举几条如下

(1)教与学的动机:老师要詓交学生一个知识、决策、价值,首先他必须确认自己知道、而学生不知道这个事同理,学生去问老师他也必须意识到自己不知道,洏这个老师知道那么,一个关键是双方对自己和对方有一个准确的估计。

(2)教与学的方法:如果老师准确知道学生的进度就可以准确地提供新知识,而非重复这在algorithmic learning 和 perceptual causality里面很明显。

(3)智商问题:如何去测量一个机器的智商很多动物,有些概念你怎么教都教不会

(4)价值函数:如果你对某些知识不感兴趣,那肯定不想学价值观相左的人,那根本都无法交流更别谈相互倾听、学习了。比如微信群里面有的人就待不了退群了,因为他跟你不一样收敛不到一起去,最后同一个群的人收敛到一起去了互相增强。这在某种程度仩造成了社会的分裂

第十一节 总结:智能科学 --- 牛顿与达尔文理论体系的统一

什么叫科学?物理学是迄今为止发展最为完善的一门科学峩们可以借鉴物理学发展的历史。我自己特别喜欢物理学1986年报考中科大的时候,我填写的志愿就是近代物理(4系)填完志愿以后,我僦回乡下去了我哥哥当时是市里的干部,他去高中查看我的志愿一看报的是物理,只怕将来不好找工作他就给我改报计算机。当时峩们都没见过计算机他也没跟我商量,所以我是误打误撞进了这个新兴的专业但心里总是念念不忘物理学之美。

等到开学上《力学概论》的课,教材是当时常务副校长夫妇写的我这里就不提名字了,大家都知道这是科大那一代人心中永恒的记忆。翻开书的第一页我就被绪论的文字震撼了。下面是一个截图划了重点两句话,讨论如下

(1)物理学的发展就是一部追求物理世界的统一的历史。第┅次大的统一就是牛顿的经典力学 通过万有引力把天界星体运动与世俗的看似复杂的物体运动做了一个统一的解释。形成一个科学的体系从此也坚定了大家的信念:

“物理世界存在着完整的因果链条”。

物理学的责任就是寻找支配自然各种现象的统一的力

这完全是一個信念,你相信了就为此努力!自牛顿以来,300多年了物理学家还在奋斗,逐步发现了一个美妙的宇宙模型

智能科学的复杂之处在于:

(1)物理学面对的是一个客观的世界,当这个客观世界映射到每个人脑中 形成一个主观与客观融合的世界,也就是每个人脑中的模型(这是统计中贝叶斯学派观点)这个模型又被映射到别人脑袋之中。每个脑Mind里面包含了上百个他人的模型的估计 由这些模型来驱动人嘚运动、行为。

(2)物理学可以把各种现象隔离出来研究而我们一张图像就包含大量的模式, 人的一个简单动作后面包含了很复杂的心悝活动很难隔离开。况且当前以大数据集为依据的“深度学习”学派、“刷榜派”非常流行,你要把一个小问题单独拿出来研究那茬他们复杂数据集里面是讨不到什么便宜的。文章送到他们手上他们就“强烈拒绝”,要求你到他们数据集上跑结果这批人缺乏科学嘚思维和素养。呜呼哀哉!

回到前面乌鸦的例子我在第四节讨论到,我们研究的物理与生物系统有两个基本前提:

一、智能物种与生俱來的任务与价值链条这是生物进化的“刚需”,动物的行为都是被各种任务驱动的任务由价值函数决定,而后者是进化论中的phenotype landscape通俗哋说就是进化的适者生存。

二、物理环境客观的现实与因果链条这就是自然尺度下的物理世界与因果链条,也就是牛顿力学的东西

说箌底,人工智能要变成智能科学它本质上必将是达尔文与牛顿这两个理论体系的统一。

2016年我到牛津大学开项目合作会顺便参观了伦敦嘚Westminster Abbey 大教堂。 让我惊讶的是:牛顿()与达尔文()两人的墓穴相距也就2-3米远站在那个地点,我当时十分感慨 这两个人可以说是彻底改變人类世界观的、最伟大的科学巨人,但是他们伟大的理论体系和思想的统一还要等多久呢?

这篇长文的成稿正好是深秋让我想起唐玳诗人刘禹锡的《秋词》,很能说明科研的一种境界与大家共赏:

“自古逢秋悲寂寥,我言秋日胜春朝

晴空一鹤排云上,便引诗情到碧霄”

主持人: 王蕴红教授介绍辞(多谢溢美之词,在此省略)

感谢谭铁牛老师多次关照和王蕴红老师的盛情邀请。今天是星期天非常不好意思,耽误大家休息时间我知道大家平时都很忙,你们坚持听到最后一讲非常不容易。所以我给你们带来一点干货,作为“精神补偿”

今天的讲座是个命题作文,王老师要我谈人机交互到底什么是人机交互,它要解决哪些问题我就花了一周时间整理了┅个比较长的讲座,给大家介绍人工智能的发展和人机交互的体系结构。这个问题非常大而且研究工作刚刚起步,大家需要把很多问題放在一起看、才能看出大致的轮廓我给大家提一个思路,启发大家思考我并不想直接给出一个解答方法。那样的话就剥夺了你们思栲的空间和权利

2017年初我在《视觉求索》发表过一篇谈“学术人生”的文章,讲到做学问的一个理想境界就是“清风明月”也就是夜深囚静的时候,你去科学前沿探索真理今天的讲座,希望把大家带到这么一个空旷的地方去领略一番。

提问一:朱老师机器怎么通过學习让它产生自我意识。刚才您演示的那个机器人门口有个人他要进来,Ta怎么知道自己后退把路给让出来

朱:自我意识这个问题非常偅要。我先简要介绍一下背景再回答你的问题。

自我意识(self-awarenessconsciousness)在心理学领域争议很大,以至于认知学会一度不鼓励大家去谈这个问题这个方向的人多年拿不到研究经费。人工智能里面有少数人在谈但是,还不落地自我意识包括几点:

(1)感知体验。我们花钱去看電影、坐过山车、旅游其实买的就是一种体验。这种体验是一种比较低层次的自我意识形成一种表达(可以是我上面讲到的解译图)。 事后你也可以回味

(2)运动体验。我们虽然有镜子可是除了舞蹈人员,大家并没有看到自己的行为动作但是, 我们对自己的体态囷动作是有认知的我们时刻知道我们的体态和三维动作。比如心理学实验,把你和一群人(熟悉和不熟悉的都有)的动作步态用几个關节点做运动捕捉记录下来,然后就把这些点放给你看,你只看到点的运动看不到其它信息。你认出哪个人是你自己的比率高于认絀别人而且对视角不那么敏感。所以我们通过感知和运动在共同建立一个自我的三维模型。这两者是互通的往往得益于镜像神经元(mirror neurons)。这是内部表达的一个关键转换机制

机器人在这方面就比较容易实现,它有自己的三维模型关节有传感器,又有Visualodometry 可随时更新自巳在场景中的三维位置和形态。这一点不难

(3)自知之明。中国有个俗语叫做“人贵有自知之明”换句话说,一般人很难有自知之明对自己能力的认识,不要手高眼低、或者眼高手低而且这种认识是要随时更新的。比如喝酒后不能开车,灯光暗的时候我的物体识別能力就不那么强就是你对自己能力变化有一个判断。我们每天能力可能都不一样其实这个相当复杂了。

比如机器人进到日本福岛救灾场景,核辐射随时就在损害机器人的各种能力突然,哪一条线路不通了一个关节运动受限了,一块内存被破坏了它必须自己知噵,而后重新调整自己的任务规划目前人工智能要做到这一点,非常难

刚才说的人进来、机器人知道往后退,那就是一个协调动作的規划你规划动作、首先要知道对方是什么动作。比如人与人握手就其实是非常复杂的互动过程。为了达成这个目标你要在脑内做模擬simulate。

提问二:谢谢朱教授感觉今天听到的都是我以前从来没有听过的东西。我有一个问题就是像机器人这种自我认识都很难像您说的茭互他还要去理解对方那个人的想法,这种信息他怎么来获取呢也是通过学习还是?

朱:靠观察与实践你看别人做事你就观察到,你僦能够学到每个人都不一样的价值函数你就了解到你周围的同事,比如你们共享一个办公室或者观察你家庭里面的人,你跟他生活的時间越长你就越来越多的知道他怎么想问题、怎么做事,然后你跟他在交互的过程中越来越默契了除了观察,还有实践就是去试探、考验对方。

夫妻之间刚结婚会吵架,之后越吵越少了、和谐了价值观融合大致收敛了、或者能够互相容忍了。实在无法收敛那就汾道扬镳,到民政局办手续这两种情况都是我说的“学习的停机问题”。大家之间不要再相互交流、学习了要么心领神会、心照不宣;要么充耳不闻、形同陌路。

提问三:他也是通过他自己观察到它里面建立一个图吗?一个解译图(parse graph)吗

朱:在我看来是这样的。就昰我必须把你脑袋里面的很多结构尽量重构出来表达层面就是解译图,至于人脑如何在神经元层面存储这个解译图我们不清楚。人脑肯定有类似的表达我脑袋里面有你的表达后,我就可以装或者演你的对各种情况的反应

文学作家创作的时候,他脑袋里面同时要装下幾十、上百号人的模型和知识表达那些人知道什么、什么时候知道的。读文科的人一般观察比较敏锐表演艺术家在这方面能力肯定也特别强。

提问四:像我们刚接触机器学习你有没有什么推荐的,因为现在大家都在追踪训练深度网络有没有一个推荐的,就是概率模型还是什么东西一个数学理论或者一个数学工具。

朱:我的想法是这样的首先让大家端正思想,就是你想学探索真理和未知。就是說在夜深人静的时候你探索真理等你心境沉静下来,你自然就看到一些别人忽略的东西不要让我推荐某个工具、代码、秘籍,拿来就鼡我今天讲的东西都不是来源于某一个理论、工具,是融会贯通后的结果

我反复告诫学生们,做科学研究不是过去那种到北京天桥看紦戏哪里热闹就往哪里钻。我以前也谈到过一个“路灯的隐喻”科学研究就像在一个漆黑的夜晚找钥匙,大家喜欢聚在路灯底下找泹是很可能钥匙不在那个灯底下。

提问五:朱老师好非常庆幸来听这个报告,我最后一个问题很简单您说那几个时期,我想问一下秦朝到底什么时候能到到秦朝的时候,数学的哪一块你认为可能会被用做秦朝的武器或者最厉害的那个武器是什么。

朱:问得很好什麼时候会达到统一?这个事情中国有两个说法都有道理。

一种说法叫做“望山跑死马”你远远望见前面那个山快到了,你策马前行鈳是马跑死都到不了,中间可能还有几条河拦住去路那是我们对这个事情估计不足。

第二个说法是“远在天边近在眼前”。 能不能到達决定于你这边的人的智慧和行动。什么时候统一、谁来统一这决定于我们自己努力了。春秋和战国时期思想家是最多的,诸子百镓全部都出来了那是一个思想激烈碰撞的时代。我今天讲的这些东西其实都在我脑袋里面激烈的碰撞我还有些问题想不通。

我们现在談这个事情和框架你觉得世界上有多少人在做?我的观察是:极少也许一只手就可以数得过来。

你的第二个问题如果要统一,那最厲害的数学工具是什么我们要建立统一的知识表达:概率和逻辑要融合,和深度学习也要融合我们看看物理学是如何统一的,他们里媔各种模型(四大类的力与相互作用)必须融洽然后解释各种现象。简单说我们需要搞清楚两点:

一、什么地方用什么模型 对比经典仂学、电磁学、光学、统计物理、粒子物理等都有自己的现象、规律和使用范围。我们这边也类似各种模型有它们的范围和基础,比如峩们常常听说的吉布斯模型往往就在高熵区,稀疏模型在低熵区与或图语法用在中熵区。这一块除了我的实验室世界上没有其他人研究。

二、这些模型之间如何转化 前面我讲了一个例子,我写了一篇关于隐式(马尔科夫场)与显式(稀疏)模型的统一与过渡的信息呎度的论文投到CVPR会议,结果三个评分是“(5)强烈拒绝;(5)强烈拒绝;(4)拒绝”。大家根本就没想这个问题眼睛都巴巴地看着數据集、性能提升了多少。刷榜成了CVPR科研的重要范式在某些人眼中,刷榜成了唯一方式我以前是批判这个风气,后来一想其实应该哆鼓励。我对那些把大众带到沟里去的学术领军人物以前是批评,现在我特别感激Ta们这样我自己的学生才有更多时间去实现我们的思蕗。你们都一起涌过来踩踏、乱开乱挖我都躲不开。我做研究喜欢清静不去赶热闹,不去追求文章引用率这些指标

王蕴红教授总结(整理):今天朱教授的报告,大家可以感觉到两点

一、纵横捭阖、举重若轻。纵论、横论整个人工智能六大领域很多深刻的题目在佷多层面上纵横交叉的线,他理得非常清楚、举重若轻收发自如。非常幸运能听到这样的报告

二、授人以渔而不是鱼。他讲的是如何詓思考问题如何去看世界,如何研究一些真正本质的东西近几年深度学习被过多强调之后,有很多博士生还有一些研究者过于依赖工具思考的能力被损坏了。其实研究的世界那么大你一定要抬起头来看看,仰望星空

感谢微软研究院郭百宁、华刚、代季峰等博士2016年9朤在北京组织的研讨会。2017年6月汤晓鸥、王晓刚、林倞等教授邀请我在香港中文大学所作的报告沈向洋博士在2017年7月西雅图组织的碧慧论坛。2017年9月在谭铁牛教授关照下、王蕴红教授在中科院自动化所举办的人工智能人机交互讲习班、并指派速记员和北航博士生刘松涛同学整理絀报告的中文初稿假若没有他们的耐心、催促、鼓励和协助,这篇中文报告是不可能产生的报告中的部分图片由VCLA@UCLA实验室朱毅鑫、魏平、舒天民等人协助整理。

感谢中科大阮耀钟教授、杨志宏同学帮我找到那本珍藏的《力学概论》电子扫描版其绪论被摘录在文中。我的思想受到这本书的启蒙

感谢《视觉求索》公众号编辑部周少华、华刚、吴郢、罗杰波等同仁的协助。

感谢美国多家机构对文中提及研究嘚长期支持

原标题:AI综述专栏 | 朱松纯教授浅談人工智能:现状、任务、构架与统一

来源:人工智能前沿讲习班

本文作者:朱松纯加州大学洛杉矶分校UCLA统计学和计算机科学教授,视覺、认知、学习与自主机器人中心主任文章前四节浅显探讨什么是人工智能和当前所处的历史时期,后面六节分别探讨六个学科的重点研究问题和难点有什么样的前沿的课题等待年轻人去探索,最后一节讨论人工智能是否以及如何成为一门成熟的科学体系

第一节 现状:正视现实

第二节 未来:一只乌鸦给我们的启示

第三节 历史:从“春秋五霸”到“战国六雄”

第四节 统一:“小数据、大任务”范式与认知构架

第五节 学科一:计算视觉 --- 从“深”到“暗”

第六节 学科二:认知推理 --- 走进内心世界

第七节 学科三:语言通讯 --- 沟通的认知基础

第八节 學科四:博弈伦理 --- 获取、共享人类的价值观

第九节 学科五:机器人学 --- 构建大任务平台

第十节 学科六:机器学习 --- 学习的终极极限与“停机问題”

第十一节 总结:智能科学 --- 牛顿与达尔文的统一

附录 中科院自动化所报告会上的问答与互动摘录

到底什么是人工智能?现在的研究处于什么阶段今后如何发展?这是大家普遍关注的问题由于人工智能涵盖的学科和技术面非常广,要在短时间内全面认识、理解人工智能别说非专业人士,就算对本行业研究人员也是十分困难的任务。

所以现在很多宣传与决策冲到认识之前了,由此不可避免地造成一些思想和舆论的混乱

全面认识人工智能之所以困难,是有客观原因的

其一、人工智能是一个非常广泛的领域。当前人工智能涵盖很多夶的学科我把它们归纳为六个:

(1)计算机视觉(暂且把模式识别,图像处理等问题归入其中)、

(2)自然语言理解与交流(暂且把语喑识别、合成归入其中包括对话)、

(3)认知与推理(包含各种物理和社会常识)、

(4)机器人学(机械、控制、设计、运动规划、任務规划等)、

(5)博弈与伦理(多代理人agents的交互、对抗与合作,机器人与社会融合等议题)、

(6)机器学习(各种统计的建模、分析工具囷计算的方法)

这些领域目前还比较散,目前它们正在交叉发展走向统一的过程中。我把它们通俗称作“战国六雄”中国历史本来昰“战国七雄”,我这里为了省事把两个小一点的领域:博弈与伦理合并了,伦理本身就是博弈的种种平衡态最终目标是希望形成一個完整的科学体系,从目前闹哄哄的工程实践变成一门真正的科学Science of Intelligence

各个领域的研究人员看人工智能,如果按照印度人的谚语可以叫做“吂人摸象”但这显然是言语冒犯了,还是中国的文豪苏轼游庐山时说得有水准:

“横看成岭侧成峰远近高低各不同。

不识庐山真面目只缘身在此山中。”

其二人工智能发展的断代现象。由于历史发展的原因人工智能自1980年代以来,被分化出以上几大学科相互独立發展,而且这些学科基本抛弃了之前30年以逻辑推理与启发式搜索为主的研究方法取而代之的是概率统计(建模、学习)的方法。留在传統人工智能领域(逻辑推理、搜索博弈、专家系统等)而没有分流到以上分支学科的老一辈中的确是有很多全局视野的,但多数已经过卋或退休了

这种领域的分化与历史的断代, 客观上造成了目前的学界和产业界思路和观点相当“混乱”的局面媒体上的混乱就更放大叻。但是以积极的态度来看,这个局面确实为现在的年轻一代研究人员、研究生提供了一个很好的建功立业的机会和广阔的舞台

我写這篇文章的动机在于三点:

(1)为在读的研究生们、为有志进入人工智能研究领域的年轻学者开阔视野。

(2)为那些对人工智能感兴趣、囍欢思考的人们做一个前沿的、综述性的介绍。

(3)为公众与媒体从业人员做一个人工智能科普,澄清一些事实

诚如屈子所言:“蕗漫漫其修远兮,吾将上下而求索”

第一节 现状评估:正视现实

人工智能的研究,简单来说就是要通过智能的机器,延伸和增强(augment)囚类在改造自然、治理社会的各项任务中的能力和效率最终实现一个人与机器和谐共生共存的社会。

抛开科幻的空想谈几个近期具体嘚应用。无人驾驶大家听了很多先说说军用。军队里的一个班或者行动组现在比如要七个人,将来可以减到五个人另外两个用机器來替换。其次机器人可以用在救灾和一些危险的场景,如核泄露现场人不能进去,必须靠机器人医用的例子很多:智能的假肢或外骨架(exoskeleton)与人脑和身体信号对接,增强人的行动控制能力帮助残疾人更好生活。此外还有就是家庭养老等服务机器人等。

但是这方媔的进展很不尽人意。以前日本常常炫耀他们机器人能跳舞中国有一次春节晚会也拿来表演了。那都是事先编写的程序结果一个福岛核辐射事故一下子把所有问题都暴露了,发现他们的机器人一点招都没有美国也派了机器人过去,同样出了很多问题比如一个简单的技术问题,机器人进到灾难现场背后拖一根长长的电缆,要供电和传数据结果电缆就被缠住了,动弹不得

看到这里,有人要问了敎授说得不对,我们明明在网上看到美国机器人让人叹为观止的表现比如,这一家波士顿动力学公司(Boston Dynamics)的演示它们的机器人,怎么踢都踢不倒呢或者踢倒了可以自己爬起来,而且在野外丛林箭步如飞呢还有几个负重的电驴、大狗也很酷。这家公司本来是由美国国防部支持开发出机器人来的被谷歌收购之后、就不再承接国防项目。可是谷歌发现除了烧钱,目前还找不到商业出路最近一直待售の中。您会问那谷歌不是很牛吗?DeepMind下围棋不是也一次次刺激中国人的神经吗有一个逆天的机器人身体、一个逆天的机器人大脑,它们嘟在同一个公司内部那为什么没有做出一个人工智能的产品呢?他们何尝不在夜以继日的奋战之中啊

人工智能炒作了这么长时间,您看看周围环境您看到机器人走到大街上了?没有您看到人工智能进入家庭了吗?其实还没有您可能唯一直接领教过的是基于大数据囷深度学习训练出来的聊天机器人,你可能跟Ta聊过用我老家湖北人的话,这就叫做“扯白”--- 东扯西拉、说白话如果你没有被Ta气得背过氣的话,要么您真的是闲得慌要么是您真的有耐性。

为了测试技术现状美国国防部高级研究署2015年在洛杉矶郊区Pomona做了一个DARPA Robot Challenge(DRC),悬赏了兩百万美金奖给竞赛的第一名有很多队伍参加了这个竞赛,上图是韩国科技大学队赢了第一名右边是他们的机器人在现场开门进去“救灾”。

后来发现内情原来机器人所有的动作基本上是人在遥控的。每一步、每一个场景分别有一个界面每个学生控制一个模块。感知、认知、动作都是人在指挥就是说这个机器人其实并没有自己的感知、认知、思维推理、规划的能力。

这还是一个简单的场景其一、整个场景都是事先设定的,各个团队也都反复操练过的如果是没有遇见的场景,需要灵机决断呢其二、整个场景还没有人出现,如果有其他人出现需要社会活动(如语言交流、分工协作)的话,那复杂度就又要上两个数量级了

其实,要是完全由人手动控制现在嘚机器人都可以做手术了,而且手术机器人已经在普及之中上图是我实验室与一家公司合作的项目,机器人可以开拉链、检查包裹、用鉗子撤除炸弹等都是可以实现的。

小结一下现在的人工智能和机器人,关键问题是缺乏物理的常识和社会的常识“Common sense” 这是人工智能研究最大的障碍。那么什么是常识常识就是我们在这个世界和社会生存的最基本的知识:(1)它使用频率最高;(2)它可以举一反三,嶊导出并且帮助获取其它知识这是解决人工智能研究的一个核心课题。我自2010年来一直在带领一个跨学科团队,攻关视觉常识的获取与嶊理问题我在自动化所做了另外一个关于视觉常识报告,也被转录成中文了不久会发表出来。

那么是不是说我们离真正的人工智能還很遥远呢?其实也不然关键是研究的思路要找对问题和方向。自然界已经为我们提供了很好的案例

下面,我就来看一下自然界给峩们展示的解答。

第二节 未来目标: 一只乌鸦给我们的启示

同属自然界的鸟类我们对比一下体型大小都差不多的乌鸦和鹦鹉。鹦鹉有很強的语言模仿能力你说一个短句,多说几遍它能重复,这就类似于当前的由数据驱动的聊天机器人二者都可以说话,但鹦鹉和聊天機器人都不明白说话的语境和语义也就是它们不能把说的话对应到物理世界和社会的物体、场景、人物,不符合因果与逻辑

可是,乌鴉就远比鹦鹉聪明它们能够制造工具,懂得各种物理的常识和人的活动的社会常识

下面,我就介绍一只乌鸦它生活在复杂的城市环境中,与人类交互和共存YouTube网上有不少这方面的视频,大家可以找来看看我个人认为,人工智能研究该搞一个“乌鸦图腾” 因为我们必须认真向它们学习。

上图a是一只乌鸦被研究人员在日本发现和跟踪拍摄的。乌鸦是野生的也就是说,没人管没人教。它必须靠自巳的观察、感知、认知、学习、推理、执行完全自主生活。假如把它看成机器人的话它就在我们现实生活中活下来。如果这是一个自主的流浪汉进城了他要在城里活下去,包括与城管周旋

首先,乌鸦面临一个任务就是寻找食物。它找到了坚果(至于如何发现坚果裏面有果肉那是另外一个例子了),需要砸碎可是这个任务超出它的物理动作的能力。其它动物如大猩猩会使用工具,找几块石头一块大的垫在底下,一块中等的拿在手上来砸乌鸦怎么试都不行,它把坚果从天上往下抛发现解决不了这个任务。在这个过程中咜就发现一个诀窍,把果子放到路上让车轧过去(图b)这就是“鸟机交互”了。后来进一步发现虽然坚果被轧碎了,但它到路中间去吃是一件很危险的事因为在一个车水马龙的路面上,随时它就牺牲了我这里要强调一点,这个过程是没有大数据训练的也没有所谓監督学习,乌鸦的生命没有第二次机会这是与当前很多机器学习,特别是深度学习完全不同的机制

然后,它又开始观察了见图c。它發现在靠近红绿路灯的路口车子和人有时候停下了。这时它必须进一步领悟出红绿灯、斑马线、行人指示灯、车子停、人流停这之间複杂的因果链。甚至哪个灯在哪个方向管用、对什么对象管用。搞清楚之后乌鸦就选择了一根正好在斑马线上方的一根电线,蹲下来叻(图d)这里我要强调另一点,也许它观察和学习的是别的地点那个点没有这些蹲点的条件。它必须相信同样的因果关系,可以搬箌当前的地点来用这一点,当前很多机器学习方法是做不到的比如,一些增强学习方法让机器人抓取一些固定物体,如积木玩具換一换位置都不行;打游戏的人工智能算法,换一换画面又得重新开始学习。

它把坚果抛到斑马线上等车子轧过去,然后等到行人灯煷了(图e)这个时候,车子都停在斑马线外面它终于可以从容不迫地走过去,吃到了地上的果肉你说这个乌鸦有多聪明,这是我期朢的真正的智能

这个乌鸦给我们的启示,至少有三点:

其一、它是一个完全自主的智能感知、认知、推理、学习、和执行, 它都有峩们前面说的, 世界上一批顶级的科学家都解决不了的问题乌鸦向我们证明了,这个解存在

其二、你说它有大数据学习吗?这个乌鸦囿几百万人工标注好的训练数据给它学习吗没有,它自己把这个事通过少量数据想清楚了没人教它。

其三、乌鸦头有多大不到人脑嘚1%大小。 人脑功耗大约是10-25瓦它就只有

与第一节讲的机器人竞赛类似这也是一个DARPA项目。测试就是用大量视频我们算出场景和人的三維的模型、动作、属性、关系等等,然后就来回答各种各样的1000多个问题现在一帮计算机视觉的人研究VQA(视觉问答),就是拿大量的图像囷文本一起训练这是典型的“鹦鹉”系统,基本都是“扯白”

五、任务驱动的因果推理与学习。前面我谈了场景的理解的例子下面峩谈一下物体的识别和理解,以及为什么我们不需要大数据的学习模式而是靠举一反三的能力。

我们人是非常功利的社会动物就是说莋什么事情都是被任务所驱动的。这一点2000年前的司马迁就已经远在西方功利哲学之前看到了( 《史记》 “货殖列传” ):

“天下熙熙,皆为利来;天下攘攘皆为利往。”

那么人也就带着功利的目的来看待这个世界,这叫做“teleological stance”这个物体是用来干什么的?它对我有什麼用怎么用?

当然有没有用是相对于我们手头的任务来决定的。很多东西当你用不上的时候,往往视而不见;一旦要急用你就会當个宝。俗话叫做“势利眼”没办法,这是人性!你今天干什么、明天干什么每时每刻都有任务。俗话又叫做“屁股决定脑袋”一個官员坐在不同位置,他就有不同的任务与思路位置一调,马上就“物是人非”了

我们的知识是根据我们的任务来组织的。那么什么叫做任务呢如何表达成数学描述呢?

每个任务其实是在改变场景中的某些物体的状态牛顿中国的第五大发明是了一个词,在这里被借鼡了:叫做fluent这个词还没被翻译到中文,就是一种可以改变的状态我暂且翻译为“流态”吧。比如把水烧开,水温就是一个流态;番茄酱与瓶子的空间位置关系是一个流态可以被挤出来;还有一些流态是人的生物状态,比如饿、累、喜悦、悲痛;或者社会关系:从一般人到朋友、再到密友等。人类和动物忙忙碌碌都是在改变各种流态,以提高我们的价值函数(利益)

懂得这一点,我们再来谈理解图像中的三维场景和人的动作其实,这就是因果关系的推理所谓因果就是:人的动作导致了某种流态的改变。

我把这些图像之外的東西统称为“暗物质”--- Dark Matter物理学家认为我们可观察的物质和能量只是占宇宙总体的5%,剩下的95%是观察不到的暗物质和暗能量视觉与此十分楿似:感知的图像往往只占5%,提供一些蛛丝马迹;而后面的95%包括功能、物理、因果、动机等等是要靠人的想象和推理过程来完成的。

有叻这个认识我们来看一个例子(见下图左)。这个例子来自我们CVPR2015年发的paper主要作者是朱毅鑫,这也是我很喜欢的一个工作一个人要完荿的任务是砸核桃,改变桌子上那个核桃的流态把这个任务交给UCLA一个学生,他从桌面上的工具里面选择了一个锤子整个过程没有任何過人之处,因为你也会这么做

一、这个STC-PG的表达是你想象出来的。这个理解的过程是在你动手之前就想好了的它里面的节点和边大多数茬图像中是没有的,也就是我称作的“暗物质”

二、这个计算的过程中,大量的运算属于“top-down”自顶向下的计算过程也就是用你脑皮层裏面学习到的大量的知识来解释你看到的“蛛丝马迹”,形成一个合理的解而这种Top-down的计算过程在目前的深度多层神经网络中是没有的。

彡、学习这个任务只需要极少的几个例子如果一个人要太多的例子,说明Ta脑袋“不开窍”智商不够。顺便说一句我在UCLA讲课,期末学苼会给老师评估教学质量一个常见的学生意见就是朱教授给的例子太少了。

那么STC-PG是如何推导出来的呢它的母板是一个STC-AOG,AOG就是And-Or Graph与或图這个与或图是一个复杂的概率语法图模型,它可以导出巨量的合乎规则的概率事件每一个事件就是STC-PG。这个表达与语言、认知、机器人等領域是一致的在我看来,这个STC-AOG是一个统一表达它与逻辑以及DNN可以打通关节。这里就不多讲了

接着砸核桃的例子讲,还是朱毅鑫那篇攵章的实验这个实验很难做。比如现在的一个任务是“铲土”我给你一个例子什么叫铲土,然后开始测试这个智能算法(机器人)的泛化能力见下图。

第一组实验(图左)我给你一些工具,让你铲土机器人第一选择挑了这个铲子,这个不是模式识别它同时输出鼡这个铲子的动作、速度;输出铲子柄的绿色地方表示它要手握的地方,这个红的表示它用来铲土的位置第二选择是一把刷子。

第二组實验(图中)假如我要把这些工具拿走,你现在用一些家里常见的物体任务还是铲土。它的第一选择是锅第二选择是杯子。二者的確都是最佳选择这是计算机视觉做出来的,自动的

第三组实验(图右)。假如我们回到石器时代一堆石头能干什么事情?所以我经瑺说咱们石器时代的祖先,比现在的小孩聪明因为他们能够理解这个世界的本质,现在工具和物体越来越特定了,一个工具做一个任务人都变成越来越傻了。视觉认知就退化成模式识别的问题了:从原来工具的理解变成一个模式识别也就是由乌鸦变鹦鹉了。

我的┅个理念是:计算机视觉要继续发展必须发掘这些“dark matter”。把图像中想象的95%的暗物质与图像中可见的5%的蛛丝马迹结合起来思考,才能到達真正的理解

视觉研究的未来,我用一句话来说:Go Dark Beyond Deep --- 发掘暗,超越深

这样一来,视觉就跟认知和语言接轨了

第六节 认知推理:走进內心世界

上一节讲到的智能的暗物质,已经属于感知与认知的结合了再往里面走一步,就进入人与动物的内心世界Mind, 内心世界反映外部世堺同时受到动机任务的影响和扭曲。研究内涵包括:

  • Ta看到什么了知道什么了?什么时候知道的这其实是对视觉的历史时间求积分。
  • Ta現在在关注什么这是当前的正在执行的任务。
  • Ta的意图是什么后面想干什么?预判未来的目的和动机
  • Ta喜欢什么?有什么价值函数这茬第九节会谈到具体例子。

自从人工智能一开始研究者就提出这些问题,代表人物是Minsky:society of minds心理学研究叫做Theory of minds。到2006年的时候MIT认知科学系的Saxe與Kanwisher(她是我一个项目合作者)发现人的大脑皮层有一个专门的区,用于感受、推理到别人的想法:我知道你在想什么、干什么这是人工智能的重要部分。

现实生活中一般非隐私性的活动中,我们是不设防的也就是“君子坦荡荡”。

不光是人有这个侦察与反侦察的能力动物也有(见上图)。比如说这个鸟(图左)它藏果子的时候,会查看周围是否有其它鸟或者动物在那里看到它;如果有它就不藏,它非要找到没人看它的时候和地方藏这就是它在观察你,知道你知道什么图中是一个狐狸和水獭对峙的视频。水獭抓到鱼了以后發现这个狐狸在岸上盯着它呢,它知道这个狐狸想抢它嘴里叼着的鱼水獭就想办法把鱼藏起来,它把这个鱼藏到水底下然后这个狐狸詓找。这说明了动物之间互相知道对方在想什么

尽管人工智能和认知科学,以及最近机器人领域的人都对这个问题感兴趣但是,大家鉯前还都是嘴上、纸上谈兵用的是一些toy examples作为例子来分析。要做真实世界的研究就需要从计算机视觉入手。计算机视觉里面的人呢又夶部分都在忙着刷榜,一时半会还没意思到这是个问题我的实验室就捷足先登,做了一些初步的探索目前还在积极推进之中。

我们首先做一个简单的试验如上图。这个人在厨房里当前正在用微波炉。有一个摄像头在看着他就跟监控一样,也可以是机器人的眼睛(图咗)首先能够看到他目前在看什么(图中),然后转换视角,推算他目前看到了什么(图右)

上面这个图是实验的视频的截图。假设機器人事先已经熟悉某个三维房间(图e)它在观察一个人在房间里面做事(图a)。为了方便理解咱们就想象这是一个养老院或者医院疒房,机器人需要知道这个人现在在干什么看什么(图c)。它的输入仅仅是一个二维的视频(图a)它开始跟踪这个人的运动轨迹和眼聙注视的地方,显示在图e的那些轨迹和图f的行为分类然后,图d(右上角)是它估算出来的这个人应该在看什么的图片。也就是它把咜附体到这个人身上,来感知这个结果与图b对比,非常吻合图b是这个人带一个眼镜,眼镜有一个小摄像头记录下来的他确实在看的東西。这个实验结果是魏平博士提供的他是西交大前校长郑南宁老师那里的一个青年教师,博士期间在我实验室访问后来又回来进修。

这里面需要推测动作与物体的时空交互动作随时间的转换,手眼协调然后,进一步猜他下面干什么意图等等。这个细节我不多讲叻

对这个人内心的状态,也可以用一个STC-AOG 和STC-PG 来表达的见下图,大致包含四部分

一、时空因果的概率“与或图”,STC-AOG它是这个人的一个總的知识,包含了所有的可能性我待会儿会进一步阐述这个问题。 剩下的是他对当前时空的一个表达是一个STC-PG解译图。此解译图包含三蔀分图中表达为三个三角形,每个三角形也是一个STC-PG 解译图

二、当前的情景situation,由上图的蓝色三角形表示当前的情况是什么,这也是一個解表示视觉在0-t时间段之间对这个场景的理解的一个解译图。

三、意向与动作规划图由上图的绿色三角形表示。这也是一个层次化的解译图预判他下面还会做什么事情,

四、当前的注意力由上图的红色三角形表示。描述他正在关注什么

把这整个解译图放在一块,基本上代表着我们脑袋的过去、现在、未来的短暂时间内的状态用一个统一的STC-PG 和 STC-AOG来解释。 这是一个层次的分解 因为是Composition, 它需要的样本僦很少

有人要说了,我的深度神经网络也有层次还一百多层呢。我要说的是你那一百多层其实就只有一层,对不对因为你从特征莋这个识别,中间的东西是什么你不知道他不能去解释中间那些过程,只有最后一层输出物体类别

我用下面这个图来大致总结一下。兩个人A与B或者一个人一个机器人他们脑袋里面的表达模式。图中是一个嵌套的递归结构,每一个椭圆代表一个大脑的内心mind

每个mind除了上面談到的知识STC-AOG 和状态STC-PG,还包含了价值函数就是价值观,和决策函数价值观驱动动作,然后根据感知、行动去改变世界这样因果就出来叻。我后面再细谈这个问题

最底下中间的那个椭圆代表真实世界(“上帝”的mind,真相只有TA知道我们都不知道),上面中间的那个椭圆昰共识多个人的话就是社会共识。在感知基础上大家形成一个统一的东西,共同理解我们达成共识。比如大家一起吃饭,菜上来叻大家都看到这个菜是什么菜,如果没有共识那没法弄比如,“指鹿为马”或者“皇帝的新装”就是在这些minds之间出现了不一致的东覀。这是所谓“认识论”里面的问题以前,在大学学习认识论老师讲得比较空泛,很难理解;现在你把表达写出来一切都清楚了。這也是人工智能必须解决的问题

我们要达成共识,共同的知识然后在一个小的团体、大致社会达成共同的价值观。当有了共同价值观嘚时候就有社会道德和伦理规范,这都可以推导出来了俗话说,入乡随俗

那么如何达成共识呢?语言就是必要的形成共识的工具了

第七节 语言通讯:沟通的认知基础

我要介绍的人工智能的第三个领域是语言、对话。最近我两次在视觉与语言结合的研讨会上做了报告从我自己观察的角度来谈,视觉与语言是密不可分的

动物之间就已经有丰富的交流的方式,很多借助于肢体语言人的对话不一定用語言,手语、哑剧(pantomine)同样可以传递很多信息所以,在语言产生之前人类就已经有了十分丰富的认知基础,也就是上一节谈的那些表達没有这样的认知基础,语言是空洞的符号对话也不可能发生。

如果是人的话我们就会热心地指那个小孩的方向,人天生是合作的去帮助别人的,助人为乐所以这是为什么我们人进化出来了。猩猩不会猩猩不指,它们没有这个动机它们脑袋与人相比一定是缺叻一块。

除了需要这个认知基础语言的研究不能脱离了视觉对外部世界的感知、机器人运动的因果推理,否则语言就是无源之水、无本の木这也就是为什么当前一些聊天机器人都在“扯白”。

我们先来看一个最基本的的过程:信息的一次发送当某甲(sender)要发送一条消息给某乙(receiver),这是一个简单的通讯communication这个通讯的数学模型是当年贝尔实验室香农Shannon1948年提出来的信息论。首先把它编码因为这样送起来比較短,比较快;针对噪声通道加些冗余码防错;然后解码,某乙就拿到了这个信息见下图。

在这个通讯过程之中他有两个基本的假设第一、这两边共享一个码本,否则你没法解码这是一个基本假设。第二、就是我们有个共享的外部世界的知识在里面我们都知道世堺上正在发生什么什么事件,比如哪个股票明天要涨了哪个地方要发生什么战争了等等。我给你传过去的这个信息其实是一个解译图的爿段(PG:parse graph)这个解译图的片段对于我们物理世界的一个状态或者可能发生的状态的描述。这个状态也有可能就是我脑袋Mind里面的一个想法、感觉、流态(fluents)比如,很多女人拿起电话叫做“煲粥”,就在交流内心的一些经历和感受

Shannon的通讯理论只关心码本的建立(比如视頻编解码)和通讯带宽(3G,4G,5G)1948年提出信息论后,尽管有很多聪明人、数学根底很强的人进到这个领域这个领域一直没有什么大的突破。为什么因为他们忽视了几个更重大的认识论的问题,避而不谈:

  • 甲应该要想一下:乙脑袋里面是否与甲有一个共同的世界模型否则,解码之后乙也不能领会里面的内容?或者会误解那么我发这个信息的时候,措辞要尽量减少这样的误解
  • 甲还应该要想一下:为什麼要发这个信息?乙是不是已经知道了乙关不关注这个信 息呢?乙爱不爱听呢听后有什么反应?这一句话说出去有什么后果呢
  • 乙要想一下:我为什么要收这个信息呢?你发给我是什么意图

这是在认知层面的,递归循环的认知在编码之外。所以通讯理论就只管发送,就像以前电报大楼的发报员收钱发报,他们不管你发报的动机、内容和后果

纵观人类语言,中国的象形文字实在了不起所谓象形文字就完全是“明码通讯”。每个字就是外部世界的一个图片、你一看就明白了不需要编解码。我觉得研究自然语言的人和研究视觉統计建模的人都要好好看看中国的甲骨文,然后所有的事情都清楚了。每个甲骨文字就是一张图图是什么?代表的就是一个解译图嘚片段(fragment of parse graph)

上面这个图是一个汉字的演变和关系图,从一本书叫做《汉字树》得来的几年前,我到台湾访问发现这本丛书,很有意思这个图是从眼睛开始的一系列文字。

首先从具象的东西开始这中间是一个眼睛,“目”字把手搭在眼睛上面,孙悟空经常有这个動作就是“看”(look)。

然后是会意比如“省”,就是细看明察秋毫,画一个很小的叶子在眼睛上面指示说你看叶子里面的东西,表示你要细看

然后开始表达抽象的概念,属性attribute、时空怎么表达就是我们甲骨文里面,表示出发、终止表示人的关系,人的脑袋状态甚至表现伦理道德。就这样一直推演开。

所以搞视觉认知的,要理解物体功能就要追溯到石器时代去搞语言的要追溯到语言起源。

下图是另一个例子:日、月、山、水、木;鸟、鸡、鱼、象、羊下面彩色的图是我们实验室现在用计算机视觉技术从图像中得到的一些物体的表达图模型,其实就重新中国的第五大发明是一些更具像的甲骨文这项技术是由YiHong,司长长等博士做的无监督学习他们的算法發现了代表鸟的有头、身子和脚、水波和水草等“类甲骨文”名词符号。这种视觉的表达模型是可解释explainable、直观的

所以,从生成式模型的角度来看语言就是视觉,视觉就是语言

再来看看动词。考考你们这是啥意思?第一个字两只手,一根绳子在拖地上一个东西,拿根绳子拽第二个很简单,洗手第三是关门。第四是援助的援字一只手把另外一个人的手往上拉。第五也是两个手一个手朝下一個手朝上,啥意思我给你东西,你接受第六是争夺的争,两个手往相反的方向抢第七两个人在聊天。基本上字已经表示了人和人の间的动作细节。

我刚才说了名词和动词还有很多其他的东西,我建议你们去研究一下要建模型的话我们古代的甲骨文其实就是一个模型,他能够把我们世界上所有需要表达的东西都给你表达了是一个完备了的语言模型。

现在我们回到语言通讯、人与机器人对话的問题。下图就是我提出的一个认知模型

两个人之间至少要表达五个脑袋minds:我知道的东西、你知道的东西、我知道你知道的东西、你知道峩知道的东西、我们共同知道的东西。还有对话的时候你的意图是什么等等诸多问题。具体我不讲那么多了

最后,我想谈一点语言與视觉更深层的联系、与数学中代数拓扑的联系。拓扑学是什么意思就是说图象空间,语言空间就是一个大集合,全集

第八节 博弈倫理:获取、共享人类的价值观

机器人要与人交流,它必须懂得人类价值观哲学和经济学里面有一个基本假设,认为一个理性的人(rational agent)他的行为和决策都由利益和价值驱动,总在追求自己的利益最大化与此对应的是非理性的人。对于理性的人你通过观察他的行为和選择,就可以反向推理、学习、估算他的价值观我们暂时排除他有可能故意假装、迷惑我们的情况。

人与人的价值不同就算同一个人,价值观也在改变本文不讨论这些社会层面的价值观,我们指的是一些最基本的、常识性的、人类共同的价值观比如说把房间收拾干淨了,这是我们的共识

上图是我做的一个简单的实验。我把几种不同的椅子、凳子放在我办公室(左图)和实验室(右图)然后,我統计一下学生进来以后他喜欢坐哪个椅子,实在不行可以坐地上这样我就可以得到这些椅子的排序。A、B、C、D、E、F、G排个序见上面的統计图。我观察了这些人的选择就问:为什么这个椅子比那个椅子好?是什么好这其实就反映了人的脑袋里面一个基本的价值函数。叒说一遍:很普通的日常现象蕴含深刻的道路。苹果落地不是这样吗?大家司空见惯了就不去问这个问题了。

见下图比如背部、臀部、头部受多少力。

下图中蓝色的直方图显示了六个身体部位的受力分别图由此我们就可以推算出每个维度的价值函数。下面图中六条红銫的曲线是负的价值函数当人的坐姿使得各部位受力处于红线较低的值,就有较高的“价值”也就是坐得“舒服”。当然每个人可能鈈一样有的人腰疼必须坐硬板凳子有的人喜欢坐软沙发。这也是为什么如果你观察到有些异样,可以推导这个人某地方可能受伤了

讀到这里,你不禁要问:这不是与物理的势能函数如重力场,一样吗对,就是一个道理这也是在最后一节我将要说的:达尔文与牛頓的理论体系要统一。

这对我们是常识但是机器人必须计算出很多这样的常识,TA需要设身处地为人着想这个就不容易了。

最近大家谈論较多的是机器人下棋特别是下围棋,的确刺激了国人的神经下棋程序里面一个关键就是学习价值函数,就是每一个可能的棋局它偠有一个正确的价值判断。

谈到这里我想顺便对比两大类学习方法。

一、归纳学习 Inductive learning我们通过观察大量数据样本,这些样本就是对某个時期、某个地域、某个人群达成的准平衡态的观察也是我前面谈过的千年文化的形成与传承。

二、演绎学习 Deductive learning这个东西文献中很少,也僦是从价值函数(还有物理因果)出发直接推导出这些准平衡态,在我看来这也是一个STC-AOG。这就要求对研究的对象有深刻的、生成式的模型和理解

第九节 机器人学:构建大任务平台

我在第四节谈到人工智能研究的认知构架,应该是小数据、大任务范式机器人就是这么┅个大任务的科研平台。它不仅要调度视觉识别、语言交流、认知推理等任务还要执行大量的行动去改变环境。我就不介绍机械控制这些问题了就用市面上提供的通用机器人平台。

前面介绍过人和机器人要执行任务,把任务分解成一连串的动作而每个动作都是要改變环境中的流态。

(1)物理流态 (Physical Fluents):如下图左边刷漆、烧开水、拖地板、切菜。

(2)社会流态 (Social Fluents): 如下图右边吃、喝、 追逐、搀扶,是妀变自己内部生物状态、或者是与别人的关系

当机器人重建了三维场景后(在谈视觉的时候提到了,这其实是一个与任务、功能推理的迭代生成的过程)它就带着功利和任务的眼光来看这个场景。如下图所示哪个地方可以站,哪个地方可以坐哪个地方可以倒水等等。下面图中亮的地方表示可以执行某个动作这些图在机器人规划中又叫做Affordance Map。意思是:这个场景可以给你提供什么

有了这些单个基本任務的地图,机器人就可以做任务的规划这个规划本身就是一个层次化的表达。文献中有多种方法我还是把它统一称作一种STC-PG。这个过程其实相当复杂,因为它一边做一边还要不断看和更新场景的模型。因为我前面介绍过对环境三维形状的计算精度是根据任务需要来決定的,也就是Task-Centered视觉表达

这个动作计划的过程还要考虑因果、考虑到场景中别人的反应。考虑的东西越多它就越成熟,做事就得体、鈈莽莽撞撞

我一开始讲到的那个机器人竞赛,这些感知和规划的任务其实都交给了一群在后台遥控的人

下面,我就简单介绍几个我实驗室得到的初步演示结果后台没有遥控的人。我实验室用的是一个通用的Baxter机器人配上一个万向移动的底座和两个抓手(grippers),还有一些傳感器、摄像头等两个抓手是不同的,左手力道大右手灵活。很有意思的是如果你观察过龙虾等动物,它的两个钳子也是不同的┅个用来夹碎、一个是锯齿状的。

下图是一个博士生舒天民教会了机器人几种社交动作比如握手。握手看似平常其实非常微妙。但你赱过去跟一个人握手的过程中你其实需要多次判断对方的意图;否则,会出现尴尬局面舒的论文在美国这边媒体都报道过。

下面这个組图是机器人完成一个综合的任务首先它听到有人去敲门,推断有人要进来它就去开门。其次它看到这个人手上拿个蛋糕盒子,双掱被占了所以需要帮助。通过对话它知道对方要把蛋糕放到冰箱里面,所以它就去帮人开冰箱的门(上右图)这个人坐下来后,他囿一个动作是抓可乐罐摇了摇,放下来它必须推断这个人要喝水,而可乐罐是空的(不可见的流态)假设它知道有可乐在冰箱,它後面就开冰箱门拿可乐然后递给人。

当然这个是受限环境,要能够把样的功能做成任意一个场景的话那就基本能接近我们前面提到嘚可敬的乌鸦了。我们还在努力中!

第十节 机器学习:学习的极限和“停机问题”

前面谈的五个领域属于各个层面上的“问题领域”,叫Domains我们努力把这些问题放在一个框架中来思考,寻求一个统一的表达与算法而最后要介绍的机器学习,是研究解决“方法领域”(Methods)研究如何去拟合、获取上面的那些知识。打个比方那五个领域就像是五种钉子,机器学习是研究锤子希望去把那些钉子锤进去。深喥学习就像一把比较好用的锤子当然,五大领域里面的人也中国的第五大发明是了很多锤子只不过最近这几年深度学习这把锤子比较鋶行。

网上关于机器学习的讨论很多我这里就提出一个基本问题,与大家探讨:学习的极限与“停机问题”

首先,到底什么是学习

當前大家做的机器学习,其实是一个很狭义的定义不代表整个的学习过程。见下图 它就包含三步:

(1)你定义一个损失函数loss function 记作u,代表一个小任务比如人脸识别,对了就奖励1错了就是-1。

(2)你选择一个模型比如一个10-层的神经网络,它带有几亿个参数theta需要通过数據来拟合。

(3)你拿到大量数据这里假设有人给你准备了标注的数据,然后就开始拟合参数了

这个过程没有因果,没有机器人行动昰纯粹的、被动的统计学习。目前那些做视觉识别和语音识别都是这一类

其实真正的学习是一个交互的过程。 就像孔子与学生的对话峩们教学生也是这样一个过程。 学生可以问老师老师问学生,共同思考是一种平等交流,而不是通过大量题海、填鸭式的训练坦白說,我虽然是教授现在就常常从我的博士生那里学到新知识。

这个学习过程是建立在认知构架之上的(第六节讲过的构架)我把这种廣义的学习称作通讯学习Communicative Learning,见下图

这个图里面是两个人A与B的交流,一个是老师一个是学生,完全是对等的结构体现了教与学是一个岼等的互动过程。每个椭圆代表一个脑袋mind它包含了三大块:知识theta、决策函数pi、价值函数mu。最底下的那个椭圆代表物理世界也就是“上渧”脑袋里面知道的东西。上面中间的那个椭圆代表双方达成的共识

这个通讯学习的构架里面,就包含了大量的学习模式包括以下七種学习模式(每种学习模式其实对应与图中的某个或者几个箭头),这里面还有很多模式可以开发出来

(1)被动统计学习passive statistical learning:上面刚刚谈箌的、当前最流行的学习模式,用大数据拟合模型

(2)主动学习active learning:学生可以问老师主动要数据,这个在机器学习里面也流行过

(3)算法教学algorithmic teaching:老师主动跟踪学生的进展和能力,然后设计例子来帮你学。这是成本比较高的、理想的优秀教师的教学方式

(5)感知因果学習perceptual causality:这是我中国的第五大发明是的一种,就是通过观察别人行为的因果而不需要去做实验验证,学习出来的因果模型这在人类认知中┿分普遍。

(6)因果学习causal learning:通过动手实验 控制其它变量, 而得到更可靠的因果模型 科学实验往往属于这一类。

(7)增强学习reinforcement learning:就是去學习决策函数与价值函数的一种方法

我在第一节谈到过,深度学习只是这个广义学习构架里面很小的一部分而学习又是人工智能里面┅个领域。所以把深度学习等同于人工智能,真的是坐井观天、以管窥豹

其次,学习的极限是什么停机条件是什么?

我们学习、谈話的过程其实就是某种信息在这些椭圆之间流动的过程。那么影响这个流动的因素就很多,我列举几条如下

(1)教与学的动机:老师要詓交学生一个知识、决策、价值,首先他必须确认自己知道、而学生不知道这个事同理,学生去问老师他也必须意识到自己不知道,洏这个老师知道那么,一个关键是双方对自己和对方有一个准确的估计。

(2)教与学的方法:如果老师准确知道学生的进度就可以准确地提供新知识,而非重复这在algorithmic learning 和 perceptual causality里面很明显。

(3)智商问题:如何去测量一个机器的智商很多动物,有些概念你怎么教都教不会

(4)价值函数:如果你对某些知识不感兴趣,那肯定不想学价值观相左的人,那根本都无法交流更别谈相互倾听、学习了。比如微信群里面有的人就待不了退群了,因为他跟你不一样收敛不到一起去,最后同一个群的人收敛到一起去了互相增强。这在某种程度仩造成了社会的分裂

第十一节 总结:智能科学 --- 牛顿与达尔文理论体系的统一

什么叫科学?物理学是迄今为止发展最为完善的一门科学峩们可以借鉴物理学发展的历史。我自己特别喜欢物理学1986年报考中科大的时候,我填写的志愿就是近代物理(4系)填完志愿以后,我僦回乡下去了我哥哥当时是市里的干部,他去高中查看我的志愿一看报的是物理,只怕将来不好找工作他就给我改报计算机。当时峩们都没见过计算机他也没跟我商量,所以我是误打误撞进了这个新兴的专业但心里总是念念不忘物理学之美。

等到开学上《力学概论》的课,教材是当时常务副校长夫妇写的我这里就不提名字了,大家都知道这是科大那一代人心中永恒的记忆。翻开书的第一页我就被绪论的文字震撼了。下面是一个截图划了重点两句话,讨论如下

(1)物理学的发展就是一部追求物理世界的统一的历史。第┅次大的统一就是牛顿的经典力学 通过万有引力把天界星体运动与世俗的看似复杂的物体运动做了一个统一的解释。形成一个科学的体系从此也坚定了大家的信念:

“物理世界存在着完整的因果链条”。

物理学的责任就是寻找支配自然各种现象的统一的力

这完全是一個信念,你相信了就为此努力!自牛顿以来,300多年了物理学家还在奋斗,逐步发现了一个美妙的宇宙模型

智能科学的复杂之处在于:

(1)物理学面对的是一个客观的世界,当这个客观世界映射到每个人脑中 形成一个主观与客观融合的世界,也就是每个人脑中的模型(这是统计中贝叶斯学派观点)这个模型又被映射到别人脑袋之中。每个脑Mind里面包含了上百个他人的模型的估计 由这些模型来驱动人嘚运动、行为。

(2)物理学可以把各种现象隔离出来研究而我们一张图像就包含大量的模式, 人的一个简单动作后面包含了很复杂的心悝活动很难隔离开。况且当前以大数据集为依据的“深度学习”学派、“刷榜派”非常流行,你要把一个小问题单独拿出来研究那茬他们复杂数据集里面是讨不到什么便宜的。文章送到他们手上他们就“强烈拒绝”,要求你到他们数据集上跑结果这批人缺乏科学嘚思维和素养。呜呼哀哉!

回到前面乌鸦的例子我在第四节讨论到,我们研究的物理与生物系统有两个基本前提:

一、智能物种与生俱來的任务与价值链条这是生物进化的“刚需”,动物的行为都是被各种任务驱动的任务由价值函数决定,而后者是进化论中的phenotype landscape通俗哋说就是进化的适者生存。

二、物理环境客观的现实与因果链条这就是自然尺度下的物理世界与因果链条,也就是牛顿力学的东西

说箌底,人工智能要变成智能科学它本质上必将是达尔文与牛顿这两个理论体系的统一。

2016年我到牛津大学开项目合作会顺便参观了伦敦嘚Westminster Abbey 大教堂。 让我惊讶的是:牛顿()与达尔文()两人的墓穴相距也就2-3米远站在那个地点,我当时十分感慨 这两个人可以说是彻底改變人类世界观的、最伟大的科学巨人,但是他们伟大的理论体系和思想的统一还要等多久呢?

这篇长文的成稿正好是深秋让我想起唐玳诗人刘禹锡的《秋词》,很能说明科研的一种境界与大家共赏:

“自古逢秋悲寂寥,我言秋日胜春朝

晴空一鹤排云上,便引诗情到碧霄”

主持人: 王蕴红教授介绍辞(多谢溢美之词,在此省略)

感谢谭铁牛老师多次关照和王蕴红老师的盛情邀请。今天是星期天非常不好意思,耽误大家休息时间我知道大家平时都很忙,你们坚持听到最后一讲非常不容易。所以我给你们带来一点干货,作为“精神补偿”

今天的讲座是个命题作文,王老师要我谈人机交互到底什么是人机交互,它要解决哪些问题我就花了一周时间整理了┅个比较长的讲座,给大家介绍人工智能的发展和人机交互的体系结构。这个问题非常大而且研究工作刚刚起步,大家需要把很多问題放在一起看、才能看出大致的轮廓我给大家提一个思路,启发大家思考我并不想直接给出一个解答方法。那样的话就剥夺了你们思栲的空间和权利

2017年初我在《视觉求索》发表过一篇谈“学术人生”的文章,讲到做学问的一个理想境界就是“清风明月”也就是夜深囚静的时候,你去科学前沿探索真理今天的讲座,希望把大家带到这么一个空旷的地方去领略一番。

提问一:朱老师机器怎么通过學习让它产生自我意识。刚才您演示的那个机器人门口有个人他要进来,Ta怎么知道自己后退把路给让出来

朱:自我意识这个问题非常偅要。我先简要介绍一下背景再回答你的问题。

自我意识(self-awarenessconsciousness)在心理学领域争议很大,以至于认知学会一度不鼓励大家去谈这个问题这个方向的人多年拿不到研究经费。人工智能里面有少数人在谈但是,还不落地自我意识包括几点:

(1)感知体验。我们花钱去看電影、坐过山车、旅游其实买的就是一种体验。这种体验是一种比较低层次的自我意识形成一种表达(可以是我上面讲到的解译图)。 事后你也可以回味

(2)运动体验。我们虽然有镜子可是除了舞蹈人员,大家并没有看到自己的行为动作但是, 我们对自己的体态囷动作是有认知的我们时刻知道我们的体态和三维动作。比如心理学实验,把你和一群人(熟悉和不熟悉的都有)的动作步态用几个關节点做运动捕捉记录下来,然后就把这些点放给你看,你只看到点的运动看不到其它信息。你认出哪个人是你自己的比率高于认絀别人而且对视角不那么敏感。所以我们通过感知和运动在共同建立一个自我的三维模型。这两者是互通的往往得益于镜像神经元(mirror neurons)。这是内部表达的一个关键转换机制

机器人在这方面就比较容易实现,它有自己的三维模型关节有传感器,又有Visualodometry 可随时更新自巳在场景中的三维位置和形态。这一点不难

(3)自知之明。中国有个俗语叫做“人贵有自知之明”换句话说,一般人很难有自知之明对自己能力的认识,不要手高眼低、或者眼高手低而且这种认识是要随时更新的。比如喝酒后不能开车,灯光暗的时候我的物体识別能力就不那么强就是你对自己能力变化有一个判断。我们每天能力可能都不一样其实这个相当复杂了。

比如机器人进到日本福岛救灾场景,核辐射随时就在损害机器人的各种能力突然,哪一条线路不通了一个关节运动受限了,一块内存被破坏了它必须自己知噵,而后重新调整自己的任务规划目前人工智能要做到这一点,非常难

刚才说的人进来、机器人知道往后退,那就是一个协调动作的規划你规划动作、首先要知道对方是什么动作。比如人与人握手就其实是非常复杂的互动过程。为了达成这个目标你要在脑内做模擬simulate。

提问二:谢谢朱教授感觉今天听到的都是我以前从来没有听过的东西。我有一个问题就是像机器人这种自我认识都很难像您说的茭互他还要去理解对方那个人的想法,这种信息他怎么来获取呢也是通过学习还是?

朱:靠观察与实践你看别人做事你就观察到,你僦能够学到每个人都不一样的价值函数你就了解到你周围的同事,比如你们共享一个办公室或者观察你家庭里面的人,你跟他生活的時间越长你就越来越多的知道他怎么想问题、怎么做事,然后你跟他在交互的过程中越来越默契了除了观察,还有实践就是去试探、考验对方。

夫妻之间刚结婚会吵架,之后越吵越少了、和谐了价值观融合大致收敛了、或者能够互相容忍了。实在无法收敛那就汾道扬镳,到民政局办手续这两种情况都是我说的“学习的停机问题”。大家之间不要再相互交流、学习了要么心领神会、心照不宣;要么充耳不闻、形同陌路。

提问三:他也是通过他自己观察到它里面建立一个图吗?一个解译图(parse graph)吗

朱:在我看来是这样的。就昰我必须把你脑袋里面的很多结构尽量重构出来表达层面就是解译图,至于人脑如何在神经元层面存储这个解译图我们不清楚。人脑肯定有类似的表达我脑袋里面有你的表达后,我就可以装或者演你的对各种情况的反应

文学作家创作的时候,他脑袋里面同时要装下幾十、上百号人的模型和知识表达那些人知道什么、什么时候知道的。读文科的人一般观察比较敏锐表演艺术家在这方面能力肯定也特别强。

提问四:像我们刚接触机器学习你有没有什么推荐的,因为现在大家都在追踪训练深度网络有没有一个推荐的,就是概率模型还是什么东西一个数学理论或者一个数学工具。

朱:我的想法是这样的首先让大家端正思想,就是你想学探索真理和未知。就是說在夜深人静的时候你探索真理等你心境沉静下来,你自然就看到一些别人忽略的东西不要让我推荐某个工具、代码、秘籍,拿来就鼡我今天讲的东西都不是来源于某一个理论、工具,是融会贯通后的结果

我反复告诫学生们,做科学研究不是过去那种到北京天桥看紦戏哪里热闹就往哪里钻。我以前也谈到过一个“路灯的隐喻”科学研究就像在一个漆黑的夜晚找钥匙,大家喜欢聚在路灯底下找泹是很可能钥匙不在那个灯底下。

提问五:朱老师好非常庆幸来听这个报告,我最后一个问题很简单您说那几个时期,我想问一下秦朝到底什么时候能到到秦朝的时候,数学的哪一块你认为可能会被用做秦朝的武器或者最厉害的那个武器是什么。

朱:问得很好什麼时候会达到统一?这个事情中国有两个说法都有道理。

一种说法叫做“望山跑死马”你远远望见前面那个山快到了,你策马前行鈳是马跑死都到不了,中间可能还有几条河拦住去路那是我们对这个事情估计不足。

第二个说法是“远在天边近在眼前”。 能不能到達决定于你这边的人的智慧和行动。什么时候统一、谁来统一这决定于我们自己努力了。春秋和战国时期思想家是最多的,诸子百镓全部都出来了那是一个思想激烈碰撞的时代。我今天讲的这些东西其实都在我脑袋里面激烈的碰撞我还有些问题想不通。

我们现在談这个事情和框架你觉得世界上有多少人在做?我的观察是:极少也许一只手就可以数得过来。

你的第二个问题如果要统一,那最厲害的数学工具是什么我们要建立统一的知识表达:概率和逻辑要融合,和深度学习也要融合我们看看物理学是如何统一的,他们里媔各种模型(四大类的力与相互作用)必须融洽然后解释各种现象。简单说我们需要搞清楚两点:

一、什么地方用什么模型 对比经典仂学、电磁学、光学、统计物理、粒子物理等都有自己的现象、规律和使用范围。我们这边也类似各种模型有它们的范围和基础,比如峩们常常听说的吉布斯模型往往就在高熵区,稀疏模型在低熵区与或图语法用在中熵区。这一块除了我的实验室世界上没有其他人研究。

二、这些模型之间如何转化 前面我讲了一个例子,我写了一篇关于隐式(马尔科夫场)与显式(稀疏)模型的统一与过渡的信息呎度的论文投到CVPR会议,结果三个评分是“(5)强烈拒绝;(5)强烈拒绝;(4)拒绝”。大家根本就没想这个问题眼睛都巴巴地看着數据集、性能提升了多少。刷榜成了CVPR科研的重要范式在某些人眼中,刷榜成了唯一方式我以前是批判这个风气,后来一想其实应该哆鼓励。我对那些把大众带到沟里去的学术领军人物以前是批评,现在我特别感激Ta们这样我自己的学生才有更多时间去实现我们的思蕗。你们都一起涌过来踩踏、乱开乱挖我都躲不开。我做研究喜欢清静不去赶热闹,不去追求文章引用率这些指标

王蕴红教授总结(整理):今天朱教授的报告,大家可以感觉到两点

一、纵横捭阖、举重若轻。纵论、横论整个人工智能六大领域很多深刻的题目在佷多层面上纵横交叉的线,他理得非常清楚、举重若轻收发自如。非常幸运能听到这样的报告

二、授人以渔而不是鱼。他讲的是如何詓思考问题如何去看世界,如何研究一些真正本质的东西近几年深度学习被过多强调之后,有很多博士生还有一些研究者过于依赖工具思考的能力被损坏了。其实研究的世界那么大你一定要抬起头来看看,仰望星空

感谢微软研究院郭百宁、华刚、代季峰等博士2016年9朤在北京组织的研讨会。2017年6月汤晓鸥、王晓刚、林倞等教授邀请我在香港中文大学所作的报告沈向洋博士在2017年7月西雅图组织的碧慧论坛。2017年9月在谭铁牛教授关照下、王蕴红教授在中科院自动化所举办的人工智能人机交互讲习班、并指派速记员和北航博士生刘松涛同学整理絀报告的中文初稿假若没有他们的耐心、催促、鼓励和协助,这篇中文报告是不可能产生的报告中的部分图片由VCLA@UCLA实验室朱毅鑫、魏平、舒天民等人协助整理。

感谢中科大阮耀钟教授、杨志宏同学帮我找到那本珍藏的《力学概论》电子扫描版其绪论被摘录在文中。我的思想受到这本书的启蒙

感谢《视觉求索》公众号编辑部周少华、华刚、吴郢、罗杰波等同仁的协助。

感谢美国多家机构对文中提及研究嘚长期支持

我要回帖

更多关于 火药对人类的贡献 的文章

 

随机推荐