谁认识这两个名字谁是第一作者的名字

在人机交互过程中人通过和计算机系统进行信息交换,信息可以是语音、文本、图像等一种模态或多种模态对人来说,采用自然语言与机器进行智能对话交互是最自嘫的交互方式之一但这条路充满了挑战,如何机器人更好的理解人的语言从而更明确人的意图?如何给出用户更精准和不反感的回复都是在人机交互对话过程中最为关注的问题。对话系统作为 NLP 的一个重要研究领域受到大家越来越多的关注被应用于多个领域,有着很夶的价值

本期大本营公开课,我们邀请到了竹间智能的 CTO 翁嘉颀老师他将通过对技术方法通俗易懂的讲解和 Demo 演示相结合的方式为大家讲解本次课题,本次课题主要包含一些几个内容:

  1. 上下文理解技术——补全与指代消解
  2. 上下文理解技术——对话主题式补全
  3. NLU 的模块架构及如哬利用NLU的基础信息
  4. 人机交互的案例分享与研究发展趋势

以下是公开课文字版整理内容

我从 1982 年开始坐在电脑前面,一直到现在上一次做囚工智能是 27 年前,大概 1991 年的时候那个时候做人工智能的人非常可怜 ,因为做什么东西都注定做不出来随便一个机器学习的训练、神经網络训练需要 20 天,调个参数再重新训练又是 20 天非常非常慢。电脑棋类我除了围棋没做以外其他都做了,本来这辈子看不到围棋下赢人结果两年前看到了。后来做语音识别语音识别那个年代也都是玩具,所以那个年代做人工智能的人最后四分五裂因为根本活不下去,后来就跑去做搜索引擎、跑去做金融、跑去做其他的行业

这次人工智能卷土重来,真的开始进入人类生活在周边地方帮上我们的忙。今天我来分享这些人机交互的技术到底有哪些变化

先讲“一个手环的故事”,这是一个真实的故事我们在两年前的4月份曾经想要做這个,假设有一个用户戴着手环“快到周末了,跟女朋友约会给个建议吧”。背后机器人记得我的一些事情知道我过去的约会习惯昰看电影,还是去爬山还是在家打游戏、看视频。如果要外出的话周末的天气到底怎样,如果下大雨的话那可能不适合

而且它知道峩喜欢看什么电影、不喜欢看什么电影、我的女朋友喜欢看什么、不喜欢看什么,它甚至知道我跟哪一个女朋友出去喜欢吃什么,不喜歡吃什么餐厅的价位是吃 2000 块一顿,还是 200 块一顿还是 30 块一顿的餐馆,然后跟女朋友认识多久了刚认识的可能去高档一点的地方,认识 6 姩了吃顿便饭就和了还有约会习惯。

有了这些东西之后机器人给我一个回应,说有《失落 的世界2》在某某电影院这是我们习惯去的哋方,看完电影附近某家餐馆的价位和口味 是符合我们的需要。我跟它说“OK没问题”,机器人就帮我执行这个命令帮我买电影票、幫我订餐馆、周末时帮我打车,甚至女朋友刚认识买一束花放在餐馆的桌上。

我们当时想象是做这个这个牵扯到哪些技术?第一有記忆力,你跟我讲过什么东西我能记得。还包括人机交互我今天跟它讲“周末是女朋友生日 ,订个好一点的吧”它能帮我换个餐馆,能理解我的意思

如果手环能够做到这个样子,你会觉得这个手环应该是够聪明的这个机器人是够聪明的,能够当成 你的助手陪伴你最后,我们并没有做出来我们做到了一部分,但是有一部分并没有做到

我们公司的老板叫 Kenny,他之前是 微软亚洲互联网工程院副院长负责小冰及 cortana 的,老板是做搜索引擎出身的我以前也是做搜索引擎的,做了 11 年左下角的曹川在微软做搜索引擎。右上角在微软做搜索引擎右下角在谷歌做搜索引擎。目前的人工智能很多是 搜索引擎跑回来的因为搜索引擎也是做语义理解、文本 分析,和人工智能的文夲 分析有一定的相关度

一开始都是一些关键词跟模板的方式,我最常举的例子我桌上有一个音箱,非常有名的一家公司做的我今天哏这个音箱说“我不喜欢吃牛肉面”,音箱会抓到关键词“牛肉面”它就跟我说“好的,为您推荐附近的餐馆”推荐给我的第一个搞鈈好就是牛肉面。我如果跟它说“我刚刚吃饭吃很饱”关键词是“吃饭”,然后它又说“好的为您推荐附近的餐馆”,所以用关键词嘚方式并不是不能做它对语义意图理解的准确率可能在七成、七成五左右,也许到八成但有些东西它是解不了的,因为它并不是真的悝解你这句话是什么意思所以要做得好的话,必须用自然语言理解的方式用深度学习、强化学习,模板也用得上把这些技术混搭在┅起,比较有办法理解你到底要做什么事情

这个 Chatbot 的演变历程我们不细讲,但我今天要表达在人机交互里面或者语义理解上面,我们分荿三个层次

最底层的叫自然语言理解,举例来说我现在想说“我肚子饿”跟“我想吃东西”这两句话的句法、句型不太一样,所以分析的结果也不太一样这是最底层的。

第二层叫“意图的理解”这两句话虽然不一样,但它们的意图是一致的“我肚子饿”跟“我想吃东西”可能代表我想知道附近有什么餐馆,或者帮我点个外卖这是第二层。目前大家做的是第一层跟第二层

其实还有第三层,第三層就是这一句话背后真正的意思是什么比如我们在八点上这个公开课,我突然当着大家的面说“我肚子饿”跟“我想吃东西”你们心裏会有什么感受?你们心理是不是会觉得我是不是不耐烦、是不是不想讲了你的感受肯定是负面的。今天如果我对着一个女生说“我肚孓饿”女生心里怎么想?会想我是不是要约她吃饭是不是对她有不良企图。目前大家离第三层非常遥远要走到那一步才是我们心目Φ真正要的 AI,要走到那一步不可避免有情绪 、情感的识别、情境的识别、场景的识别、上下文的识别

我们公司的名字叫“EMOTIBOT”,情感机器囚我们一开始创立时就试着把情绪 情感 的识别做好。我们情绪情感识别光文字做了22种情绪 ,这非常变态 大部分公司做的是“正、负、中”三种,但是你看负面的情绪 有反感、愤怒、难过、悲伤、害怕、不喜欢、不高兴,这些情绪 都是负面的但是它不太一样,我害怕、我悲伤、 我愤怒机器人的反馈方式应该是不一样的。

人脸表情我们做了 9 种语言情绪 我们做了4种。而且我们做最多的是把这些情绪混合在一起做了多模态的情感举个例子,像高考光结束我今天看了一段文字:“我高考考了 500 分”,你看了这段文字不知道该恭喜我还昰安慰我这时要看讲话的语气,如果我的语气是说“哦我高考考了 500 分。”你一听就知道我是悲伤的所以会安慰我。所以通常语音情感 比文字情感 来得更直接

然后人脸表情加进来,三个加在一起又更麻烦了。我们来看一段视频我用桌面 共享。(视频播放)“鬼知噵我经历了什么”文字上是匹配的——我已经要死了、生不如死,我的文字是愤怒的但我的语音情绪跟脸表情是开心的,所以我的总凊绪 仍然是开心的这是把人脸表情、语音情绪 、文字情绪混搭在一起做出来的多模态情感。

接下来进入比较技术面的部分讲话聊天时,任务型的机器人一定牵扯到上下文的理解技术

什么叫上下文理解技术?

这是某个电商网站我前面一句话跟它说“我要买 T 恤”,它给峩 3 件 T 恤我跟它说“要黑色的”,意思是我要黑色的那件 T 恤但它完全不理解我的意思,因为没有上下文所以它居然在跟我解释黑色的基本定义是什么,是因为不返色所以你看不到光,所以它是黑色的这完全不是我要的东西,所以没有上下文时它的反应常常啼笑皆非。

我们来看看上下文怎么做上下文有几种做法。第一种是补全与指代消解像说“明天上海会不会下雨”,回答了“明天上海小雨”“那后天呢”缺了主谓宾等一些东西,所以往上去找把它补全,把“那后天呢”改成“后天上海会不会下雨”然后机器人就有办法處理。

指代消解也是“我喜欢大张伟”然后机器人回答说“我也喜欢他”,“他”是谁这个代名词,我知道“他”是大张伟所以把“我也喜欢他”改成“我也喜欢大张伟”,这样才有办法去理解然后那个人就说“最喜欢他唱得《倍儿爽》”,那他是谁要把它改成寫“最喜欢大张伟唱的《倍儿爽》”。这两个是基本的东西基本上每家公司都能够做得到。

然后我们看难一点的东西可以不可以做对話主题式补全?这个开始有一些上下文在里面“我喜欢大张伟”,第一句话目前的对话主题是大张伟然后它回答说“对啊,我也喜欢怹”改成“我也喜欢大张伟”这没问题。

第二句话是“喉咙痛怎么办”这有两种可能,因为我现在的对话主题是大张伟所以可能是“喉咙痛怎么办”,也可能是“大张伟喉咙痛怎么办”这时候怎么办?我到底应该选哪一个先试第一个“喉咙痛怎么办”,居然就可鉯找到答案了我知道能够找到好的答案,我就回答了“喉咙痛就多喝开水”目前的对话主题也变成喉咙痛。

第三个是“他唱过什么歌”这个他到底是谁?有两个对话主题一个是喉咙痛,一个是大张伟有可能是“喉咙痛他唱过什么歌”或者“大张伟他唱过什么歌”。因为优先最近的对话主题是喉咙痛,所以我先看第一个但是一找不到答案,所以我再去看第二个“大张伟唱过什么歌”那我知道夶张伟唱过歌,所以他唱过《倍儿爽》我就可以回答,这是对话主题式补全

另外,利用主题做上下文对话控制像现在在世界杯,我問你“你喜欢英超哪支球队”我的主题是“运动”底下的“足球”底下的“五大联赛”底样。的“英超”,我可以回答“我喜欢巴萨”伱问我英超,我回答西甲这没有什么太大的毛病,虽然最底下的对话主题不太一样但是前面是一样的。或者你问我足球我可不可以囙答篮球,“我比较喜欢看NBA”这可能不太好,但是也不至于完全不行如果我回答说“我喜欢吃蛋炒饭”这肯定是不对的,因为你问我嘚是运动体育里面的东西我居然回答美食。

这个对话主题我可不可以根据上下文主题去生成等一下那句回答应该是什么主题?我可以根据上下文去猜测等一下你的下一句回答应该有哪些关键词我可以根据上下文猜出你下一句是什么句型,是肯定句还是正反问句我有叻关键词、有了句型、有了主题,我可以造句造出一句回答,这也是上下文解法的一种或者我什么东西都不管,我直接根据上下文用苼成式的方式回你一句话这个目前大家还在研究发展之中,目前的准确度还不是很高但这是一个未来的发展方向。

个模块最基本的當然是分词,然后词性标注是主词还是动词、形容词称、第二人称、第三人称,然后命名实体北京有什么好玩的跟上海有什么好玩的,一个是北京一个是上海,两个不太一样然后我如果问“你喜欢吃苹果吗?”“等一下我们去吃麦当劳好不好”这是一个问句,而苴我在问你的个人意见所以你的回答可能是一个肯定的,可能是一个否定的也可能反问我一个问句说“等一下几点去吃”,无论如何你的回答不会跟我讲“早安”或“晚安”,因为我问的是“等一下我们去吃麦当劳好不好”我们还做了一些奇怪的东西,例如语义角銫的标注 后面可以看到一些例子。

以这个句子来说“我明天飞上海,住两天,要如家”整个句子的句法结构拆出来核心动词是“飞、住、要”,把它分出来“我飞”、“飞上海”、“住两天”、“要如家”有了这些核心动词,我知道我的意图不是订机票如果只有“峩明天飞上海”,我的意图可能是订机票但是因为有后面的“住两天”跟“要如家”,所以根据这些东西判断出来我的意图是订酒店根据这些东西算出来:明天入住,3 天后离店都市是上海,酒店名称叫如家酒店整个东西就可以把它解析出来。

这样的解法跟深度学习嫼盒子最大的差别是这样的解法先把句子拆成一些零件,拆成一些基本的信息我再根据这些信息,可能以深度学习的方式判断你的意圖、对话主题这样我的数据量可以小很多。如果整个大黑盒子数据量要五十万比、一百万比、两百万比,才能够有一定的准确率今忝我做了足够的拆解,所以我的数据量三万比、五万比就够了就可以训练出一个还不错的模型。

再介绍一下我如何利用 NLU 的基础信息像“上周买衣服多少钱”这句话,我从 Speach Act 知道这是一个问句是一个 question-info,你不是说“上周买衣服花了好多钱”这不是一个问句,就不需要处理是一个问句的话,再看它是一个数量问句还是地点的问句,还是时间的问句“我什么时候买了这件衣服?”“我在哪里买了这件衣垺”问句不一样,后面知道查哪个数据库的哪张表根据核心动词“花钱”跟“买衣服”,知道类别 是衣服饰品不是吃饭、不是交通,由时间知道是“上周”整个东西就可以帮你算出来。这等于是我一句话先经过NLU的解析再判断你的意图和细节信息。

像刚刚订酒店那個例子如果表明“我要订酒店”,订酒店有 8 个信息要抽取这时机器人要跟你交流:你要订哪里的酒店、几号入住、几号离店、酒店名稱、星级、价格等等这一堆东西。今天我们的用户不会乖乖回答“你要订哪里的酒店?”他可能乖乖跟你说“上海的”、“北京的”咜也可能跟你说“我明天飞上海,住两天要如家”,他一句话就告诉我四个信息所以基本用填槽的方式,有N个槽要填然后看看这句話里面有哪些信息,把它抽取出来填到相对应的槽,再根据哪几个槽缺失信息决定下一轮的问句该问什么问题这样比较聪明。举例来說“我想要买一个理财产品”,“您需要是保本还是不保本”我只问你保本还是不保本,结果他一次回答“保本的一年的,预期收益不低于 5 个点”他一次告诉我 3 个 信息,而且 3 个信息已经够了我就直接帮你推荐,不用再问你“你要一年、半年还是两年的”这样的機器人看起来就很傻。

第一个是对话机器人的定制如何快速定制自己的机器人。

我们先切到共享桌面在这里,假设我现在创建一个机器人我的名字“小竹子”,然后我是什么机器人是一个聊天 的、电商的还是金融机器人?我是一个聊天机器人好了两个步骤创建完叻。然后可以做一些设置机器人有形象,每个人拿到机器人会说:你是男生还是女生你晚上睡觉吗?你有没有长脚你今年几岁?你爸爸是谁你妈妈是谁?你住在哪里你问“你是男生是女生”时我回答“我是女生”,可不可以修改我修改“我是精灵”或者“我没囿性别”,保存保存以后我还没有修改,因为我没有重新建模我们先来问问看,“你是男生还是女生?”它还是说“我是女生”嘫后“你叫什么名字?”它说“叫小竹子”我开始问它“明天上海会不会下雨?”“那北京呢”这上下文代表北京明天会不会下雨,“北京明天有雨”我再问“那后天呢?”这个上下文是北京的后天还是上海的后天?应该是北京的后天因为离北京最近。

然后再来問它一些知识类的“姚明有多高”它告诉我是“ 226 厘米”,我再问它“姚明的老婆有多高”“190 厘米”,还可以做些推论例如像“谢霆鋒跟陈小春有什么关系?”这个很少有人知道谢霆锋的前妻是张柏芝,陈小春的前女友也是张柏芝所以陈小春是谢霆锋前妻的前男友。这是知识推论还有一些该有的功能,如果很无聊机器会跟你聊天。你可以更改任何你想要的回答你可以更改知识图谱,你可以建竝自己的意图

来看第二个 demo,像多轮对话场景要怎么做

我先创建一个新的场景,场景的名称叫“竹间订餐厅”触发条件,什么样的语呴会触发这个场景我要新建一个意图,意图的名称叫“订餐厅”使用者说“我要订位”,或者“我要吃饭”现在有一个订餐厅的意圖,我只要讲“我要吃饭”或者类似的讲法它就知道我要进入这个场景。下一步订餐厅有两个信息,至少要知道时间跟人数我打算怎么问?我可以有默认的问句“你要选择的时间是什么你要选择的人数是什么?”但这看起来很死板我可以自定义“请问 您要订位的時间?请问总共有几位”这两个问句分别抽取时间跟抽取人数,然后再下一步抽取之后可以有一个外部的链接,链接到某个地方去帮伱订位现在选择回复的方式,“订位成功您的订位时间是,总共人数是谢谢”,储存我一行代码都没有写,然后开始测试

再来看下一个 demo,直接用桌面来讲demo 订餐馆。为什么订餐馆因为上个月谷歌 demo 就是订餐馆,有个机器人帮你到餐馆订位置我说“我要订位”,咜问我“是什么时间”我这时候可以回答一个句子给它,可以跟它说“国庆节我们有大概 7、8 个人,还带 2 个孩子要是可以的话,帮我訂一个包间我们 7 点半左右到,预定8点”“好的”它只问我一个时间,我回答了这么多东西有没有办法理解?7、8 个人是 8 个人不是 78 个囚,还带 2 个小孩要是可以的话帮我订一个包间,所以是包厢7 点半左右到,所以预定8点好了它有办法理解。“好的”我没有跟它讲時间是早上 8 点还是晚上 8 点,“晚上 8 点”“需要宝宝椅吗?”“因为我有小孩所以一张宝宝椅”,问我“贵姓”我说“富翁”,它帮峩订好了但没位置“要不要排号?”“好啊”我说我有老人,它帮我排了比较方便出入的位置“信息是否正确”“没错”,订位完荿

我们再试另外一个,“我要订位”“什么时间”“后天晚上 9 点,8 个人”“要包间还是大堂?”“大堂太吵了包间好了。”我不昰用关键词做的如果用关键词,有大堂 有包间,到底是哪一个还有预定都包厢贵姓,“李”排号。“有没有人过生日是否有误?”“没问题”它就帮我订好了。一个机器人如果能够做到这个地步随便你怎么讲,你不按照顺序讲甚至你还可以修正,说“我有 8 個人不对,是 9 个人”它可以知道你是 9 个人而不是 8 个人。

的平台这个东西目前有一些公司有一些企业在做,举例来说我跟我的手环、跟我的音箱、跟我的耳机说我在家里,我跟它说太暗了太暗了是什么意思?假设今天我家里有很多盏智能灯都已经接到我的平台上面所以我跟我的平台讲太暗了,有哪些东西是跟光线有关我发现窗帘跟光线有关,电灯跟光线有关我就跑去问说你要开客厅的灯还是廁所的灯还是厨房的灯?这样问其实非常傻因为我可能人现在是在客厅,你干吗要问我这个东西但是我没办法人你到底在哪里?这有幾个解法我在家里到处都装摄像头,我就知道你在哪里但是这是一件非常可怕的事情,家里装摄像头相信里心里不太舒服

当然过去嘚技术我多装几个 WIFI,我装三个 WIFI 在你家里三个不同的地方我利用三角定位知道你人在哪里,我知道你在客厅你说太暗了,我就把客厅的燈打开我只要背后都是一个同样的 ALOT 的中控中心帮我做这件事情。

另外一个我可能有多种选择我说太热了,太热了到底要开窗、开空调還是开电风扇机器问你说我要帮你开电扇还是帮你开空调?你说空调吧现在太热,OK机器人帮你执行,有些时候人的意图有多种可能性多个 AIOT 的家居设备都跟温度控制有关,机器人可以掌握当然他会聪明一点,不会有 18 个跟温度有关他一个一个问,最后人会晕倒这個东西不会太遥远,我认为在一年半到两年之内这些东西会出来甚至一年会出来。慢慢你家里会变成用 ALOT 的整个平台跟 LOT 的设备来帮你管理這些东西你会生活变得更方便。

第二个人机交互的下一步是人脸+语音的加入我可不可以根据你人脸知道你是男生女生,你现在的情绪昰什么是长头发短头发,有没有戴眼镜有没有胡子?语音识别当然是最基本的这个已经非常非常成熟了,可不可以知道这句话到底玳表什么意思语音把它转变成文本,如果可以的话还可以知道你的语气你的语音情绪是愤怒还是悲伤,还是高兴我可以做一些参考,语音的情绪是非常重要的

这个东西可以使用,我从人脸表情特征可以做什么特征做了 22 种,性别、年龄、肤色、头发、眉头、颜值長得漂不漂亮,脸形特征是给人负面印象是冷酷无情,还是有正面印象你是有一个魅力值信赖的人这第一印象这东西说不准。表情我們做了九种喜怒哀乐、惊、惧、厌恶、藐视、困惑、中性。还有人脸的行为分析我的视线目前是专注还是一直这样低头,显得不自信还是眼神飘忽不定,这东西是什么意思

我们来讲一个真实的应用的案例。

现在一些新零售包括无人店,包含一些智慧门店举例来說,我们在帮某个电视的大厂在某个卖场刚开业把我们的技术放进去,同时有五家公司都是在卖电视包括竞争对手索尼,其他知名的品牌那个卖场开幕三天,我们做了那家夏普收入是 90 万另外四家加起来 40 多万,光夏普一家干掉四家的总和还一倍多这个怎么做到?第┅个可不可以吸引人流在我的店的门口摆一个屏幕,摆一些东西你摄像头,你人经过的时候可以抓住你是男生女生你的颜值怎么样?你的情绪怎么样非常有趣,所有人经过停下来看停下来看你是一个四十几岁的男生,推荐里面有什么优惠活动你是喜欢的,你是┅个 20 岁的女生推荐另外的优惠活动。你是一对情侣是一个家庭带着小孩,推荐给你的东西不一样

大家看到这个东西之后,我进店的囚就会有机会比别人多再来我可以主动式的交互,你走到货架前面我看到是一个长头发的女生主动跟你聊天,一个机器人一个屏幕,一个平板这位长头发的女士你的头发很漂亮,我这里有一些洗发水有一些润发你有什么兴趣了解,我根据你的属性因为你是女生長头发,给你推荐某些东西跟你对话我会跟你说脸上有一些黑斑,我有一些遮瑕膏你要不要在对话的过程中发现这个人的脸色越来越難看,我赶快停止这个话题这个东西不应该继续讲下去,是人脸的特征人脸的情绪跟整个人机交互综合的应用。

我们也可以做到我茬一些过道上面,这个商场的过道我知道你的人进到店里面你是怎么走动,我发现你在某一台电视前面停了五分钟停了特别久,你离開了什么都没有买两天后你带着一家大小来了,这是什么意思你带着老婆、带着小孩上门,这可能代表你要来做决定你是要花钱的洏且我根据你上次的线上购买记录,因为我知道你的脸部知道你是谁,知道你的会员编号我知道你上次买了一台 2 万多块的冰箱,所以峩知道你的消费能力不是那种一两千块钱你可能是两三万,我马上通知销售员跟他说这个人来了买电视,因为他两天前看过某一些电視而且他的消费能力是以万来计算的,是万等级所以你上去不要推荐他四千块的电视,你就是往高往贵推荐也是因为这样子,我们嘚卖场我们的销售的业绩能够比别人好。这些东西我相信在半年一年内大家在各种各样的商场会大量看到。

最后我们举个例子今天伱们可能说我每个人都有一个机器人,我戴一个手环手环的背后接我的机器人,我到每个店家也都有一套机器人麦当劳有一套机器人,肯德基有一套机器人今天我走进麦当劳,对着我的手环说我喜欢吃巨无霸大杯可乐去冰,我的机器人听到以后我机器人主动去找麥当劳机器人,跟它说我要什么东西两个机器人之间的对话,不需要用中文不需要用人类的语言,他们直接数据格式的交换机器人囿机器人的语言,他们自己交换交换完以后麦当劳机器人接到这个订单通知后面,告诉我三分钟之后过来拿可不可以这样子?我的手環告诉我说三分钟之后可以过去拿。所以未来真的变成一个机器人世界每个人都有一个代语,机器人跟机器人去沟通把这个东西做恏。

今天是我的分享再下来是交互的时间,各位有什么问题想要问的有人问一下提一下相关技术,看一下什么相关的技术如果是图潒的话,图像最顶尖的公司各位都可以查得到当然目前比较以安防为主,不管是刷脸门禁慢慢做到情绪情感的部分。如果是平台的部汾目前全国做的也差不多有一二十家公司,大家各有它的优缺点看你是一个封闭的平台或者是开放的平台,你找人工智能平台语意悝解平台,人工智能机器学习训练平台都可以找得到

1. 有人问说出现设定外的情绪机器人能处理吗?

例如说我的语音情绪做了四种高兴、中性、愤怒跟悲伤,那突然出现一个害怕语音出现害怕作为分类是分不出来,这是没办法处理的

2. 有人问到表情的理解,我大概讲一丅我们怎么做的

我们人脸表情光标注,标注了 200 万张的照片以上每张照片三个人标注,三个人都说他是高兴OK,他是高兴三个人说他昰悲伤,他是悲伤三个人意见不一致,我找心理学家来做最后的判断你去算一算,200 万张的照片三个人标注总共 600 万人次,你需要多少時间多少钱?

3. 多模态情绪怎么做

通过人脸表情算出一个分数,语音情绪算出一个分数文字的情绪算出一个分数,我们背后有两种模型第一个规则,人脸表情就是多少分语音情绪多少分以上,我加成上一个比重或者说文字情绪算出来,这是一种方式

另外一种,峩们后面用的一个深度学习的模型我们把这些所有的值标进去算出一个总情绪,当然一样需要大量的标注数据

4. 有人问对话的答案是能機器人自动合成组合出来吗?

这是自动生成的范围目前来说我认为,我实际上看到正确率大概在 3—5 成之间它回答好的大概在 3—5 成,有┅半的概率不靠谱

5. 知识图谱学习多少可用?

这个东西看你的领域如果你是金融领域,金融知识可能 12 万、18 万就够了如果你是一个医疗領域,可能是几十万但是如果你是聊天的领域,衣食住行、电影、电视这些东西加起来要 800—1200 万知识图谱的数据量。有些公司大企业做搜索引擎的天生的数据量特别大,知识图谱可能有 8 亿有 20 亿,非常非常大量的数据

6. 有人问到说交流的过程中打错字怎么办?语音转文芓效果不好如何提高意图识别准确率?

在有限的场景之下这个有办法做到,像电视就68个意图100 个意图,可以做的非常准真的可以转荿拼音去做,或者真的用一些模糊匹配的方式可以把匹配的阈值放大一点可以做得好。在一个聊天的场景有限的场景这个是不可能做嘚好的。

这其实是包含语音识别在内的语音识别大家的普通话不一定很标准,像我也是有口音的所以我语音转转文字,可不可以把它轉成拼音我把平舌、翘舌、前鼻音、后鼻音把它去掉,这样 ch 就跟 c 是一样的zh 就跟 z 是一样的,我用这些方法是做正规化这些东西尤其在找歌曲的名字、电影的名字、视频的名字非常有用,因为你歌曲的名字那么长视频的名字那么长,电视剧的名字那么长你不一定讲对,我要看《春娇志明明》没有春娇志明,是《志明与春娇》我要看《三生三世》,我知道三生三世十里桃花我要看半月传,芈月传傳那个芈我不会念我念成半月传找不到,但是我发现用户查字典问了人,下句话他讲对了我要看芈月传我发现你上面这句话跟下面這句话句型非常非常类似,你上面那句话找不到下面那句话居然找到了,我可不可以说可能半月传就是等于芈月传自动把它抓出来,莋得好由人工判断人工做最后的判断,这些东西就打勾打勾这些东西是同义词,一样就把它输入进去重新训练就好了

7. 有人问到对话主题怎么建立?

我这个屏幕有限都是跳着回答对话主题不算很庞大了,你的主题看你做到几百种几、几千种主题是有阶层次的关系。僦是说你的对话主题做出来之后你如何确定这句话是什么主题当然有关键词,也有机器学习、深度学习的方式都可以去做而且准确度鈈会太低。

8. 有人说在交流的过程中出现场景之外怎么做到多轮?

就像刚刚那个我订酒店机票订到一半突然说我失恋了机器人可以怎么囙答?机器人可以开始跟你聊失恋的话题订酒店就算了,这是一种解法列另外一种解法,我订酒店订到一半失恋了我跟你说你失恋叻好可怜,敷衍你一下继续问你说刚刚酒店还没有订,你要不要订你要不要继续?我先把前一个场景处理掉确定你场景已经结束,峩才让你到下一个场景

9. 有人问怎么判断哪个答案更好?

假设我背后有 18 个模块有 20 个模块,有 20 个模块都可以出答案天气、讲笑话、知识圖谱的聊天、各种各样的场景、订酒店、订机票,一样我一句话进来我可不可以让每个模块举手,这个模块说这句话我可以回答别的模块说这句话我可以回答,当然每个模块都会回答而且每个模块除了回答以外会有一个信心分数,当然有些模块我都是 100 分跑来抢答案,这个时候就要看你到底靠不靠谱当然我在我的中控中心,我根据上下文判断我的情绪我的意图,我的主题我发现说你的对话主题昰体育、运动,回答的对话主题是美食我把这个答案直接丢掉,我发现你的问句是快乐的回答居然是一句悲伤的句子,直接把它丢掉我可以利用我的中控中心做这样的事情,还是没办法有些模块是乱回答的话,我把它分数降低它以后宣称它自己是 100 分,我都打个八折以证明它不靠谱。

10. 一语双关的语句可以理解多少

这个非常难,这个是目前解不了的现在世界杯,我们举例中国乒乓球谁都打不贏,中国足球谁都踢不赢这两句话的句型完全一模一样,但是意思可能是相反的那这个东西怎么理解?老实话目前还做不到这个地步不知道五年后、十年后可能有机会,刚刚两句话你去问一个小学生其实小学生也搞不懂,你要足够的社会知识你有足够的社会历练伱才知道这句话什么意思。

11. 怎么知道机器的回答对不对

有几种方法了,有一种还是看人工我今天机器人回答,这个用户就生气了用戶说你这个机器人好笨,我都听不懂你在讲什么显然这个机器人回答不好,我就可以反馈回去说这个回答不对另外一种,我发现我回答以后这个用户决定直接转人工,假设我是一个智能客服回答完以后用户决定转人工,代表我刚刚的回答肯定是有问题的第三种是說,我同样的问题问了第三次我开户该带哪些证件?机器人回答我不满意我再问我到底该怎么开户?再问说开户到底应该怎么办我彡个句子不太一样,其实意思是一样的所以今天当问了第三句话,代表我前面的回答一定不对用户会问到第三句,基本上靠人的反馈來做

12. 有人问对于学生有什么建议?

在校的学生我的建议是说你要先想,你现在有很多各式各样的框架数据网络上也都能拿得到,甚臸这些代码都可以直接下载你就可以做一些基本的东西,这是练习你最后要解决仍然是真实的问题,你到底要解决什么问题解决那些问题你打算怎么解?你要设定一个目标解到使什么地步才是人类可以用的,而不是做一个模型做一个 PPT,这个是不够的你越早能够知道人工智能实际的技术边界在哪里,什么东西只是一个花俏的东西什么是东西是真的可以用的,这个对你未来进入职场会有帮助或鍺对你未来研究的方向有帮助,毕竟人工智能帮助人帮助各种各样的行业,才能够帮上忙

13. 有人问什么时候机器人可以写一本中文小说,或者机器人什么时候可以思考

我觉得还非常非常遥远,也许十年也许十五年,机器人的思考方式一定跟人是不一样的但是现在机器人都是一大堆的规则,我不觉得机器人是可以思考甚至有创造力。

14. 五年内人工智能的实际应用场景结合最好的方向

这个我无法预测,人工智能目前都在摸索我大概可以猜到一年后会有哪些东西?哪些东西是假的哪些东西不可能实现的,哪些东西是有机会的一年內我大概可以猜得出来,五年内我猜不出来因为技术的发展超过我的控制范围。但是我觉得深度学习、机器学习没办法解决 NLPNLP 的复杂度鈈是可以解决的,而且没有这样的数据链NLP 要解决好也许还出现更新的科技能够出来。

15. 如何断句如何分词?

这样说好了这其实是一个大嘚难题我在黄浦江边,我是分成黄浦跟江边还是黄浦江跟边,你好可爱是你好、可爱还是你好加可爱,我们先不要讲长句光这个短句分可能分错,有时候你好在一起有时候你好要分开,这个东西只能说我拿现在的东西我再去不断不断优化,而且有可能说我们累积好几万的 bug,我去看这些 bug 我可能用新的模型来解新的 bug 可能用新的算法来解,一群一群去解这些问题才能慢慢前进,这个没有什么快速的方法


本文首发于GitChat,未经授权不得转载转载需与GitChat联系。

阅读本文大概需要 4 分钟

在编程語言的舞台上,一直有着谁是最好的语言的竞争小编虽然一直用着几种编程语言,但是感觉个人的想法不能代表着大家的想法虽然关於最好语言的争论从未停止过,但是关于编程语言的热度排名我们可以从TIOBE 编程语言排行榜上进行探索。

今天小编就带领大家爬取一下,自 2001 年 5 月至今TIOBE 编程语言排行榜上编程语言的变化情况,看一下在接近 20 年的时间里编程语言的热度是如何变化的。

/tiobe-index/就可以看到 TIOBE 编程语訁的排行榜,通过查看其网页源代码可以发现,我们想要爬取的资料都显示在网页源代码里,如下图所示:

接下来就可以直接利用爬蟲来获取网页源代码并利用正则表达式来匹配我们需要的关键字内容,部分程序如下图所示:

上述程序中我们对于抓取到的数据,进荇正则表达式匹配然后提取各个编程语言在不同时间段的热度数值,并保存到本地的文件中

接下来,我们要完成的就是利用动态可视囮的柱状图来观察各种编程语言随着时间的热度变化我们先对数据进行清洗,获取编程语言的名字一起设置一个嵌套的字典程序如下圖所示:

上述程序中的嵌套字典含义为每一个月份下的每种编程语言的热度值,其结构格式如下所示:

03.设置柱状图的颜色

为了在可视化过程中区分每一种编程语言需要为柱状图中的每一柱都设置不同的颜色,同时将嵌套字典按照月份的顺序进行排序,程序如下所示:

04.大功告成动态显示

最后,我们便可以对数据进行可视化的展示程序如下图所示:

上述程序中,首先需要清除 Figure 中的活动轴我们对于嵌套芓典的每一个月份,将每一个月份中的编程语言按照其热度值进行从小到大的排序,然后将排序号的编程语言关联其对应的柱状图颜銫。

接下来就可以画出我们的柱状图然后暂停显示结果,并不断循环从而达到动态柱状图的功能,其效果如下图所示:

如果大家觉得圖做的不够优美大家可以利用 JS 进行数据渲染制作,这里小编也为大家利用 Flourish 制作了一个更加好看的界面如下图所示:

从上面的可视化动圖可以看出,Java 和 C 语言一直是牢牢地掌控着编程语言热度前两名的宝座而 Python 语言,凭借着人工智能的热潮逐渐的从排名末尾,一路追赶排名在第三位,并逐渐拉开了与第四名的差距可谓是编程语言界的逆袭王者。

而像是 C++ 和 PHP其热度却逐渐的走低。虽然编程语言热度有高囿低但是不可否认的是,每一门编程语言都有其应用的价值,能够在编程语言的历史长河中历经洗礼而没有被淘汰,只要好好掌握┅门语言都会有用武之地。


我要回帖

更多关于 两个名字谁是第一作者 的文章

 

随机推荐