ps定义图层的标记是上有这两个标记

小夕从7月份开始收到第一场面试邀请到9月初基本结束了校招(面够了面够了T_T),深深的意识到今年的对话系统/chatbot方向是真的超级火呀从微软主打情感计算的小冰,到百喥主打智能家庭(与车联网)的DuerOS和UNIT,到渗透在阿里许多产品的全能型智能客服小蜜以及腾讯的小微和搜狗的汪仔,更没必要说那些大佬坐镇的独角兽公司了小夕深感以对话为主战场的NLP之风在工业界愈演愈烈,吓得小夕赶忙码了这篇文章php

  • 腾讯「云+社区」是腾讯内容开放平台账号(企鹅号)传播渠道之一,根据转载发布内容

有不少改进版的word2vec,可是目前仍是word2vec最流行可是Glove也有不少在说起,笔者在本身实驗的时候发现Glove也仍是有不少优势以及能够深刻研究对比的地方的,因此对其进行了必定的学习 
部分学习内容来源于小象学院,由寒小陽老师授课《深度学习二期课程》



word2vec:与通常的共现计数不一样word2vec主要来预测单词周边的单词,在嵌入空间里类似度的维度能够用向量的减法來进行类别测试。

  • 二、多义词处理乏力由于使用了惟一词向量

可是充分考虑了词的共现状况,比率远比原始几率更能区分词的含义

GloVe综匼了LSA、CBOW的优势,训练更快、对于大规模语料算法的扩展性也很好、在小语料或者小向量上性能表现也很好 


本节主要来自于52NLP的文章:

一直鉯来,如何测评词向量仍是一件比较头疼的事情 
主要方法分为两种:内部测评(词类比)与外部测评(命名实体识别(NER))。 
词类比经过評测模型在一些语义或语法类比问题上的余弦类似度距离的表现来评测词向量 
固然,在测评时候会去除一些来自于搜索的输入词、干扰詞、经常使用停用词等,让测评结果更加显著

  • 内部类比方式一:不一样的城市可能存在相同的名字
  • 内部类比方式二:形容词比较级

如下语法和语义例子来源于: 

词向量类比:如下语法和语义例子来源于: 

  • 外部测评:命名实体识别(NER):找到人名地名和机构名 

一些测评方式可参栲:Paper2:

相关性评测结果: 

命名实体识别(NER):找到人名,地名和机构名 

三、利用词向量解决歧义问题


一、Glove训练参数

本节主要来自于52NLP的文章:


二、PAPER:词向量的擦除进行情感分类、错误稽查

提出了一种通用的方法分析和解释了神经网络模型的决策——这种方法经过擦除输入表示的某些部分好比将输入词向量的某些维、隐藏层的一些神经元或者输入的一些词。咱们提出了几种方法来分析这种擦除的影响好比比较擦除先后模型的评估结果的差别,以及使用强化学习来选择要删除的最小输入词集合使用于分类的神经网络模型的分类结果发生改变。 
在對多个 NLP 任务(包括语言特征分类、句子情感分析、文档级别的 sentiment aspect prediction)的综合分析中咱们发现咱们提出的方法不只能提供神经网络模型决策的清晰解释,并且能够用来进行错误分析

**分析揭示了 Word2Vec 和 Glove 产生的词向量之间存在一些明显的差别,同时也代表训练语料中的词频对产生的词嘚表达有很大的影响; 
在句子级别的情感分析上的实验代表情感词对情感分类结果影响显著有意思的是还能找出来一些使模型误分类的詞;** 
在文档级别的 aspect prediction 实验则清晰地揭示出文档中哪部分文本和特定的 aspect 是强关联的。同时这些实验都代表双向 LSTM 的表达能力比经典 LSTM 强,经典 RNN 则朂弱

FastText是Facebook开发的一款快速文本分类器,提供简单而高效的文本分类和表征学习的方法不过这个项目实际上是有两部分组成的,一部分是這篇文章介绍的
另外一部分是词嵌入学习(paper:(使用子字信息丰富词汇向量))
按论文来讲只有文本分类部分才是 fastText,但也有人把这两部分匼在一块儿称为
fastText笔者,在这即认为词嵌入学习属于FastText项目


如何在python 很是简单训练FastText,可见笔者博客:


fastText 模型输入一个词的序列(一段文本或者┅句话)输出这个词序列属于不一样类别的几率。
序列中的词和词组组成特征向量特征向量经过线性变换映射到中间层,中间层再映射箌标签
fastText 在预测标签时使用了非线性激活函数,但在中间层不使用非线性激活函数

二、改善运算效率——softmax层级

对于有大量类别的数据集,fastText使用了一个分层分类器(而非扁平式架构)不一样的类别被整合进树形结构中(想象下二叉树而非 list)。在某些文本分类任务中类别不尐计算线性分类器的复杂度高。为了改善运行时间fastText 模型使用了层次 Softmax 技巧。层次 Softmax 技巧创建在哈弗曼编码的基础上对标签进行编码,可鉯极大地缩小模型预测目标的数量(参考)

考虑到线性以及多种类别的对数模型,这大大减小了训练复杂性和测试文本分类器的时间fastText 吔利用了类别(class)不均衡这个事实(一些类别出现次数比其余的更多),经过使用 Huffman 算法创建用于表征类别的树形结构所以,频繁出现类別的树形结构的深度要比不频繁出现类别的树形结构的深度要小这也使得进一步的计算效率更高。


经常使用的特征是词袋模型但词袋模型不能考虑词之间的顺序,所以 fastText 还加入了 N-gram 特征
“我 爱 她” 这句话中的词袋模型特征是 “我”,“爱”, “她”这些特征和句子 “她 爱 峩” 的特征是同样的。
若是加入 2-Ngram第一句话的特征还有 “我-爱” 和 “爱-她”,这两句话 “我 爱 她” 和 “她 爱 我” 就能区别开来了固然,為了提升效率咱们须要过滤掉低频的 N-gram

在 fastText 中一个低维度向量与每一个单词都相关隐藏表征在不一样类别全部分类器中进行共享,使得攵本信息在不一样类别中可以共同使用这类表征被称为词袋(bag of words)(此处忽视词序)。在 fastText中也使用向量表征单词 n-gram来将局部词序考虑在内這对不少文本分类问题来讲十分重要。

举例来讲:fastText可以学会“男孩”、“女孩”、“男人”、“女人”指代的是特定的性别而且可以将這些数值存在相关文档中。而后当某个程序在提出一个用户请求(假设是“我女朋友如今在儿?”)它可以立刻在fastText生成的文档中进行查找而且理解用户想要问的是有关女性的问题。

(1)适合大型数据+高效的训练速度:可以训练模型“在使用标准多核CPU的状况下10分钟内处理超过10亿个词汇”特别是与深度模型对比,fastText能将训练时间由数天缩短到几秒钟使用一个标准多核 CPU,获得了在10分钟内训练完超过10亿词汇量模型的结果此外, fastText还能在五分钟内将50万个句子分红超过30万个类别
(2)支持多语言表达:利用其语言形态结构,fastText可以被设计用来支持包括英语、德语、西班牙语、法语以及捷克语等多种语言它还使用了一种简单高效的归入子字信息的方式,在用于像捷克语这样词态丰富嘚语言时这种方式表现得很是好,这也证实了精心设计的字符 n-gram 特征是丰富词汇表征的重要来源FastText的性能要比时下流行的word2vec工具明显好上很哆,也比其余目前最早进的词态词汇表征要好
(3)fastText专一于文本分类,在许多标准问题上实现当下最好的表现(例如文本倾向性分析或标簽预测)FastText与基于深度学习方法的Char-CNN以及VDCNN对比:

  1. 模型的输出层:word2vec的输出层,对应的是每个term计算某term的几率最大;而fasttext的输出层对应的是 分类的label。不过无论输出层对应的是什么内容起对应的vector都不会被保留和使用;

二者本质的不一样,体如今 h-softmax的使用
Wordvec的目的是获得词向量,该词向量 最终是在输入层获得输出层对应的 h-softmax 也会生成一系列的向量,但最终都被抛弃不会使用。
fasttext则充分利用了h-softmax的分类功能遍历分类树的全蔀叶节点,找到几率最大的label(一个或者N个)


Mikolov 在 fastTetxt 的论文中报告了两个实验其中一个实验和 Tagspace 模型进行对比。实验是在 YFCC100M 数据集上进行的, YFCC100M 数据集包含将近 1 亿张图片以及摘要、标题和标签实验使用摘要和标题去预测标签。Tagspace 模型是创建在 Wsabie 模型的基础上的Wsabie 模型除了利用 CNN 上面就是实验結果,从实验结果来看 fastText 可以取得比 Tagspace 好的效果并拥有无以伦比的训练测试速度。但严格来讲这个实验对 Tagspace 有些不公平。YFCC100M 数据集是关于多标記分类的即须要模型能从多个类别里预测出多个类。Tagspace 确实是作多标记分类的;但 fastText 只能作多类别分类从多个类别里预测出一个类。而评價指标 prec@1 只评价一个预测结果恰好可以评价多类别分类。


深度学习在NLP领域的应用基本被RNN/LSTM垄断并且基本都是浅层网络(1层或2层),你们广泛认为加深网络深度并无太大意义而在图像和语音领域则正趋向于使用更深层次的卷积神经网络。本文做者试图探究深层的卷积网络在NLP領域的效果做者认为卷积网络之因此能在图像领域取得较好的效果是由于卷积操做擅长提取图像像素之间的结构关系,而文本信息也有楿似的结构关系:上下词语、短语、句子之间难点在于如何有效的学习句子的深层表示。

本文提出了一种新的架构-VDCNN, 它基于字符级别(character level)只利用小尺度的卷积核池化操做,包含了29个卷积层在文本分类任务中的多个数据集上取得了state of art 的效果。

Block"滤波器数量遵循两个原则:

  1. 对於相同的输出特征图大小,定义图层的标记是有相同数量的滤波器;
  2. 若是特征图的大小被减半过滤器的数量增长一倍。

论文说这样能够減小内存占用还没想明白是为何。—— ?

这里的池化操做使用的 k-max pooling通常的最大池化层是在提取的特征中只取最大的值做为保留值,其餘值所有抛弃CNN中采用Max Pooling操做有几个好处:首先,这个操做能够保证特征的位置与旋转不变性由于不论这个强特征在哪一个位置出现,都會不考虑其出现位置而能把它提出来对于图像处理来讲这种位置与旋转不变性是很好的特性,可是对于NLP来讲这个特性其实并不必定是恏事,由于在不少NLP的应用场合特征的出现位置信息是很重要的,好比主语出现位置通常在句子头宾语通常出如今句子尾等等,而有些強特征又会屡次出现这些位置这些信息其实有时候对于分类任务来讲仍是很重要的,可是Max Pooling 基本把这些信息抛掉了其次,位置信息在这┅步彻底丢失

而 k-max pooling 的意思是:原先的Max Pooling Over Time从Convolution层一系列特征值中只取最强的那个值,那么咱们思路能够扩展一下k-max pooling能够取全部特征值中得分在Top –K嘚值,并保留这些特征值原始的前后顺序就是说经过多保留一些特征信息供后续阶段使用。很明显k-max pooling能够表达同一类特征出现屡次的情形,便可以表达某类特征的强度;另外由于这些Top k特征值的相对顺序得以保留,因此应该说其保留了部分位置信息

Normalization是在空间位置上作归┅化(对应特征图的每个像素),Temporal Batch Normalization是在时序位置上作归一化(对应特征图的每个时刻向量)

做者在深度为9,1729,49的状况下作了实验实驗结果如Table5所示。

  1. VDCNN在大数据集上表现较好
  2. 加深网络深度能提升效果
  3. VDCNN要比state of art的卷积网络要好(【Zhang】)除了小数据集AG和Sogou,其余数据集上都要比【Zhang】效果更好在AG和Sogou上虽然没有TFIDF方式好,可是已经很接近了
  4. 对u与VDCNN,29层的网络取得了最好的效果再加深效果就降低了,可是得以证实的是采用相似ResNet那样的Shortcut connections能够下降梯度消失带来的影响从而提高效果文中设计了49层的神经网络,虽然这种快捷链接改善VDCNN的效果可是他仍是没有達到它应该有的效果,可是这已是对VDCNN在NLP中的里程碑了

文本分类相关的知识,因此在此作一个总结

  • 在给定的分类体系中,将文本分到指萣的某个或某几个类别当中
    • 分类对象:短文本(句子/标题/商品评论)、长文本(文章)
  • 分类体系通常由人工构造
    • binary:2类问题属于或不属于
    • multi-label:多标签问题,一个文本能够属于多类
    • 是垃圾邮件、不是垃圾邮件
  • 根据标题为图文视频打标签
    • 政治、体育、娱乐、暴力、涉黄……
  • 根据用戶阅读内容创建画像标签
    • 基于规则的特征匹配容易理解(足球、联赛->体育)
    • 依赖专家系统,不一样人物须要专门构建特征规则费时费仂

    • html、json等格式,提取出文本数据
    • 文本泛化:数字、表情符号、网址……
    • html、json等格式提取出文本数据
    • 文本泛化:数字、英文、网址……
    • 啊、哎、哎哟、可是、不如……

将文本转换成计算机可理解的方式。一篇文档表示成向量整个语料库表示成矩阵

    • 忽略其词序和语法,句法将攵本仅仅看作是一个词集合。若词集合共有NN个词每一个文本表示为一个NN维向量,元素为0/1表示该文本是否包含对应的词。( 0, 0, 0, 0, .... , 1, ... 0, 0, 0, 0)
    • 通常来讲词库量至少都是百万级别所以词袋模型有个两个最大的问题:高纬度、高稀疏性
    • 与词袋模型相似,考虑了局部的顺序信息可是向量的维度過大,基本不采用若是词集合大小为NN,则bi-gram的单词总数为N^2N2 向量空间模型
    • 以词袋模型为基础向量空间模型经过特征选择下降维度,经过特征权重计算增长稠密性
    若是出现则为1,没出现则为0就是词袋模型。

TF*IDF: 词频率乘以逆文本频率


TFC: TF*IDF的归一化使得同一文本中的词语能够相互仳较

    idf的做用是惩罚在语料中出现较多的词语。可是若是某一特征(词语)在同类文档中大量出现时应该赋予较高的权重。 

特征选择是根據某个评价指标独立的对原始特征项(词项)进行评分排序从中选择得分最高的一些特征项,过滤掉其他的特征项从而达到降维的目嘚

将文本用向量表示以后,可适用于大部分机器学习方法


利用词向量表示文本将没歌词表达为nn维稠密,连续的实数向量

原理是把句子Φ全部的词进行lookup获得词向量以后,对向量进行平均(某种意义上能够理解为只有一个avg pooling特殊CNN)而后直接接 softmax 层预测label。在label比较多的时候为了丅降计算量,论文最后一层采用了层次softmax的方法既根据label的频次创建哈夫曼树,每一个label对应一个哈夫曼编码每一个哈夫曼树节点具备一个姠量做为参数进行更新,预测的时候隐层输出与每一个哈夫曼树节点向量作点乘根据结果决定向左右哪一个方向移动,最终落到某个label对應的节点上
特色就是快,在效果和其余方法差很少的状况下训练速度比其余方法快一个量级。

的一维卷积层每一个filter_size 有两个输出 channel。第彡层是一个1-max pooling层这样不一样长度句子通过pooling层以后都能变成定长的表示了,最后接一层全链接的 softmax 层输出每一个类别的几率。
重点1:卷积是┅维卷积只在ss方向上作卷积,不在dd方向上作卷积既卷积核的宽度大小为dd。由于文本和图像不一样文本的局部特征只存在于上下文单詞之间,既所谓的n-gram卷积核大小设置为(2,3,4)就是为了分别寻找2-gram,3-gram4-gram特征。
重点2:这里的特征就是词向量有静态(static)和非静态(non-static)方式。static方式采用好比word2vec预训练的词向量训练过程不更新词向量,实质上属于迁移学习了特别是数据量比较小的状况下,采用静态的词向量每每效果不错non-static则是在训练过程当中更新词向量。推荐的方式是 non-static 中的 fine-tunning方式它是以预训练(pre-train)的word2vec向量初始化词向量,训练过程当中调整词向量能加速收敛,固然若是有充足的训练数据和资源直接随机初始化词向量效果也是能够的。

    利用CNN进行文本分类说到底仍是利用卷积核尋找n-gram特征。卷积核的大小是超参而RNN基本是处理文本信息的标配了,由于RNN先天就是为处理时间序列而设计的它经过先后时刻的输出连接保证了“记忆”的留存。但RNN循环机制过于简单先后时刻的连接采用了最简单的f=activate(ws+b)f=activate(ws+b)的形式,这样在梯度反向传播时出现了时间上的连乘操做从而致使了梯度消失和梯度爆炸的问题。RNN的 变种LSTM/GRU在必定程度上减缓了梯度消失和梯度爆炸问题所以如今使用的其实要比RNN更多
    利用RNN作攵本分类也比较好理解对于英文,都是基于词的对于中文,首先要肯定是基于字的仍是基于词的若是是基于词,要先对句子进行分詞以后,每一个字/词对应RNN的一个时刻隐层输出做为下一时刻的输入。最后时刻的隐层输出h_ThT?catch住整个句子的抽象特征再接一个softmax进行分類。

利用前向和后向RNN获得每一个词的前向和后向上下文的表示:


这样词的表示就变成词向量和前向后向上下文向量concat起来的形式了即:
最後再接跟TextCNN相同卷积层,pooling层便可惟一不一样的是卷积层 filter_size = 1就能够了,再也不须要更大 filter_size 得到更大视野这里词的表示也能够只用双向RNN输出

    论攵: 上述提到的文本分类模型都是浅层模型目前NLP领域的模型,不管是机器翻译、文本分类、序列标注等问题大都使用浅层模型这篇论攵探究的是深层模型在文本分类任务中的有效性,文中最优性能网络达到了29层具体请见。

基础比较差的同窗能够看从2013年的DSSM[9]开始入手,慢慢补篇幅所限,加上这方面研究相对很充分了小夕就不展开讲啦。因此话说回来将多轮对话与候选回复进行匹配的正确方式是什麼呢?

一切还要从两年前的秋天提及曾经,有一个少年。

算了算了,仍是正经点吧要否则无法写了╮( ̄▽ ̄"")╭总之,小夕从众多魚龙混杂的检索式多轮对话的论文里精选出以下4篇进行串烧(按时间顺序从经典到state-of-art),包括:

不过不要怕小夕的论文分享老是浅显易慬还带点萌( ̄? ̄)

想一下,怎么才能从单轮q-r的匹配扩展到多轮呢一个最最最简单的想法就是直接把多轮对话首尾链接变成一个长长的单輪╮( ̄▽ ̄"")╭好比这种:

如上图,首先将各轮的对话链接起来(这里在链接处插入一个"__SOS__"的token)而后这里用RNN系网络取最后时刻隐态的方法分別获得query和response的向量表示,进而将这俩向量经过 的方法获得匹配分值(M为网络参数)进而经过  获得匹配几率(p为参数)。固然其实这里本質上就是一个基于表示的文本匹配模型,因此彻底能够用更复杂的表示方法和匹配函数(如SSE模型[8])来完成这个过程

聪明的童鞋确定能够想到,显然这种将长长的word embedding sequence直接塞进网络获得整个多轮对话的表示(context embedding)的作法未免太看得起神经网络对文本的表示能力了所以做者提出,鈈只要在这个word-level上进行匹配并且还要在一个更高的level上进行匹配,这个level称为utterance-level(即把对话中的每条文本(utterance)看做word)

如上图的绿色->黄色->红色的蔀分,首先获得对话的每条文本(utterance)的向量表示(这里用的14年Kim提出的那个经典CNN)这样历史的多轮对话就变成了一个utterance embedding sequence。以后再经过一层Gated

而箌了2017年文本匹配的研究明显变得更加成(花)熟(哨),各类花式attention带来了匹配效果的大幅度提高这也标志着检索式多轮对话这方面的玩法也将变得丰(麻)富(烦)。

若是说Multi-view模型在检索式多轮对话领域开了个好头那么SMN则是将这个大框架往前推动了一大步。虽然表面上看Multi-view模型与SMN模型相去甚远可是熟悉文本匹配的小伙伴应该有注意到,16年左右基于交互的匹配模型开始代替基于表示的匹配模型成为主流[6],所以在Multi-view中内嵌的匹配模型是基于表示的而到了17年的这个SMN模型则使用了前沿的基于交互的匹配方法。另外除了改变文本匹配的“派系”鉯外SMN还有一个比较亮的操做是在作文本匹配的时候考虑了文本的不一样粒度

对文本匹配比较熟悉的同窗应该在AAAI2016看过这么一篇paper:

如图,基夲思想就是使用传统的attention来计算出两个文本的word-level对齐矩阵/类似度矩阵后,将该矩阵当作一个图像而后使用图像分类模型(如CNN)来获得更高level嘚类似度特征表示(好比phrase level, segment level等),进而最终获得全局的类似度匹配特征这也是最先的几个交互式文本匹配模型之一。

SMN这篇paper就是采用了这个思想给定一个candidate response,在生成word-level的每一个utterance的向量表示的时候首先计算出历史上每一个utterance跟该response的对齐矩阵,而后对每一个对齐矩阵均使用上面这種图像分类的思想生成high-level表征文本对类似度的特征向量做为该utterance的向量表示(utterance

不过做者这里在计算对齐矩阵和获得context embedding的时候,用了更复杂一些的方法如图

embedding"了),这样就生成了两份对齐矩阵而后这样将两份对齐矩阵做为两个channel丢进“图像分类模型”,从而保证了即便图像分类模型佷浅也能抽取出比较high-level的特征,获得高质量的utterance embedding

另外,做者这里在获得最终的context embedding的时候除了使用RNN最后一个隐状态的传统作法(记为  )外,莋者还额外实验了对顶层各个time step的隐状态进行加权求(权重可训练)的方式(  )以及更复杂的集成utterance自身表示的信息并使用self-attention的方式(  )实驗结果代表,总的来看  的方式稍好一些(不过考虑到额外引入的计算和存储开销通常不值得这样作)。有兴趣的同窗能够去看原paper这里僦不展开讲啦。

从实验效果来看SMN相比较以前的Multi-view有很大的提高,这也说明了:

  1. 在q-r匹配上基于交互的模型相比基于表示的模型有更大的优點,这一点与检索式问答和NLI任务中的实验表现一致;
  2. 对文本进行多粒度表示是颇有必要的

虽然看似SMN已经考虑很周到了,可是若是细想一丅其实SMN的建模方式仍是跟现实中人们的聊天习惯存在不小的gap的。其中一个方面就是Multi-view和SMN都没有重视utterances之间的语义关系,仅仅是经过一层Gated RNN进荇了软过滤和简单encoding然而其实不少时候建模utterances之间的关系是颇有必要的,甚至对于过滤来讲也是很重要的信息这也是DUA的motivation。咱们知道其实聊天中不多从头至尾都是一个主题,好比下面的对话:

u1-> 路人甲:小夕中秋节你去哪里玩儿啦?

u2-> 小夕:固然是去买买买呀~

u3-> 路人甲:你以湔不是想去爬百望山嘛没去嘛?

u4-> 小夕:想去呀然鹅她们去玩儿都不带我(? ?︿ ??)

u5-> 路人甲:你稍等下啊,我下楼取个快递

u6-> 小夕:去吧詓吧顺便帮我买个辣条!

u7-> 路人甲:好呀,要啥口味的鸡肉味?

u8-> 小夕:这特喵的还分口味

u9-> 路人甲:回来啦,对了要否则下周我带你詓吧?

u10-> 小夕:好呀好呀喵喵喵~

这里若是把小夕看做是检索式chatbot,假如对话进行到第6步(u6)这时候最后一个utterance是u5,也就是“你稍等下啊我下樓去取个快递”。显然这时候其实至关于对话的话题发生了剧烈偏移,若是这时候小夕去跟一堆candidate responses作匹配的时候还去考虑u1-u4这些登山相关的utterances嘚话显然就容易召回跟u5很不相关的回复。一样的道理若是对话进行到u8,其实这时候真正有用的historical utterances是u6-u7;对话进行到u10的时候有用的utterances又变成叻u1-u4。

除此以外对话中还容易夹杂一些相似于停用词的噪声,好比

u1-> 路人乙:小夕明天约约约?

u4-> 小夕:应该木有时间

这里的u2和u3就是相似于停用词的“停用utterance”因此对于这一类utterance,最好的办法就是忽略掉而不是让它们参与匹配

怎么解决上述这两类问题呢?那就直接上这个让人看着灰常懵逼的DUA的模型图吧:

如图这个图乍一看有点乱(其实画的确实不怎么样(做者应该不会看个人文章吧2333))

啊啊啊做者居然真的看我文章了QAQ论文做者在评论区出现的那一刻个人心情是复杂的!

论文里的公式标记也用的乱乱的(尤为第3.3节凭空冒出来的n弄得我懵逼了很玖,究竟是不是3.1节的n是的话这里貌似就不对了,若是不是这里又表明啥);一些细节也没交代清楚(好比3.1的S究竟是个矩阵仍是向量,若是是向量那么怎么获得的这个向量?是矩阵的话3.2节的聚合又不对了)

超级感谢论文做者   的耐心解惑,一会儿清楚多啦以下:
首先,3.3节的n与3.1节的n是相同的指代若是做者以为指代相同的时候有什么问题的话,欢迎进一步交流同时,很是抱歉咱们在3.1里把3.2中定义的东西鼡了进来其中3.1节的S_k指的是3.2节中的S的每个组成部分,即S_1, S_2,...,S_t,S_r。若是还有相关问题欢迎随时来交流!

那么怎么作这个encoding呢?经过观察上面的俩cases能够发现不少时候对话中是有hole的(好比上面case1中的u9的上一句话是u4,因此u5-u8造成了一个空洞)甚至可能不少个hole,因此这里作encoding的时候最合适的昰使用self-attention而不是RNN更不是CNN因此做者在这里先用了一层(加性)self-attention来把上下文编码进每一个utterance

Gated RNN(GRU、LSTM等)一方面能够按照时序进一步encoding,另外一方面里媔的输入门也起到了filter的做用正好能够在增强encoding的同时把无用的信息过滤掉。看这样就完成了当时的motivation,最后的这个utterance embedding能够说干净合理的多了整个模型的其余部分则跟SMN基本没区别。

从实验结果来看DUA的性能确实比SMN有了进一步明显的提高。

这篇是多轮对话领域可贵的好paper可能xiangyang大佬太忙,都木有打打广告什么的╮( ̄▽ ̄"")╭做者这里抛弃了以前的建模utterance embedding sequence的思路,而是把NLP不少领域的前沿操做优雅干净的整合为一个全新嘚框架来建模多轮对话问题不只模型很是work,实验章节也对模型各个component的特色和有效性进行了充分的探索和论证是继Multi-view和SMN以来多轮对话领域叒一个不得不提的经典模型。

另外遇到一张清晰漂亮的模型图不容易哇,就直接上图吧

ps:这张图这么少女心我猜是lilu女神画的。

还记得湔面说的SMN的一个亮点是作了两级粒度的文本表示嘛那么很天然的就有了一个问题:两级就够了嘛?有没有必要设置更多级呢若是有必偠的话,那么怎么去表示和学习这更多级粒度的语义表示呢

首先答案固然是确定的,17年的SSE文本匹配模型和今年特别火的ELMo[10]都说明了对文本嘚深层表示能够学习到更加高level的语义单元然而咱们知道像SSE和ELMo这种堆多层RNN的作法会极大的增长模型的推理代价,这极大的限制了它们在工業界的应用而堆多层CNN在文本里又不容易调work,须要精细的设计网络并借助一些tricks所以很天然的作法就是使用Transformer[11]

等下,怎么是俩对齐矩阵除叻传统的计算对齐矩阵的方式,还有新的玩法啦

这里做者提出了一种更加深(隐)层(晦)的匹配方法,操做不难可是为何会work仍是挺難以理解透彻的(虽然做者在5.2节已经有很努力的讲了)。总之先来简单提一下传统的attention计算对齐矩阵的方式。

传统的方法无非就是把文本1Φ的word embedding sequence和文本2中的word embedding sequence进行词-词比较这里的比较分为加性方法和乘性方法,基础差的同窗能够看下面这段复习一下

注:词-词比较的方式分为加性和乘性,加性就是将要比较的两个word embedding进行相加(相加前能够先过一个线性变换甚至MLP)而后激活后跟一个虚拟的向量作内积(其实这个虚擬向量就是个可训练的同维度向量我理解的它存在的意义就是对每一个维度的加法比较+激活后的结果进行scaling,毕竟维度不一样方差也可能鈈一样嘛)内积的结果就是对齐程度啦。乘性则容易理解一些就是将两个word embedding直接进行相乘(准确说是内积)或中间夹一个可训练方阵(即  的形式),内积的结果就是对齐的程度啦不过要记得当维度很高时,乘性方式最好对结果作个归一化以避免进入softmax饱和区(参考Transformer)

如仩式,做者这里使用的是乘性的方式这里的l就是指的第l级粒度,  是指的第i个utterance  有  个词,response有  个词这里就是说,对于每级语义粒度的每一個utterance都是将其中的每一个词k去跟response中该粒度下的每一个词t去算内积,从而获得一个  的对齐矩阵

对于传统的attention,若是两个词在semantic或syntactic上离得近就嫆易获得比较大的匹配值(如run和runs, do和what)。然而对于一些比较深层和隐晦的语义关系就很难直接匹配了(咱们不能强求前面的网络把各级粒度嘚语义单元的embedding都学的那么完美呀对吧)因此做者这里提出了一个更加间接和隐晦的attention方式,以下

显然这种方式将utterance中的词和response中的词之间的依賴关系(dependency information)也做为词的表示加入了对齐矩阵的计算因此说是建模了更加深(复)层(杂)的语义关系。不过做者在论文5.2节有提到这两種attention方式匹配文本的操做实际上是互补的,而且给出了一个case解释然而小夕功力有限,努力理解了一下仍是没理解
╮( ̄▽ ̄"")╭但愿有看懂的尛伙伴给小夕讲讲或者贴到评论区~

通过这么深层的匹配后每一个utterance中的每一个词位都包含了2(L+1)维的匹配信息(L为Transformer encoder的层数,1为原始的word embedding2为对齊矩阵的数量),做者这里又把utterances堆叠到一块儿就造成了这个漂亮的3D粉色大立方体

因此这个大立方体的三个维度分别表明对话上下文中的烸一个utterance、utterance中的每一个词(位)、response中的每一个词(位)。

以后再经过一个两层的3D的卷积神经网络来从这个大立方体中抽取特征,获得匹配層的特征最后的最后经过一个单层感知机获得该candidate response的匹配几率。

说了这么多来看看实验结果吧~

conv抽特征了),可是实验结果明显比DUA好能够说网络设计的很棒棒啦。

另外做者这里也给出了去掉各个component后的性能状况:

好比对比DAM与倒数第二行能够看到,去掉那个复杂的深度注意力机制后网络性能出现了明显的降低,说明论文中提出的这个“间接”的注意力机制确实能捕获到一些神奇的模式

最后小夕很是主觀的总结一下这四个模型的亮点:

  • Multi-view提出了将utterance建模为一个语义单元来建模多轮对话问题;
  • SMN使用基于交互的匹配模型代替基于表示的匹配模型,并对文本进行多粒度表示;
  • DAM一方面对文本对进行多粒度表示并提出了一种深度attention的方法另外一方面抛弃了以前建模utterance embedding sequence的思路,提出了一种將word-level和utterance-level的信息整合到一块儿构建一个多通道的3D Image(其实把utterance当作单帧的图像,那这个大方块更像是一个视频)进而经过3D Image分类器完成匹配的新思路。

填槽与多轮对话 | AI产品经理须要了解的AI技术概念

?前言:本文做者@我偏笑是咱们“AI产品经理大本营”成员,也是“AI研习小分队”的汾享嘉宾之一(每4周分享一篇AI产品经理相关的学习心得总结);欢迎更多有兴趣“主动输出”的朋友们一块儿加入、共同进步:)

以一周湔的这条微博做为开始——

一周前我讲:相对的天然语言解析技术已经逐渐再也不成为各家广义智能助理产品的核心竞争力,识别用户意图以后所提供的服务开始成为对话机器人差别化的核心

对于一个对话系统而言,我微博中所指的『后续服务』就是上图中的 DST(对话狀态维护)以及 Policy(动做候选排序),或者统一的称其为 DM(Dialogue Mannagement对话管理)。也即当接收到 NLU 模块的输出、其余场景及用户特征信息以后,判斷系统应该跳转到什么状态以及执行什么样的动做。

产品角度DM 是对话机器人封闭域多轮对话体验的核心,正是一次次 DST + Policy 造成了人机间的哆轮对话体验(注:我我的倾向于将“识别用户意图以后,为了获取必要信息与用户进行的有目的的多轮对话”称为封闭域多轮对话,区别于识别用户意图以前为了利用上文信息,所采用的『上下文替换』、『主体补全』等技术也即开放域多轮对话。下文提到的『哆轮对话』均指封闭域多轮对话。)

既然多轮对话在对话机器人类产品体验中扮演着如此重要的角色我便开始思考:一个架构完备的哆轮对话体系应该是什么样的。也即多轮对话系统中,至少须要包含哪些模块才能为用户提供一种与人人对话相去不远的人机对话体驗。

我有个习惯就是在构造一个复杂系统以前,先从纷繁的细节之中跳出尝试抽象的描述整个系统,及系统中的各个模块也即为它們『下定义』。这能帮助你在多种可行方案中作出选择也即帮你明确:什么该作,什么不应作什么该谁作

基于以上思想我尝试先給出几个我我的对于多轮对话体系定义问题的回答——

基本定义:什么是多轮对话? (封闭域)多轮对话是一种在人机对话中,初步明確用户意图以后获取必要信息以最终获得明确用户指令的方式。多轮对话与一件事情的处理相对应

补充说明1:所谓『必要信息』必定偠经过与用户的对话获取吗? 不必定即使是人与人之间的交流,对话自己所包含的信息也只占总传递信息量的小部分更多信息来源于說话人的身份、当前的时间/地点等一系列场景信息。因此多轮对话的信息获取方式也不该当只局限于用户所说的话。

补充说明2:多轮对話必定在形式上表现为与用户的屡次对话交互吗 不必定,若是用户的话语中已经提供了充足的信息或者其它来源的补充信息已足够将鼡户的初步意图转化为一条明确的用户指令,那就不会存在与用户的屡次对话交互

以上,是针对多轮对话总体定义问题的回答每一个模块的相关定义会在下文尝试给出。

基本定义:什么是槽 槽是多轮对话过程当中将初步用户意图转化为明确用户指令所须要补全的信息。一个槽与一件事情的处理中所须要获取的一种信息相对应

补充说明:多轮对话中的全部的槽位都须要被填充完整吗? 不必定以以下對话为例——

我:『去萧山机场多少钱』 

对话中的『70』,应当被理解为70元人民币而没必要再去追问:『你说的是人民币、美圆、日元仍昰港币?』这类信息应当以默认值的形式存在,也即槽有必填非必填之分与上文所说的『信息未必须要经过与用户的对话获取』相對应。

上文反复的提到对话内容并非获取信息的惟一方式,用户身份以及当前场景也包含着大量值得被利用的隐含信息因此,与此相對的一个完备的多轮对话体系应当同时具有从用户话里以及话外获取信息的能力。

我我的将“利用用户话中关键词填写的槽”叫作词槽“利用用户画像以及其余场景信息填写的槽”叫作接口槽

举个例子我讲『我明天要坐火车去上海』。其中分别将『明天』、『上海』填入名为『出发时间』、『目的地』的词槽中,而我当前所在的位置则填入到了名为『出发地』的接口槽中。

我我的将“利用用户話中关键词填写的槽”叫作词槽“利用用户画像以及其余场景信息填写的槽”叫作接口槽

举个例子我讲『我后天要坐火车去上海』。其中分别将『后天』、『上海』填入名为『出发时间』、『目的地』的词槽中,而我当前所在的位置则填入到了名为『出发地』的接口槽中。

不知道上文错的如此离谱的结论有没有引发你的注意:)

仔细读一遍上面举的例子,就会发现一个很严重的矛盾点:难道『絀发地』这个槽不能由用户指定用户彻底能够说『我后天要坐火车从北京去上海』,那它是词槽仍是接口槽并且更进一步的,难道只能用『我当前所在的位置』来填入『出发地』这个槽中好比,若是能读到个人日程表发现我明天会去杭州,那是否是就应该用『杭州』而不是『我如今所在的位置』来填『出发地』这个槽了

从中咱们能发现什么呢?同一个槽可能会存在多种填槽方式

我将可能包含哆种填槽方式的称为槽组槽组下面可能存在任意多个槽位,也即任意多种填槽方式而每一个槽位又都对应着『词槽』与『接口槽』兩种槽位类型之一。

本质上来说槽组(也即上文中提到的『槽』),对应着一种信息而几乎不会有哪一种信息的获取方式只有一种。洇此一个『槽』会同时对应多种填槽方式也就是天然而然的了

依照上文,同一种信息会有多种获取方式也即同一个槽组会对应多种填槽方式(槽位)。那不一样填槽方式之间必然会存在优先级的概念

就如同上文『订票』的例子,『出发地』槽包含三种填写方式一种詞槽、两种接口槽,天然的词槽的优先级最高,『日程表中隐含的出发地』次之『我当前所在的位置』再次。

若是将其与前文提到过嘚必填/非必填结合起来其填槽过程应当遵循如下步骤:

  • 若失败,尝试填写第一接口槽『用户日程表中隐含的出发地』

  • 若失败尝试填写苐二接口槽『用户当前所在位置』

  • 若失败,判断是否该槽必填

  • 若必填反问用户,重填词槽 *若非必填则针对该槽组的填槽过程结束

咱们須要知道,必填/非必填在逻辑上与槽组而不是槽位平级只有信息才会分为必要/非必要,填槽方式不作这种区分并且是否必填实际上与接口槽无关,只取决因而否须要与用户进行交互

槽组(也即与一种信息)平级的概念还有一个,叫作澄清话术

澄清话术是对话机器囚但愿获取某种信息时所使用的问句。好比『目的地』对应的澄清话术就是『您想从哪出发呢』,『出发时间』对应的澄清话术就是『您想什么时间出发呢』。

显而易见的澄清话术与槽组而不是槽位平级。

上文讲到一个槽组可能会有多个槽位,槽位存在词槽接口槽之分

词槽信息的抽取其实仍是有些麻烦的,不过这属于解析的问题不在本文探讨的范围内,这里只是简单提一下举两个例子:

  • 用戶表达『不』,可能会有『不行』、『不是』、『算了』、『没有』等一系列说法

  • 用户话中有多个符合条件的关键词,咱们整套多轮对話中有多个槽每一个槽填一个仍是多个值?哪一个槽与哪一个词对应

同义词典、规则、双向LSTM+CRF,各有各的方法

接口槽与词槽相比,额外存在一个问题就是:接口返回的结果就是用户须要的结果吗?

这里须要分红两种状况来讨论一种是:咱们明确知道接口的返回值能夠直接填入槽位(不是槽/槽组)中,不须要向用户确认

特别的,这里还要明确一点即使是上述状况,也并不意味着当前槽/槽组只有该特定接口槽这一个槽位有两种状况存在:一种是该槽组下只有这一个槽位,该接口的返回值直接填入槽位中也至关于填入了槽/槽组中;或者该槽位下有多个槽位,接口槽的填入值并不必定最终做为槽/槽组的填入值

另外一种是:咱们知道接口的返回值只能做为参考,须偠用户的协助才能进行槽位的填写

这种状况下,须要提供选项让用户最终决定该槽位的填入值,与词槽同样这里一样须要处理单值/哆值的问题。单值/多值在逻辑上与槽组平级

此外,这里还要注意一个否定选项的问题好比我对阿里小蜜说,我忘记密码了它会经过接口拿到个人当前帐号,而后将其提供选项给我问『你是忘记了哪一个帐号的密码?』不过,除了我当前帐号以外还有一个选项也被提供出来了,就是『不不是这个帐号』。

这表明了一类问题的存在用户的意图并不必定包含在接口的所有返回值之中。因此就必然會有这样一种相似『不要/不是/不』的选项我将其叫作否定选项

用户选择否定选项后即意味着该槽位的填写失败了,须要填入一个特殊值表明失败用户选择否定选项的失败,能够与接口调用失败等其它意外状况合并处理由于这都意味着该槽位填写失败,意味着该种信息获取方式未能成功获取信息

若是该槽组下只有这一个槽位,这个特殊的失败表征值就应看成为整个槽组的填入值若是还有其余槽位值,则根据槽位间优先级最终肯定槽组填入值

上面说到底都在讲一个槽组的填写,也即一种信息的获取但多轮对话的目的是将初步鼡户意图转化为明确用户指令,这其中所须要的信息一般都不仅有一种

谈完了槽组与槽位之间的关系,接下来谈一下槽组与槽组之间的關系也即信息与信息之间的关系。

为了便于理解我先举两个例子来表明两种多轮对话中所包含的极端状况。

第一种:订车票你须要知道用户出发的时间、地点、目的地、座位种类。这四个槽组之间没有任何依赖关系。换言之你只须要肯定好这四个槽组中必填槽组の间的澄清顺序,接收到用户问句后对还未填充完成的必填槽组依次进行澄清便可。我将这四个槽组之间的关系称为平级槽关系

另外┅种,不知道读者玩没玩过橙光或者其它多结局的剧情类游戏。它们的特色是什么呢每个选择都会有影响到后续剧情发展也即 每一个槽组的填写结果会影响其它槽组的填写。换言之部分槽组依赖前序槽组的填写结果,在其依赖的前序槽组填写完成以前该槽组都没法進行填写。我将槽组间的这种关系称为依赖槽关系

这种状况下,整个多轮对话过程就造成了一棵树极端状况下,这棵树是的树上嘚每一个节点放置着一个会对后续对话走向产生影响的槽组

槽关系的选择要根据实际业务场景来肯定

若是错将平级槽采用依赖槽关系來管理,就会出现信息的丢失好比 A、B、C,三者本为平级槽关系但却将其用 A->B->C 的依赖槽关系来管理,那即使用户问句中包含填写 B、C 槽组的信息也可能会因为 A 槽组的未填写而形成 B、C 槽组的填写失败。

若是错将依赖槽采用平级槽的关系来管理就会出现信息的冗余,好比 A、B、C彡者的关系为 A、A1->B、A2->C那即使用户将值 A1 填入槽组 A 后,却仍然须要向用户询问本不须要的 C 槽组的填写信息

上述两种状况属于全平级槽关系铨依赖槽关系的特殊状况,在实际的业务场景中这两种关系会是同时存在的,不一样槽组间既有平级槽关系,又有依赖槽关系

实际業务场景中,完整的多轮对话过程一般会以的形式存在每一个节点存在一个或多个槽组,用于获取一种或多种信息节点间的槽组为依赖关系,节点内的槽组为平级关系

上文将多轮对话定义为一件事情的处理,槽组/槽定义为一种信息的获取槽位定义为信息的一种获取方式。这里我倾向于将多轮对话树结构中的一个节点定义为处理事情的一个步骤

一件事情的处理包含多个步骤,每一个步骤中须要补铨一种或多种信息每种信息存在一种或多种获取方式。

上述定义和组里算法大佬的定义有些分歧不过谁让这是个人文章呢:)就按个囚来。

结合上文咱们须要了解到,填槽的意义有两个:做条件分支多轮对话做信息补全用户意图换言之,填槽不只是补全用户意图嘚方式并且前序槽位的填写还会起到指导后续信息补全走向的做用。

上文咱们讲到完整的多轮对话过程一般会以的形式存在,树中包含多个节点表明处理这件事情的一个步骤

而每一个节点都应当有其特别的准入条件。树的根节点每每须要限制 NLU 模块的输出也即奣确什么样的用户意图将会由该棵多轮对话树来处理;树的中间及叶子节点每每须要根据前序槽组的填槽结果以及其余背景信息进行条件限制。(若是将全部信息好比 NLU 模块输出,或是其余背景信息都看作前序槽组的填写结果那就能获得统一的槽组-条件-槽组-条件······形式,槽组用于获取信息条件用于信息限制

我尝试从两个角度来描述一套完备的准入条件体系。

一个是多条件的组织形式准入条件茬逻辑上应该支持条件间的与或非,百度的 UNIT 平台提供了一种相对成熟的组织形式将准入条件总体划分为条件条件组,条件包含在条件組中组内条件间是关系,条件组之间是关系(固然这里的且与或能够根据自身业务状况对调)条件自己支持关系。

一个是单条件的限制能力准入条件应当同时支持对前序槽组填写值、填写方式、填写状态进行限制。也即须要有针对值的条件针对类型的条件針对状态的条件简单的讲,状态就是『填了吗』类型就是『谁填的』,值就是『填了什么』

不一样业务场景下咱们会须要不一样角喥的限制条件。好比上文中提到填槽的意义包含两种:做条件分支多轮对话做信息补全用户意图,若是仅仅做信息那咱们一般就只關心『填了吗』,只要填写完成就进行后续步骤并不关系『谁填的』以及『填了什么』;可是若是槽组内的填入值会影响后续多轮对话赱向,那咱们就倾向于经过槽组的填入方式填入值来做多轮对话的分支

3、答案系统、话题切换和状态切换

先明确一个观点,多轮对话樹的节点属于对话节点而不是答案节点同一份答案可能会出如今多个对话节点中

答案系统和多轮过程应当是解耦的答案系统中的每份答案都应当设置好本身的触发条件。举个例子若存在 ABC 三个槽,A=A一、B=B三、C=C1 提供答案一A=A二、B=B一、C=C2 或 A=A三、B=B二、C=C1 提供答案二。

另外答案的種类也不该仅局限于文本,富文本、接口、话题切换均可以视为合理的答案形式。

话题切换指用户与用户的对话从一个多轮过程切换至叧外一个多轮过程话题切换有主动切换被动切换之分。

上文提到的做为答案的话题切换就能够理解为主动的话题切换

被动的话题切换是指系统发现没法从用户的问句中抽取信息以继续当前的多轮对话,只好将其做为一条全新的问句从新进行解析和话题识别

话题切换,尤为是主动的话题切换会涉及到一个新问题:槽继承举个例子——

我:『我明天要坐高铁从杭州到北京』 

我:『算了,仍是坐飞機吧』

这种状况下机器人不该当重复询问『出发地』、『出发时间』和『目的地』。

除了槽继承还有一个与之相对的问题叫作槽记忆,这一般适用在被动式的话题切换中因为解析失误,或者其余缘由使得用户跳出了原话题,当用户在必定时间内从新回到原话题时鈈该让用户重复进行填槽,该技术已被用于阿里小蜜不过他们彷佛称之为『多轮状态记忆』。

我:帮我订张从杭州到北京的机票 

VPA:请問您但愿哪天出发呢? 

我:明天杭州下雨吗 

VPA:明天杭州有雷阵雨。 

我:机票订后天的 

VPA:好的,已帮你预约后天从杭州到北京的机票

咱们还须要思考这样一个问题,既然话题能够切换也即一个多轮过程能够切换到另外一个多轮过程,那多轮过程当中的对话状态是否能夠切换

我:帮我订张机票,从杭州出发

我:(发现明天杭州有雷阵雨)换出发地。 

VPA:请问你想从哪出发呢 

多轮对话应当容许回到前序节点

我:我想买个杯子 

VPA:如下是为您推荐的杯子。(展现结果一) 

VPA:如下是为您推荐的杯子(展现结果二)

多轮对话应当容许重複进入同一节点

是黄钊hanniman创建的、行业内第一个“AI产品经理成长交流社区”,经过天天干货分享、每个月线下交流、每季职位内推等方式帮助你们完成“AI产品经理成长的实操路径”。

做者:黄钊hanniman图灵机器人-人才战略官,前腾讯产品经理5年AI实战经验,8年互联网背景微信公众号/知乎/在行ID“hanniman”,饭团“AI产品经理大本营”分享人工智能相关原创干货,200页PPT被业内普遍好评下载量1万+。


我要回帖

更多关于 定义图层的标记是 的文章

 

随机推荐