怎么识别李宁标真假裤子上有original是真假

刚接触自然语言处理的朋友通常會问我:当系统的输出是文本而非对输入文本进行某种分类,如何对该系统进行评估当模型的输入是文本信息,输出也是文本信息时我们称之为序列到序列问题,也可称为字符串转换问题

理解序列到序列建模问题相对容易,如何对其进行评价才是难点

对于刚入门NLP嘚人来说,选取衡量标准较为困难目前最流行的评价指标之一BLEU虽然常用,但也存在较大的缺陷

本文将介绍BELU的工作原理,指出其存在的問题并探索如何结合自己的工作最大程度规避这些问题。


BELU最初是评价机器翻译的指标所以我们会以翻译(法语—英语)为例进行讲解。

下面两句为英语参考译文:

假设下面的翻译是由我们训练的神经网络产生

问题来了:如何给上述翻译结果打分。

要想利用机器学习来建立一个翻译系统就需要一个实值分数来对其性能进行衡量。如果我们能够获取潜在的最佳得分便能够计算它与实际值之间的误差。這能够在训练时为系统提供反馈通过最小实际分数与潜在分数之间的差值来改进翻译模型,并通过查看同一任务上训练过的系统得分比較不同的模型

假设:如果输出句子中的单词在任何一个参考句出现,就给它打1分如果没有出现,打0分为了使计数标准化,使分数始終介于0和1之间我们可以将某个参考译文中出现的单词总数除以输出句子中的单词总数。我们称该方法为unigram precision

在上面的翻译示例中,“I ate three hazelnuts”峩们能够在输出句子中看到至少一个参考句中的单词,再除以单词数4该翻译的最终得分为1。但如果换成了下面的句子该如何打分呢?

按照刚才的衡量标准得分依旧为1。但很明显“I ate three hazelnuts”比“Three three three three”翻译得好。但如何将这一点告知我们正在训练的系统呢

你可以通过限定单词絀现在翻译句子中的最大次数来调整分数。经过调整“I ate three hazelnuts”计算出的得分仍然为1,而“Three three three three”为0.25

这解决了单词简单重复的问题,但新问题来叻如果单词的排列是无序的呢?就像下面:

如果继续用刚才的方法这个句子得分为1。通过计数可以解决这个问题但此时并非统计单個单词,而是相邻的单词该方法称为n-grams,n是每组单词的数量unigrams,bigramstrigrams以及4-grams分别由一个、两个、三个、四个单词组成。

在这个例子中我们使鼡bigrams。通常来讲BLEU的分数是unigram,bigramtrigram,4-grams的加权平均为了简便,我们选择bigram并忽略句子开头和结尾定义边界的单词。基于上述规则句子排序如丅:

很明显这不是我们想要的。解决这个问题的方法是将目前的分数乘以一个简短惩罚因子通过这个因子,得分高的候选翻译结果能夠同时在长度、词语选择、词语顺序等方面与参考句子匹配。

如果翻译结果比参考句子更长或者一样长惩罚因子为1。

如果翻译译文长度仳参考译文要短就需要一个惩罚的机制去控制。在示例“I ate”中句子长度为2个单词,与其最接近的参考句长度为4个单词其简洁惩罚为0.36,乘以bigram的精度分数1最终得分降至0.36。

该指标旨在探测输出翻译与参考语句中有多少个n-grams重叠并乘以简洁惩罚值后输出得分。BLEU由提出是NLP中非常流行的度量指标,特别是对于系统输出是文本信息而不是分类的任务其中包括机器翻译和自然语言生成。它解决了我们在文章开头提出的问题:找到一种方法告诉我们翻译结果有多“好”,并为其打分

在此之前,先概括一下BLEU的优势:

**1、它方便快速,容易计算結果比较接近人类评分;
2、在相同的任务中,能够很容易地将模型与基准进行比较;**

但这些便利使得人们过度的使用它即使在它不是最佳度量标准的任务中也作为了首选。

尽管我们只以一句话为例进行了介绍但BLEU是一种语料库级别的度量标准。计算语料库中的每个句子的BLEU汾数然后求它们的平均值会使得分数过大。

BLEU的问题主要有以下四点:
2、 不直接考虑句子结构
3、 不能很好地处理形态丰富的语言
4、 不能很恏的映射到人类判断

由于BLEU不考虑意义我们便不能只使用它对机器翻译进行评估。作为一名机器翻译软件的用户我更希望准确理解原文嘚含义,即使翻译的句子中在语法或句法上有所欠缺只要清楚的表达了原文的意义也能接受。

但BLEU并不考虑意义它只奖励精确匹配的n-grams。這意味着一个虚词(如“an”或“on”)的差异和一个更重要的与内容相关的词语受到的惩罚是一样的如果一个译文中有一个完全有效的同義词,只是没有出现在参考译文中也会受到惩罚,但这并不合理

以下列句子为例对这个问题进行分析:

下列的句子都是BLEU评出的 “糟糕嘚翻译”:

但作为机器翻译的使用者,我觉得前面两句也表达清楚了原文的意思即使它们和参考译文有所出入。第三句话让人不能接受它完全改变了原文的意思。

NIST方法是在BLEU方法上的一种改进最主要的是引入了每个n-gram的信息量(information)的概念。BLEU算法只是单纯的将n-gram的数目加起来而NIST昰在得到信息量累加起来再除以整个译文的n-gram片段数目。这样相当于对于一些出现少的重点的词权重就给的大了因此,在更常见的n-gram(如“of”)上的不匹配将受到更小的惩罚而在更罕见的n-gram(如“buffalo buffalo”)上的不匹配将受到更大的惩罚。虽然这解决了赋予虚词过多权重的问题但實际上却使惩罚同义词(如“ambled”代替“walked”)的问题变得更糟,因为这些同义词只出现在更少见的n-gram中因此惩罚因子会更大。

BLEU不直接考虑句孓结构

即使你通过调整词序改变句子的结构仍然可以获得很高的BLEU分数。

telescope”二者的区别通过句子中各单词的排列顺序体现。

在自然语言Φ句子的内部结构特别重要,将句子各单词顺序打乱既破坏了其完整含义,又让人难以理解

通过parsing可解决该问题。但parsing的计算相当密集每次求值时必须解析所有输出,增加了开销

但不考虑句法结构,词序混乱的翻译与意思连贯的翻译获得相同的分数显得极其不合理

這个翻译并不完美,它删除了人名且句子后半段“will”后面没有动词,但它并非一点意义没有毕竟比下面的翻译好,虽然两句话获得的BLEU汾数相同:

BELU不能很好地处理形态丰富的语言

BELU基于单词级别进行匹配对于形态丰富的语言,显得并不适用
语素是语言中最小的音义结合體,它们组合在一起构成单词以英语单词“cats”中的“s”为例,它告诉我们不止一只猫有些语言,如土耳其语在一个单词中有很多的語素,而英语通常每个单词中的语素很少。

两句话都是可接受的英语“her village is large”的翻译其中,以“jemar-”开头的单词在两个句子中有不同的结尾不同的结尾代表不同的词素,这句话表明说话人很确定这个村子很大上面那句话是他们去过那里见到了很大的村子,而下面那句话则表示他们是从别人那听说村子很大

这种特殊类型的语素被称为“证据标记(evidentiality marker)”,这在英语中不存在而在秘鲁语中,一个句子的语法需要二者中的一个所以我们的参考译文也应该有其中的一个。但是如果我们没有在参考句中准确地找到该单词,就会对它进行惩罚即使这两个句子都很好的表达了英语原句的意思。

BELU不能很好的映射到人类判断

构建机器翻译聊天机器人以及问答系统最终的目的是希望囚们能够使用它们。如果一个系统不能提供有效的输出就没有意义。所以优化目的是使更多的人喜欢并尽可能多的使用所开发的系统

BELU艏次提出时,作者进行了相关的行为测试以确保与人类的判断相关。但当研究人员进行更多的时发现BELU分数并不能很好的映射到人类判斷。在一些任务中甚至其它的评价方法更接近人类判断。

Turian在2003年发现BLEU在机器翻译中与人类判断的相关性最差,F1与人类判断最为相关NIST次の。Sun在2010年比较了BLEUGTM以及TER,发现BELU与人类判断的相关性最小


2、怎么识别李宁标真假正品每件商品都贴有防伪码,衣服在吊牌上鞋在盒子上,刮开防伪码涂层用电话查询一下,就可知道结果

3、看怎么识别李宁标真假标志,囸规的怎么识别李宁标真假标可看怎么识别李宁标真假网站如果有的标志差异过大,一般是假货因为工厂为严格控制这块的。

4、要看莋工真品和假货做工差别很大,正品做工很精细假货粗制乱造、可以把鞋子两双放在一起比较,如果做工有明显差别说明是假货。

5、买到商品后可以拿到专卖店去验货。

我要回帖

更多关于 怎么识别李宁标真假 的文章

 

随机推荐