无缝钢管表示方法4"θ90 表示什么意思

无缝钢管∮89×4代表什么意思_百度知道
无缝钢管∮89×4代表什么意思
我有更好的答案
外径89mm,壁厚4mm
表示无缝钢管外径89mm,壁厚4mm。
直径是多少
内径有事多少
那外直径就是89mm,内直径就是89-8=81mm嘛。
同意昨日黄昏71的说法
为您推荐:
其他类似问题
您可能关注的内容
无缝钢管的相关知识
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。无缝钢管 ΦXδ108*4 是什么意思_百度知道
无缝钢管 ΦXδ108*4 是什么意思
ΦX主要是这个不理解哈
108是直径,4是壁厚。无缝钢管规格的表达方式就是:直径*壁厚
采纳率:78%
ΦXδ108*4 这个ΦXδ是外行标注的,应该就只标:“Φ108 × 4 ”
本回答被网友采纳
为您推荐:
其他类似问题
您可能关注的内容
无缝钢管的相关知识
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。已解决问题
&4x2,6x4&代表什么 卡车驱动形式小科普
提问时间: 15:21:37
&4x2,6x4&代表什么卡车驱动形式小科普
浏览次数:3422
M*NM表示车轮总数N表示其中是驱动轮的总数(能输出转矩)。
答案创立者
以企业身份回答&
快速解决你的电商难题
店铺优化排查提升2倍流量
擅长&nbsp 店铺优化
您可能有同感的问题无缝钢管型号的意思!_百度知道
无缝钢管型号的意思!
以下无缝钢管型号,表示什么意思:
6 8 10 12 14 16 18 *1--3
20 22 24 25 28 30 32 *3--8
34 36 38 40 42 45 48 *3--12
50 51 54 57 60 63.5 *3--15
65 68 70 73 76 80 83 89 *3--25
95 102 108 114 121 127 *4--35
133 140 146 152 159 168 *4...
我有更好的答案
前面是外径,*后面是壁厚如6 8 10 12 14 16 18 *1--3 表示可选择外径6毫米或8毫米或10毫米等,最大可到18毫米而1--3表示可选壁厚1毫米到3毫米之间
采纳率:39%
前边的是外径 后面的是壁厚
*号前面的代表外径,*号后面的代表厚度。
为您推荐:
其他类似问题
您可能关注的内容
无缝钢管的相关知识
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。&p&之前使用的时候,主要在业务安全和业务运维两个场景上面遇到过异常检测,不过虽然都是异常检测,但是他们所使用的技巧和方法是截然不同的。&/p&&p&通常来说,在业务安全领域通常是为了发现异常行为,异常用户,防止诈骗等等,这种时候通常都会基于各种信息做出各种各样的特征,然后通过异常检测算法来判断异常。在业务运维领域,有着各种各样的服务器数据,流量数据,端口数据,需要使用时间序列异常检测来判断是否出了故障。在业务运维领域,同样有着多维的数据,需要从多维数据里面定位出异常的根因,这就是所谓的“根因分析”。&/p&&p&如果是在单维度数据集下,大家能够使用的就是 3-sigma 原理已经它的一些变种形式,例如 Grubbs 算法,T Test 等等。在高维度领域,通常来说有两种处理方式。一种是降低到单维度,然后使用 3-sigma 之类的算法判断新的序列是否异常,从而推断出原始序列是否异常。另外一种方法是在高维度上直接建立模型,然后判断高维点集是否异常。&/p&&p&高维度异常检测算法比较多,无论是 PCA 建立重构误差,还是 AutoEncoder 来算误差分数,或者是 Isolation Forest,One Class SVM 等算法,都能够做到异常检测。之前写过一篇异常点检测算法的文章,链接如下:&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&异常点检测算法综述&/a&。除此之外,也写过一篇文章介绍如何进行时间序列异常检测的,链接如下:&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&时间序列简介(一)&/a&,&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&智能运维系统(二)&/a&。&/p&&p&不过,在业务的实际场景下,异常点的检测有的时候只是一种辅助手段,帮助机器学习从业者迅速定位异常。但是,如果要保证效果和输出的话,最好是在定位了异常之后,把数据保存下来当做样本和标签,然后建立一个有监督学习的模型。这样通常来说就能够解决不少的问题。在业务安全领域或者业务运维领域,通常的套路都是:&/p&&p&&b&原始数据 -& 无监督算法 -& 人工标注 -& 特征工程 -& 有监督算法 &/b&&/p&&p&这样的多层架构体系。&/p&&p&通常来说,推荐系统只有特征工程和有监督算法这样的架构体系,因为没有人工标注的成本。而业务安全和业务运维的话,其实标注成本就会相对偏高,但是如果使用无监督算法,就可以减缓人工标注的成本。&/p&&p&这里的无监督算法不仅可以使用异常检测算法,还可以使用各种各样的聚类算法和图算法。图算法其实就包括 PageRank 和 FastUnfolding 等算法,链接如下:&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&Graph Analysis and Its Application&/a&&/p&&p&PS:做机器学习其实相对重要的就是样本库和数据集,其余很多代码都是基于开源框架来做的。&/p&&p&&/p&
之前使用的时候,主要在业务安全和业务运维两个场景上面遇到过异常检测,不过虽然都是异常检测,但是他们所使用的技巧和方法是截然不同的。通常来说,在业务安全领域通常是为了发现异常行为,异常用户,防止诈骗等等,这种时候通常都会基于各种信息做出各种…
&p&我看不下去了,实名反对楼上楼下隔壁对门所有拿颜值、真诚、早安晚安还有红包说事的答案,还有那个4k赞的答案简直让我看着尴尬到爆。&/p&&p&就目前社会状况而言,让当今的男生仅靠真诚去对待当今的女生,大多都没啥好下场。懂的人自然懂。&/p&&p&还有颜值,诸位的意思是,高质量女性一定不会倾心于颜值中等或者偏低的男性吗?如果有那样的女性能叫高质量女性吗?&/p&&p&早安晚安,呵呵。人家没拉黑你那肯定是真爱,还要什么套路啊?赶紧把她约出去玩吧!别再发什么早安晚安了。&/p&&p&第一次万箭齐发还是有点小紧张的。。&/p&&p&作为曾经的泡学文化学者,几乎把泡学的所有小套路都实验了一遍,其中结局不乏有瞬间冷场的,被女生骂的,被拉黑的,但大多是女生觉得你这个人有意思,并愿意下次继续找你聊天。我就来总结下吧:&/p&&p&&b&初识切忌大范围谈论文学,电影,音乐&/b&
每个人都有自己的哈姆雷特,如果能遇到知音那是最好的,但是几率不大,若意见爱好不合,在今后的交往中这个隔阂将成为你们最大的障碍,当然也不是说不能谈论这些,等你了解了这个女生之后再选择你们有交集的地方讨论。(什么?没有?你们可以考虑将关系向其他路线转型 ) &/p&&p&&b&聊到高潮后及时收场&/b&
不要聊到没话聊的时候再收场,一次交流结尾的感受占到对方给你评价的70%,在情绪巅峰之后,开始下滑的那段时间收场会给女生留下一个好印象。(约会也是一样,不多说了 /(/ /o/ω/o/ /)/.) &/p&&p&&b&提问类话题多以“我想知道(一下)”开头&/b&
例如“请问你叫什么名字?”这句话若改为“我想知道(一下)你叫什么名字?”会让女生认为你很有责任感和独立性。(不过不要一直用,要不某些自由女性真的会高潮的,例如评论区那些傲娇妹子们就围绕这个点爆炸了233(..o?_?o..)。。)&/p&&p&&b&陈述类话题不要以“我”开头 &/b&
例如女生问你她想买这款衣服但不知道好不好看,征求你的意见。你觉得不好看。错误:“我认为这款衣服不适合你。”正确:“这款衣服不适合你。”错误的方式会给人一种不自信的印象。(千万不要发个红包过去说什么喜欢就买,这会让独立女性非常非常反感,不要问我怎么知道的。。。。 (,,o? . o?,,))
&/p&&br&&p&&b&从侧面给出你认识其他女性的讯息(仅适用于经常被男生搭讪的女生)&/b&因为这样的女生不希望自己面前这个男生只对她一个人示好,这样会暴露你的需求感,目的性,而且会令她非常不自在,而且部分高质量女生甚至会看不起这样的男生。但是这又不能直说,那怎么办?大丈夫!我们从侧面给她这个信息。例如“我昨天听会计系的女生说这家店很好吃,咱们今天去试试吧!”(“嘿,我前天听商英系的女生跟我说这家宾馆很不错,咱们今天去住住吧???!( ° ▽、° )”) &/p&&p&&b&最好的提问方式是陈述&/b&
如果非要知道些对方的小秘密但是直接去问她可能不说或者说谎怎么办?那试试利用人性的纠错倾向去让她说出来吧! 例如:“你是哪个系的?”可以改成“你是电气系的对吧?”要注意的是这个方法要确定对方一定不是电气系的才能这么说,自己理会吧~但一般遇到对面否定后没补充就说明她没上套,就不要再追问了~&/p&&p&--------------------更新的分界线
没想到才10个小时就破百赞了
&/p&&p&&b&称赞后模糊邀约&/b&
当你确定女生开始对你感兴趣时,便可开始进行邀约。但是正式邀约后如果被女方拒绝,你们之间的感情纽带将会受到重创,严重的话就直接well play了,怎么办?来模糊邀约吧!先夸奖她或者给她一个合理的理由,然后假设邀约。例如“你做得太棒了,下次带请去吃东西。”“你太可爱了吧!改天带你出去玩。”注意模糊邀约不要说出具体时间和环境。如果对方开始转移话题或者离场,就说明模糊邀约就失败了,但不会有太大损失。如果成功了,马上确定时间和地点进行约会畅想,最好让她一起参与计划,如果她也为这次计划付出了行动,被鸽的几率会大幅度降低。(“你的欧派好大啊,好想带你去逛内衣店!”“洗内! (( (//?Д/?/) ))”)&/p&&p&&b&万能称赞句型&/b&
女生比男生更需要称赞,一句称赞会让你们接下来的聊天顺利很多。但是有的男生不知道如何称赞女生?称赞的话最好是说出具体内容,说不出的话就可以用万用句式。经过多次实验,发现最受好评的公式是:真是想不到,你不仅人长得漂亮,__________!后面就可以填词了。(赶紧去称赞身边的女生吧,你会发现自己的心情都变得超级好了呢!)&/p&&p&&b&强制邀约(慎用)&/b& 我不推荐这样做,成功率很高但是一旦失败就容易极大降低对方对你的看法。1.给予选择 例如“为了感谢你帮我写文案,咱们下午是去喝杯咖啡呢还是去看场电影?”2.先大后小 “谢谢你的资料,作为感谢,我请你去游乐场玩吧!”“不好吧,咱们才认识诶!”“那就去喝杯奶茶吧,我请客!”“嗯好。”(“我们是去打DOTA呢还是去玩LOL?”“不好意思,我玩泽拉图贼6.。。。(?o? ?o??)”)&/p&&br&&p&&b&重复式引导&/b&
一个有争议的话题:女生在向你倾诉时你应该怎么做?一部分人认为只要认真倾听就好,不要说任何话,还有一部分认为既然女生来找你解决问题,不做任何表示会有点不妥当。我通过多年的心理咨询得出的经验是:重复她所说的关键词,让她更轻松地更流畅地把整件事情说完。例如:“最近真的是糟透了!”“糟透了?”“是啊,我的制图被弟弟擦掉了。。”“制图啊。。。那挺头疼的。”“嗯,为了这个制图,我连最新的那个日剧都没看呢!”“最近好看的日剧很多啊。”“就是那个逃避可耻但有用!”这样借力使力,通常能让女生觉得你很成熟,而且能感受到你对她的尊重,当然这本来就是一种尊重。(“新垣结衣我女神啊啊啊啊(?﹃?)!!”“恶心,系内!”)&/p&&p&&b&1条侮辱+1000条赞美=1条侮辱&/b&
泡学里有个术语叫打压,但是很多人认为打压就是要贬低女性,侮辱女性。我要更正的是:打压只是用来表达你思想独立的工具,一切抛开根据的打压都是在耍流氓。所以,千万不要随便嘲笑人家侮辱人家,对任何人都是这样,尽管有1000个人去赞美某个人,但是其中只要有一条侮辱,那么当事人只会注意到那一条侮辱而忽略到那1000条赞美。所以多赞美人家吧!(评论区有不少自编反例说答主辣鸡的,我可是身经百战了,别总想着搞事情 ╭( ̄▽ ̄)╯╧═╧ )&/p&&p&&b&猫绳定理(推拉定理)&/b&
也是我比较喜欢的聊天技巧,推拉是最好的调情,想要女生被你吸引或者让她喜欢上你,前提一定是情绪波动。而推拉正好会让女生产生强烈的情感波动,甚至是连续的。推:调侃她的优点,用来修正你的赞美,她所暴露的需求感
(推不等同于打压,如果推的过猛可以可以加调皮的笑脸表情调试)
拉:赞美她,夸奖她,拉近你们彼此的亲切感等等。例子:“你的头发真漂亮”“谢谢~”
“不会是假的吧!”2.“你的裙子好漂亮,挺适合你的哦!”“哈哈,是吗?谢谢~”“看见大街上很多穿,都没你有效果。”(暗示她品味差) 。其实聊天更多的就是逗她玩,没错,要让她感觉和你聊天好玩,愿意和你聊。女生是情感动物,而聊天过程中除了基本的信息交换,更多的是传递一种情绪,一种状态。可能你和妹子一次良好的聊天中会互相说了成千上万句话。第二天醒来,妹子是不会记得你们每一句都聊了什么。她想起你,想起你们的聊天更多的是当时的感觉。(“你好萌啊!”“.......”“因为你的胸跟搓衣板一样。”“........”“没事,虽然胸平,但是你矮啊!摸摸头~”“秘技.火箭头槌!!!”卒)&/p&&p&-----------------------------更新分割线
你们这群猛兽,我写的其他答案也很好啊,你们也去看看嘛!&/p&&p&首先,关于以下内容,我本来是不打算教人的,第一,因为每个人的交友方式都不一样,我用着顺手的不代表你能轻松驾驭,第二,因为要行云流水地使用这些,需要一定的心理学基础和良好的社交素养,我教你们这些不是让你们拿去约炮的,是如何让身边的女性不反感你,觉得你有意思,乐意跟你聊天。&/p&&p&所以,要看以下内容,请在心中默念下面这段话:&/p&&p&&b&长夜将至,我从今开始学习套路,至死方休。我将不爽约、不约炮、不玩弄。我将不戴绿帽,不争绿婊。我将尽忠职守,生死於斯。我是男人群中的利剑,社交舞台上的守卫。我是抵御冷漠的烈焰,破开高墙时分的光线,唤醒自己的号角,守护女神的坚盾。我将生命与荣耀献给答主。日日如此,脱单为止。
&/b&&/p&&br&&br&&br&&br&&br&&br&&br&&br&&br&&br&&br&&br&&br&&br&&br&&br&&br&&br&&br&&br&&br&&br&&p&嗯,念完了吗?好,那我们继续吧!&/p&&br&&br&&br&&br&&br&&p&&b&灭龙奥义·不知火型·杯子推拉定理&/b&
当你跟妹子聊天的时候,不知道该不该向下一步进展时,
就该用杯子的推拉来测试对象是否对当前的关系承认,使用方法是:吃饭时坐她对面建造当前关系氛围,比如聊几句,关系好还能贫贫嘴什么的,然后拿起杯子喝一口装作无意地将杯子推到她杯子旁边,她如果注意到了并把杯子收回或者将杯子改变位置就说明当前这一关系阶段还没成熟,不能进行下一步,如果她没有做出行动的话,则可以进入下个关系阶段。&/p&&p&&b&天翔龙闪·质量至上&/b& 在与他人交流的过程中,如果产生问题,我们往往倾向于进行更多更深入的沟通。沟通不足会产生问题,但是,过多的沟通也会产生问题,尤其,当沟通的双方情绪都很激动的时候,更多的沟通非但解决不了问题,更糟糕的是会演变成争吵,让情况越来越糟,甚至会走到“死胡同”,再也无法解决。如书中所说:“太多的负向沟通只会导致更多的负向结果。”另外,对于事务多、时间少的人或偏爱安静的人来说,跟他们进行过度的沟通是一种打扰、浪费时间的行为,会令其产生厌烦情绪。可见,很多时候并不是沟通的越多越好,适度的沟通也是一种境界。&/p&&br&&p&&b&Enuma elish ·安慰的禁忌
&/b&在安慰别人的时候,不要用“不要担心”“这又没什么。”之类的否认别人感觉的词汇,不要让对方感觉你看轻了他心中重要的东西,反而人家觉得你根本不懂他,所以安慰无效;这在心理学界被称为冷安慰,冷安慰的题下意思是希望对方换一个感觉,不要自怨自艾,同时否定了对付拥有感觉的权利,对任何人都适用。(“呜呜,10连抽没出货.......”“我648也没出啊....啊啊啊我的命好苦啊!!垃圾网易还我钱财!!给我刀子我不活了啊!!!”“......( ̄ε(# ̄)☆╰╮o()︿)///)”&/p&&p&&b&扭曲虚空·告白&/b&
尽管以前不少人说过这一点了,但是答主还是要重复强调一遍,不要告白!不要告白!不要告白!尤其是那种在宿舍楼下摆蜡烛的那种!表白必死,除非对方很饥渴或者你的条件可以碾压对方,千万不要对女生表白!我想说表白的死法有2种。第一种你对她死缠烂打,追了她很久很久,各种讨好,而且拒绝你,然后你继续讨好,然后继续拒绝,拒绝了很多很多次。
第二种由于你表白的方式不对,让她拒绝你,你以为她是对你有好感的(而且我也相信她是对你有好感的),所以你跟她表白,你很紧张以为她或许会接受你,没想到拒绝你了。所以,你认为她根本不喜欢你
在我收到的好多私信中,我看到了好多表白死,还看了聊天记录,很有几个在我看来,女孩子是对他有好感的,但是明确拒绝他。
而且女性是讨厌选择的,你突然给她个单项选择,她不会考虑是否答应你,而是想着逃避这种事情,如此一来,拒绝或者不作回复便是最好选择。&/p&&br&&br&&p&&b&滋养跳费·多实践多读书
我说的这些内容只是暂时提高你的框架,并不能完全改变一个人的本性内涵修养,当你泡到了你的女神,但是之后的生活中发现你做不到之前那样优秀的话,这段感情也坚持不了多久,所以多看一些有用的东西吧,多看书远比这些小技巧来的实在,知乎上大V推荐的那些含金量高的书,豆瓣9分以上的电影都给我拿下!嗯,再买个kindle,办个会员!记得买900块的那个,有灯很重要!做不到就别泡妞了,就这样!(“嗯,”路明非点点头,“因为那样她喜欢的不是我。其实我连Aspasia是什么都不知道,我也没有恺撒的品味,更没有Mint俱乐部的会员卡。我根本请不起她吃那么贵的饭,我的信用卡还欠着钱。请她吃意大利菜的其实是恺撒,恺撒当然好咯,是女生都会喜欢恺撒吧?换了我就算请客只能在摊子上吃拉面……但是只能请得起拉面的那个我也希望有人喜欢我……”)&/p&&br&&p&对了,看完觉得有用而且以后会用却不点赞的,一辈子找不到男朋友!!嗯,对!男朋友!包括可爱的男孩子!&/p&&p&补充一下:套路泛指的是成套的技巧、程式、方法等。用来形容精心策划的一套计划,来源于互联网。我个人反对程式地去跟女生交流,但是如果是指技巧,那欢迎大家跟我交流请教~&/p&&br&&p&对了,我不是PUA!我连女生的胸都没碰过呢!你们够了啊!我只是一名研究过泡学的普通的心理学爱好者而已!(ノ=Д=)ノ┻━┻(听说贵乎反PUA挺严重的,今天是真的领略到了)&/p&&p&行行行,答主没有女朋友!你们爱怎么笑怎么笑吧!说了我不是PUA啦!当然日常生活中也有漂亮的小姐姐找我要联系方式,跟周围女同学关系也不错,恋爱经验也是有的!但是我不想谈恋爱呐!想努力提升自己成为最好的自己后找到对的人难道不好吗?&/p&&br&&p&赞数和收藏数开始呈1:1了,那些收藏完不点赞的你们看着办吧!我跟你们讲你们这样会失去我的!&/p&&br&&p&你们够了!我名片上的收藏都比赞数多了!我是看透你们这群人了!&/p&&br&&br&&p&评论区有一群高身段(或许?)低社交男性开喷了,说就算你们这群人有再多套路,只要自身价值不足就是辣鸡什么的,还是要真诚balabala……嗯,你们说的没错,但是这些本来就是用来提升你的价值的,而且是按照你固有价值的百分比提升的,假设现在有2个女生,如果性格都很适合你的话,谁不想选择那个价值更高的呢?什么一个肥宅靠套路就能泡到桥本环奈,那不是我对你说的,那是PUA该对你们说的。&/p&&br&&p&还有一些女生,也许我发一个教你们女泡男的教程你们就不会说什么亲测套路对我没用什么的……人都是这样,不想让自己变得太容易到手,我能理解。也许哪一天我心情好就真发了呢?在这方面我也向不少女PUA讨教过的哟~&/p&&br&&p&再说了,有点心理学基础的人都明白,这些有的只是一些皮毛之识,政客和领导者都必须掌握的,真正的PUA圈子乱得不行,2天换一个女人什么的很常见。以上小套路是答主参考《影响力》《冷读术》《沟通的艺术》结合泡学思路弄的小技能,实践后觉得成功率挺高才拿出来的。真正的泡学非常黑暗,有兴趣的人可以上网搜一下五步陷阱,迷男方法,M3框架什么的,答主也是个爱与希望厨啊。认真去学习这些沟通小技巧,是你对你心仪之人的一种重视,也是对自己的重视,我们一不强奸,二不下药,只是想让自己更加接近自己的梦想,更加看得见,摸得着,又有什么错呢?年轻人学一些社交技巧总比没得好,别到时候到了社会,各路妖魔鬼怪分分钟教你做人。&/p&&br&&br&&br&&p&嘛,总归的经验是:众生皆苦,没有谁会被上天眷顾。请接纳每一个认真对待你的人。&/p&
我看不下去了,实名反对楼上楼下隔壁对门所有拿颜值、真诚、早安晚安还有红包说事的答案,还有那个4k赞的答案简直让我看着尴尬到爆。就目前社会状况而言,让当今的男生仅靠真诚去对待当今的女生,大多都没啥好下场。懂的人自然懂。还有颜值,诸位的意思是,…
&figure&&img src=&https://pic4.zhimg.com/v2-637df045f1f39e4acc7b_b.jpg& data-rawwidth=&1024& data-rawheight=&462& class=&origin_image zh-lightbox-thumb& width=&1024& data-original=&https://pic4.zhimg.com/v2-637df045f1f39e4acc7b_r.jpg&&&/figure&&p&&b&估计有很多入门机器学习的同学在看到EM算法的时候会有种种疑惑:EM算法到底是个什么玩意?它能做什么?它的应用场景是什么?网上的公式推导怎么看不懂?&/b&&/p&&p&&b&下面我会从一个案例开始讲解极大似然估计,然后过渡到EM算法,讲解EM算法到底是个什么玩意儿以及它的核心的idea是什么。之后讲解EM算法的推导公式,鉴于网上很多博客文章都是直接翻译吴恩达的课程笔记内容,有很多推导步骤都是跳跃性的,我会把这些中间步骤弥补上,让大家都能看懂EM算法的推导过程。最后以一个二硬币模型作为EM算法的一个实例收尾。希望阅读本篇文章之后能对EM算法有更深的了解和认识。&/b&&/p&&p&&b&极大似然和EM(Expectation Maximization)算法,与其说是一种算法,不如说是一种解决问题的思想,解决一类问题的框架,和线性回归,逻辑回归,决策树等一些具体的算法不同,极大似然和EM算法更加抽象,是很多具体算法的基础。&/b&&/p&&h2&1. 从极大似然到EM&/h2&&h2&1.1 极大似然&/h2&&h2&1.1.1 问题描述&/h2&&p&假设我们需要调查我们学校学生的身高分布。我们先假设学校所有学生的身高服从正态分布 &img src=&https://www.zhihu.com/equation?tex=N%28%5Cmu%2C%5Csigma%5E2%29& alt=&N(\mu,\sigma^2)& eeimg=&1&& 。(&b&注意:极大似然估计的前提一定是要假设数据总体的分布,如果不知道数据分布,是无法使用极大似然估计的&/b&),这个分布的均值 &img src=&https://www.zhihu.com/equation?tex=%5Cmu& alt=&\mu& eeimg=&1&& 和方差 &img src=&https://www.zhihu.com/equation?tex=%5Csigma%5E2& alt=&\sigma^2& eeimg=&1&& 未知,如果我们估计出这两个参数,那我们就得到了最终的结果。那么怎样估计这两个参数呢?&/p&&p&学校的学生这么多,我们不可能挨个统计吧?这时候我们需要用到概率统计的思想,也就是抽样,根据样本估算总体。假设我们随机抽到了 200 个人(也就是 200 个身高的样本数据,为了方便表示,下面“人”的意思就是对应的身高)。然后统计抽样这 200 个人的身高。根据这 200 个人的身高估计均值 &img src=&https://www.zhihu.com/equation?tex=%5Cmu& alt=&\mu& eeimg=&1&& 和方差 &img src=&https://www.zhihu.com/equation?tex=%5Csigma%5E2& alt=&\sigma^2& eeimg=&1&& 。&/p&&p&用数学的语言来说就是:为了统计学校学生的身高分布,我们独立地按照概率密度 &img src=&https://www.zhihu.com/equation?tex=p%28x%7C%CE%B8%29& alt=&p(x|θ)& eeimg=&1&& 抽取了 200 个(身高),组成样本集
&img src=&https://www.zhihu.com/equation?tex=X%3D%7Bx_1%2Cx_2%2C%E2%80%A6%2Cx_N%7D& alt=&X={x_1,x_2,…,x_N}& eeimg=&1&&(其中&img src=&https://www.zhihu.com/equation?tex=x_i& alt=&x_i& eeimg=&1&& 表示抽到的第 &img src=&https://www.zhihu.com/equation?tex=i& alt=&i& eeimg=&1&& 个人的身高,这里 N 就是 200,表示样本个数),我们想通过样本集 X 来估计出总体的未知参数
&img src=&https://www.zhihu.com/equation?tex=%CE%B8& alt=&θ& eeimg=&1&& 。这里概率密度
&img src=&https://www.zhihu.com/equation?tex=p%28x%7C%CE%B8%29& alt=&p(x|θ)& eeimg=&1&& 服从高斯分布 &img src=&https://www.zhihu.com/equation?tex=N%28%5Cmu%2C%5Csigma%5E2%29& alt=&N(\mu,\sigma^2)& eeimg=&1&& ,其中的未知参数是 &img src=&https://www.zhihu.com/equation?tex=%CE%B8%3D%5B%5Cmu%2C+%5Csigma%5D%5ET& alt=&θ=[\mu, \sigma]^T& eeimg=&1&& 。
&/p&&p&那么问题来了怎样估算参数 &img src=&https://www.zhihu.com/equation?tex=%5Ctheta& alt=&\theta& eeimg=&1&& 呢?&/p&&h2&1.1.2 估算参数&/h2&&p&我们先回答几个小问题:&/p&&p&&b&问题一:抽到这 200 个人的概率是多少呢?&/b&&/p&&p&由于每个样本都是独立地从 &img src=&https://www.zhihu.com/equation?tex=p%28x%7C%CE%B8%29& alt=&p(x|θ)& eeimg=&1&& 中抽取的,换句话说这 200 个学生随便捉的,他们之间是没有关系的,即他们之间是相互独立的。假如抽到学生 A(的身高)的概率是 &img src=&https://www.zhihu.com/equation?tex=+p%28x_A%7C%CE%B8%29& alt=& p(x_A|θ)& eeimg=&1&&&i&,&/i&抽到学生B的概率是 &img src=&https://www.zhihu.com/equation?tex=p%28x_B%7C%CE%B8%29& alt=&p(x_B|θ)& eeimg=&1&& ,那么同时抽到男生 A 和男生 B 的概率是 &img src=&https://www.zhihu.com/equation?tex=p%28x_A%7C%CE%B8%29+%5Ctimes+p%28x_B%7C%CE%B8%29& alt=&p(x_A|θ) \times p(x_B|θ)& eeimg=&1&& ,同理,我同时抽到这 200 个学生的概率就是他们各自概率的乘积了,即为他们的联合概率,用下式表示:&/p&&p&&img src=&https://www.zhihu.com/equation?tex=L%28%5Ctheta%29+%3D+L%28x_1%2C+x_2%2C+%5Ccdots+%2C+x_n%3B+%5Ctheta%29+%3D+%5Cprod+%5Climits+_%7Bi%3D1%7D%5E%7Bn%7Dp%28x_i%7C%5Ctheta%29%2C+%5Cquad+%5Ctheta+%5Cin+%5CTheta+%5C%5C& alt=&L(\theta) = L(x_1, x_2, \cdots , x_n; \theta) = \prod \limits _{i=1}^{n}p(x_i|\theta), \quad \theta \in \Theta \\& eeimg=&1&&&br&n 为抽取的样本的个数,本例中 &img src=&https://www.zhihu.com/equation?tex=n%3D200& alt=&n=200& eeimg=&1&& ,这个概率反映了,在概率密度函数的参数是 &img src=&https://www.zhihu.com/equation?tex=%CE%B8& alt=&θ& eeimg=&1&& 时,得到 X 这组样本的概率。上式中等式右侧只有 &img src=&https://www.zhihu.com/equation?tex=%CE%B8& alt=&θ& eeimg=&1&& 是未知数,所以 L 是 &img src=&https://www.zhihu.com/equation?tex=%CE%B8& alt=&θ& eeimg=&1&& 的函数。&/p&&p&这个函数反映的是在不同的参数 &img src=&https://www.zhihu.com/equation?tex=%CE%B8& alt=&θ& eeimg=&1&& 取值下,取得当前这个样本集的可能性,因此称为参数 &img src=&https://www.zhihu.com/equation?tex=%CE%B8& alt=&θ& eeimg=&1&&
相对于样本集 X 的似然函数(likelihood function),记为 &img src=&https://www.zhihu.com/equation?tex=L%28%CE%B8%29& alt=&L(θ)& eeimg=&1&& 。&/p&&p&对 L 取对数,将其变成连加的,称为对数似然函数,如下式:&br&&img src=&https://www.zhihu.com/equation?tex=H%28%5Ctheta%29+%3D+%5Ctext%7Bln%7D+%5C+L%28%5Ctheta%29+%3D+%5Ctext%7Bln%7D+%5Cprod+%5Climits+_%7Bi%3D1%7D%5E%7Bn%7Dp%28x_i%3B%5Ctheta%29+%3D+%5Csum+%5Climits+_%7Bi%3D1%7D%5E%7Bn%7D%5Ctext%7Bln%7D+p%28x_i%3B%5Ctheta%29+%5C%5C& alt=&H(\theta) = \text{ln} \ L(\theta) = \text{ln} \prod \limits _{i=1}^{n}p(x_i;\theta) = \sum \limits _{i=1}^{n}\text{ln} p(x_i;\theta) \\& eeimg=&1&&&/p&&p&&b&&i&Q:这里为什么要取对数?&/i&&/b&&/p&&ul&&li&
取对数之后累积变为累和,求导更加方便&/li&&li&
概率累积会出现数值非常小的情况,比如1e-30,由于计算机的精度是有限的,无法识别这一类数据,取对数之后,更易于计算机的识别(1e-30以10为底取对数后便得到-30)。&/li&&/ul&&p&&b&问题二:学校那么多学生,为什么就恰好抽到了这 200 个人 ( 身高) 呢?&/b&&/p&&p&在学校那么学生中,我一抽就抽到这 200 个学生(身高),而不是其他人,那是不是表示在整个学校中,这 200 个人(的身高)出现的概率极大啊,也就是其对应的似然函数 &img src=&https://www.zhihu.com/equation?tex=L%28%CE%B8%29& alt=&L(θ)& eeimg=&1&& 极大,即&/p&&p&&img src=&https://www.zhihu.com/equation?tex=%5Chat+%5Ctheta+%3D+%5Ctext%7Bargmax%7D+%5C+L%28%5Ctheta%29+%5C%5C& alt=&\hat \theta = \text{argmax} \ L(\theta) \\& eeimg=&1&&&/p&&p&&img src=&https://www.zhihu.com/equation?tex=%5Chat+%5Ctheta& alt=&\hat \theta& eeimg=&1&& 这个叫做 &img src=&https://www.zhihu.com/equation?tex=%CE%B8& alt=&θ& eeimg=&1&& 的极大似然估计量,即为我们所求的值。&/p&&p&&b&问题三:那么怎么极大似然函数?&/b&&/p&&p&求 &img src=&https://www.zhihu.com/equation?tex=L%28%5Ctheta%29& alt=&L(\theta)& eeimg=&1&& 对所有参数的偏导数,然后让这些偏导数为 0,假设有 &img src=&https://www.zhihu.com/equation?tex=n& alt=&n& eeimg=&1&& 个参数,就有 &img src=&https://www.zhihu.com/equation?tex=n& alt=&n& eeimg=&1&& 个方程组成的方程组,那么方程组的解就是似然函数的极值点了,从而得到对应的 &img src=&https://www.zhihu.com/equation?tex=%CE%B8& alt=&θ& eeimg=&1&& 了。&/p&&h2&1.1.3 极大似然估计总结&/h2&&p&极大似然估计你可以把它看作是一个反推。多数情况下我们是根据已知条件来推算结果,而极大似然估计是已经知道了结果,然后寻求使该结果出现的可能性极大的条件,以此作为估计值。&/p&&p&比如说,&/p&&ul&&li&假如一个学校的学生男女比例为 9:1 (条件),那么你可以推出,你在这个学校里更大可能性遇到的是男生 (结果);&/li&&li&假如你不知道那女比例,你走在路上,碰到100个人,发现男生就有90个 (结果),这时候你可以推断这个学校的男女比例更有可能为 9:1 (条件),这就是极大似然估计。&/li&&/ul&&p&极大似然估计,只是一种概率论在统计学的应用,它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,通过若干次试验,观察其结果,利用结果推出参数的大概值。&/p&&p&极大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率极大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。&/p&&h2&1.1.4 求极大似然函数估计值的一般步骤:&/h2&&p&(1)写出似然函数;&/p&&p&(2)对似然函数取对数,并整理;&/p&&p&(3)求导数,令导数为 0,得到似然方程;&/p&&p&(4)解似然方程,得到的参数。&/p&&h2&1.1.5 极大似然函数的应用&/h2&&p&&b&应用一 :回归问题中的极小化平方和&/b& (极小化代价函数)&/p&&p&假设线性回归模型具有如下形式: &img src=&https://www.zhihu.com/equation?tex=h%28x%29+%3D+%5Csum+%5Climits+_%7Bi%3D1%7D%5E%7Bd%7D+%5Ctheta_jx_j+%2B+%5Cepsilon+%3D+%5Ctheta%5ETx+%2B+%5Cepsilon& alt=&h(x) = \sum \limits _{i=1}^{d} \theta_jx_j + \epsilon = \theta^Tx + \epsilon& eeimg=&1&&,其中 &img src=&https://www.zhihu.com/equation?tex=x+%5Cin+R%5E%7B1+%5Ctimes+d%7D%2C+%5Ctheta+%5Cin+R%5E%7B1+%5Ctimes+d%7D%EF%BC%8C+%E8%AF%AF%E5%B7%AE+%5Cepsilon+%5Cin+R& alt=&x \in R^{1 \times d}, \theta \in R^{1 \times d}, 误差 \epsilon \in R& eeimg=&1&&&i&, &/i&误差 &img src=&https://www.zhihu.com/equation?tex=X+%3D+%28x_1%2C+%5Ccdots%2C+x_m%29%5ET+%5Cin+R%5E%7Bm+%5Ctimes+d%7D%2C+y+%5Cin+R%5E%7Bm+%5Ctimes+1%7D& alt=&X = (x_1, \cdots, x_m)^T \in R^{m \times d}, y \in R^{m \times 1}& eeimg=&1&& , 如何求 &img src=&https://www.zhihu.com/equation?tex=%CE%B8& alt=&θ& eeimg=&1&&
呢?&/p&&ul&&li&最小二乘估计:最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值和观测值之差的平方和最小,其推导过程如下所示:&/li&&/ul&&p&&img src=&https://www.zhihu.com/equation?tex=J%28%5Ctheta%29%3D+%5Csum+%5Climits+_%7Bi%3D1%7D%5En+%28h_%7B%5Ctheta%7D%28x_i%29-+y_i%29+%5E2+%5C%5C& alt=&J(\theta)= \sum \limits _{i=1}^n (h_{\theta}(x_i)- y_i) ^2 \\& eeimg=&1&&&/p&&p&
求解方法是通过梯度下降算法,训练数据不断迭代得到最终的值。
&/p&&ul&&li&极大似然法:最合理的参数估计量应该使得从模型中抽取 m 组样本观测值的概率极大,也就是似然函数极大。&/li&&/ul&&p&
假设误差项 &img src=&https://www.zhihu.com/equation?tex=%5Cepsilon+%5Cin+N%280%2C+%5Csigma%5E2%29& alt=&\epsilon \in N(0, \sigma^2)& eeimg=&1&& ,则
&img src=&https://www.zhihu.com/equation?tex=y_i+%5Cin+N%28%5Ctheta+x_i%2C+%5Csigma%5E2%29& alt=&y_i \in N(\theta x_i, \sigma^2)& eeimg=&1&&
(建议复习一下正态分布的概率密度函数和相关的性质)&br&&img src=&https://www.zhihu.com/equation?tex=p%28y_i%7Cx_i%3B%5Ctheta%29+%3D+%5Cfrac%7B1%7D%7B%5Csqrt%7B2+%5Cpi%7D%5Csigma%7Dexp%28-%5Cfrac%7B%28y_i-%5Ctheta%5ETx_%7Bi%7D%29%5E2%7D%7B2%5Csigma%5E2%7D%29+%5C%5C+%5Cbegin+%7Balign%2A%7DL%28%5Ctheta%29+%26%3D+%5Cprod+%5Climits+_%7Bi%3D1%7D%5Emp%28y_i%7Cx_i%3B%5Ctheta%29+%5C%5C+%26%3D+%5Cprod+%5Climits+_%7Bi%3D1%7D%5Em%5Cfrac%7B1%7D%7B%5Csqrt%7B2+%5Cpi%7D%5Csigma%7Dexp%28-%5Cfrac%7B%28y_i-%5Ctheta%5ETx_%7Bi%7D%29%5E2%7D%7B2%5Csigma%5E2%7D%29%5Cend%7Balign%2A%7D+%5C%5C& alt=&p(y_i|x_i;\theta) = \frac{1}{\sqrt{2 \pi}\sigma}exp(-\frac{(y_i-\theta^Tx_{i})^2}{2\sigma^2}) \\ \begin {align*}L(\theta) &= \prod \limits _{i=1}^mp(y_i|x_i;\theta) \\ &= \prod \limits _{i=1}^m\frac{1}{\sqrt{2 \pi}\sigma}exp(-\frac{(y_i-\theta^Tx_{i})^2}{2\sigma^2})\end{align*} \\& eeimg=&1&&&/p&&p&&img src=&https://www.zhihu.com/equation?tex=%5Cbegin+%7Balign%2A%7DH%28%5Ctheta%29+%26%3D+log%28L%28%5Ctheta%29%29+%5C%5C+%26%3D+%5Ctext%7Blog%7D%5C+%5Cprod+%5Climits+_%7Bi%3D1%7D%5Em%5Cfrac%7B1%7D%7B%5Csqrt%7B2+%5Cpi%7D%5Csigma%7Dexp%28-%5Cfrac%7B%28y_i-%5Ctheta%5ETx_%7Bi%7D%29%5E2%7D%7B2%5Csigma%5E2%7D%29+%5C%5C%26%3D+%5Csum+%5Climits+_%7Bi%3D1%7D%5Em%28+%5Ctext%7Blog%7D%5C+%5Cfrac%7B1%7D%7B%5Csqrt%7B2+%5Cpi%7D%5Csigma%7Dexp%28-%5Cfrac%7B%28y_i-%5Ctheta%5ETx_%7Bi%7D%29%5E2%7D%7B2%5Csigma%5E2%7D%29%29+%5C%5C+%26+%3D+-%5Cfrac%7B1%7D%7B2%5Csigma%5E2%7D+%5Csum+%5Climits+_%7Bi%3D1%7D%5Em%28y_i-%5Ctheta%5ETx_%7Bi%7D%29%5E2+-+m%5Ctext%7Bln%7D%5C+%5Csigma+%5Csqrt%7B2%5Cpi%7D+%5Cend%7Balign%2A%7D+%5C%5C& alt=&\begin {align*}H(\theta) &= log(L(\theta)) \\ &= \text{log}\ \prod \limits _{i=1}^m\frac{1}{\sqrt{2 \pi}\sigma}exp(-\frac{(y_i-\theta^Tx_{i})^2}{2\sigma^2}) \\&= \sum \limits _{i=1}^m( \text{log}\ \frac{1}{\sqrt{2 \pi}\sigma}exp(-\frac{(y_i-\theta^Tx_{i})^2}{2\sigma^2})) \\ & = -\frac{1}{2\sigma^2} \sum \limits _{i=1}^m(y_i-\theta^Tx_{i})^2 - m\text{ln}\ \sigma \sqrt{2\pi} \end{align*} \\& eeimg=&1&&&/p&&p& 令 &img src=&https://www.zhihu.com/equation?tex=J%28%5Ctheta%29+%3D+%5Cfrac%7B1%7D%7B2%7D+%5Csum+%5Climits+_%7Bi%3D1%7D%5Em%28y_i-%5Ctheta%5ETx_%7Bi%7D%29%5E2& alt=&J(\theta) = \frac{1}{2} \sum \limits _{i=1}^m(y_i-\theta^Tx_{i})^2& eeimg=&1&& 则&img src=&https://www.zhihu.com/equation?tex=arg+%5Cmax+%5Climits_%7B%5Ctheta%7D+H%28%5Ctheta%29+%5CLeftrightarrow+arg+%5Cmin+%5Climits_%7B%5Ctheta%7D+J%28%5Ctheta%29+& alt=&arg \max \limits_{\theta} H(\theta) \Leftrightarrow arg \min \limits_{\theta} J(\theta) & eeimg=&1&& , 即将极大似然函数等价于极小化平方和。&/p&&p&这时可以发现,此时的极大化似然函数和最初的最小二乘损失函数的估计结果是等价的。但是要注意这两者只是恰好有着相同的表达结果,原理和出发点完全不同。&/p&&p&&b&应用二:分类问题中极小化交叉熵&/b& (极小化代价函数)&/p&&p&在分类问题中,交叉熵的本质就是似然函数的极大化,逻辑回归的假设函数为:&br&&img src=&https://www.zhihu.com/equation?tex=h%28x%29+%3D+%5Chat+y+%3D+%5Cfrac+1+%7B1%2Be%5E%7B-%5Ctheta%5ETx+%2B+b%7D%7D+%5C%5C& alt=&h(x) = \hat y = \frac 1 {1+e^{-\theta^Tx + b}} \\& eeimg=&1&&&br&根据之前学过的内容我们知道 &img src=&https://www.zhihu.com/equation?tex=%5Chat+y+%3D+p%28y%3D1%7Cx%2C+%5Ctheta%29& alt=&\hat y = p(y=1|x, \theta)& eeimg=&1&& ,&/p&&p&当 &img src=&https://www.zhihu.com/equation?tex=y%3D1& alt=&y=1& eeimg=&1&& 时, &img src=&https://www.zhihu.com/equation?tex=p_1+%3D+p%28y+%3D+1%7Cx%2C%5Ctheta%29+%3D+%5Chat+y& alt=&p_1 = p(y = 1|x,\theta) = \hat y& eeimg=&1&&&/p&&p&当
&img src=&https://www.zhihu.com/equation?tex=y%3D0& alt=&y=0& eeimg=&1&&
时,&img src=&https://www.zhihu.com/equation?tex=p_0+%3D+p%28y+%3D+0%7Cx%2C%5Ctheta%29+%3D+1-+%5Chat+y& alt=&p_0 = p(y = 0|x,\theta) = 1- \hat y& eeimg=&1&&&/p&&p&合并上面两式子,可以得到 &/p&&p&&img src=&https://www.zhihu.com/equation?tex=p%28y%7Cx%EF%BC%8C+%5Ctheta%29+%3D+%5Chat+y%5Ey%281-+%5Chat+y%29%5E%7B1-+y%7D+%5C%5C& alt=&p(y|x, \theta) = \hat y^y(1- \hat y)^{1- y} \\& eeimg=&1&&&img src=&https://www.zhihu.com/equation?tex=%5Cbegin+%7Balign%2A%7DL%28%5Ctheta%29+%26%3D+%5Cprod+%5Climits+_%7Bi%3D1%7D%5Emp%28y_i%7Cx_i%3B%5Ctheta%29+%5C%5C+%26%3D+%5Cprod+%5Climits+_%7Bi%3D1%7D%5Em%5Chat+y_i%5E%7By_i%7D%281-+%5Chat+y_i%29%5E%7B1-+y_i%7D%5Cend%7Balign%2A%7D+%5C%5C& alt=&\begin {align*}L(\theta) &= \prod \limits _{i=1}^mp(y_i|x_i;\theta) \\ &= \prod \limits _{i=1}^m\hat y_i^{y_i}(1- \hat y_i)^{1- y_i}\end{align*} \\& eeimg=&1&&&/p&&p&&img src=&https://www.zhihu.com/equation?tex=%5Cbegin+%7Balign%2A%7DH%28%5Ctheta%29+%26%3D%5Ctext%7Blog%7D%28L%28%5Ctheta%29%29+%5C%5C+%26%3D+%5Ctext%7Blog%7D%5Cprod+%5Climits+_%7Bi%3D1%7D%5Em%5Chat+y_i%5E%7By_i%7D%281-+%5Chat+y_i%29%5E%7B1-+y_i%7D+%5C%5C%26%3D+%5Csum+%5Climits+_%7Bi%3D1%7D%5Em+%5Ctext%7Blog%7D%5C+%5Chat+y_i%5E%7By_i%7D%281-+%5Chat+y_i%29%5E%7B1-+y_i%7D+%5C%5C+%26+%3D%5Csum+%5Climits+_%7Bi%3D1%7D%5Em+y_i%5C+%5Ctext%7Blog%7D%5C+%5Chat+y_i+%2B+%281-y_i%29%5C+%5Ctext%7Blog%7D%5C+%281+-+%5Chat+y_i%29+%5Cend%7Balign%2A%7D+%5C%5C& alt=&\begin {align*}H(\theta) &=\text{log}(L(\theta)) \\ &= \text{log}\prod \limits _{i=1}^m\hat y_i^{y_i}(1- \hat y_i)^{1- y_i} \\&= \sum \limits _{i=1}^m \text{log}\ \hat y_i^{y_i}(1- \hat y_i)^{1- y_i} \\ & =\sum \limits _{i=1}^m y_i\ \text{log}\ \hat y_i + (1-y_i)\ \text{log}\ (1 - \hat y_i) \end{align*} \\& eeimg=&1&&&/p&&p&令 &img src=&https://www.zhihu.com/equation?tex=J%28%5Ctheta%29+%3D+-H%28%5Ctheta%29+%3D+-%5Csum+%5Climits+_%7Bi%3D1%7D%5Em+y_i%5C+%5Ctext%7Blog%7D%5C+%5Chat+y_i+%2B+%281-y_i%29%5C+%5Ctext%7Blog%7D%5C+%281+-+%5Chat+y_i%29& alt=&J(\theta) = -H(\theta) = -\sum \limits _{i=1}^m y_i\ \text{log}\ \hat y_i + (1-y_i)\ \text{log}\ (1 - \hat y_i)& eeimg=&1&& 则 &img src=&https://www.zhihu.com/equation?tex=arg+%5Cmax+%5Climits_%7B%5Ctheta%7D+H%28%5Ctheta%29+%5CLeftrightarrow+arg+%5Cmin+%5Climits_%7B%5Ctheta%7D+J%28%5Ctheta%29+& alt=&arg \max \limits_{\theta} H(\theta) \Leftrightarrow arg \min \limits_{\theta} J(\theta) & eeimg=&1&& , 即将极大似然函数等价于极小化平方和。&/p&&h2&1.2 EM算法&/h2&&h2&1.2.1 问题描述&/h2&&p&上面我们先假设学校所有学生的身高服从正态分布 &img src=&https://www.zhihu.com/equation?tex=N%28%5Cmu%2C%5Csigma%5E2%29& alt=&N(\mu,\sigma^2)& eeimg=&1&& 。实际情况并不是这样的,男生和女生分别服从两种不同的正态分布,即男生 &img src=&https://www.zhihu.com/equation?tex=%5Cin+N%28%5Cmu_1%2C+%5Csigma_1%5E2%29& alt=&\in N(\mu_1, \sigma_1^2)& eeimg=&1&& ,女生 &img src=&https://www.zhihu.com/equation?tex=%5Cin+N%28%5Cmu_2%2C+%5Csigma_2%5E2%29+& alt=&\in N(\mu_2, \sigma_2^2) & eeimg=&1&& ,(&b&注意:EM算法和极大似然估计的前提是一样的,都要假设数据总体的分布,如果不知道数据分布,是无法使用EM算法的&/b&)。那么该怎样评估学生的身高分布呢?&/p&&p&简单啊,我们可以随便抽 100 个男生和 100 个女生,将男生和女生分开,对他们单独进行极大似然估计。分别求出男生和女生的分布。&/p&&p&假如某些男生和某些女生好上了,纠缠起来了。咱们也不想那么残忍,硬把他们拉扯开。这时候,你从这 200 个人(的身高)里面随便给我指一个人(的身高),我都无法确定这个人(的身高)是男生(的身高)还是女生(的身高)。用数学的语言就是,抽取得到的每个样本都不知道是从哪个分布来的。那怎么办呢?&/p&&h2&1.2.2 EM 算法&/h2&&p&这个时候,对于每一个样本或者你抽取到的人,就有两个问题需要估计了,一是这个人是男的还是女的,二是男生和女生对应的身高的正态分布的参数是多少。这两个问题是相互依赖的:&/p&&ul&&li&当我们知道了每个人是男生还是女生,我们可以很容易利用极大似然对男女各自的身高的分布进行估计。&/li&&li&反过来,当我们知道了男女身高的分布参数我们才能知道每一个人更有可能是男生还是女生。例如我们已知男生的身高分布为 &img src=&https://www.zhihu.com/equation?tex=N%28%5Cmu_1+%3D+172%2C+%5Csigma%5E2_1%3D5%5E2%29& alt=&N(\mu_1 = 172, \sigma^2_1=5^2)& eeimg=&1&& , 女生的身高分布为
&img src=&https://www.zhihu.com/equation?tex=N%28%5Cmu_2+%3D+162%2C+%5Csigma%5E2_2%3D5%5E2%29& alt=&N(\mu_2 = 162, \sigma^2_2=5^2)& eeimg=&1&&
, 一个学生的身高为180,我们可以推断出这个学生为男生的可能性更大。&/li&&/ul&&p&但是现在我们既不知道每个学生是男生还是女生,也不知道男生和女生的身高分布。这就成了一个先有鸡还是先有蛋的问题了。鸡说,没有我,谁把你生出来的啊。蛋不服,说,没有我,你从哪蹦出来啊。为了解决这个你依赖我,我依赖你的循环依赖问题,总得有一方要先打破僵局,不管了,我先随便整一个值出来,看你怎么变,然后我再根据你的变化调整我的变化,然后如此迭代着不断互相推导,最终就会收敛到一个解(草原上的狼和羊,相生相克)。这就是EM算法的基本思想了。&/p&&p&EM的意思是“&b&Expectation Maximization&/b&”,具体方法为:&/p&&ul&&li&先设定男生和女生的身高分布参数(初始值),例如男生的身高分布为 &img src=&https://www.zhihu.com/equation?tex=N%28%5Cmu_1+%3D+172%2C+%5Csigma%5E2_1%3D5%5E2%29& alt=&N(\mu_1 = 172, \sigma^2_1=5^2)& eeimg=&1&& , 女生的身高分布为 &img src=&https://www.zhihu.com/equation?tex=N%28%5Cmu_2+%3D+162%2C+%5Csigma%5E2_2%3D5%5E2%29& alt=&N(\mu_2 = 162, \sigma^2_2=5^2)& eeimg=&1&& ,当然了,刚开始肯定没那么准;&/li&&li&然后计算出每个人更可能属于第一个还是第二个正态分布中的(例如,这个人的身高是180,那很明显,他极大可能属于男生),这个是属于Expectation 一步;&/li&&li&我们已经大概地按上面的方法将这 200 个人分为男生和女生两部分,我们就可以根据之前说的极大似然估计分别对男生和女生的身高分布参数进行估计(这不变成了&b&极大&/b&似然估计了吗?&b&极大即为Maximization&/b&)这步称为 Maximization;&/li&&li&然后,当我们更新这两个分布的时候,每一个学生属于女生还是男生的概率又变了,那么我们就再需要调整E步;&/li&&li&……如此往复,直到参数基本不再发生变化或满足结束条件为止。&/li&&/ul&&h2&1.2.3 总结&/h2&&p&上面的学生属于男生还是女生我们称之为隐含参数,女生和男生的身高分布参数称为模型参数。&/p&&p&EM 算法解决这个的思路是使用启发式的迭代方法,既然我们无法直接求出模型分布参数,那么我们可以先猜想隐含参数(EM 算法的 E 步),接着基于观察数据和猜测的隐含参数一起来极大化对数似然,求解我们的模型参数(EM算法的M步)。由于我们之前的隐含参数是猜测的,所以此时得到的模型参数一般还不是我们想要的结果。我们基于当前得到的模型参数,继续猜测隐含参数(EM算法的 E 步),然后继续极大化对数似然,求解我们的模型参数(EM算法的M步)。以此类推,不断的迭代下去,直到模型分布参数基本无变化,算法收敛,找到合适的模型参数。&/p&&p&一个最直观了解 EM 算法思路的是 K-Means 算法。在 K-Means 聚类时,每个聚类簇的质心是隐含数据。我们会假设 K 个初始化质心,即 EM 算法的 E 步;然后计算得到每个样本最近的质心,并把样本聚类到最近的这个质心,即 EM 算法的 M 步。重复这个 E 步和 M 步,直到质心不再变化为止,这样就完成了 K-Means 聚类。&/p&&h2&2. EM算法推导&/h2&&h2&2.1 基础知识&/h2&&h2&2.1.1 凸函数&/h2&&p&设是定义在实数域上的函数,如果对于任意的实数,都有:&br&&img src=&https://www.zhihu.com/equation?tex=f%27%27+%5Cge0+%5C%5C& alt=&f'' \ge0 \\& eeimg=&1&&&br&那么是凸函数。若不是单个实数,而是由实数组成的向量,此时,如果函数的 Hesse 矩阵是半正定的,即&br&&img src=&https://www.zhihu.com/equation?tex=H%27%27+%5Cge+0+%5C%5C& alt=&H'' \ge 0 \\& eeimg=&1&&&br&是凸函数。特别地,如果 &img src=&https://www.zhihu.com/equation?tex=f%27%27+%3E+0& alt=&f'' & 0& eeimg=&1&& 或者
&img src=&https://www.zhihu.com/equation?tex=H%27%27+%3E+0& alt=&H'' & 0& eeimg=&1&& ,称为严格凸函数。&/p&&h2&2.1.2 Jensen不等式&/h2&&p&如下图,如果函数 &img src=&https://www.zhihu.com/equation?tex=f& alt=&f& eeimg=&1&& 是凸函数, &img src=&https://www.zhihu.com/equation?tex=x& alt=&x& eeimg=&1&& 是随机变量,有 0.5 的概率是 a,有 0.5 的概率是 b, &img src=&https://www.zhihu.com/equation?tex=x& alt=&x& eeimg=&1&& 的期望值就是 a 和 b 的中值了那么:&br&&img src=&https://www.zhihu.com/equation?tex=E%5Bf%28x%29%5D+%5Cge+f%28E%28x%29%29+%5C%5C& alt=&E[f(x)] \ge f(E(x)) \\& eeimg=&1&&&br&其中,&img src=&https://www.zhihu.com/equation?tex=E%5Bf%28x%29%5D+%3D+0.5f%28a%29+%2B+0.5+f%28b%29%EF%BC%8Cf%28E%28x%29%29+%3D+f%280.5a+%2B+0.5b%29& alt=&E[f(x)] = 0.5f(a) + 0.5 f(b),f(E(x)) = f(0.5a + 0.5b)& eeimg=&1&& ,这里 a 和 b 的权值为 0.5,
&img src=&https://www.zhihu.com/equation?tex=f%28a%29& alt=&f(a)& eeimg=&1&&
与 a 的权值相等,&img src=&https://www.zhihu.com/equation?tex=f%28b%29& alt=&f(b)& eeimg=&1&& 与 b 的权值相等。&/p&&p&特别地,如果函数 &img src=&https://www.zhihu.com/equation?tex=f& alt=&f& eeimg=&1&&
是严格凸函数,当且仅当: &img src=&https://www.zhihu.com/equation?tex=p%28x+%3D+E%28x%29%29+%3D+1& alt=&p(x = E(x)) = 1& eeimg=&1&&
(即随机变量是常量) 时等号成立。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-22d1d68bb9db46d48c1a4cc_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&348& data-rawheight=&295& class=&content_image& width=&348&&&/figure&&p&注:若函数
&img src=&https://www.zhihu.com/equation?tex=f& alt=&f& eeimg=&1&&
是凹函数,Jensen不等式符号相反。&/p&&h2&2.1.3 期望&/h2&&p&对于离散型随机变量 X 的概率分布为
&img src=&https://www.zhihu.com/equation?tex=p_i+%3D+p%5C%7BX%3Dx_i%5C%7D& alt=&p_i = p\{X=x_i\}& eeimg=&1&& ,数学期望 &img src=&https://www.zhihu.com/equation?tex=E%28X%29& alt=&E(X)& eeimg=&1&&
为:&br&&img src=&https://www.zhihu.com/equation?tex=E%28X%29+%3D+%5Csum+%5Climits+_i+x_ip_i+%5C%5C& alt=&E(X) = \sum \limits _i x_ip_i \\& eeimg=&1&&&/p&&p&&img src=&https://www.zhihu.com/equation?tex=p_i& alt=&p_i& eeimg=&1&& 是权值,满足两个条件 &img src=&https://www.zhihu.com/equation?tex=1+%5Cge+p_i+%5Cge+0%EF%BC%8C%5Csum+%5Climits+_i+p_i+%3D+1& alt=&1 \ge p_i \ge 0,\sum \limits _i p_i = 1& eeimg=&1&&
。&/p&&p&若连续型随机变量X的概率密度函数为 &img src=&https://www.zhihu.com/equation?tex=f%28x%29& alt=&f(x)& eeimg=&1&& ,则数学期望 &img src=&https://www.zhihu.com/equation?tex=E%28X%29& alt=&E(X)& eeimg=&1&& 为:&br&&img src=&https://www.zhihu.com/equation?tex=E%28X%29+%3D+%5Cint+_+%7B-%5Cinfty%7D+%5E%7B%2B%5Cinfty%7D+xf%28x%29+dx+%5C%5C& alt=&E(X) = \int _ {-\infty} ^{+\infty} xf(x) dx \\& eeimg=&1&&&br&设 &img src=&https://www.zhihu.com/equation?tex=Y+%3D+g%28X%29& alt=&Y = g(X)& eeimg=&1&&, 若 &img src=&https://www.zhihu.com/equation?tex=X& alt=&X& eeimg=&1&& 是离散型随机变量,则:&br&&img src=&https://www.zhihu.com/equation?tex=E%28Y%29+%3D+%5Csum+%5Climits+_i+g%28x_i%29p_i+%5C%5C& alt=&E(Y) = \sum \limits _i g(x_i)p_i \\& eeimg=&1&&&br&若
&img src=&https://www.zhihu.com/equation?tex=X& alt=&X& eeimg=&1&&
是连续型随机变量,则:&br&&img src=&https://www.zhihu.com/equation?tex=E%28X%29+%3D+%5Cint+_+%7B-%5Cinfty%7D+%5E%7B%2B%5Cinfty%7D+g%28x%29f%28x%29+dx+%5C%5C& alt=&E(X) = \int _ {-\infty} ^{+\infty} g(x)f(x) dx \\& eeimg=&1&&&/p&&h2&2.2 EM算法的推导&/h2&&p&对于 &img src=&https://www.zhihu.com/equation?tex=m& alt=&m& eeimg=&1&& 个相互独立的样本 &img src=&https://www.zhihu.com/equation?tex=x%3D%28x%5E%7B%281%29%7D%2Cx%5E%7B%282%29%7D%2C...x%5E%7B%28m%29%7D%29& alt=&x=(x^{(1)},x^{(2)},...x^{(m)})& eeimg=&1&& ,对应的隐含数据 &img src=&https://www.zhihu.com/equation?tex=z%3D%28z%5E%7B%281%29%7D%2Cz%5E%7B%282%29%7D%2C...z%5E%7B%28m%29%7D%29& alt=&z=(z^{(1)},z^{(2)},...z^{(m)})& eeimg=&1&& ,此时 &img src=&https://www.zhihu.com/equation?tex=%28x%2Cz%29& alt=&(x,z)& eeimg=&1&& 即为完全数据,样本的模型参数为 &img src=&https://www.zhihu.com/equation?tex=%CE%B8& alt=&θ& eeimg=&1&& , 则观察数据 &img src=&https://www.zhihu.com/equation?tex=x%5E%7B%28i%29%7D& alt=&x^{(i)}& eeimg=&1&& 的概率为
&img src=&https://www.zhihu.com/equation?tex=P%28x%5E%7B%28i%29%7D%7C%5Ctheta%29& alt=&P(x^{(i)}|\theta)& eeimg=&1&& ,完全数据 &img src=&https://www.zhihu.com/equation?tex=%28x%5E%7B%28i%29%7D%2Cz%5E%7B%28i%29%7D%29& alt=&(x^{(i)},z^{(i)})& eeimg=&1&& 的似然函数为 &img src=&https://www.zhihu.com/equation?tex=P%28x%5E%7B%28i%29%7D%2Cz%5E%7B%28i%29%7D%7C%5Ctheta%29& alt=&P(x^{(i)},z^{(i)}|\theta)& eeimg=&1&& 。&/p&&p&假如没有隐含变量 &img src=&https://www.zhihu.com/equation?tex=z& alt=&z& eeimg=&1&&,我们仅需要找到合适的 &img src=&https://www.zhihu.com/equation?tex=%5Ctheta& alt=&\theta& eeimg=&1&& 极大化对数似然函数即可:&br&&img src=&https://www.zhihu.com/equation?tex=%5Ctheta+%3Darg+%5Cmax+%5Climits_%7B%5Ctheta%7DL%28%5Ctheta%29+%3D+arg+%5Cmax+%5Climits_%7B%5Ctheta%7D%5Csum%5Climits_%7Bi%3D1%7D%5Em+logP%28x%5E%7B%28i%29%7D%7C%5Ctheta%29+%5C%5C& alt=&\theta =arg \max \limits_{\theta}L(\theta) = arg \max \limits_{\theta}\sum\limits_{i=1}^m logP(x^{(i)}|\theta) \\& eeimg=&1&&&/p&&p&增加隐含变量 &img src=&https://www.zhihu.com/equation?tex=z& alt=&z& eeimg=&1&& 之后,我们的目标变成了找到合适的 &img src=&https://www.zhihu.com/equation?tex=%5Ctheta& alt=&\theta& eeimg=&1&& 和 &img src=&https://www.zhihu.com/equation?tex=z& alt=&z& eeimg=&1&& 让对数似然函数极大&i&:&/i&&br&&img src=&https://www.zhihu.com/equation?tex=%5Ctheta%2C+z+%3D+arg+%5Cmax+%5Climits_%7B%5Ctheta%2Cz%7DL%28%5Ctheta%2C+z%29+%3D+arg+%5Cmax+%5Climits_%7B%5Ctheta%2Cz%7D%5Csum%5Climits_%7Bi%3D1%7D%5Em+log%5Csum%5Climits_%7Bz%5E%7B%28i%29%7D%7DP%28x%5E%7B%28i%29%7D%EF%BC%8C+z%5E%7B%28i%29%7D%7C%5Ctheta%29+%5C%5C& alt=&\theta, z = arg \max \limits_{\theta,z}L(\theta, z) = arg \max \limits_{\theta,z}\sum\limits_{i=1}^m log\sum\limits_{z^{(i)}}P(x^{(i)}, z^{(i)}|\theta) \\& eeimg=&1&&&/p&&p&不就是多了一个隐变量 &img src=&https://www.zhihu.com/equation?tex=z& alt=&z& eeimg=&1&& 吗?那我们自然而然会想到分别对未知的 &img src=&https://www.zhihu.com/equation?tex=%5Ctheta& alt=&\theta& eeimg=&1&& 和 &img src=&https://www.zhihu.com/equation?tex=z& alt=&z& eeimg=&1&& 分别求偏导,这样做可行吗?&/p&&p&理论上是可行的,然而如果对分别对未知的 &img src=&https://www.zhihu.com/equation?tex=%5Ctheta& alt=&\theta& eeimg=&1&& 和 &img src=&https://www.zhihu.com/equation?tex=z& alt=&z& eeimg=&1&& 分别求偏导,由于&img src=&https://www.zhihu.com/equation?tex=+logP%28x%5E%7B%28i%29%7D%7C%5Ctheta%29& alt=& logP(x^{(i)}|\theta)& eeimg=&1&& 是 &img src=&https://www.zhihu.com/equation?tex=P%28x%5E%7B%28i%29%7D%EF%BC%8C+z%5E%7B%28i%29%7D%7C%5Ctheta%29& alt=&P(x^{(i)}, z^{(i)}|\theta)& eeimg=&1&& 边缘概率(建议没基础的同学网上搜一下边缘概率的概念),转化为 &img src=&https://www.zhihu.com/equation?tex=+logP%28x%5E%7B%28i%29%7D%7C%5Ctheta%29& alt=& logP(x^{(i)}|\theta)& eeimg=&1&& 求导后形式会非常复杂(可以想象下 &img src=&https://www.zhihu.com/equation?tex=log%28f_1%28x%29%2B+f_2%28x%29%2B%E2%80%A6& alt=&log(f_1(x)+ f_2(x)+…& eeimg=&1&&复合函数的求导) ,所以很难求解得到 &img src=&https://www.zhihu.com/equation?tex=%5Ctheta& alt=&\theta& eeimg=&1&& 和 &img src=&https://www.zhihu.com/equation?tex=z& alt=&z& eeimg=&1&& 。那么我们想一下可不可以将加号从 log 中提取出来呢?我们对这个式子进行缩放如下:
&img src=&https://www.zhihu.com/equation?tex=%5Cbegin%7Balign%7D+%5Csum%5Climits_%7Bi%3D1%7D%5Em+log%5Csum%5Climits_%7Bz%5E%7B%28i%29%7D%7DP%28x%5E%7B%28i%29%7D%EF%BC%8C+z%5E%7B%28i%29%7D%7C%5Ctheta%29+%26+%3D+%5Csum%5Climits_%7Bi%3D1%7D%5Em+log%5Csum%5Climits_%7Bz%5E%7B%28i%29%7D%7DQ_i%28z%5E%7B%28i%29%7D%29%5Cfrac%7BP%28x%5E%7B%28i%29%7D%EF%BC%8C+z%5E%7B%28i%29%7D%7C%5Ctheta%29%7D%7BQ_i%28z%5E%7B%28i%29%7D%29%7D+%5Ctag%7B1%7D+%5C%5C+%26+%5Cgeq+%5Csum%5Climits_%7Bi%3D1%7D%5Em+%5Csum%5Climits_%7Bz%5E%7B%28i%29%7D%7DQ_i%28z%5E%7B%28i%29%7D%29log%5Cfrac%7BP%28x%5E%7B%28i%29%7D%EF%BC%8C+z%5E%7B%28i%29%7D%7C%5Ctheta%29%7D%7BQ_i%28z%5E%7B%28i%29%7D%29%7D+%5Ctag%7B2%7D+%5Cend%7Balign%7D& alt=&\begin{align} \sum\limits_{i=1}^m log\sum\limits_{z^{(i)}}P(x^{(i)}, z^{(i)}|\theta) & = \sum\limits_{i=1}^m log\sum\limits_{z^{(i)}}Q_i(z^{(i)})\frac{P(x^{(i)}, z^{(i)}|\theta)}{Q_i(z^{(i)})} \tag{1} \\ & \geq \sum\limits_{i=1}^m \sum\limits_{z^{(i)}}Q_i(z^{(i)})log\frac{P(x^{(i)}, z^{(i)}|\theta)}{Q_i(z^{(i)})} \tag{2} \end{align}& eeimg=&1&&&/p&&p&上面第(1)式引入了一个未知的新的分布 &img src=&https://www.zhihu.com/equation?tex=Q_i%28z%5E%7B%28i%29%7D%29& alt=&Q_i(z^{(i)})& eeimg=&1&&,满足:&/p&&p&&img src=&https://www.zhihu.com/equation?tex=%5Csum+%5Climits+_z+Q_i%28z%29%3D1%2C0+%5Cle+Q_i%28z%29%5Cle+1+%5C%5C& alt=&\sum \limits _z Q_i(z)=1,0 \le Q_i(z)\le 1 \\& eeimg=&1&&&/p&&p&第(2)式用到了 Jensen 不等式 (对数函数是凹函数):&/p&&p&&br&&img src=&https://www.zhihu.com/equation?tex=log%28E%28y%29%29+%5Cge+E%28log%28y%29%29+%5C%5C& alt=&log(E(y)) \ge E(log(y)) \\& eeimg=&1&&&br&其中:&/p&&p&&img src=&https://www.zhihu.com/equation?tex=E%28y%29+%3D+%5Csum%5Climits_i%5Clambda_iy_i%2C+%5Clambda_i+%5Cgeq+0%2C+%5Csum%5Climits_i%5Clambda_i+%3D1+& alt=&E(y) = \sum\limits_i\lambda_iy_i, \lambda_i \geq 0, \sum\limits_i\lambda_i =1 & eeimg=&1&&&/p&&p&&img src=&https://www.zhihu.com/equation?tex=y_i+%3D+%5Cfrac%7BP%28x%5E%7B%28i%29%7D%EF%BC%8C+z%5E%7B%28i%29%7D%7C%5Ctheta%29%7D%7BQ_i%28z%5E%7B%28i%29%7D%29%7D& alt=&y_i = \frac{P(x^{(i)}, z^{(i)}|\theta)}{Q_i(z^{(i)})}& eeimg=&1&&&/p&&p&&img src=&https://www.zhihu.com/equation?tex=%5Clambda_i+%3D+Q_i%28z%5E%7B%28i%29%7D%29& alt=&\lambda_i = Q_i(z^{(i)})& eeimg=&1&&&/p&&p&也就是说 &img src=&https://www.zhihu.com/equation?tex=%5Cfrac%7BP%28x%5E%7B%28i%29%7D%EF%BC%8C+z%5E%7B%28i%29%7D%7C%5Ctheta%29%7D%7BQ_i%28z%5E%7B%28i%29%7D%29%7D& alt=&\frac{P(x^{(i)}, z^{(i)}|\theta)}{Q_i(z^{(i)})}& eeimg=&1&& 为第 i 个样本&i&,&/i& &img src=&https://www.zhihu.com/equation?tex=+Q_i%28z%5E%7B%28i%29%7D%29& alt=& Q_i(z^{(i)})& eeimg=&1&& 为第 i 个样本对应的权重,那么:&/p&&p&&img src=&https://www.zhihu.com/equation?tex=E%28%5Cfrac%7BP%28x%5E%7B%28i%29%7D%EF%BC%8C+z%5E%7B%28i%29%7D%7C%5Ctheta%29%7D%7BQ_i%28z%5E%7B%28i%29%7D%29%7D%29+%3D+%5Csum%5Climits_%7Bz%5E%7B%28i%29%7D%7DQ_i%28z%5E%7B%28i%29%7D%29%5Cfrac%7BP%28x%5E%7B%28i%29%7D%EF%BC%8C+z%5E%7B%28i%29%7D%7C%5Ctheta%29%7D%7BQ_i%28z%5E%7B%28i%29%7D%29%7D+%5C%5C& alt=&E(\frac{P(x^{(i)}, z^{(i)}|\theta)}{Q_i(z^{(i)})}) = \sum\limits_{z^{(i)}}Q_i(z^{(i)})\frac{P(x^{(i)}, z^{(i)}|\theta)}{Q_i(z^{(i)})} \\& eeimg=&1&&&/p&&p&上式我实际上是我们构建了 &img src=&https://www.zhihu.com/equation?tex=L%28%5Ctheta%2C+z%29& alt=&L(\theta, z)& eeimg=&1&& 的下界,我们发现实际上就是 &img src=&https://www.zhihu.com/equation?tex=%5Cfrac%7BP%28x%5E%7B%28i%29%7D%EF%BC%8C+z%5E%7B%28i%29%7D%7C%5Ctheta%29%7D%7BQ_i%28z%5E%7B%28i%29%7D%29%7D& alt=&\frac{P(x^{(i)}, z^{(i)}|\theta)}{Q_i(z^{(i)})}& eeimg=&1&& 的加权求和,由于上面讲过权值 &img src=&https://www.zhihu.com/equation?tex=Q_i%28z%5E%7B%28i%29%7D%29& alt=&Q_i(z^{(i)})& eeimg=&1&& 累积和为1,因此上式是 &img src=&https://www.zhihu.com/equation?tex=%5Cfrac%7BP%28x%5E%7B%28i%29%7D%EF%BC%8C+z%5E%7B%28i%29%7D%7C%5Ctheta%29%7D%7BQ_i%28z%5E%7B%28i%29%7D%29%7D& alt=&\frac{P(x^{(i)}, z^{(i)}|\theta)}{Q_i(z^{(i)})}& eeimg=&1&& 的加权平均,也是我们所说的期望,&b&这就是Expectation的来历啦&/b&。下一步要做的就是寻找一个合适的 &img src=&https://www.zhihu.com/equation?tex=Q_i%28z%29& alt=&Q_i(z)& eeimg=&1&& 最优化这个下界(M步)。&/p&&p&假设 &img src=&https://www.zhihu.com/equation?tex=%5Ctheta& alt=&\theta& eeimg=&1&& 已经给定,那么 &img src=&https://www.zhihu.com/equation?tex=logL%28%5Ctheta%29& alt=&logL(\theta)& eeimg=&1&& 的值就取决于 &img src=&https://www.zhihu.com/equation?tex=Q_i%28z%29& alt=&Q_i(z)& eeimg=&1&& 和 &img src=&https://www.zhihu.com/equation?tex=+p%28x%5E%7B%28i%29%7D%2Cz%5E%7B%28i%29%7D%29& alt=& p(x^{(i)},z^{(i)})& eeimg=&1&& 了。我们可以通过调整这两个概率使下界逼近 &img src=&https://www.zhihu.com/equation?tex=logL%28%5Ctheta%29& alt=&logL(\theta)& eeimg=&1&& 的真实值,当不等式变成等式时,说明我们调整后的下界能够等价于&img src=&https://www.zhihu.com/equation?tex=logL%28%5Ctheta%29& alt=&logL(\theta)& eeimg=&1&& 了。由 Jensen 不等式可知,等式成立的条件是随机变量是常数,则有:
&img src=&https://www.zhihu.com/equation?tex=%5Cfrac%7BP%28x%5E%7B%28i%29%7D%EF%BC%8C+z%5E%7B%28i%29%7D%7C%5Ctheta%29%7D%7BQ_i%28z%5E%7B%28i%29%7D%29%7D+%3Dc+%5C%5C& alt=&\frac{P(x^{(i)}, z^{(i)}|\theta)}{Q_i(z^{(i)})} =c \\& eeimg=&1&&&br&其中 c 为常数,对于任意 &img src=&https://www.zhihu.com/equation?tex=i& alt=&i& eeimg=&1&&,我们得到:&br&&img src=&https://www.zhihu.com/equation?tex=%7BP%28x%5E%7B%28i%29%7D%EF%BC%8C+z%5E%7B%28i%29%7D%7C%5Ctheta%29%7D+%3Dc%7BQ_i%28z%5E%7B%28i%29%7D%29%7D+%5C%5C& alt=&{P(x^{(i)}, z^{(i)}|\theta)} =c{Q_i(z^{(i)})} \\& eeimg=&1&&&br&方程两边同时累加和:&br&&img src=&https://www.zhihu.com/equation?tex=%5Csum%5Climits_%7Bz%7D+%7BP%28x%5E%7B%28i%29%7D%EF%BC%8C+z%5E%7B%28i%29%7D%7C%5Ctheta%29%7D+%3D+c%5Csum%5Climits_%7Bz%7D+%7BQ_i%28z%5E%7B%28i%29%7D%29%7D+%5C%5C& alt=&\sum\limits_{z} {P(x^{(i)}, z^{(i)}|\theta)} = c\sum\limits_{z} {Q_i(z^{(i)})} \\& eeimg=&1&&&br&由于 &img src=&https://www.zhihu.com/equation?tex=%5Csum%5Climits_%7Bz%7DQ_i%28z%5E%7B%28i%29%7D%29+%3D1& alt=&\sum\limits_{z}Q_i(z^{(i)}) =1& eeimg=&1&&。 从上面两式,我们可以得到:&br&&img src=&https://www.zhihu.com/equation?tex=%5Csum%5Climits_%7Bz%7D+%7BP%28x%5E%7B%28i%29%7D%EF%BC%8C+z%5E%7B%28i%29%7D%7C%5Ctheta%29%7D+%3D+c+%5C%5C& alt=&\sum\limits_{z} {P(x^{(i)}, z^{(i)}|\theta)} = c \\& eeimg=&1&&&/p&&p&&img src=&https://www.zhihu.com/equation?tex=Q_i%28z%5E%7B%28i%29%7D%29+%3D+%5Cfrac%7BP%28x%5E%7B%28i%29%7D%EF%BC%8C+z%5E%7B%28i%29%7D%7C%5Ctheta%29%7D%7Bc%7D+%3D+%5Cfrac%7BP%28x%5E%7B%28i%29%7D%EF%BC%8C+z%5E%7B%28i%29%7D%7C%5Ctheta%29%7D%7B%5Csum%5Climits_%7Bz%7DP%28x%5E%7B%28i%29%7D%EF%BC%8C+z%5E%7B%28i%29%7D%7C%5Ctheta%29%7D+%3D+%5Cfrac%7BP%28x%5E%7B%28i%29%7D%EF%BC%8C+z%5E%7B%28i%29%7D%7C%5Ctheta%29%7D%7BP%28x%5E%7B%28i%29%7D%7C%5Ctheta%29%7D+%3D+P%28+z%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%EF%BC%8C%5Ctheta%29+%5C%5C& alt=&Q_i(z^{(i)}) = \frac{P(x^{(i)}, z^{(i)}|\theta)}{c} = \frac{P(x^{(i)}, z^{(i)}|\theta)}{\sum\limits_{z}P(x^{(i)}, z^{(i)}|\theta)} = \frac{P(x^{(i)}, z^{(i)}|\theta)}{P(x^{(i)}|\theta)} = P( z^{(i)}|x^{(i)},\theta) \\& eeimg=&1&&&/p&&p&其中:&/p&&p&边缘概率公式: &img src=&https://www.zhihu.com/equation?tex=P%28x%5E%7B%28i%29%7D%7C%5Ctheta%29+%3D+%5Csum%5Climits_%7Bz%7DP%28x%5E%7B%28i%29%7D%EF%BC%8C+z%5E%7B%28i%29%7D%7C%5Ctheta%29& alt=&P(x^{(i)}|\theta) = \sum\limits_{z}P(x^{(i)}, z^{(i)}|\theta)& eeimg=&1&&&/p&&p&条件概率公式: &img src=&https://www.zhihu.com/equation?tex=%5Cfrac%7BP%28x%5E%7B%28i%29%7D%EF%BC%8C+z%5E%7B%28i%29%7D%7C%5Ctheta%29%7D%7BP%28x%5E%7B%28i%29%7D%7C%5Ctheta%29%7D+%3D+P%28+z%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%EF%BC%8C%5Ctheta%29& alt=&\frac{P(x^{(i)}, z^{(i)}|\theta)}{P(x^{(i)}|\theta)} = P( z^{(i)}|x^{(i)},\theta)& eeimg=&1&&&/p&&p&从上式可以发现 &img src=&https://www.zhihu.com/equation?tex=Q%28z%29& alt=&Q(z)& eeimg=&1&&是已知样本和模型参数下的隐变量分布。&/p&&p&如果 &img src=&https://www.zhihu.com/equation?tex=Q_i%28z%5E%7B%28i%29%7D%29+%3D+P%28+z%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%EF%BC%8C%5Ctheta%29%29& alt=&Q_i(z^{(i)}) = P( z^{(i)}|x^{(i)},\theta))& eeimg=&1&& , 则第 (2) 式是我们的包含隐藏数据的对数似然的一个下界。如果我们能极大化这个下界,则也在尝试极大化我们的对数似然。即我们需要极大化下式:
&img src=&https://www.zhihu.com/equation?tex=arg+%5Cmax+%5Climits_%7B%5Ctheta%7D+%5Csum%5Climits_%7Bi%3D1%7D%5Em+%5Csum%5Climits_%7Bz%5E%7B%28i%29%7D%7DQ_i%28z%5E%7B%28i%29%7D%29log%5Cfrac%7BP%28x%5E%7B%28i%29%7D%EF%BC%8C+z%5E%7B%28i%29%7D%7C%5Ctheta%29%7D%7BQ_i%28z%5E%7B%28i%29%7D%29%7D+%5C%5C& alt=&arg \max \limits_{\theta} \sum\limits_{i=1}^m \sum\limits_{z^{(i)}}Q_i(z^{(i)})log\frac{P(x^{(i)}, z^{(i)}|\theta)}{Q_i(z^{(i)})} \\& eeimg=&1&&&br&&/p&&p&至此,我们推出了在固定参数 &img src=&https://www.zhihu.com/equation?tex=%5Ctheta& alt=&\theta& eeimg=&1&&后分布 &img src=&https://www.zhihu.com/equation?tex=Q_i%28z%5E%7B%28i%29%7D%29& alt=&Q_i(z^{(i)})& eeimg=&1&& 的选择问题, 从而建立了 &img src=&https://www.zhihu.com/equation?tex=logL%28%5Ctheta%29& alt=&logL(\theta)& eeimg=&1&& 的下界,这是 E 步,接下来的M 步骤就是固定 &img src=&https://www.zhihu.com/equation?tex=Q_i%28z%5E%7B%28i%29%7D%29& alt=&Q_i(z^{(i)})& eeimg=&1&& 后,调整 &img src=&https://www.zhihu.com/equation?tex=%5Ctheta& alt=&\theta& eeimg=&1&&,去极大化&img src=&https://www.zhihu.com/equation?tex=logL%28%5Ctheta%29& alt=&logL(\theta)& eeimg=&1&&的下界。&/p&&p&去掉上式中常数的部分 &img src=&https://www.zhihu.com/equation?tex=Q_i%28z%5E%7B%28i%29%7D%29& alt=&Q_i(z^{(i)})& eeimg=&1&& ,则我们需要极大化的对数似然下界为:&br&&img src=&https://www.zhihu.com/equation?tex=arg+%5Cmax+%5Climits_%7B%5Ctheta%7D+%5Csum%5Climits_%7Bi%3D1%7D%5Em+%5Csum%5Climits_%7Bz%5E%7B%28i%29%7D%7DQ_i%28z%5E%7B%28i%29%7D%29log%7BP%28x%5E%7B%28i%29%7D%EF%BC%8C+z%5E%7B%28i%29%7D%7C%5Ctheta%29%7D+%5C%5C& alt=&arg \max \limits_{\theta} \sum\limits_{i=1}^m \sum\limits_{z^{(i)}}Q_i(z^{(i)})log{P(x^{(i)}, z^{(i)}|\theta)} \\& eeimg=&1&&&/p&&h2&2.3 EM算法流程&/h2&&p&现在我们总结下EM算法的流程。&/p&&p&输入:观察数据&img src=&https://www.zhihu.com/equation?tex=x%3D%28x%5E%7B%281%29%7D%2Cx%5E%7B%282%29%7D%2C...x%5E%7B%28m%29%7D%29& alt=&x=(x^{(1)},x^{(2)},...x^{(m)})& eeimg=&1&&,联合分布 &img src=&https://www.zhihu.com/equation?tex=p%28x%2Cz+%7C%5Ctheta%29& alt=&p(x,z |\theta)& eeimg=&1&& ,条件分布 &img src=&https://www.zhihu.com/equation?tex=p%28z%7Cx%2C+%5Ctheta%29& alt=&p(z|x, \theta)& eeimg=&1&&, 极大迭代次数 &img src=&https://www.zhihu.com/equation?tex=J& alt=&J& eeimg=&1&& 。&/p&&p&1) 随机初始化模型参数 &img src=&https://www.zhihu.com/equation?tex=%5Ctheta& alt=&\theta& eeimg=&1&& 的初值
&img src=&https://www.zhihu.com/equation?tex=%5Ctheta%5E0& alt=&\theta^0& eeimg=&1&&&/p&&p&2)
&img src=&https://www.zhihu.com/equation?tex=%5Ctext%7Bfor+j+from+1+to+J%7D& alt=&\text{for j from 1 to J}& eeimg=&1&&:&/p&&ul&&li& E步:计算联合分布的条件概率期望:&/li&&/ul&&p&&img src=&https://www.zhihu.com/equation?tex=Q_i%28z%5E%7B%28i%29%7D%29+%3A%3D+P%28+z%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%EF%BC%8C%5Ctheta%29%29+%5C%5C& alt=&Q_i(z^{(i)}) := P( z^{(i)}|x^{(i)},\theta)) \\& eeimg=&1&&&/p&&ul&&li&M步:极大化 &img src=&https://www.zhihu.com/equation?tex=L%28%5Ctheta%29& alt=&L(\theta)& eeimg=&1&& ,得到 &img src=&https://www.zhihu.com/equation?tex=%5Ctheta& alt=&\theta& eeimg=&1&& :&/li&&/ul&&p&&img src=&https://www.zhihu.com/equation?tex=%5Ctheta+%3A+%3D+arg+%5Cmax+%5Climits_%7B%5Ctheta%7D%5Csum%5Climits_%7Bi%3D1%7D%5Em%5Csum%5Climits_%7Bz%5E%7B%28i%29%7D%7DQ_i%28z%5E%7B%28i%29%7D%29log%7BP%28x%5E%7B%28i%29%7D%EF%BC%8C+z%5E%7B%28i%29%7D%7C%5Ctheta%29%7D+%5C%5C& alt=&\theta : = arg \max \limits_{\theta}\sum\limits_{i=1}^m\sum\limits_{z^{(i)}}Q_i(z^{(i)})log{P(x^{(i)}, z^{(i)}|\theta)} \\& eeimg=&1&&&/p&&ul&&li&重复E、M步骤直到 &img src=&https://www.zhihu.com/equation?tex=%5Ctheta& alt=&\theta& eeimg=&1&& 收敛&/li&&/ul&&p&输出:模型参数 &img src=&https://www.zhihu.com/equation?tex=%5Ctheta& alt=&\theta& eeimg=&1&&&/p&&h2&2.4 EM算法另一种理解&/h2&&p&坐标上升法(Coordinate ascent)(&b&类似于梯度下降法,梯度下降法的目的是最小化代价函数,坐标上升法的目的是最大化似然函数;梯度下降每一个循环仅仅更新模型参数就可以了,EM算法每一个循环既需要更新隐含参数和也需要更新模型参数,梯度下降和坐标上升的详细分析参见&/b&&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&攀登传统机器学习的珠峰-SVM (下)&/a&):&/p&&figure&&img src=&https://pic3.zhimg.com/v2-389aa0ac570f105b0e3b77ed0d3cf10b_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&658& data-rawheight=&465& class=&origin_image zh-lightbox-thumb& width=&658& data-original=&https://pic3.zhimg.com/v2-389aa0ac570f105b0e3b77ed0d3cf10b_r.jpg&&&/figure&&p&图中的直线式迭代优化的路径,可以看到每一步都会向最优值前进一步,而且前进路线是平行于坐标轴的,因为每一步只优化一个变量。&/p&&p&这犹如在x-y坐标系中找一个曲线的极值,然而曲线函数不能直接求导,因此什么梯度下降方法就不适用了。但固定一个变量后,另外一个可以通过求导得到,因此可以使用坐标上升法,一次固定一个变量,对另外的求极值,最后逐步逼近极值。对应到EM上,&b&E步:&/b&固定 θ,优化Q;&b&M步:&/b&固定 Q,优化 θ;交替将极值推向极大。&/p&&h2&2.5 EM算法的收敛性思考&/h2&&p&EM算法的流程并不复杂,但是还有两个问题需要我们思考:&/p&&p&1) EM算法能保证收敛吗?&/p&&p&2) EM算法如果收敛,那么能保证收敛到全局极大值吗? &/p&&p&首先我们来看第一个问题, EM 算法的收敛性。要证明 EM 算法收敛,则我们需要证明我们的对数似然函数的值在迭代的过程中一直在增大。即:&/p&&p&&img src=&https://www.zhihu.com/equation?tex=%5Csum%5Climits_%7Bi%3D1%7D%5Em+logP%28x%5E%7B%28i%29%7D%7C%5Ctheta%5E%7Bj%2B1%7D%29+%5Cgeq+%5Csum%5Climits_%7Bi%3D1%7D%5Em+logP%28x%5E%7B%28i%29%7D%7C%5Ctheta%5E%7Bj%7D%29+%5C%5C& alt=&\sum\limits_{i=1}^m logP(x^{(i)}|\theta^{j+1}) \geq \sum\limits_{i=1}^m logP(x^{(i)}|\theta^{j}) \\& eeimg=&1&&&/p&&p&由于:&/p&&p&&img src=&https://www.zhihu.com/equation?tex=L%28%5Ctheta%2C+%5Ctheta%5E%7Bj%7D%29+%3D+%5Csum%5Climits_%7Bi%3D1%7D%5Em%5Csum%5Climits_%7Bz%5E%7B%28i%29%7D%7DP%28+z%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%EF%BC%8C%5Ctheta%5E%7Bj%7D%29%29log%7BP%28x%5E%7B%28i%29%7D%EF%BC%8C+z%5E%7B%28i%29%7D%7C%5Ctheta%29%7D+%5C%5C& alt=&L(\theta, \theta^{j}) = \sum\limits_{i=1}^m\sum\limits_{z^{(i)}}P( z^{(i)}|x^{(i)},\theta^{j}))log{P(x^{(i)}, z^{(i)}|\theta)} \\& eeimg=&1&&&/p&&p&令:&/p&&p&&img src=&https://www.zhihu.com/equation?tex=H%28%5Ctheta%2C+%5Ctheta%5E%7Bj%7D%29+%3D+%5Csum%5Climits_%7Bi%3D1%7D%5Em%5Csum%5Climits_%7Bz%5E%7B%28i%29%7D%7DP%28+z%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%EF%BC%8C%5Ctheta%5E%7Bj%7D%29%29log%7BP%28+z%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%EF%BC%8C%5Ctheta%29%7D+%5C%5C& alt=&H(\theta, \theta^{j}) = \sum\limits_{i=1}^m\sum\limits_{z^{(i)}}P( z^{(i)}|x^{(i)},\theta^{j}))log{P( z^{(i)}|x^{(i)},\theta)} \\& eeimg=&1&&&/p&&p&上两式相减得到:&/p&&p&&img src=&https://www.zhihu.com/equation?tex=%5Csum%5Climits_%7Bi%3D1%7D%5Em+logP%28x%5E%7B%28i%29%7D%7C%5Ctheta%29+%3D+L%28%5Ctheta%2C+%5Ctheta%5E%7Bj%7D%29+-+H%28%5Ctheta%2C+%5Ctheta%5E%7Bj%7D%29+%5C%5C& alt=&\sum\limits_{i=1}^m logP(x^{(i)}|\theta) = L(\theta, \theta^{j}) - H(\theta, \theta^{j}) \\& eeimg=&1&&&/p&&p&在上式中分别取 &img src=&https://www.zhihu.com/equation?tex=%CE%B8& alt=&θ& eeimg=&1&& 为 &img src=&https://www.zhihu.com/equation?tex=%CE%B8%5Ej& alt=&θ^j& eeimg=&1&& 和 &img src=&https://www.zhihu.com/equation?tex=%CE%B8%5E%7Bj%2B1%7D& alt=&θ^{j+1}& eeimg=&1&&,并相减得到:&/p&&p&&img src=&https://www.zhihu.com/equation?tex=%5Csum%5Climits_%7Bi%3D1%7D%5Em+logP%28x%5E%7B%28i%29%7D%7C%5Ctheta%5E%7Bj%2B1%7D%29+-+%5Csum%5Climits_%7Bi%3D1%7D%5Em+logP%28x%5E%7B%28i%29%7D%7C%5Ctheta%5E%7Bj%7D%29+%3D+%5BL%28%5Ctheta%5E%7Bj%2B1%7D%2C+%5Ctheta%5E%7Bj%7D%29+-+L%28%5Ctheta%5E%7Bj%7D%2C+%5Ctheta%5E%7Bj%7D%29+%5D+-%5BH%28%5Ctheta%5E%7Bj%2B1%7D%2C+%5Ctheta%5E%7Bj%7D%29+-+H%28%5Ctheta%5E%7Bj%7D%2C+%5Ctheta%5E%7Bj%7D%29+%5D+%5C%5C& alt=&\sum\limits_{i=1}^m logP(x^{(i)}|\theta^{j+1}) - \sum\limits_{i=1}^m logP(x^{(i)}|\theta^{j}) = [L(\theta^{j+1}, \theta^{j}) - L(\theta^{j}, \theta^{j}) ] -[H(\theta^{j+1}, \theta^{j}) - H(\theta^{j}, \theta^{j}) ] \\& eeimg=&1&&&/p&&p&要证明EM算法的收敛性,我们只需要证明上式的右边是非负的即可。&/p&&p&由于&img src=&https://www.zhihu.com/equation?tex=%CE%B8%5E%7Bj%2B1%7D& alt=&θ^{j+1}& eeimg=&1&&使得&img src=&https://www.zhihu.com/equation?tex=L%28%CE%B8%2C%CE%B8%5Ej%29& alt=&L(θ,θ^j)& eeimg=&1&&极大,因此有:&/p&&p&&img src=&https://www.zhihu.com/equation?tex=L%28%5Ctheta%5E%7Bj%2B1%7D%2C+%5Ctheta%5E%7Bj%7D%29+-+L%28%5Ctheta%5E%7Bj%7D%2C+%5Ctheta%5E%7Bj%7D%29+%5Cgeq+0+%5C%5C& alt=&L(\theta^{j+1}, \theta^{j}) - L(\theta^{j}, \theta^{j}) \geq 0 \\& eeimg=&1&&&/p&&p&而对于第二部分,我们有:&/p&&p&&img src=&https://www.zhihu.com/equation?tex=%5Cbegin%7Balign%7D+H%28%5Ctheta%5E%7Bj%2B1%7D%2C+%5Ctheta%5E%7Bj%7D%29+-+H%28%5Ctheta%5E%7Bj%7D%2C+%5Ctheta%5E%7Bj%7D%29+%26+%3D+%5Csum%5Climits_%7Bi%3D1%7D%5Em%5Csum%5Climits_%7Bz%5E%7B%28i%29%7D%7DP%28+z%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%EF%BC%8C%5Ctheta%5E%7Bj%7D%29log%5Cfrac%7BP%28+z%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%EF%BC%8C%5Ctheta%5E%7Bj%2B1%7D%29%7D%7BP%28+z%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%EF%BC%8C%5Ctheta%5Ej%29%7D+%5Ctag%7B3%7D+%5C%5C+%26+%5Cleq+%5Csum%5Climits_%7Bi%3D1%7D%5Emlog%28%5Csum%5Climits_%7Bz%5E%7B%28i%29%7D%7DP%28+z%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%EF%BC%8C%5Ctheta%5E%7Bj%7D%29%5Cfrac%7BP%28+z%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%EF%BC%8C%5Ctheta%5E%7Bj%2B1%7D%29%7D%7BP%28+z%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%EF%BC%8C%5Ctheta%5Ej%29%7D%29+%5Ctag%7B4%7D+%5C%5C+%26+%3D+%5Csum%5Climits_%7Bi%3D1%7D%5Emlog%28%5Csum%5Climits_%7Bz%5E%7B%28i%29%7D%7DP%28+z%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%EF%BC%8C%5Ctheta%5E%7Bj%2B1%7D%29%29+%3D+0+%5Ctag%7B5%7D+%5Cend%7Balign%7D& alt=&\begin{align} H(\theta^{j+1}, \theta^{j}) - H(\theta^{j}, \theta^{j}) & = \sum\limits_{i=1}^m\sum\limits_{z^{(i)}}P( z^{(i)}|x^{(i)},\theta^{j})log\frac{P( z^{(i)}|x^{(i)},\theta^{j+1})}{P( z^{(i)}|x^{(i)},\theta^j)} \tag{3} \\ & \leq \sum\limits_{i=1}^mlog(\sum\limits_{z^{(i)}}P( z^{(i)}|x^{(i)},\theta^{j})\frac{P( z^{(i)}|x^{(i)},\theta^{j+1})}{P( z^{(i)}|x^{(i)},\theta^j)}) \tag{4} \\ & = \sum\limits_{i=1}^mlog(\sum\limits_{z^{(i)}}P( z^{(i)}|x^{(i)},\theta^{j+1})) = 0 \tag{5} \end{align}& eeimg=&1&&&/p&&p&其中第(4)式用到了Jensen不等式,只不过和第二节的使用相反而已,第(5)式用到了概率分布累积为1的性质。&/p&&p&至此,我们得到了:&img src=&https://www.zhihu.com/equation?tex=%5Csum%5Climits_%7Bi%3D1%7D%5Em+logP%28x%5E%7B%28i%29%7D%7C%5Ctheta%5E%7Bj%2B1%7D%29+-+%5Csum%5Climits_%7Bi%3D1%7D%5Em+logP%28x%5E%7B%28i%29%7D%7C%5Ctheta%5E%7Bj%7D%29+%5Cgeq+0& alt=&\sum\limits_{i=1}^m logP(x^{(i)}|\theta^{j+1}) - \sum\limits_{i=1}^m logP(x^{(i)}|\theta^{j}) \geq 0& eeimg=&1&& ,证明了EM算法的收敛性。&/p&&p&从上面的推导可以看出,EM 算法可以保证收敛到一个稳定点,但是却不能保证收敛到全局的极大值点,因此它是局部最优的算法,当然,如果我们的优化目标 &img src=&https://www.zhihu.com/equation?tex=L%28%CE%B8%2C%CE%B8%5Ej%29& alt=&L(θ,θ^j)& eeimg=&1&& 是凸的,则EM算法可以保证收敛到全局极大值,这点和梯度下降法这样的迭代算法相同。至此我们也回答了上面提到的第二个问题。&/p&&h2&2.6. EM算法应用&/h2&&p&如果我们从算法思想的角度来思考EM算法,我们可以发现我们的算法里已知的是观察数据,未知的是隐含数据和模型参数,在E步,我们所做的事情是固定模型参数的值,优化隐含数据的分布,而在M步,我们所做的事情是固定隐含数据分布,优化模型参数的值。EM的应用包括:&/p&&ul&&li&支持向量机的SMO算法&/li&&li&混合高斯模型&/li&&li&K-means&/li&&li&隐马尔可夫模型&/li&&/ul&&h2&3. &a href=&https://link.zhihu.com/?target=http%3A//ai.stanford.edu/%7Echuongdo/papers/em_tutorial.pdf& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&EM算法案例-两硬币模型&/a&&/h2&&p&假设有两枚硬币A、B,以相同的概率随机选择一个硬币,进行如下的掷硬币实验:共做 5 次实验,每次实验独立的掷十次,结果如图中 a 所示,例如某次实验产生了H、T、T、T、H、H、T、H、T、H (H代表正面朝上)。a 是在知道每次选择的是A还是B的情况下进行,b是在不知道选择的是A还是B的情况下进行,问如何估计两个硬币正面出现的概率?&/p&&figure&&img src=&https://pic3.zhimg.com/v2-a5b2e0e72a23c6b7bb95_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&777& data-rawheight=&881& class=&origin_image zh-lightbox-thumb& width=&777& data-original=&https://pic3.zhimg.com/v2-a5b2e0e72a23c6b7bb95_r.jpg&&&/figure&&p&&b&CASE a&/b&&/p&&p&已知每个实验选择的是硬币A 还是硬币 B,重点是如何计算输出的概率分布,这其实也是极大似然求导所得。&br&&img src=&https://www.zhihu.com/equation?tex=%5Cbegin%7Balign%2A%7D+%5Cunderset%7B%5Ctheta+%7D%7Bargmax%7DlogP%28Y%7C%5Ctheta%29+%26%3D+log%28%28%5Ctheta_B%5E5%281-%5Ctheta_B%29%5E5%29+%28%5Ctheta_A%5E9%281-%5Ctheta_A%29%29%28%5Ctheta_A%5E8%281-%5Ctheta_A%29%5E2%29+%28%5Ctheta_B%5E4%281-%5Ctheta_B%29%5E6%29+%28%5Ctheta_A%5E7%281-%5Ctheta_A%29%5E3%29+%29+%5C%5C+%26%3D+log%5B%28%5Ctheta_A%5E%7B24%7D%281-%5Ctheta_A%29%5E6%29+%28%5Ctheta_B%5E9%281-%5Ctheta_B%29%5E%7B11%7D%29+%5D+%5Cend%7Balign%2A%7D& alt=&\begin{align*} \underset{\theta }{argmax}logP(Y|\theta) &= log((\theta_B^5(1-\theta_B)^5) (\theta_A^9(1-\theta_A))(\theta_A^8(1-\theta_A)^2) (\theta_B^4(1-\theta_B)^6) (\theta_A^7(1-\theta_A)^3) ) \\ &= log[(\theta_A^{24}(1-\theta_A)^6) (\theta_B^9(1-\theta_B)^{11}) ] \end{align*}& eeimg=&1&&&br&上面这个式子求导之后发现,5 次实验中A正

我要回帖

更多关于 无缝钢管规格表示方法 的文章

 

随机推荐