柯基的小蛋蛋是只有一个吗为什么没有蛋蛋?

狗狗最晚8个月最迟能长出蛋蛋。公狗随时都处于发情期,而母犬的发情期在春季和秋季,受孕率最高的时间是在母狗发情的第十一至十三天。受孕后,母狗经65天左右的妊娠期而分娩,分娩后哺乳期45天左右。母狗每胎产仔数平均为4一6只,因品种而有差异。

新手宠主刚买了狗狗,不要急着把狗狗抱回家,要先带狗狗去专业的机构进行检查。因为在此之前,你根本不知道狗狗的身体情况是怎么样的,带狗狗去做检查,如果发现问题,能尽早治疗,这样狗狗才能更健康。

检查后,把狗狗带回家,宠主也不要急着给狗狗注射疫苗。最好先在家养7-10天左右,等幼犬吃喝睡觉和精神状况都没问题,再带它去注射疫苗。注射疫苗的流程要按照兽医的指示,注射后狗狗可能会出现食欲不振、呕吐拉稀等情况,宠主可以给狗狗喂些益生菌,帮它调理一下。

刚到家的幼犬不管多脏,都不要给它洗澡,因为它刚到新环境,还没适应,可能会有应激反应,而且抵抗力也比较弱。这时给狗狗洗澡,很容易让它感冒的。所以等狗狗适应了环境,大概20-30天左右再给它洗澡。当然,注射疫苗后,也不能洗哦。

朋友,你见过柯基么?嗯,就是那种小小一只,大头大眼睛,不管什么时候都特别乐观,一个劲的冲你傻笑,让你忍不住想揉揉他的脸的那种。对,这就是看这部电影的感受。在三月档这种比较平淡的档期,飞鹰艾迪这个有大牌明星,足够搞笑,画面还挺养眼的爆米花电影真的值得一看的。

题外话,虽然我叫胖次柯基,但是这里的柯基是指蛋蛋-塔伦 埃格顿,因为他像小狗一样的眼睛以及在kingsman中的角色,所以有了蛋蛋、蛋仔、柯基这样的爱称。

休叔和塔伦都非常棒,也许是拍摄过程真的很轻松的功劳,他们的演技都达到了四两拨千斤的水品,没有什么表演的痕迹,没有用力过猛,好像是我们身边的人,却又都发着光让你移不开眼睛。电影最大的特色就是蛋蛋对于他的脸惊人的塑造力!虽然眼镜帮了很多忙,但我觉得他的演技真的能得个新人奖啊,在这种爆米花电影里真的太难得!拿捏得太有味道了,先上图吧

看起来就是只是一个软萌傻白甜对不对?大意了!柯基心里也是有个演员梦的!他可以把自己的脸像橡皮泥一样揉捏成各种形状,表情丰富的简直不科学。这是之前上脱口秀主持人给他戴眼镜的图


静态的图片真的太难表现他在电影里的魅力了。
其实我对福克斯很有意见,竟然没有一张海报是蛋蛋的面部大特写!现在的海报之展现出了蛋蛋百分之一的可爱,千分之一的笨拙。其实喜剧真的很难演,很难把握分寸,一不小心就成了刻意丑化或者装疯卖傻。蛋仔需要让观众们笑,但艾迪这个角色甚至都不是个喜剧角色,更不是个丑角,他只是个笨拙的(英国)人,观众是会嘲笑他傻,还是会对于他的执着会心一笑,这一线之隔的差别全靠塔伦把握。他充分表现主人公当年的憨和呆,不会看眼色,总是被周边的人嘲笑,以及那股执着到让别人觉得他脑子有问题的劲,真是活灵活现。

休叔最被人熟知的角色自然是金刚狼,他上一部在国内上映的片子是彼得潘。可这俩片子都没展示出他的个人魅力,金刚狼的角色整天苦大仇深,虽然露的一手好肉,可是硬邦邦的;至于彼得潘首先票房就扑街了没多少人看过,戏份还不多,再加上化妆化的,估计连他妈都认不出那是他了,完全被埋没。在这部片里就不一样了,他演的教练是一个可能出现在我们身边的大叔,因为爱喝酒变得有点蠢,不靠谱,但其实是大隐隐于市的高人哦!他颓废、犯蠢、大笑、张狂,他在雪地里暖洋洋的,让人想要跑过去讨个拥抱。感觉这个角色也更贴近休叔本人的性格,作为歌剧演员出身的他除了让人合不拢腿的身材之外,更有着超强的舞台表现力和感染力,和一副赢过Tony奖的好歌喉。这里来强势插入一下休叔的成名曲《给瓦一个碗》
以及他这两天在电影发布会上唱的现场版(有蛋蛋伴舞哦)

总之如果你需要放松一下,找部电影打发下时间,或者是正好打算去约会的话,就看飞鹰艾迪吧,你不会觉得失望,不会觉得浪费了两个小时的生命。

在电影里,休叔给蛋蛋讲滑雪的感觉的时候跟他说那就像做*爱,起飞的一刻就像是最后的爆(gao)炸(chao),如果你想知道休叔的爆炸脸啥样,就去看吧

——一颗吃饱没事干强行撸猫老被咬的卤蛋对搞笑萌宠推特WeRateDogs的过度分析

仅以此文献给高冷狂傲拽炸天见鸡胸肉一秒变乖的蛋蛋:

(一脸怨念地)如果不是因为我每次去撸你你都狠狠咬我的手,这个项目早八百年前就撸完了(cai guai)~

这个项目是数据分析师(进阶)纳米学位的第二个项目。以数据清洗的演练为主要目的,并附带了额外的分析部分。

我们分析的数据集是推特用户 的推特记录,推特昵称为 。WeRateDogs 是一个推特主,他以诙谐幽默的方式对人们的宠物狗评分。这些评分通常以 10 作为分母。但是分子则一般大于 10:11/10、12/10、13/10 等等。为什么会有这样的评分?因为 "" WeRateDogs 拥有四百多万关注者,曾受到国际媒体的报道。(这一段搬运自优达学城的项目介绍文件,略有修改)

我们在原始数据集中发现了14个问题,其中12个是质量问题,2个是整洁度问题。随后我们进行了一系列清洗操作。清洗操作完成后,我们为数据集手工添加了5个新的特征。最后,我们得到了15年11月-17年8月,账号发出的1991条推文和它们相关的数据。在以点赞量和转赞比为核心指标,进行了推文受欢迎程度的主题探索后,我们发现以下三个有趣的现象:

  • 人们对不同品种的狗的喜爱程度没有统计学意义上显著的区别;
  • WeRateDogs推文中,关于小狗的没有关于大狗的受欢迎;
  • 推主打出的低分和高分推文在受欢迎方式上有区别:低分推文的转赞比较高,而高分推文的平均点赞量更高。

我们自信,截至2019年2月底,这个项目数据所作清洗的细致程度和后续分析的深度,在全球这一项目的所有公开作品中都能排在前列。

希望查看项目代码,完整代码输出和数据集的朋友,请移步至此项目的页面。代码输出中的文案如与此文(或项目报告文件内容)不同,以此文(或项目报告文件内容)为准。代码输出中的文案未经编辑和校对。

WeRateDogs是推特上受欢迎的萌宠推主之一。其主要风格为搞笑,具体表现形式为使用推文为一张狗狗(well,理论上都是)的照片进行十分制的打分。尽管其满分为10分,但推主常常打出10分以上的高分(13,14等),并一本正经的配上推文说明理由,十分有趣。推主有时也会一本正经给一些并不是狗的照片打分,喜剧效果十足。某些时候某些狗狗会被刻意打出低分,同样配上令人捧腹的推文。

WeRateDogs创建于11月15日。创始人时坎贝尔大学的(辍)学生Matt Nelson,当时读该校高尔夫管理专业的大二学生。当时,他和他的朋友们一起在一家苹果蜜蜂餐厅(Applebee's)的餐桌旁,用WeRateDogs账号发出了第一条推特。

如同天底下所有真实的创业故事那样,这个独特的推特账号的发展并非一帆风顺。15年11、12月是最初的激情,很快挑战便接踵而至:

  • 大学繁重的课业使得Nelson疲惫不堪,严重睡眠不足,甚至不得不放弃了高尔夫球(well,作为一名高尔夫管理专业的学生,这好像有点,emmm......too much);

  • 16年2月,甚至有人给他下套,声称WeRateDogs侵犯了图片版权;

  • 16年春季,他招聘并最终开除了两名员工;其中一位还想买下他的账号。

正在发推的Matt,和知道他在云吸狗并十分哀怨的大金毛Zoey

这里当然没有主人公强撑这,凭着极度的自信、过人的胆识强撑着运营,并最后成功逆袭的故事。身心俱疲的Nelson当然想过放弃。他联系了John Ricci,一位拥有丰富社交媒体运营经验的市场人,想要卖掉账号一了百了,没想到后者居然拒绝了。Rucci看到了账号的潜力,极力劝说Matt改变方式坚持运营,并在16年某个未知的时间点开始帮助他运营。Rucci每天帮Matt筛选出20-30张各地粉丝发来的请求打分的照片,而Nelson则挑出两张,分别在中午和晚上8:00左右发出即可。慢慢的,Nelson重新找到了节奏。17年某个未知的时间点,升入大四的Nelson退学,全心投入推特账号的运营。

现在,WeRateDogs主要依靠自营盈利,向通过推特账号积攒的粉丝售卖写有推特账号标志性语录的狗狗围巾、卫衣等。Nelson自己透露,每个月的收入在1万美元左右。

2. 我们为啥闲着没事儿干会对一个推特账号感兴趣?

Well,首先,这是一份作业。命题作文的命题如此,不研究它还能研究啥。

不过嘛,这个推特账号也不是特别没有意思。显然,WeRateDogs误打误撞探索出的这一定位十分有趣。如果我们拍一拍脑门调取一下我们的(未经检验、直觉构成的)常识,我们不难认为在传统上:
1)萌宠推主千千万万;
2)绝大多数萌宠的推文都停留在“啊!好萌!”的层次上;
3)萌宠推主们之间的竞争主要依靠谁更萌获胜;
4)这样的生态体系显然很容易导致严重的同质化,进而演变为洗稿和相互抄袭;
5)给狗狗评价和打分的博主又太过严肃显得不近人情;
6)传统的搞笑博主又几乎没有与宠物结合起来的。

通过直觉,我们不难得出马后炮式的经典结论:系统性的发掘狗狗的萌点,并通过带有喜剧色彩的文案强化,最后配上打破传统令人捧腹的打分和评价,令人耳目一新。这并不令人意外(说得就好像我们也能搞出来一样)。

但是,正如开心麻花的喜剧,在让观众开怀大笑之余,也有商业和受欢迎程度的考量一样,WeRateDogs的内容质量显然也是有部分更受欢迎的。问题是,究竟是怎样的内容更受欢迎呢?

在进行分析之前,我们需要明确,什么是“更受欢迎”。传统意义上,我们需要知道一条推特在发出的时候有多少关注者,这条推特有多少浏览量,多少点赞数和多少转发数,来一步一步计算转化比例。在这一框架中,更多的浏览量可能意味着火爆,但运营者们显然更关注点赞和转发的数据。

在这篇过度分析中,我们将围绕两个维度进行受欢迎程度的探索:

  • 点赞量,在拿不到关注量和浏览量这两个数据的前提之下,点赞量(数据集中叫favorite,Teitter上实际叫like)是最能直接反映一条推文得到关注和赞赏的指标;

  • 转赞比(Retweet/Favorite Ratio),衡量的是转发用户占点赞用户的比例,用于衡量核心用户占整体点赞用户的比例;

    转赞比可以用来衡量核心用户占比的理论依据如下:

  • 一个用户在社交网络上发出的内容,本质上都是他/她的社交货币;

  • 社交货币是建立人设的一部分,是用户与周遭用户交流的一种前置条件,因此相比起点赞,转发更加困难,因其牵扯到个人形象问题;

  • 社交货币依靠转发和原创内容生成;点赞不涉及分享,绝大多数社交网络(嗯我没有说微信朋友圈)里看不到点赞的详细信息,并不构成社交货币;

  • 转发,意味着用户愿意将推文内容作为自己人设的一部分;这可能意味着他/她是这一话题的核心粉丝,并且不介意周围人知道这一点,哪怕,在此案例中,这枚社交货币是娱乐用途。

3. 推特账号运营的基本情况一览

在尝试使用数据解答任何问题之前,需要使用数据对全局进行大概的了解。不然任何分析都是无源之水无本之木。

最棒宝贝:勤奋好学大柯基!14分!(最高评分)

最佳人气:妇女之友!(最多点赞)

最多铁粉:超萌小柯基!(最高转赞比)

欸喂喂喂,Matt你这样构成诱导分享啊!不怕被平台封吗?!

特别·最具惊喜奖:最新发现的神秘物种!

咦这是什么奇怪的狗狗~

以及,特别·最佳粉丝奖(& 最少铁粉奖):天生慧眼Kelvin Hill !

3.2 分数越来越高,当然是因为超棒狗狗越来越多啦!

将账号打出的分数按月汇集,绘制为箱型图。平均分数越来越高;单月的分数区间越来越小

3.3 成长的烦恼:转赞率一路下滑

推特点赞/转发量延时间轴分布

将每一条推特信息的点赞量(绿)和转发量(黄)取10的对数后绘制成散点图;将转赞率取5日移动平均值绘制为折线图;取账号点赞量创下新高的推特,用红色做特别标注。三者沿同样的时间序列排序。

随着时间的推移,虽然账号的点赞量和转发数都在上涨,但新高间隔越来越长,转赞比一路下降的趋势不可逆转。

3.4 爆发—跌倒—站稳脚跟:艰难的16年4月,账号历史上的至暗时刻

账号运营情况逐月变化情况

将账号的推特条数(红色折线),点赞量和转发量按月汇总,分别绘制加(上)和和平均值(下)的柱状图。

在初期的爆发之后,16年春季推特账号的点赞量和推特条数不断下滑。结合媒体的报道,当时账号确实正在经受初期的失败和团队动荡。不过在如此的压力之下,Matt的推文质量(平均点赞量和转发量)还能保持,非常厉害!

4. 推文几点,星期几发都行:客观因素对推文受欢迎程度影响不大

推文状况(按小时聚合)

推文状况(分年按小时聚合)

将推文数据按小时聚合,绘制点赞量、转发量,转赞比和推文条数。

我们发现:MattNelson喜欢在下午和晚上发推。

不过,为他创下了最高点赞量的式凌晨6点的一条推文。就是这条推文,使我们不得不给这幅图的y轴主坐标取对数。不得不说,他老人家真的是越夜越疯狂啊~

不过,17年他再也没有在5点到13点之间发过推特了。被妈妈骂了?

4.2 周一生产力爆棚,但对推文的受欢迎程度影响不大

推文状况(分年按周聚合)

将推文的发帖量,平均点赞量和转发量按星期汇集。

长期来看:周一Matt的发帖量略高,周三平均点赞量更高,但总体趋势平缓。我们不认为这其中蕴藏着什么秘密。

当然,我们有可能是错的。如果将数据去趋势化再聚集,说不定就是另外一个故事了。

5. 众汪平等,小狗疲劳,与高低有别——对推文特征的观察

在我们提取了一系列推文特征之后,我们最终得出了这三个有意思的结论。

筛选出数据集中被机器学习判断“一定是狗”的条目。按照品种字段聚合,计算平均点赞量,平均转赞比和推特条数。选出前10名,按照平均点赞量由高到低排列。可以看到:萨卢基猎犬,法国斗牛犬等品种有相对更高的平均点赞量。

但是,我们进一步的检验表明,这些品种中存在的平均点赞量和转赞比的区别并没有统计学意义上的区别:根据已知的条件判断,随着推特条数的增多,这些品种的平均点赞量和平均转赞比很可能趋于一致。也就意味着,我们没有足够的证据认为他们的受欢迎程度是不同的。(冗长的统计学证明我们就不贴上来啦~)

5.2 小狗疲劳:小奶狗居然不吃香?!

推主Marr Nelson在表述狗狗的时候发明了如下词汇:

  • Doggo,可以简单的理解为大狗(尽管作者表示这并不代表大狗就不是宝宝了)
  • Pupper,可以简单的理解为小狗,主要是体型小,一般年龄也比较小(但这不代表大狗就不是宝宝了)
  • Puppo,可以简单的理解为青春期的狗狗,介于大狗和小狗之间(也可能是表现得像pupper的doggo)
  • Floofer,可以简单的理解为毛好看的狗狗。

这些词汇主要用于形容不同狗狗的生长状态。从词汇构成的角度来看,其主要由一个主词汇和后缀变体组成(例如doggo = dog + go, pupper = pup + per),营造出一种喜庆但略显低龄化的语言现象(待补充)。上述所谓的“简单理解”,是指在尽可能不曲解原意的情况下,抛弃作者营造的一切搞笑成分,并尽量压缩理解难度。总而言之言而总之一言以蔽之,这个分类比较随意,亲爱的读者你大概知道这么个意思就行。

我们按照上述分类条件将推文汇总。我们发现小狗和未说明的推特条目似乎没有其他分类平均点赞量高。进一步的统计分析则支持了上述观察。看来在Matt这里萌萌哒的小奶狗不太行呀~

5.3 高低有别:低分有铁粉,高分更吸睛

不同分数等级的推文点赞与转发量分布情况(嗯我们最满意的一张图无误了)

我们将分数分为4个等级:

以推文的点赞量和转发量分别为横、纵坐标绘制散点图,并表明其分数类别,可以看到不同的分数组在分布上有明显的差别。

不同分数等级的受欢迎程度

以上述分数段分组,绘制点赞量和转赞比的箱型图。似乎高分组的平均点赞量更高,低分与超低分组拥有更高的转赞比。后续的统计学检验支持了我们这一结论:低分有铁粉,高分更吸睛

这可能是由于低分组主要集中在账号创立早期,转赞比本身就较高的时代,拉高了平均值。下图显示了分数分组占比的逐年变化情况。

分数等级的逐年占比变化图

附录:数据集的基本情况介绍,及数据清洗步骤简介

我们一共使用了三个数据集。分别是:

  • tweet.json:每条推特的附加数据,包含了推文的转发和点赞情况(因此也是此项目的核心数据集)。此数据集我们直接使用了优达学城提供的版本,没有选择通过Twitter API获取。
主数据集字段名称及字段描述
推文中对狗狗评分的分子
推文中对狗狗评分的分母
狗狗是否是毛好看的狗狗
狗狗是否是青春期的狗狗
  1. 主数据集中,name列有大量空值,和错误的情况;
  2. 主数据集中,部分数据错误的提取了其他包含“/”的文本作为分数,这些数据被保存在了tweets_mulpitple_number数据集中;
  3. 主数据集中,有一行数据虽然包含数字,但是一条筹款的推文,并不包含评分;这条数据被保存在了tweets_fund_raise数据集中;
  4. 主数据集中,部分数据存在多只狗狗统一打(总)分的情况,导致这些条目的分子和分母显著较高;这些数据储存在tweets_multiple_dogs中;
  5. 主数据集中,部分数据存在推文主题真的是狗狗的情况下,有分子提取错误的情况;主要体现在这些分数为了某些纪念日等,使用了特殊的小数分数;这些数据储存在tweets_wrong_numerator_dog中;
  6. 主数据集中,部分数据在主题可能不是狗的情况下,有分子提取错误的情况;这些数据储存在了tweets_wrong numerator_NOT_dog数据集中;
  7. 主数据集中,timestamp列数据类型错误;
  8. 主数据集中,有部分数据属于转发的推特,与原始数据重复;
  9. 主数据集中,部分数据里只有一只狗,却因为text列中包含两个狗狗分类的信息,而拥有两个分类;这些数据被储存在了_1dog_2stage数据集中;
  10. 主数据集中,部分数据,一条推特对两只处于不同生长阶段的打了同样的分数,因此拥有两个分类;这些数据被储存在了_2dogs_1tweet数据集中;
  11. 主数据集中,有部分数据包含两组正确的分数,但只提取了一组;这些数据被保存在了tweets_multiple_number_case2数据集中(tweets_multiple_number中的数据不在此列)。
  1. 主数据集中,doggoflooferpupperpuppo四列是一个变量的观察结果,应该被储存在一列中;
  2. 包含转发和点赞信息的retweets_lite数据集应当和主数据集dogrates_lite合并,因其观察的而对象是相同的。
    • 删除了一条tweet_id为424192的推特,因其是一条筹款推文,并不包含这份报告的分析范围之内;
    • 删除了两条评分显著异常的推文,其中一条庆祝了美国独立日,另一条似乎是为名人;
    • 在验证转发数据不包含任何未知的信息后,我们抓住转发推特都带有“RT @”的特征删除了他们
    • 通过优化的正则表达式重新提取了狗狗的名字:我们重做了name列,存在多只狗狗的推文,其name列值使用了&将两名字连接(可能影响了名字频率统计);
    • 修复语言表达造成的的一只狗狗对应多个分类问题(人工辨别,手动清理)
    • 修复推文中就是有两只不同分类的狗狗的问题:我们为这类推文单独建立了一个分类(使用&连接不同的分类名称),顺便解决了狗狗生长状态四列需要合并为一列的问题;
    • 修复推文中存在多个“/”导致分数提取错误的问题:我们提取了存在该项错误的行,使用专为这项任务涉及的正则表达式重新提取分数信息,并将这些分数信息更新回原数据集;
    • 修复小数点导致的分数提取错误的问题:显然在推特账号的发展过程当中,推主的打分标准发生过一些变化;
    • 修复推文中包含两组正确的分数,但只提取了一组的问题:我们使用一个新的正则表达式为这些行提取了这些分数,并将它们暂存在新的分数列中;
    • 修复了一条推文对多只狗狗打总分的情况:我们抛弃了原来的分数系统,直接计算了每一条推文所有分数的平均分作为推文的唯一分数;在修复这一问题的过程中,也顺便解决了上一条错误修复导致的一条推文有两个分数的问题;
    • 修复了dogrates数据集下timestamp列数据类型错误的问题:将其修正为datatime数据类型;
    • 统一了不同数据集中代表同一变量的不同列名称;
    • 修改了breeds_clean数据集中不适宜的名称。
针对整洁度问题的操作:
  • 将标明狗狗生长状态的四列合并为一列(已在针对质量问题修复的过程中修复)
  • 将项目涵盖的三个数据集合并,因其观察的对象本质上是一样的。

在以上工作完成之后,我们确实得到了一个清洗干净的数据集,但它还不足以解答我们的问题:有没有因素能帮助我们确定,这条推文会更受欢迎?为此,我们在上述工作的基础之上,进一步提取了如下信息,以帮助我们进一步探索数据集:

  • 通过人称和物主代词,利用正则表达式,从text列提取推文主体的性别信息;这一步骤的执行效果似乎比网上其他同学的效果要好,有更少的遗漏,并通过人工辨别修复了一些错误;
  • 启用全新变量“转赞比”:通过计算转发/点赞的比例,得出某一条推文更深层次受欢迎程度;
    • 通过这项指标,一般的分析中我们也无需再看单独的转发数量;
    • 通过这一指标,我们能更好的衡量推特账号核心粉丝的变化情况,并为深入分析打下基础;
  • 计算了推文点赞量和转发量的各项里程碑,以帮助我们更好的理解推特账号的发展历程;
  • 将评分分组,以衡量不同分数之间的点赞量和转赞比情况;1分,7分和13分一定代表着三种不同的推文风格,其受欢迎程度的不同显然值得我们进一步探索;这项分析与回归分析的结论结合,可能能让我们有更进一步的思考;
  • 将推文是否是狗进行分类:我们注意到,图像预测机器学习的数据集里,对同样图像做了三次预测。我们发现,综合考虑其三次预测的结果,能够更好的说明推文的实质内容。我们根据图像预测的结果将推文分成了三大类:不是狗(三次预测结果全部为False),有可能是狗(三次预测结果有一次为True),和是狗(三次预测结果全部为True)。根据我们列举的例子,这三类实质上代表了不同类型的内容,也决定了推主在表达时的推文风格可能也有所不同,而这很可能能够帮助我们进一步不同推文的探索受欢迎程度的区别。

其他可能值得一提的技术细节

  • 能够快速通过主键跨数据集筛选和调取数据的ISIN函数。其逻辑和可拓展性都大大强于常见于CSDN的利用join去数据集差集的方法;
  • 绘制饼状图,并自动忽略指定比例下注解的value_count函数;
  • 使用plotly绘制的可交互可视化;
  • 使用seaborn绘制复杂的包含多个子图的可视化图像,和对可视化颜色的全方位主动控制。

我要回帖

更多关于 柯基的小蛋蛋是只有一个吗 的文章

 

随机推荐