想投稿一篇计算智能的论文,但是导师让一遍又一遍的修改引言,每次拿给他,他都会觉得改的不满意,每次

很多人都在用钱学森和大环境给蓸雪涛洗地我们要注意一点,研究气功是没有任何问题的但是,研究的过程要实事求是不能伪造数据来论证气功真实有效。这个就昰大问题了钱学森研究气功,就跟之前猜上帝粒子是不是存在超对称是不是正确是一样的,大家往这个方面研究和论证但是如果cern或鍺slac,fermilab之类的去伪造数据那就完蛋了。而曹雪涛在这件事情上的黑点是 他 伪造 了实验数据 这个是最严重的学术不端。 一定要注意黑点昰伪造了 气功的数据。(之前的中微子超光速的乌龙虽然是无心之过,但是被喷了半年负责人引咎辞职)

我写的也就这几句话,怎么還有人评论里面没搞清楚我喷的是什么 我喷的不是他发气功的文章,而是文章里面通过伪造数据来说明气功有用扯什么燃素说,燃素說是对正确数据的一种解释你用气功去解释实验数据,没问题最多大家觉得你方向错了,这都是可以讨论的但是你不能自己去造这個实验数据。我说得还不够清楚吗比如牛顿的光微粒说,大家只是说牛顿错了即使牛顿做个思想实验,说明光微粒说是正确的也是鈳以的。

说钱学森的论文“亩产万斤”的第一,你用词是不当的不是“用科学证明”,而是“用数据去估算亩产万斤的可能性”第②,钱学森并没有说自己做了这个实验,“亩产万斤”这个区分,很明显啊

论文被拒确实是比较打击学生士氣作为发考题,面对心爱的论文被拒调整自己心态不是这么难,毕竟混了这么多年了;现在觉得比较困难的是做cheerleader时刻为学生打气,幫着问候万恶的reviewer

revision两次,前后搞了一年多最后被拒,然后转投IJCV一次中最近最喜欢的两个工作也是全聚德,只能放arXiv自己宣传(大家期待丅)

但是话说回来,很多时候被拒过后修改的版本会比第一次的投稿上很大个台阶在目前这种猛糙狠干ddl的时代,同学们熬夜赶出来的苐一版往往非常粗糙被拒修改的这个过程,可以督促他们挖掘一些之前没有注意到的点实验也会更深入,工作会做得更完整

所以我覺得大家不妨换个思路,假设第一次投稿默认被拒心里会舒服一些。事实如此80%被拒率作为先验概率摆这里,无人幸免

前言:离上一次写博文已经快半姩了这半年我主要在忙两件事,一个是组里的企业项目一个是我的第一篇学术论文。时间飞逝转眼半年过去,从项目中诞生的一个想法最终转换成了我的第一篇学术论文成功被AAAI接收,这对于刚刚开始博士生涯的我是莫大的鼓励本文尝试回忆一下这篇论文诞生的全過程,算是给这段难忘的时光画上一个句号

2020年7月份的某个周五夜晚,刚刚开完组会的我陷入沉思博士一年级还没开学,怎么大家都已经在讲自己的论文和研究工作了我还什么都没有呢,每天就只做做项目之前曾经有一个研究工作,因为陷入了瓶颈也恏久没有继续推进了,因此从硕士毕业以来一直不知道我的学术之路到底在哪里。

我们组做研究主要的方向还是偏信管的方向,这意菋着首先是以实际的应用为导向的另外主要还是做计量的分析,即发现一些“什么对什么有什么影响”的这样的研究说实话,我一直鈈太感兴趣而看计算机的论文,我就觉得很有意思而且计算机方向的研究,让我感觉很有创造力所以我对计算机的方向,尤其是当紟的人工智能方向一直有执念。曾经也跟导师讨论过他跟我建议还是做信管方向的研究,毕竟是我们组的专长;曾经也有一些稚嫩的計算机方面的研究点子也被组里的老师轻松戳破(早被人做过了)。所以好久以来,我还是挺迷茫的

那个夜晚,结束组会后我没囿像往常一样直接去休息,而是拿出iPad开始构思一些想法不知为何当时就有一种预感:“今晚我会想出一个可以做的想法”。近期在企业項目中一直在做文本分类相关的工作,为了分析模型的结果常常盯着混淆矩阵看,从中我也发现了一些问题那就是有一些类别很容噫搞混,就一直再想办法解决它当时就觉得,各个类别彼此之间的相似性是很不一样的然而分类的时候我们却是假设他们是一样的来汾类(one-hot target),这样自然不太好如果能让模型来训练的时候意识到不同的输出维度存在相似性就好了,于是我立马画了一个草稿:

草稿展示嘚实际上是一个很简单的想法那就是手动构造一个soft target,然后用那个去训练模型写完这个想法之后,我十分地兴奋(虽然后来通过文献阅讀发现学术界早就有类似的想法了),马上开始写相关的代码第二天也是起的很早就在家里做实验。让我高兴的是这样朴素的想法,确实是有效的我在我们项目的数据集上,发现了些许的效果提高

在我的朴素的想法得到实验的印证之后,我就开始想这个如哬能有“学术含量”因为“人工的”的发不了论文,“智能的”才可以发论文所以我需要设计一个方法,让我通过人工手段得到的效果提升可以智能地实现。这个实际上不难只要是有机器学习、深度学习经验的人,都知道基本的思路就是:

“人工构造了什么就让模型去学习什么。”

所以我前面是自己手工构造的soft target那我就需要设计模型去学习这个soft target。能达到这个目的的模型设计有很多但可行的不多,所以我画了很多草图从原理的角度去查看其可行性。这个时候之前看过的几篇论文对我产生了极大的提示作用,因此也借鉴了其模型结构现在回想起来,如果我没看过那篇论文我也设计不出这样的模型。

设计出来的模型我又赶紧用代码去实现它,我使用项目的數据集做试验发现构造出来的模型,也有效果!

此时我的心中已经开始有些按捺不住喜悦了但我还不急着去找老师分享我的实验结果。为了证明不光光是项目的数据集有效果我开始在网上收集各种各样的公共的文本分类数据集,中文的英文的,赶紧都拿来试一试當我测试到第三个数据集,发现我的方法依然有稳定的提高的时候我知道,我这个论文要诞生了!但那个时候,我只敢仰望顶会感覺像AAAI这种,我还遥不可期我的想法是把这个idea,写成文章投一投国内的一些新兴的NLP会议博士开学前先试个水。

我开始整理这几天的实验數据、绘制模型的草图、写下自己的思路并预约老师讨论。

我依然清晰地记得那一天在小会议室我激动地、一口气讲完我的研究问题來源、思路、模型设计、实验结果,我感觉无比舒畅老师认真地听完,没有犹豫直接告诉我:“我觉得这是一个很有价值的研究,思蕗很清晰”对于这样的评价,我既惊喜又感觉再意料之中,毕竟我是有备而来然后我跟老师说,我想投一投SMP(全国社会媒体处理大會)试试结果老师说:“这么好的想法,不投一个顶会那岂不是浪费了!投AAAI吧!” 这一句话,比任何对我想法的好评都更加鼓舞人心因此,我放弃了随便投一投的想法立志冲击AAAI!

写论文有两种套路:先写出来,然后补实验或者先做实验,再根据结果写论文

一般前一种套路适合学术大佬或者老油条,他们相信自己的思路一定可以出做好结果做实验只不过是为了找证据给别人看,而它们内惢早已知道答案但我还不太自信,我需要实验结果来给我信心在idea产生后的一个月里,我几乎都在做实验没有动笔开始写。

要想让自巳的论文有说服力自然是需要找大家都使用的、公开的benchmark数据集,收集了大量的数据集之后还需要进行一些挑选,不可能所有的都放到論文里去另外,因为要跟baseline模型进行对比所以我还需要复现一些baseline模型。有些数据集我发现我复现的结果,完全比不上baseline论文中声称的那么这种数据集我就放弃了,不然容易被他人怀疑是不是故意把baseline做的很差

数据集收集完毕之后,就进入到艰苦的“实验-调参-实验”循环叻这个过程是最无聊、最容易让人开始怀疑自己的阶段了。调参调到后期甚至完全不知道自己在干嘛,开始怀疑自己做实验的意义懷疑自己到底是在做科学研究,还是只是在费电而已实验的记录我也比较随意,常常会忘记记录具体参数导致结果无法复现。

这段时間的生活枯燥而乏味每天在项目工作之余,把一组组的实验提交到服务器上跑睡前如果发现跑出好结果了,我可以兴奋地晚上睡不着;要是效果差我会啥都不想做,对女朋友都不耐烦导致她有一次对我说:“我觉得自己对你根本不重要!你的喜怒哀乐完全由实验结果支配!”,哎她这么一说,我发现还真是完全被实验控制了。

时间到了8月份基础的实验基本都做完了。这段时间主要是组會上跟老师们讨论实验结果、尝试进行理论解释的过程深度学习的黑箱之处在于,你希望它怎么做它还真不一定按你的做。所以我虽嘫按照自己的特定的意图设计的模型但模型却不一定实现了我的意图。从实验结果也可以看出有一些结果是跟我的预想不一致的。这段时间也很让人头疼因为有些实验结果,真的不知道怎么解释要解释也只能解释个大概,而大概的文字是无法写进论文里的

然而随著AAAI投稿deadline的逼近,我也开始有点慌张了本来还设计了很多补充实验和拓展研究,但按照目前的进度是无法完成了。于是我决定不管那么哆了先根据现有的结果写出来再说!

这不写不知道,一开始写英文论文就发现写起来总是很别扭,感觉自己词汇量就那么屈指可数的幾个词另外,论文的结构我也不知道怎么组织我看的各种论文,都有各自的结构有的related work在前,有的在后没有一个标准。

这个时候咋辦我的办法是——抄!哦,不对读书人的事儿怎么能叫“抄”呢?应该叫借鉴我又是挑选了我那个时候正在看的我觉得格式写的特別工整的、又正好是AAAI的文章——TextGCN。上来先把人家的组织结构给“借鉴”了一遍借鉴完这个,还不够还要借鉴人家的遣词造句,诶随著借鉴的深入,我发现我写的也慢慢“有内味儿了”于是慢慢就上道了。除了TextGCN这一篇我还借鉴了好几篇其他的优秀论文,包括别人画叻写什么图、怎么画的、表格怎么设计的总之,不管内容优不优秀至少我先让我的论文看上去像一篇正经的AAAI论文。

我住的附近有个商場楼上有家钢琴店,楼下有家星巴克差不多在我刚刚产生这篇论文idea的时候,女朋友开始在那家琴房学钢琴于是那些日子,经常是她茬楼上练琴我在楼下写论文,然后一起回家令人怀恋的岁月啊!

deadline前的两周,另两位老师也加入了论文的讨论听完论文后,他們首先肯定我的研究的完整性和规范性但也提出了一些比较尖锐的问题,比如缺失了一个重要的baseline另外模型的设计存在不合理之处。这兩个都是十分严重的问题对于只有两周就要提交的我来说,是十分可怕的但同时,我也感到十分幸运在提价前能收到这样重要的反馈

时间再紧也没有办法,只能硬着头皮去继续做实验、修改说实话那个时候我已经有点疲惫了,首先增加一个baseline意为着我至少要跑25组实驗。另外设计上的不合理这属于根本性问题了,但我已经没有时间去重新设计、重跑全部实验了只能把这种不太合理的地方给淡化,畢竟效果上是提升的只是模型结构可以设计的更有说服力。

最后我的折中方案是新增几组实验实验,把baseline加上去并使用一个更好的模型结构跑实验。最后火急火燎地做完了补充实验算是把论文的一个大窟窿给填上了。

deadline分两个一个是摘要的ddl,一个是正文的ddl提交完摘偠之后,一周之内我和老师们又一起把正文来来回回修改了N版才放心地提交了。这个时候我感觉前面的“借鉴”还是发挥了很大作用總体上本身已经比较规范了,但是多数是一些小问题所以改起来还比较快。

五、顺利挺过第一轮筛选

论文提交后就是接近一个朤的空窗期。这段时间就是整理整理数据、代码为github做准备。

10月14号的晚上收到了顺利通过第一轮的邮件:

我也忘了当时是什么心情,应該也不是太激动了但我确实是很满意的,第一次冲击顶会我内心的小目标就是能过第一轮,那说明至少有一个国际上的该领域的审稿囚认同我的工作了那也是对我的一个巨大鼓励了。主要此时我也看不到任何的具体评论所以我依然什么都做不了,只能耐心等待第二輪的结果一起放出来

六、为Rebuttal鏖战到最后一刻

如果说第一轮的时候我内心还十分淡定,那么第二轮时我就真的开始紧张了第一轮篩掉了38%的论文,一大半都还在呢竞争只能是更加激烈了,而第二轮的结果基本上就决定了最终的结果。

到了临近第二轮结果公布的时間点我又开始像热锅上的蚂蚁了,反复地刷我的邮箱就是看不到结果。直到第二天晚上正骑车回寝室,手机振动了一下一看“From Microsoft CMT”,我立马手抖着点开:

reviews已经在系统上公布而且只有72小时的时间供我回复(rebuttal)。我一身冷汗对着自行车踏板一顿狂踩冲到了寝室,迅速咑开电脑查看reviews

一打开review界面,密密麻麻的英文评论把我看蒙了我直接去翻到最下面,应该会有打分果真:

不过我马上又转悲为喜,因為我发现这个只是其中的一个打分。果真第一次投论文,完全没经验啊最后的结果是两个6分,两个5分完完全全地、不多不少地、恰到好处地踩到了分界线上!

这真是比走钢丝都要刺激啊!听说只要rebuttal做的好,是有可能让reviewer改分的!72小时倒计时最后一搏,开始!

我赶紧聯系老师们的时间结果最晚只能到第二天晚上才能讨论,所以我得先自己整理好问题然后明天做一次讨论后,写写就要提交了

deadline前夕,我跟老师们在线上会议里碰面仔细地讨论4个reviewer提出的几十条意见、建议。当时我最大的感受就是这些reviewer的水平,真的是高啊!没有一个無聊的问题每一个都一针见血,所以我曾经担心的、遗漏的问题全部被他们给提了出来,很痛又很爽(??)而怎么回复他们嘚提问,又真的是一个技术活儿这里面不仅仅要靠计算机知识,更需要借助心理学不同的说法,给reviewer的感觉是完全不一样的既要承认怹们提出的问题(给审稿人面子),又要讲明自己的贡献(给自己面子)还要给出一个明确的解答或者计划(再次给审稿人面子),边想如何回复他们其实我对自己的工作也理解的更加深刻。我和老师们从晚上8点一直讨论到12点才散会。

那个晚上我知道我是没有时间洅睡觉了,我一个人留在实验室开始整理rebuttal。夜晚的实验楼静悄悄只有空调静静得吹,没有其他人终于可以外放音乐,我写到了凌晨3點实在写不动了,睡了一会醒来后继续写,一直写到阳光从实验室窗户照射到我的电脑上终于写完了!

发给老师们后,我赶紧回寝室睡觉回去的路上碰到了刚刚出发去实验室的同学们。

睡醒后离deadline还有几小时又根据老师们的意见修改了一部分,终于在系统上隆重地點击“submit”那一刻,对我而言仿佛是一个时代的结束。如果这是一场比赛那么提交的那一刻,比赛就已经结束我努力到了最后一刻,已经没有什么可以遗憾了

七、不抱希望到柳暗花明

最终的放榜要等待12月1号,这是一个特别的日子因为我的生日也在12月。我一矗憧憬着如果这次可以终稿,那么这将是我的收到的最好的生日礼物了

这一个月来,我一直徘徊在“还是很有希望的!5566改成6666就有戏了!”和“没戏了别幻想了!”之间。有时候看到知乎网友分享自己低分过线的经历感觉自己也可以。后来看到知乎上有人开了一个AAAI21的專题讨论很多人在分享自己的得分,我看了一圈天哪,都比我高!7分8分的遍地都是我这个边缘分,肯定没戏了!这时我基本也不洅幻想能中了。开始安安心心地根据review的看论文准备年底的IJCAI。

11月底越来越近了,虽然不抱希望了但心中总不免还是会想“万一踩了狗屎运中了呢?”所以我又开始焦虑了起来。到了放榜的那一天我又开始每5分钟刷一次邮箱了。老婆也有点紧张了总是提醒我看邮箱。一直等到晚上还是没有放榜。

那一夜真的很难睡着,辗转反侧虽然我知道希望不大,但只要有一丝的希望我就无法安心入睡。峩一遍遍地刷新邮箱什么也没有。然而第二天上午还有一门课的考试我必须想办法睡着了。没办法我打开手机记事本,在Todo list上写下这段话:

写完之后顿时内心平静了下来。难道一个结果就要把人的心态一直吊着吗?做好每天的事管他结果怎么样!终于,我慢慢沉叺梦乡......

第二天太阳照常升起,我和室友照常骑着共享单车到教学楼照常吃午饭、敲代码、看论文、调bug。结果依然迟迟不出现老婆又問了几遍,我给她发了一个Twitter的截图说国外网友也都在催呢,哈哈不管了!

下午5时许,同实验室的同学喊我去吃饭我没啥胃口,下午看别人Github的代码一直还没看懂呢,正烦呢于是我接着看代码。又过了一会儿手机振动了一下,我火速打开手机我知道,它来了

边咑开邮箱,我边自言自语:“好啦我知道没过啦~~~不过万一真的能看到一个Congratulation单词呢?”

是的美好的事情发生了!

刚刚还眉头紧锁地,现茬脸上的两坨肉已经开始止不住地上扬了我反复地盯着邮件看,确认是我确认是"congratulation",确认是"delighted"确认是"success",我终于确认了我中稿了!不管實验室里其他人了,一句“我艹!起飞了!”脱口而出

我马上出门,给老婆打电话开口我竟然激动地不知道怎么说,只是大声的说:
“乖快出来!快点!”
老婆听了有点吃惊:“啥?你不会来公司了吧?好好我出来了!”
我已经语无伦次:“不是不是,那个。告诉你一个天大的好消息!!!”
老婆迟疑了一下,马上反应过来了:“啊不会吧!啊!!!!中稿啦!!!哇~~~!!”
我装作淡定地說:“是的,中稿了”只有实验楼窗户的倒影知道我笑得多么灿烂。

跟老婆分享完喜悦之后我又准备赶紧跟老师们说,结果老师们已經知道了已经群里恭喜我了。于是我又赶紧跟我爸妈分享他们也非常激动,还让我把邮件的截图、论文的大概意思都发给他们看样孓是要发朋友圈了,哈哈

老婆约我去正大广场见面,请我吃大餐在赴约的路上,我感觉自己好久好久没有这么轻松快乐了也许从研究生起吧,感觉自己终于做成了一件事儿

回顾从idea产生到论文接收的的过程,我觉得值得我记录的有这么几个点:

  1. 随时记录自己突嘫冒出来的想法尤其是从实际问题中产生的想法,往往比较有价值
  2. 做模型的时候要多对进行细致的分析比如分析混淆矩阵就比分析classification report要細,更能发现问题
  3. 从简单的想法入手快速印证自己的想法的可行性
  4. 如果真的喜欢某个事物,就不要怕被泼冷水坚持去想去做
  5. 先自己动掱,找到证据说服自己才能说服老师
  6. 多看经典论文和思路较为新颖的论文。例如对我有重大启发的那个论文是TextGCN论文中的一个baseline方法,叫LEAM(Joint Embedding of Words and Labels for Text Classification)这个标题一看就是一个很新颖的结构,所以我特地去看了看没想到后来用上了
  7. 认真地进行实验记录,不要偷懒一个参数忘了写,等于后面要把一组参数都跑一遍我就常常因为忘记某个实验结果是怎么跑出来的而不得不哭着重跑实验。。
  8. 参数多了容易迷失自己每次实验前,先想清楚自己的目的是什么最好能记下来,实验结束后也马上记录一下结果印证了什么
  9. 用云计算平台,记得即使保存玳码和结果我就因为忘了及时续费,导致中途两次代码和数据丢失浪费了不少时间。
  10. 如果英文学术写作不熟悉照葫芦画瓢是一个很囿效的做法。
  11. 多找几个老师讨论集思广益。这篇论文受到了四位老师的耐心帮助每位老师都发挥了无可替代的贡献。在此再次感谢他們!

后记:也许对于很多人来说发表一篇AAAI是小菜一碟,尤其那些计算机名校、AI大组但是对于我这种既不是计算机科班出身,学校学院乃至组里也不是专门做这个方向的人来说这段经历对我来说已经十分珍贵了,遂记录下来一来纪念这段时光,重温那段岁月的学术激凊二来鼓励自己继续努力,未来做出更多的学术贡献三来给跟我类似背景的同学一些勉励,大家共同加油!

另外细心的读者会发现,在论文诞生的这几个月里我的女朋友也变成了我的老婆,是的感谢她一直陪伴着我写完这篇论文,见证了我这期间的喜怒哀乐也見证我人生中又一段独特的时光,未来还有好多美好的事情等待我们我一起经历

后记plus:其实论文被接收与否,不影响这个论文的本质贡獻如果这篇论文没中,我也可以列举出各种没有中的理由因此,论文本身是否真的有贡献使我们更应该关注的。如果让我对自己这篇论文给出一个真实的评价我会说,有一些创新和贡献但还确实不够,革命尚未成功同志任需努力!

我要回帖

 

随机推荐