我对研究生培养各个环节的理解


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
来源 | 语析LAGroup
作者 | 李正华
最近网络上有个事,我看了一部分视频(重点看了师生关于课题进展的讨论、博士生开题后的师生沟通),有一些感想。标题中的这个事,也是我在研究生《专业写作》课上要讲的内容。写出来,一举多得。
提前声明:我这篇小文章中,讲到的我的做法或观点,都属于我目前认为的理想状态。实际中,尤其是我之前培养学生的过程中,不一定能完全做到。
我2006.9硕士入学,2008.6硕士毕业、继续读博,2013.4博士毕业,一共花了6.8年。这7年,我认为我在独立思考、质疑精神、严谨性、与人交流沟通、表达、写作、英语、数学、羽毛球等各方面,都得了全面的提升。我当然经历过煎熬,但是这些煎熬大部分都是针对科研本身,而非针对人际关系,因此我认为这些都是正面的煎熬,可以称之为成长路上走的一些弯路。经历了这些,我后面做科研会尽量避免犯同样的错误。我认为哈工大的这些经历是我的宝贵财富。我打心眼里感谢SCIR赛尔实验室,感谢我的老师们、同门师兄弟姐妹们。如果说本科四年是大量学习经典知识、通过实践理解这些经典知识的阶段;那么研究生这7年,就是理解前沿知识、尝试创造新知识、摸索自己的科研风格(品味)、形成自己的科研习惯的阶段。
2013年来苏大任教以来,我一共指导了8名博士生(包括即将入学的一位)。3名博士生毕业,两位在高校,一位在华为。从小论文的角度看,目前3名博士生达到毕业标准(KPI),也都经过了中期检查。对于这三位博士生,我要求他们根据中期检查的规划,紧密围绕大题目,把大论文做得扎实、充实一些,然后就预答辩。后续的小论文发不发,发到什么级别的,都不重要(放arxiv、发workshop都可以)。
下面我逐一谈一下我对每个环节的理解。注意:除非学生非常非常差(能力、态度、运气),否则按部就班做,都能顺利通过这些环节。

博士生开题

目前,我比较倾向于这个做法:博士生入学后,以idea为单位,不断尝试(最好3个月内试一个,fast fail);如果博士生做成功了一个不错的idea,且这个idea有一定的扩展性(潜力),就围绕这个idea去规划大题目、开题。正常情况下(学生专注、师生交流畅通、学生运气没那么差),博士生一般是二年级下学期或者三年级开题。
开题要做的事:1)定一个大题目;2)初步规划3-4章的题目、各章要做的事、各章与大题目的联系。答辩委员会的老师们的主要职责是把关,避免几个问题:探讨假问题、拟定的技术方案明显不可行、创新性或工作量明显太小(不足以支撑一个博士课题)。
我不喜欢提前给学生规划好一个大题目,然后让学生在这个大题目的框架下去尝试idea。为什么呢?我觉最重要的原因是:以idea为单位更灵活。如果我觉得一个idea有趣、有价值,我会找一个比较合适的同学尽快去做。注意:这完全是个人风格问题,不存在孰优孰劣之分。
当然,我们不会漫无目的地做idea。idea一定是围绕我做过的、或者比较了解的研究方向。我通常会很谨慎地开辟新的研究方向。一方面是因为我懒;另一方面,我觉得很多问题是不同研究方向所共有的,只是切入点不同而已。当然,这样做出来的工作(切入点偏窄、偏冷),影响力可能不如一个更热门、或者横跨多个研究方向的工作。对于能力弱的学生,我会尽量让他做我更熟悉的研究方向,这样风险小一些,且一旦出现问题,容易解决、变通。
值得注意的是:开题之后,大题目是可以改的。在后续环节,要不断根据完成的工作,去调整、打磨大题目,让大题目更具体、更能涵盖博士学位论文的工作。最完美的情况是:读者看了大题目,就知道博士论文做了什么、核心技术和贡献是什么。当然,要达到这个水平很难的,只有非常优秀的博士论文(工作、写作俱佳),才能做到这一点。
开题后,博士论文的大题目,甚至是可以大改的。比如,尝试后,发现开题时做成功的idea,无法成功扩展出其他好的idea。又比如,师生想转其他更有趣的方向。如果大题目需要大改,理想情况下,是应该重新开题。但是从流程上来讲确实很繁琐,所以一般不会重新开题。从我的经验看,博士大题目发生大的变化的概率是很小的。我目前带的博士生还没发生过这种情况。
开题前学生要做到的事:如上所述,学生要做成功一个不错的、可扩展的idea。如果学生没有做出来,那么开题就完全没有意义了:完全不确定以后做什么。
那么博士生如何能做出这样一个工作呢?我觉得主要靠博士生自己。做科研,idea失败的概率是比较高的。有挑战的idea更是如此。那么快速失败(fast fail)就很重要了。要做到fast fail,博士要专注,投入进去,使出浑身解数。当然也有运气的成分。我经常说(我坚信):“好的工作是做出来的;同一个idea,给不同的人做,结果可能完全不同。”如果博士生不认真做、不专注做、不把做idea当成自己的事,肯定是不行的。一个idea,即使失败了,如果博士生真的投入了,真的思考了,那么他的能力也会有提高的,也会积攒一些有用的经验。这些都会提高他做下一个idea的成功率。
开始指导一个学生,我通常会给简单的idea,很可能不以发表论文为目标。正常情况下,我不舍得把一个很有潜力的idea给一个我不了解的学生。学生没有经过历练,承担不起这个idea,也应付不了这个级别的idea隐藏的挑战。如果硬给学生做一个远超出其能力的idea,那么就需要我花很多的精力,其中很多的分析、决策都只能是我来做。一方面,我会很累,另一方面,学生也不能得到有效的锻炼。甚至还可能出现一种情况:学生发表了好的论文,就以为自己的能力很强,后面沉不下心去做其他工作,或者看不上一些和其真实能力匹配的idea。有的学生还会想着去实习,开启人生的下一阶段的事情。
如果学生能够把简单的idea做好,我会给他难一点的idea。这样,慢慢地,他就能做出不错的工作(发出好论文的水平)。如果一个学生连简单的idea都做不好,那我不可能把一些难的、有潜力(同时有挑战)的idea给他做。我想把idea给合适的人(能力、态度、紧迫性等因素)。
这就回到招生的问题了。我招博士生是非常谨慎的。我倾向于招自己了解的学生(如我的硕士生转博)。当然,我对于硕士生招生,也越来越谨慎。我特别害怕招到逻辑混乱(自己说不清话、听不懂别人的话)、没有基本的科研追求(把事情搞清楚、在一定的压力下做创新)的学生。与这两方面负面因素相对地,坦诚交流,在我看来则是很大很大的优点,这会大大帮助我们的合作。好老师和好学生是互惠互利、互相成就的关系(一加一大于二的关系)。
我还想说一个观点:调研、写综述文章,我认为属于个人学习,而非实实在在的“做科研”。一个学生,在没有做出来几个较高质量的工作之前(科研入门),除非花很大的精力、且经过大量的讨论,否则他很难深入理解别人的工作,很难把握一个工作的核心贡献,很难区分不同工作的区别。这样的学生,写出来的调研笔记,深度、准确性都是差强人意的,可参考性不大的。对于工科,做是最重要的,做出有创新、对领域有贡献的工作,才是最本质的。科研重在严谨(文字表达的信息要真实、可靠、逻辑清晰合理)。以后我会专门写小文章,讲一下我对“研究生和导师”各自的基本职责的理解。

博士生中期检查

在开题对应的成功idea的基础上,博士生继续围绕拟定的大题目,尝试新的idea,发表小论文。
中期检查前学生要做到的事:小论文达到学校、学院的基本要求(KPI)。这样,就可以基本确定:学生能够在小论文的基础上,继续做,形成博士学位论文。
值得注意的是,我认为,KPI相关的小论文都必须和博士论文相关。有些学校的规则文件可能没有就这一点做明确说明。但是我感觉这个认识是很自然就可以达成一致的。具体什么意思呢?博士生发了2篇论文(A和B),从而达到了KPI。但是论文B和博士课题无关,不会写到博士论文中,那么严格来讲,这应该不算满足KPI。
中期检查要做的事:1)打磨大题目(如果特别麻烦,可以先不修改研究生系统中的题目,当然也要看学校怎么规定);2)进一步规划3-4章的题目、各章要做的事、各章与大题目的联系。

博士论文撰写

正常应该花3-6个月去写博士论文。早点写,可能是一个更好的选择:先把每一章的核心内容写出来,这样后期更从容,细节问题更少。
我通常会很细致地帮学生修改摘要、打磨大题目、打磨各章小题目。正文部分,我只会快速浏览,提一些明显的问题。我觉得经过了撰写多篇高质量小论文的过程,博士生在毕业时,应该具有较强的写作能力。论文格式、规范性问题,那更应该是早已掌握的基本功,是基本素质的一部分。

博士生预答辩

博士论文打磨好,就可以进入预答辩。这时候,博士课题的质量、水平也基本定型了。根据我之前的经历,我感觉答辩老师们最主要的目的是:帮着博士生把关博士论文,从而更顺利通过外审。除非很差很差,否则答辩老师们不会决议“不通过”。

博士论文送审

外审还是相对公平的。除非特别差,否则很少有外审专家会给C。当然也不排除有些外审专家比较严格,会把正常情况下属于B或B-水平的论文,判为C。如果一个外审专家把一个B+或以上水平的论文,判为C,那就很过分了。如果判为C,一定要明确、清楚地写出来主要问题在哪,不能模棱两可、泛泛地讲。当然,不同评审专家内心的标准是不同的。
孙子兵法说:“求其上,得其中;求其中,得其下;求其下,必败。”如果想要顺利通过评审(没有C),应该至少追求达到B+的水平。如果本身博士论文属于B或B-的水平,那么拿到C,也谈不上有多冤枉。
如果外审结果中有C,且不属于明显地恶意评审(极少会出现恶意评审,且学校通常都有一些补救措施的),那么就要花很久的时间去修改,甚至增加新的工作,然后才能进入正式答辩。

博士生答辩

和预答辩类似,答辩委员会老师的主要职责是把关博士论文的质量,尤其是结合外审专家的意见。还是那句话,除非很差很差,否则不会决议“不通过”。

答辩报告和正常学术报告的区别

各个环节,都要做报告、讲PPT。怎么做PPT、怎么讲东西,这些都是最基本的东西,需要不断磨炼、不断提高能力。我后面还会写小文章讲这些事情。最基本的建议:多给例子、多用图表、少文字、去冗存精(听众不需要了解的东西,不要讲)等等。
答辩(包括开题、中期、预答辩)讲PPT要讲清楚:1)课题做什么(任务定义);2)课题几个工作的联系和区别;3)每个具体工作的big picture(动机、基本原理、贡献);4)每个具体工作的最主要的1-2个实验结果和分析。把这些东西讲清楚,让委员会老师们把关。如果老师们问其他细节问题,再用额外的PPT(致谢后的附录)或用语言表达清楚。
一定不要想着把技术细节讲清楚。这一点是有别于普通的学术报告(会议的口头报告、特邀报告)的。普通的学术报告的主要目的是学术交流、讨论,是为了把技术搞清楚,甚至碰撞出新的思路。而答辩报告的目的,显然不同。从上面的讨论就可以看出来。
另外,尽量少花时间讲泛泛的研究背景、研究意义。委员会老师们都知道的。得把时间节约出来,讲核心的。这样才能获得老师们更多更好的指导。
如果时间确实够,当然可以讲重要的技术细节。或者说,有些技术细节就是核心贡献,那样的话,还是要讲的。但是讲同一个东西,总是可以分成high-level、middle-level、low-level的,不同层次的讲法是不同的。

学位大论文和小论文的区别

博士学位论文通常包含3-4个具体工作。这几个工作要紧密联系,成一个体系。整个博士论文要有深度,针对某一两个问题(方法)做出有深度的创新、分析出深度。我个人认为,即使一个方法效果不佳(negative result),如果能搞清楚为什么不好使,也是很好的工作。总之,几个工作不能散、且有深度。cheap work是行不通的。
极端情况下,是把多篇联系很少的小论文硬凑到一起,构成一篇大论文。严格来讲,这是不合格的。
有的博士论文,创新性没那么强、研究没那么深入、工作没那么厚实,会导致看起来像是一个大号的硕士论文。如果学生能力够,且时间够,我觉得理想情况下,应该继续加强,做成优秀的博士论文,为将来的学术生涯开一个好头。但是,如果学生能力没那么强,读博时间已经够长了,或者说学生未来不一定要继续做研究,那么我觉得也OK。我觉得,读博这个事的本质是:在一段时间内,培养学生的科研能力,帮助其尽快成长为科研人才。毕业的时候,学生能到什么水平,受到很多因素的影响,不用急于一时。博士生在读博期间的工作,通常应该代表指导老师学术的高峰;而博士生自己的学术高峰,应该是他将来在博士后、高校老师、研究员等岗位上,带自己的学生来达到的。因此,在博士生毕业的时候,我们更应该关注其潜力,而不是过于计较其已完成的成果。

硕士研究生

培养的过程中,我不区分学硕和专硕。有的学校不允许专硕选择“硕博连读”,即专硕必须先硕士毕业,才能读博士。硕博连读是指不拿硕士证,直接在研二或研三转为博士。对于想把科研作为事业的同学,硕博连读性价比很高。我很烦“专硕不能硕博连读”这个政策(为啥就不能不拘一格降人才呢?),但是也没啥办法。目前我培养专硕的时候,在发表论文上,我可能会收着点(除非学生明确说要去国外读博,有发论文的需求)。
和博士相比,硕士做科研的压力、毕业标准要低很多。在创新性方面,我们不应该对硕士要求太高。我觉得硕士期间能做一个较高质量(有一定深度和创新性)的工作,就很好了。然后基于这个工作扩展一个工作(继续加深),或者做另一个没那么紧密相关的新的idea,质量不需要很高,就挺好了。我觉得,做好几个质量一般的工作,完全是浪费精力。要往上走,水平才能不断提高。
硕士生(三年)做2-3个具体工作。第3个工作最好对应一个应用系统,把前两个工作涵盖进去。目前,我对专硕就是朝这个方向规划的(受到了同事C老师的引导)。学硕的话,我觉得也可以这样。我觉得应尽量避免做三个工作,而是做两个工作,把每个工作做得足够扎实(其中一个具有较强的创新性)。
对一个中规中矩的硕士生而言,真正做”科的时间其实并不多(~1.5年)。研一上课、学习基础知识(0.5);研二上学期开始尝试做创新性工作(0.5);研二下学期中间开始找实习、实习(0.25);研三上学期找工作、继续做一些创新性工作、开始写学位论文(0.25);研三下学期写学位论文、答辩等。时间是很紧很紧的。认真的、对自己要求高、和老师配合好的学生和普通学生的差距是巨大的。这三年时间所取得的个人成长的区别也是巨大的。
李正华
2025年5月10~11日于小区、商场

(文:机器学习算法与自然语言处理)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往