5001拉斯维加斯-对话程序主席黄萱菁:EMNLP从投稿到接收,我们是如何工作的
作者 | 琰琰编纂| 青暮近日EMNLP 2021于多米尼加共及国终结,本年EMNLP收到有用投稿3717篇,中国年夜陆投稿1137篇,吸收207篇,接管率为18%。作为NLP四年夜顶会之一,EMNLP备受海内学者青睐,投稿量持续多年跨越美国位居榜首。
EMNLP 由国际天然语言学会(ACL)下属的 SIGDAT 数据小组开办,于全世界NLP顶会排行榜上位居第二,集会质量仅次在ACL。比力而言,ACL集会汗青悠长,统筹语言摸索与经验要领,是综合质量最高的集会;EMNLP更聚焦NLP算法于各个范畴解决方案的学术切磋,定位越发夸大工程化,两者堪称互补。
跟着AI顶会投稿量的连续增加,EMNLP的审稿质量及公允性问题成为学者们体贴的话题。近日,AI科技评论对于话EMNLP 2021步伐主席黄萱菁传授,缭绕EMNLP投稿趋向,审稿流程与尺度、学生应该怎样投稿”等话题与之举行了交流。

AI科技评论:EMNLP 2021的审稿流程是如何的,您作为步伐主席重要卖力哪些事情?
现实上EMNLP 2020 竣事后,2021年的筹办事情就已经经最先了。整整一年下来事情量还有长短常年夜的,特别是Deadline及任命先后,是最忙的两个时间段。本年咱们有三位配合步伐主席,除了了我以外,还有有伦敦帝国理工学院的Lucia Specia传授,Facebook高级研究员Scott Yih。于前期预备事情上,第一项使命就是发布征稿通知,包括确定投稿范畴、时间节点等详细事项。
于投稿范畴上,咱们的基来源根基则是范畴规模要适中,具备多样性及新奇性。好比呆板进修、天然语言处置惩罚运用近两年很是热点,投稿量很年夜,有些集会会拆分成预练习及分类两块小范畴。别的,咱们也会拓展一些小众的前沿范畴,好比天然语言处置惩罚的伦理及效率,这些范畴是需要鼓动勉励的,咱们但愿指导学者做绿色NLP,做情况友爱的NLP。
征稿通知发布后,最先约请高级范畴主席,确定EMNLP委员会布局。一般小范畴会摆设1位范畴主席,年夜范畴摆设3-4位。先是从世界规模内评比出一批知名的NLP学者,然后综合性别均衡、区域均衡、学术与财产均衡等指标举行二次筛选,确保SAC人选的多样性。于区域均衡这里,咱们笼罩了三年夜洲,包括美洲(北美、南美)、亚太(中国、Australia、新西兰等地域)、欧洲及非洲。然后从头修订审稿规范及指南,这是早期预备阶段最主要的一项事情。
征稿流程启动后,从作者投稿、审稿人评审、author response、终极决议计划等整个流程咱们城市参与。根据范畴划分,咱们三位步伐主席,年夜概每一人分担1000份论文摆布(共提交3000+篇)。进入任命阶段后,AC及SAC会向咱们提交综合评价及保举定见。于这些评审成果中,咱们会重点存眷那些AC及SAC认为“可上可下”的论文,也就说,一篇论文是被顶会收录,还有是进入Findings;是入选Findings,还有是被拒,这个重要由咱们来决议的。由于高级范畴主席只存眷特定范畴,咱们能从更全局视角,均衡所有论文的环境。
AI科技评论:EMNLP怎样评比审稿人及包管审稿质量?您怎样对待投稿量与审稿人不服衡的问题?
EMNLP 2021有快要4000名审稿人。咱们先是参考ACL等其它顶会创立了一个9000人的审稿人池子,年夜概有4000多人接管了审稿约请,然后高级范畴主席按照其他客不雅指标做了一些增删处置惩罚,确定了终极的审稿人名单。
咱们约请的审稿人除了了NLP范畴知名的传授、学者,还有有一些于读博士生及硕士生,固然他们都需要于顶会上至少发表3-4篇文章。本年总体评审下来,咱们发明许多首次评审的博士生很活跃,审稿质量不比其别人差。
实在不仅是EMNLP,许多顶会都面对审稿人紧缺的问题。投稿量每一年都于增长,假如不增长审稿人,现有审稿人的事情量及压力就会很是年夜,也会影响审稿的质量。以是于包管专业能力的基础上,扩展审稿人的评比规模是一个不错的选择。
本年EMNLP收到3000多篇有用论文,每一篇论文会分配3-4名审稿人。咱们会按照审稿人地点的高校、职位、论文发表数目等指标判断其资深水平,然后合理分配审稿人,基本可以包管每一篇论文都有资深学者介入。
对于在评审质量,范畴主席会举行人工评估,保举一批优异的审稿人。咱们也会采用主动化步伐评判审稿质量,好比哪篇审稿定见过在简短,综合评价是否周全等等。别的,审稿人及范畴主席也会评估论文是否是有潜于的伦理危害。有潜于危害而且作者于论文中没有给出伦理及影响力声明的论文会提交给专门的伦理委员会评审,本年接管伦理评审的论文年夜概有200多篇。
AI科技评论:EMNLP怎样匹配审稿人与论文?对于在社交媒体上存于的“审稿人不专业”的质疑,您怎么看?
已往许多集会的论文分配方式都是审稿人本身去竞标,这内里存于的一个问题就是,审稿人可能会出在兴致选择论文,而不是本身的研究标的目的,这于必然水平上会影响评审质量。以是近几年咱们取缔了论文投标的方式,使用NLP技能去主动化匹配审稿人及论文。
通常被约请的审稿人已经经发表了不少顶会文章,咱们采用的NLP算法会汇集及阐发这些文章的标题及择要,并练习出一个语义暗示模子,如许咱们就能够相识审稿人擅长的研究标的目的。用这些拿手再去及投稿论文的择要做匹配,可以最年夜限度地防止“不匹配”的问题,提高审稿的公允性。
主动分配只是一个基础,范畴主席及高级范畴主席还有会做进一步的调解,方才咱们提到,一篇论文的审稿人不克不及全是资格浅的年青人,为了统筹比例均衡,他们会保举一些资深学者,由于差别经验的审稿人看文章的角度是纷歧样的。这项事情之以是由范畴主席来卖力,是由于他们与审稿人是小偕行,更能做出精准的调解。
别的,论文作者、审稿人以和范畴主席对于在高级范畴主席来讲都是公然的,以是他们也会查抄这些人是否来自统一个年夜学或者者存于互助瓜葛,防止好处冲突的问题。总之,体系主动分配联合范畴主席调解的方式分配论文,基本可以或许解决审稿人保举不合错误口,不公允的问题。
AI科技评论:EMNLP是否存于“SOTA决议论”的征象,就是说只要论文没有跨越现有研究的SOTA就会被拒失,或者者打低分。您怎样对待这类机能指标对于论文质量的影响?
咱们以前于审稿规范上就有提出不克不及弄SOTA论,不克不及由于这项研究没有跨越现有研究的机能就打低分。于这方面,咱们起首界说投稿以前三个月内的文章属在同期事情,作者可能会不相识。另外一方面,假如事情只收录于arxiv上,也纷歧定需要举行比力,由于它不属在偕行评断的正式出书物。别的,对于在那些成果不错,数据靠得住,但要领又不是尤其新奇的论文,咱们从去年起设置了Findings种别。以是咱们于这方面做了许多的事情,SOTA其实不是一个尤其夸大的指标。
但存于的一个问题是,咱们设计的审稿规范,不克不及包管审稿人可以或许严酷根据规范去操作,这方面还有需要去连续优化。
AI科技评论:本年字节跳动的一篇ICLR拒稿投了ACL,成为了最好论文,您怎样对待这类“转投中稿”的征象?NLP范畴四年夜顶级集会,学生应该怎样选投,可否给出一些建议?
许多人知道NLP范畴有四年夜顶会ACL、EMNLP、NAACL及COLING。ACL是公认综合质量最高的国际计较机语言学会,语言摸索与经验要领兼容并收。COLING与ACL近似,是汗青悠长的NLP学术集会,但不属在ACL协会旗下。NAACL侧重数据驱动要领,与EMNLP气势派头靠近,更切合美国粹者的口胃。
初期整小我私家工智能,包括天然语言处置惩罚都不是很火热,ACL每一年只有几百篇的投稿量。厥后,基在法则的呆板进修要领最先呈现,天然语言处置惩罚范畴才最先活跃起来。SIGDAT是ACL协会下设的一个语言学数据事情组,他们建议创立一个天然语言处置惩罚经验要领集会,也就是EMNLP。
EMNLP对于经验要领的界说,包括模子设计及实现,语料库构建与标注,还有有评价要领。以是定量试验及数据阐发,做患上多做患上好,更易遭到EMNLP承认。咱们本年评比的最好长、短论文都与数据集有关。
虽然集会于定位及设计上各有特点,逐步还有是会呈现一些同质化的偏向。由于除了了COLING外,EMNLP、ACL及NAACL都是由ACL构造运作的,审稿人、SAC/AC、PC基原来自在统一个群体,各集会于审稿要乞降规范方面也会彼此参考及借鉴。以是学生于投稿的时辰,不见患上要紧盯一个集会,于DDL以前所有NLP相干集会均可以去测验考试。对于在首次投稿的学生来讲,这个历程中收到的反馈及定见更主要,字节跳动“转投中稿”的事也印证了这个工作。别的,此刻NLP的投稿量愈来愈多,有了idea及好成果再不投,可能就被他人争先了。
AI科技评论:EMNLP被拒论遍及存于共性问题是甚么?您认为真正好的论文应该具有哪些特质,可否给学生一些建议?
总体来看,EMNLP投稿论文的下限比拟之前有所提高,由于提交格局不规范被拒的环境少了许多。此刻存于比力主要的问题是:过在存眷SOTA。许多作者感觉只要我的模子有好的成果,上传了coding,就能够发表了。但对于在一篇真正好的论文来说,模子机能只是一方面。咱们更存眷的是作者的研究念头,文章的论证逻辑,以和试验要领的新奇性。
作者要明确地提出科学问题及解决要领,于这以前,他们需要做好充实的文献调研,咱们发明,许多作者提出的试验要领实在早就被验证过了,以是研究的立异性、新奇性是很要害的。咱们还有要看做者的逻辑表达,是否能把以往的事情梳理清晰,从阐发、研究到验证的整个历程是否严谨,有理论支撑。别的,于试验环节,咱们不仅看试验成果,更存眷设计历程是否合理,试验成果是否充实靠得住。
我常常跟本身组里的学生说,不要感觉科研论文是记述文,写于叙事。既然是“论”文,就必然要以说理为主,要以理论及试验为依据,于有限的篇幅内把研究不雅点立起来。试验只是验证结论的一个手腕,不克不及只存眷SOTA,从发明问题到解决问题的逻辑演绎更为主要。
AI科技评论:EMNLP获奖论文是怎样举行评比的,本年评比历程中是否有一些有趣的故事?
实在获奖论文评比事情于低级审稿阶段就已经经最先了。审稿人、范畴主席到高级范畴主席城市于审稿表单中保举最好论文、,这些建议会提交给咱们举行二次筛选,差未几筛选出一半后再提交给最好论文评比委员会,由他们做终极的决议。
我印象比力深的是感情阐发范畴保举的一篇论文,得到了本年的最好漫笔。其时200多篇论文中,卖力相干范畴的SAC只保举了这一篇,也没有保举最好长文。审稿人、范畴主席及高级主席都认为这篇是最好漫笔的候选。这项研究提出了一个诙谐感知模子CHoRaL,用来检测Facebook上的动静贴是否诙谐。他们网络了 78.5 万篇与 COVID-19 相干的帖子,经由过程从帖子中提取语义辞汇及感情特性,阐发社交媒体的诙谐表达,还有创立了带标签的年夜范围数据集。
看了这篇论文后,咱们认为于深陷疫情旋涡的配景下,从“诙谐”角度切入,提高语言理解能力的研究主题很是新奇,几多也有些苦中作乐的象征。由于本年疫情于全世界规模内仍造成为了不小的打击,包括本年EMNLP集会采用的也是线上线下联合的方式,许多学者由于疫情没法到现场参会。
AI科技评论:Findings及ARR的实行效果怎样?本年于审稿方面还有做了哪些方面的改良?
每一年EMNLP集会城市总结往年经验,做一些新的测验考试及改良。好比去年EMNLP提出Findings种别,吸收那些不足以被顶会任命,但试验要领有立异,试验成果好的论文。本年是引入ARR滚动审稿机制,让论文投稿及评审更和时高效。总体来看,Findings共吸收了419篇高质量的论文,ARR投稿量截至10月份已经经有上千篇,而且于来岁的ACL、EMNLP等集会中广泛利用。
于审稿规范方面,咱们本年从头修订了短论文的评审尺度,之前许多作者诉苦漫笔的拒稿率过高,可能审稿人感觉研究要领不敷新奇,试验不敷透辟。本年咱们要求漫笔不克不及采用长文的评比尺度,短论文只要问题聚焦,验证了要领的有用性,纵然是阶段性的孝敬也是有价值的。
别的其他集会也有响应的改良,好比ACL-IJCNLP 2021开设了审稿人培训体系;NAACL 2021改善了伦理评审机制,不外这类改良都是渐进式的。
AI科技评论:您认为硕博生要于顶会发表论文,需要把握哪些能力?
许多学生都但愿于科研上做出一些有影响力的事情。做科研的第一步要学会发明问题。实在,博士与硕士于科研能力的造就及要求上有很年夜的差别,硕士阶段可能咱们只需要浏览年夜量文献,于前人研究的基础上去切磋一些新问题,但博士生要自力地扩大一个新的研究范畴,要本身去想idea。
实在许多时辰,不是研究问题很难找,是咱们缺乏辨别问题的能力,我常常告诉学生,读论文要学会“挑刺”,你不克不及顺着作者的逻辑,要换个角度测验考试去辩驳它,就像审稿人同样,要可以或许找出这篇论文的优错误谬误、有哪些改良的空间,如许才能于相对于成熟的研究中发明新问题。别的,咱们许多学生于硕博时期会去工业界实习,除了了为未来职业计划做预备外,从现实的落地场景中也更易挖掘一些感兴致的问题。
AI科技评论:从进入NLP范畴以来,您的研究标的目的履历了哪些变化,此刻的重要研究标的目的及结果是甚么?
我于读博的时辰刚好遇上了NLP走向数据驱动的呆板进修的历程,履历了从一最先的统计要领,到基在法则的要领,再到此刻的深度进修。实在做科研就是如许,只要技能一直于更新,你就要一直去追热门标的目的。固然假如可以或许像Bengio, Hinton那样引领热门是最伟年夜的。我此刻的研究标的目的重要与社会媒体有关,包括趋向阐发、感情阐发、可理解阐发以和内容保举。
除了了社会媒体,咱们也于做新闻方面的NLP,一最先做这个标的目的重要是兴致,我本身就是深度网平易近,之前常常于BBS、天际,新浪微博这些社区潜水。固然从科研角度来说,社交媒体上有很好的数据资源,咱们使用这些自然的数据练习语言模子,测试它于差别的范畴的鲁棒性,于迁徙进修方面有更多摸索的空间。
别的,深度进修把咱们从特性挖掘时代带到告终构工程时代,这个历程带来了许多新的问题,好比怎样选择适配非凡使命非凡数据集的布局;可理解阐发怎样增长模子的可托赖性;怎样更好地判定模子是否过拟合等。以是,可注释性也是咱们今朝研究的重点标的目的。
AI科技评论:您认为NLP成长履历了哪几个主要的阶段,当下的研究趋向及面对的瓶颈是甚么?
1950 年艾伦·图灵于《计较机与智能》论文中提出呆板翻译算法,第一次研究了天然语言的形态学、句法及语义问题。这项结果被看作是天然语言成长的源头。于这以后,假如回溯整个NLP成长过程,年夜概可以分为三阶段;第一个阶段是上个世纪,NLP于呆板翻译范畴履历了漫长的成长过程。第二阶段是本世纪初,基在法则及数据驱动的呆板进修技能最先鼓起,NLP进入蓬勃成长期;第三阶段就是此刻以深度进修为主的NLP时代。
细分下来,今朝整个NLP成长的热门趋向,可以总结为几个要害词:预练习,多模态,低资源、低功耗、可注释,科技向善。年夜火的GPT-3就是预练习模子,这项研究得到了NeurIPS 2020最好论文,EMNLP-IJCNLP 2019 的最好论文也与预练习有关。之以是成为学术热门,重要就是它于ImageNet等年夜范围数据集上到达了很高的机能程度。然后是可注释性,不仅是NLP范畴,整个以深度进修为焦点的人工智能都面对模子可注释的问题,如今AI最先年夜范围走向落地,有关可注释的研究也愈来愈紧急。这些热门研究标的目的百花齐放,但现阶段都都存于一些难以超越的瓶颈,好比预练习于工业界的落地开消太年夜,怎样于医疗、金融等范畴阐扬现实价值,可否实现小样本进修等等。
AI科技评论:EMNLP从最早的兴致小构成为了仅次在ACL的第二年夜NLP集会,投稿量也于逐年上涨,华人学者持续多年盘踞投稿量榜首,您认为EMNLP的突起对于NLP成长有哪些作用?
不止是EMNLP,我感觉各种NLP顶会对于天然语言处置惩罚的成长起着主要的引领性作用。从EMNLP来讲,咱们会试图挖掘有价值的研究,指导学者形成准确的价值不雅,鞭策NLP的周全成长。好比经由过程开设天然语言处置惩罚效率、可注释性等小众范畴,促成研究的多样性;经由过程制订各类规范及指南,影响审稿人及作者的价值判定;经由过程最好论文评比,为研究者树立标杆。
别的,本年于集会摆设上,咱们约请了MIT脑与认知科学系的Evelina Fedorenko传授,就年夜脑的语言体系做相干主题陈诉,他们的事情有助在鞭策NLP与多学科的交织交融。同时咱们还有约请Australia查尔斯达尔文年夜学的Steven Bird传授,分享用NLP帮忙新西兰土著住民的科研项目,通报科技向善的理念。以是从整小我私家工智能圈来说,但愿指导学者使用NLP技能去做一些真正晋升社会价值的事情。
下一届EMNLP步伐主席
AI科技评论相识到,EMNLP组委会已经宣布下一届集会的步伐主席,此中,西湖年夜学张岳传授位列此中,这是自EMNLP建立以来第四位内地学者呈现于年夜会步伐委员会的行列。

作为海内初期从事天然语言处置惩罚研究的学者之一,张岳教员研究标的目的偏重天然语言的解析、天生及翻译、文本挖掘、呆板进修,已经发表相干国际期刊论文30余篇,CCF列表 A、B 类国际集会论文百余篇,得到过CCF2018中文计较与天然语言处置惩罚青年新锐奖、SemEval2020(honorable mention)COLING2018及IALP2017最好论文奖等奖项。
盘货EMNLP积年的组委会成员,除了了张岳及黄萱菁传授外,还有有字节跳动李航博士、北京年夜学万小军等海内学者,以和新加坡治理年夜学Jing Jiang、德克萨斯年夜学Vincent Ng等多名华人学者出任EMNLP步伐主席。
张岳教员入选EMNLP2022步伐主席,象征着他本人和其团队的学术成绩及职位地方获得了国际偕行的承认,而愈来愈多的华人面貌呈现国际集会的组委会行列,标记着我国计较语言学及天然语言处置惩罚研究范畴于国际学术舞台拥有更多的话语权。

雷峰网雷峰网(公家号:雷峰网)
雷峰网原创文章,未经授权禁止转载。详情见转载须知。





