又到一年毕业查重季:机器与人的战争

徐超轶
2021-07-05

徐超轶


临近毕业季,完成毕业论文成为高校学生的“头等大事”。在此过程中,最关键的往往不是论文完成质量的高低,或者所谓“创新性”的多少——事实上,至少对于大多数本科生而言,以其掌握的知识量,实难在本学科领域取得能称为“创新”的成果——而是如何通过最基本但至关重要的论文“查重”。


查重真的有用吗?


对于论文重复率的要求,基本上是所有高校对学生毕业论文的通用检测手段。通过文献库的比对,论文中与已有文献“重复”的比例不能超过一定数值,否则论文需要被退回修改。这一措施的用意主要是防止论文抄袭,保证论文的原创性。毕竟大段复制已有文献的做法,很容易被这套查重系统检出。但是,正如任何测量指标都不能做到完美衡量,查重结果在很大程度上也无法完全反映论文重复程度的高低。


一方面,不乏学生利用数据库收录文献范围的有限性,抄袭数据库以外的港澳台地区中文论文或翻译外文论文以通过查重。这种抄袭的隐蔽性较高,特别是翻译外文论文的情形,除非参与论文评审工作的教师熟悉文献,否则仅通过机器比对难以发现问题。


另一方面,确实靠自身独立完成论文的学生,也可能由于直接引用较多,或是文章中作为研究对象的文本、剧本、法律条文等出现较多而被系统标记为重复,在某些情况下会导致重复率超标的状况。


对于这种重复率超标,学生往往只能通过一些“技术手段”降低重复率,具体的做法包括改变语言表达方式、将正文改为引注、避免直接引用原文等,更有学生“借鉴”抄袭外文文献的方法,将论文内容翻译为外文后,再翻译回中文加以修改——即利用翻译过程中的信息扭曲降低所谓“重复”的比例。实际上,如此修改之后的论文在内容上没有任何改变,甚至还因此损失了直接引用的准确性。原有论文在明确标明引用来源的情况下,其实并不存在学术不端问题。如此以机器查重的重复率作为指挥棒的论文检查与修改,实际上只是浪费时间的无用功。


▲ 靠自身独立完成论文的学生,也可能由于直接引用较多,或是文章中作为研究对象的文本、剧本、法律条文等出现较多而被系统标记为重复,在某些情况下会导致重复率超标的状况。 © Scribbr


最关键的是,使用机器查重实际上只能检查论文的“形式重复性”,即语词、句子表达的重合,而不能检查出“实质重复性“,即内容的雷同。形式表达上不同的文章完全可能在内容上涉嫌抄袭,实质上不同的文章也有可能在特定部分的表达上存在一致性——特别是对于研究同类对象的不同论文而言更是如此。


但是,几乎所有高校都将论文的机器查重作为论文答辩前的必经程序,这使得被这套查重系统判定为“高重复率”的论文甚至没有机会进入到实质的人工审查程序,从而在实质上给了学生一种错误的学术引导:既然参考或引用他人的学术成果可能造成重复率高、不能通过系统的问题,那么纯粹自己“创作”的内容就比较容易通过这套系统的审核。但问题在于,没有建立在足够知识和文献储备上的“原创研究”,其学术性和学术价值是颇值得怀疑的。


▌查重催生的产业


由于这套不甚合理的查重机制,围绕着“查重”与“降重”,俨然形成了一套产业链。为了避免在学校的正式查重中不能通过而影响毕业进度,学生往往在论文提交前会自行寻找平台进行查重。这些平台因其数据库覆盖面的差异收取不同的价格,收费高者可达数百元一篇。而如果选择一些低价或者免费的论文查重平台,一方面可能由于数据库覆盖不全而导致查重结果与学校系统有偏差,另一方面一些不正规的平台甚至存在剽窃学生论文的现象。


若是自行查重的重复率偏高,则又有形形色色的“降重”产品。这种“降重”服务无非是利用机器查重仅针对形式上重复的特点,通过文字编辑的方式降低机器检出的重复率,客观效果上是帮助本身存在抄袭或不规范引用的论文进行“规避”,可以说是变相地助长学术不端。


既然机器查重本身存在各种问题,为何各大高校仍然愿意每年向查重平台缴纳费用,对学生论文进行查重?其中的原因恐怕是多方面的。


▌查重与官僚制


一方面,机器查重确实在某种程度上实现了论文把关的功能,将一部分低质量或存在明显抄袭问题的论文在进入实质答辩前过滤出去,在减轻论文评审压力的同时,也能避免由于评审教师自身水平问题而未能识别出抄袭论文的尴尬,尤其是在每年生产的论文数量巨大,人力阅读难以穷尽的情况下。


另一方面,在高度行政化的学校管理体系中,采取机器给出的“重复率”这一看似客观的、可复现的数值,非常容易向负责此事的上级“交代”,日后若论文出现了相关的问题,也可拿出数值化的结果撇清自身的责任。


而除此之外,以机器替代人工查重的初衷,恐怕还是对人,特别是具体人的不信任,意图通过自动化、平台化的机器查重,避免人工论文评审中的学术腐败与寻租问题。但在引入机器查重机制后仍频频曝光的学术不端事件显然表明,仅靠机器查重作为预防学术不端的防线,恐怕难以达到预期的效果。


尽管机器查重的初衷也许是尽可能排除人为因素的影响,但实际上在引入机器查重之后,人为因素仍然能在整个过程中上下其手。于是论文查重的存在,仅仅成为了科层制管理体系中的一种惯习,或是具体人员卸下自身责任的一种工具。


▲ 靠论文查重的存在,仅仅成为了科层制管理体系中的一种惯习,或是具体人员卸下自身责任的一种工具。 © Pinterset


这种自动化的查重工作因其自身的缺陷,无法真正与论文存在抄袭与否的事实建立相关性,而高校又基于操作效率的考量,将其作为论文进入实质评审的前置条件,在某种程度上使之成为浪费学生金钱与时间的“赘生物”,以数据化的“重复率”为指挥棒,发展出了一套令人啼笑皆非的“降重”技巧。而通过这种方法产生的论文,尽管能通过查重系统的检验,绝大多数仍然是毫无学术价值的“学术垃圾”。


相信数据而不相信人


从观念层面而言,以机器查重作为论文进入实质评审前必经程序的做法,是当下行政管理中相信数据而不相信人的具体表现之一。这种观念的立足点可以说是“对未来负责”,如前所述,当多年以后出现倒查责任的需要时,当事人可以通过客观的、可复现的数据“经得起历史的检验”,以摆脱自己的责任。至于是否产生毫无价值的学术垃圾,并不在优先考量的范围内。


但论文评审面对的显然是学生毕业的当下,在现时的情形下评估一项研究是否有学术上的价值、能够表明学生掌握了相应的学术能力,而不是学生是否抄袭。这才是论文审查各个阶段中最重要的考量因素。而这是机器查重本身所难以做到的。


那么,既然机器查重的做法已然出现种种问题,是否可以重新引入人的因素?通过改变机器查重作为论文审查前置程序的定位,允许被机器判定得出初步“不通过”结论的论文,再接受作为专业人的论文评审者的检验,或许可以避免机器查重过程中“误杀”遵守学术规范的论文。


退一步而言,对于被机器判定为重复率超标的论文,也至少需要给予学生申诉“自证清白”的机会,而不是根据机器给出的一个百分比数据,直接将待审论文拒绝在人工评审的大门外。毕竟论文评审的结果,对于学生的毕业与否存在重大影响。如果仅以机器评判的结果直接作为论文评审不通过的依据,似乎过于草率。


虽然提前引入人工评审论文的环节将在某种程度上增加整个论文审查环节的工作量,也给参与评审的教师提出了更高的学术水平要求。但至少这样的做法在高校目前的架构下是完全能够实施的,而这可能也是完善论文评审,甚至是绩效考核机制、在高度机械化的学校管理中重新反思“人的作用”的第一步。


▲ 这可能也是完善论文评审,甚至是绩效考核机制、在高度机械化的学校管理中重新反思“人的作用”的第一步。 © itrevolution.com


当然,机器查重作为论文评审的一种方式,也有着人力所不能及的作用与优势,笔者也无意主张应将机器查重完全排除在论文审查的方法之外。但正如前文反复提及的,单纯以机器审查结果作为拒绝论文进入实质审查的理由,与在论文审查过程中借助机器查重的方法,更全面地评价论文的独创性和规范性,彼此之间是存在本质上的区别的。


以纯机器的手段作为“过滤器”,看似客观简便,但机器查重的本质也决定了这种依赖将会带来“误杀”“错放”同时存在的尴尬局面。更深层次而言,这是一种高度僵化、只求得到数据对上级有所交代的行事逻辑,而与学术论文本身最注重的独创性大异其趣。


从这一角度而言,论文的机器查重只是一个窗口,反映出的问题,是存有诸多缺陷的高校管理体制和高度机械化的具体操作模式。此等问题的解决虽非朝夕之功,但从具体的小问题出发,亦可找到相应的改善路径,从而撬动这一不存在“人”、更不存在作为学术主体的学生和教师的高校管理模式。




TOP