互联网的快速发展增加了信息共享的途径,但电子资料的复制性和篡改性频繁地发生了复制现象[1]。目前,许多大学仍以人为考核工作为主要方法,充分发挥教师的丰富经验和优势,但在公平公正的学生评价工作中仍存在着较强的不确定性,无法进行定量分析。近年来,论文搜索已成为加强大学学术规范的重要举措,几乎所有学校都在购买论文搜索服务,[2]。
2018年9月清华发布《关于提供作业检查服务的通知》“3”,清华表示采用中国知网检查系统进行作业检查。考虑到使用知识网检查系统检查工作不准确、成本高,在软件工程课程的实际教育过程中,开发了简单的论文检查系统。对于软件工程课程提交的工作,可以进行论文检查。另外,可以节约教师日常审查工作所需的时间,提高教学水平。教师的教育效率和质量。
2工作存在的问题(Problemsintheassigment)软件工程课程是计算机及相关专业的重要课程,对新工科人才培养具有重要意义[4]。在软件工程教育过程中,实践教育占据着重要的部分。要充分发挥学生的主观能动性,就必须安排作业来促进学生的自我学习。
现在,软件工程课程的通常工作有数量多,存档难,细小的评价难等问题。另一方面,学生们的作业大多用纸保存,很难长期保存。另外,学生们的作业有相互复制的现象。并且,也不考虑,也不检索资料,直接把学生的作业复制粘贴,或者改成自己的文件名提交给老师。
长期保持这种情况,不利于培养学生正确的学术规范,因此毕业时,习惯了剽窃,最终导致难以毕业。另一方面,教师有教多门课和多个班的倾向,在一对多的状态下,学生提交的作业数量增加了一倍,教师的工作量增加了。工作量大的时候,老师对学生的作业很难一一细致地评价。特别是对原创工作很难给予合理公正的分数。
为了解决上述问题,在软件工程的实际教育中,开发了一种工作繁重的检查系统。这个系统充分利用现有的教育资源,可以大幅降低教育成本。教师教育经费不足的情况下,可以广泛应用。
3全体方案(Overallscheme)软件工程课程的工作有很多形式,包括课后的问题、案例分析等。由于软件工程的实践性强,大部分大学在这门课程中都有项目实验的实践环节,但是这个实践的一部分成果中包含了项目的程序代码和项目的实验报告。
本系统以项目的实验报告为例,介绍整体检查系统的流程。具体的检查流程如图1所示,包括作业收集、作业预处理、作业确认重、教师审查和结果分析。3.1在工作收集软件工程学课程的实际教育中,为了发挥学生的团队合作能力,培养学生的交流能力,将教授的16级计算机科学和技术专业这两个班分成小组进行项目实践。
两个班有41个学生,所以每个班的学生分为七人五人组和六人组。学生在小组实践,每人提交实验报告。因此,该小组中一些能力较弱的学生在项目实践过程中要么不参加,要么不太参加项目实践,要么只依靠能力强的学生来进行项目开发和文书制作,最后由他人努力完成。根据实力的成果,可以通过课程的审查。
传统的工作收集方法由班长和学习委员总结后提交给教师。这样的收集工作的方式很容易管理,也可以节省时间。因此,该课程仍然采用这样的收集工作方式,为了避免处理不同形式的文件而增加系统的复杂性,为了便于教师对工作的审查,以统一的形式进行每一个人的工作要求命名。实验报告的命名统一为“学号姓名”,文件的后缀名统一为“2016003.docx”。所有学生将自己的电子版实验报告提交给学习委员后,学习委员首先对每个学生的作业检查命名形式,确认无误后,将所有学生的文件放入一个文件,并将文件夹命名为“班级作业名称”好的。将
个文档全部压缩,发送到教师的邮箱,提交给教师。这对老师处理作业很方便,文件丢了也很方便。3.2文件预处理教师在收到提交的作业后,从邮箱下载并保存到个人电脑上。
个检查系统随后预处理实验报告文档。也就是说,将文档的格式处理成指定的格式,然后处理文档的内容。在预处理中,文档内容为python.docx模块的Doctment类中读取的结果被分段,每个段落的内容只有一个。document.paragraphhs选项卡。document.paragraphhs统一化
实验报告书的内容大致包括文本内容和程序代码两部分。学生的实践项目考虑到小组共同完成,同组学生的程序代码相似。因此,为了避免重叠的虚高,在实验中对所有的英文字母和标点进行过滤,只留下想调查的主体内容的中文文字,最后将读取的所有中文文字连接到字符串中保存。保存到txt文档。
在如上所述进行了预处理后的文件中包含了2种。一个是对应每个学生.docx的文件。在txt文件中,这个文件被命名为“学号名.txt”。另一个是在学生本人以外的所有文件中生成的。在txt文件中,这个文件的名字是“学号名”。all.txt”。前者是为了比较一个学生之间的作业重复度,后者是为了比较学生本人和自己以外的所有学生之间的重量。
.3.3文档的搜索重量是整个系统的核心部分。需要确认重量的文档是对象文档(ObjectDcument,OD),字符串是对象字符串,与重文书比较的文档是模式文档(PatternDcument,PD),字符串是模式字符串。
个搜索的重量分为两种方法。一个是学生工作期间检查的重量,叫做一种检查的重量。另一个是检查学生和自己以外的所有文档的重量。这是两种检查的重量。整个系统的流程图如图2所示。首先读OD名,判断OD名是否有“all”,只重新调查学生本人的文件,OD文件中需要学生作业文件以外的文件。
删除后,判断模式文档名中是否包含“all”,将模式文档名中“all”以外的字符串(简称PD1)与OD名比较,如果相同,则进行类别检查,如果没有“all”,则判断PD名是否等于OD名和学生自己的工作和自己的工作进行比较和说明,直接检查重率x。将此值设为0,以便于显示最高检重率。否则会进行两种检查。重流中的一个重点是重检查算法。
此系统的检查算法为k-gram[