第二章 检测原理及方法
2.1 支撑技术
CNKI拥有强大的技术研发队伍,目前已经拥有了具有国际或国内领先水准的全面的数字出版的相关技术,包括资源采集技术,文本数据库加工技术,文本数据库技术, 数字资源版权保护技术, 知识挖掘技术, 自然语言处理技术、快速比对技术等。在海量的全文数据的基础上实现快速准确的检测,上述技术是基本的保证。
2.2 支撑资源
TMLC需要一个尽可能完备的全文数据比对资源库,而CNKI的《中国学术文献网络出版总库》则正好满足这一要求。到目前为止,CNKI拥有学术期刊7000余种,期刊全文文献2480万篇,期刊期数和文献收录完整率都大于99.9%,文献量居国际国内同类产品之首;出版503家硕士学位点的72万篇优秀硕士学位论文,368家博士学位点的9.6万篇博士学位论文;1286家重要会议论文106万篇;515家重要报纸500多万篇;1376种重要年鉴787万篇;600多种工具书220多万条;学术引文索引数据600多万条;这些出版物做到平均日更新20000条记录;国家标准、专利、SPRINGER数据库也集成到CNKI网络出版平台中;另外,出版平台还集成整合出版了各类第三方数据库资源1020种。
在收录资源种类上,CNKI在国内具有明显优势,收录了期刊、学位论文、会议论文、报纸、年鉴、工具书、专利、外文文献、学术文献引文等与科学研究、学习相关的主要资源。在资源收录数量上,CNKI明显优于同类产品,各个资源库收录年限长,期刊等主要资源库回溯到创刊。在资源更新速度上,CNKI产品除了第三方合作的外文文献以外,其他资源都做到了日更新,单日更新数量大,这是推行产业化、标准化运作的结果。
2.3 系统架构模式
2.3.1 系统架构图
图3 系统架构图
2.3.2 系统示意图检测系统提供整套的文献学术不端行为检测,系统服务器位于CNKI中心网站,用户将待检测的学位论文通过网络在线提交到中心网站服务器,服务器在检测完成后,自动将检测结果返回给用户。整套系统架构为B/S结构,客户端不需要安装任何软件。其系统示意如图4所示:
图4系统示意图
2.3.3 系统流程图
图5 系统核心流程图
2.4 用户提供的资源
实现学位论文的学术不端检测,用户需要提供的资源包括:
1.论文全文内容
论文全文内容是检测论文是否存在学术不端行为的基础数据。本检测系统是对提交的论文全文内容进行分析,在内容分析的基础上,生成各项检测指标。因此,全文数据是系统所需要的必要资源。
2.元数据信息
元数据指论文相应的作者、作者单位、发表时间、支持基金项目等信息。元数据是检测系统对学术不端类型进行判断所需的基础数据,为了更准确的便于系统做出预判,用户可以在提交检测文献的同时,一并提交文献的元数据信息。
特别提到的是:在进行学位论文检测的时候,作者信息是非常必要的。输入作者信息,在后续的检测过程中,系统能够自动根据作者信息区分比对资源中的文献是属于该作者已发表的文献,还是他人的文献,为用户快速甄别论文是否存在学术不端行为提供更直观的印象。因为在学位论文中,引用自己以前发表过的文献是合理的。
注意:元数据不是系统必需的数据,用户在使用检测系统的时候,可以选择不填写元数据。但我们建议最好输入作者信息。
2.5 检测结果内容在对用户提交的检测文献检测之后,系统生成的检测结果包括:
1.重合文字来源文献信息。
系统详细列出重合文字来源文献信息,这些文献都是真实存在,而且应是公开发表或得到发表确认的。
2.比对信息。
检测文献和来源文献的详细比对信息,用户可以快速选择重合文字部分查阅。
3.总检测指标。
该指标体系从多个角度对检测文献中的文字复制情况进行了概括性描述。
4.子检测指标。
因为学位论文一般较长,因此,系统一般按章检索,并且每一章给出子检测指标,该检测指标从多个角度对该章内容的检测情况进行了详细描述。
5.诊断类型。
系统根据指标参数以及其他元数据相关信息,自动给出一个预判的诊断类型,供审查人员参考。
6.检测报告。
检测系统自动生成一个检测报告单,详细列出检测文献的学术不端行为检测情况,用户可以对该报告单进行修改,生成终审报告。
注意:系统只对疑似存在学术不端行为的论文生成检测报告。 |