跳转到内容

文章相似度檢測

维基百科,自由的百科全书

这是本页的一个历史版本,由Cyora0815留言 | 贡献2020年7月27日 (一) 18:10编辑。这可能和当前版本存在着巨大的差异。

内容抄袭检测抄袭检测(Plagiarism detection),或內容類似檢測(content similarity detection)是在一份文件中找到抄袭侵權詞句所在位置的方法。隨著電腦的普遍使用,網際網路的發明,抄袭其他作品的難度越來越低[1][2]

抄袭检测可以用許多方式來進行。人工檢測是傳統檢測是否有抄袭的方法,相當的耗時間[2],而且可能因為組織內對於抄袭定義的不同,會有不一致的情形[3]。目前已有許多文字匹配軟體(Text-matching software、TMS),也稱為反剽竊軟體(anti-plagiarism software)或剽竊檢測軟體(plagiarism detection software),這些軟體可能是商業軟體,也可能是開源軟體。文字比對軟體不會一句一句的檢查是否有抄袭,不過軟體會從一份文件中找到和其他文件相符的特定片段,若相符的特定片段越多,抄袭的可能性也就越高。

軟體輔助抄袭检测

電腦輔助的抄袭检测(Computer-assisted plagiarism detection、簡稱CaPD)是由特製的信息檢索系統所進行的信息檢索工作,此系統稱為抄袭检测系統(plagiarism detection system、PDS)或文件相似度檢測系統。2019年的一篇系統綜述 [4]簡單說明了目前正在使用的抄袭检测系統。

文件相似度檢測系統

文件相似度檢測系統有兩種通用的檢測方式,一種是外在的,一種則和文件的固有特性有關[5] 外在檢測系統會將待測的文件和一些參考用的文件進行比較,這些參考用的文件是假定原創,沒有抄袭的文件 [6]。 依照給定的文件模型,以及事先定義的相似度準則,檢測工作就是檢索出參考用的文件中,內容和待測文件相似度超過一定比例的比文件[7]。 固有特性的抄袭检测系統會直接用待測的文件進行分析。分析的目的是找出作者獨特的寫作方式變化,作為抄袭可能性的指標[8]。 抄袭检测系統一定要配合人類的判斷,才能可靠的識別文件抄袭。相似度是依事先定義的文件模型來計算,因此可能出現偽陽性[9][10][11][12][13]

告知檢測與否對抄襲率的影響

一項研究曾經測試了相似性檢測軟件在高等教育環境下的有效性。研究將學生分為2組,其中1組學生在動筆撰寫論文前會第1次瞭解到有關抄襲的概念,並被告知他們所寫的論文將會經由內容相似性檢測系統進行檢查;而第2組學生則在未獲得任何資訊的情形下直接開始撰寫論文。研究者原本預期第1組學生的論文抄襲率應該比較低,但結果則是2組的抄襲率大致相同[14]

檢測方式

下圖繪出目前各種以電腦軟體來輔助檢測文章內容相似性的方式,並依檢測的地域範圍為全球或特定地區加以分類。全球相似性評估方式會擷取文章中大部分的特徵文本甚至整篇文章和其他文章進行比對,以計算二者間的相似度;而特定地區相似性評估方式則僅是事先選擇小部分文本段落,並輸入電腦軟體進行比對。

電腦軟體輔助檢測抄襲方式的分類
文章指紋識別

文章指紋識別(Fingerprinting)是目前檢測內容相似性的方式中所最為廣泛運用者。此方式是藉由從文章中擇定一組由多個子母所組成的「符串」(n-grams),並定義為該篇文章中具有代表性的摘要。這些符串即如同指紋一般,而構成指紋的元素即稱為「細節」(minutaie)[15] [16]

相關條目

參考資料

  1. ^ Culwin, F., & Lancaster, T. (2001). "Plagiarism, prevention, deterrence and detection". Higher Education Academy.
  2. ^ 2.0 2.1 Bretag, T., & Mahmud, S. (2009). A model for determining student plagiarism: Electronic detection and academic judgement. Journal of University Teaching & Learning Practice, 6(1). Retrieved from http://ro.uow.edu.au/jutlp/vol6/iss1/6
  3. ^ Macdonald, R., & Carroll, J. (2006). Plagiarism—a complex issue requiring a holistic institutional approach. Assessment & Evaluation in Higher Education, 31(2), 233–245. doi:10.1080/02602930500262536
  4. ^ Foltýnek, Tomáš; Meuschke, Norman; Gipp, Bela. Academic Plagiarism Detection: A Systematic Literature Review. ACM Computing Surveys. 2019-10-16, 52 (6): 1–42. doi:10.1145/3345317 (英语). 
  5. ^ Stein, Benno; Koppel, Moshe; Stamatatos, Efstathios, Plagiarism Analysis, Authorship Identification, and Near-Duplicate Detection PAN'07 (PDF), SIGIR Forum, Dec 2007, 41 (2): 68 [7 October 2011], doi:10.1145/1328964.1328976, (原始内容 (PDF)存档于2 April 2012) 
  6. ^ Potthast, Martin; Stein, Benno; Eiselt, Andreas; Barrón-Cedeño, Alberto; Rosso, Paolo, Overview of the 1st International Competition on Plagiarism Detection, PAN09 - 3rd Workshop on Uncovering Plagiarism, Authorship and Social Software Misuse and 1st International Competition on Plagiarism Detection (PDF), CEUR Workshop Proceedings 502: 1–9, 2009, ISSN 1613-0073, (原始内容 (PDF)存档于2 April 2012) 
  7. ^ Stein, Benno; Meyer zu Eissen, Sven; Potthast, Martin, Strategies for Retrieving Plagiarized Documents, Proceedings 30th Annual International ACM SIGIR Conference (PDF), ACM: 825–826, 2007 [7 October 2011], ISBN 978-1-59593-597-7, doi:10.1145/1277741.1277928, (原始内容 (PDF)存档于2 April 2012) 
  8. ^ Meyer zu Eissen, Sven; Stein, Benno, Intrinsic Plagiarism Detection, Advances in Information Retrieval 28th European Conference on IR Research, ECIR 2006, London, UK, April 10–12, 2006 Proceedings (PDF), Lecture Notes in Computer Science 3936, Springer: 565–569, 2006 [7 October 2011], CiteSeerX 10.1.1.110.5366可免费查阅, ISBN 978-3-540-33347-0, doi:10.1007/11735106_66, (原始内容 (PDF)存档于2 April 2012) 
  9. ^ Bao, Jun-Peng; Malcolm, James A., Text similarity in academic conference papers, 2nd International Plagiarism Conference Proceedings (PDF), Northumbria University Press, 2006 [7 October 2011], (原始内容 (PDF)存档于16 September 2018) 
  10. ^ Clough, Paul, Plagiarism in natural and programming languages an overview of current tools and technologies (PDF) (Technical Report), Department of Computer Science, University of Sheffield, 2000, (原始内容 (PDF)存档于18 August 2011) 
  11. ^ Culwin, Fintan; Lancaster, Thomas, Plagiarism issues for higher education (PDF), Vine, 2001, 31 (2): 36–41, doi:10.1108/03055720010804005, (原始内容 (PDF)存档于5 April 2012) 
  12. ^ Lancaster, Thomas, Effective and Efficient Plagiarism Detection (PhD Thesis), School of Computing, Information Systems and Mathematics South Bank University, 2003 
  13. ^ Maurer, Hermann; Zaka, Bilal, Plagiarism - A Problem And How To Fight It, Proceedings of World Conference on Educational Multimedia, Hypermedia and Telecommunications 2007, AACE: 4451–4458, 2007 
  14. ^ Youmans, Robert J. Does the adoption of plagiarism-detection software in higher education reduce plagiarism?. Studies in Higher Education. November 2011, 36 (7): 749–761. doi:10.1080/03075079.2010.523457. 
  15. ^ 引用错误:没有为名为Hoad03的参考文献提供内容
  16. ^ 引用错误:没有为名为Stein05的参考文献提供内容

文獻

  • Carroll, J. (2002). A handbook for deterring plagiarism in higher education. Oxford: The Oxford Centre for Staff and Learning Development, Oxford Brookes University. (96 p.), ISBN 1873576560
  • Zeidman, B. (2011). The Software IP Detective’s Handbook. Prentice Hall. (480 p.), ISBN 0137035330