<object id="chinn"></object>

<th id="chinn"></th>
<nav id="chinn"><video id="chinn"><span id="chinn"></span></video></nav>

    1. <th id="chinn"><video id="chinn"><span id="chinn"></span></video></th>
      品牌升級,查看新版
      4000-058-056
      品牌全面升級,論文檢測進入“PaperRight”時代!

      學術論文抄襲檢測方法研究綜述


      2014年04月19日 | 作者: paperrater | 分類: 行業動態 | 來源:PaperRater論文檢測系統

      自20世紀90年代學術界提出反對學術腐敗以來,被揭露出來的學術腐敗事件最多的是學術造假,其中又以學術著作和論文的抄襲為最。抄襲行為不僅侵害了作者的權益,而且嚴重破壞了學術發展的生態環境,損害了學術共同體的尊嚴,還影響到我國科研水平和科技競爭力的提高,損害了國家和公眾的利益。論文抄襲的類型主要分為兩種情況:一是論點抄襲,這種情況是從質的角度來考慮,主要是看是否引用他人作品作為自己作品的主要部分或實質部分。例如抄襲他人的創意、主要的觀點以及核心思想、分析論證方法等;二是內容抄襲,主要是從量,有時也結合質的角度來考慮,例如抄襲論文的文字、圖片、表格、數據、模型與公式等具體內容。對于不同的學術論文抄襲形式其檢測方法也必然不同,下面根據不同的論文抄襲形式介紹其常用的判定方法。

      一、論點抄襲的判定方法

      抄襲他人論文的核心思想、觀點或創意及分析與論證方法,有可能不是整篇整段地抄襲,抄襲的數量也可能不超過1/10,因此不能簡單以抄襲的量加以衡量。這種抄襲一般難以直接判定,論點抄襲一般比較隱蔽,難以直接檢測出來,可行的方法是先借助某種模式識別方法,在懷疑抄襲論文與相似論文之間進行比較,如果相似度超過一定的域值,則給出可能抄襲的初步判定。由于可能會出現誤判,所以還需要進一步進行人工判定。

      晉耀紅等人提出了基于語境框架的文本相似度計算。語境框架是一個三維的語義描述,它把文本內容抽象成領域(靜態范疇)、情景(動態描述)、背景(褒貶、參照等)三個側面。在語境框架的基礎上,計算文本的相似度。算法從概念層面入手,充分考慮了文本的領域和對象的語義角色對相似度的影響,重點針對文本中的歧義、多義、概念組合現象,以及語言中的褒貶傾向,實現文本間語義相似程度的量化。算法應用到文本過濾系統中,用以比較用戶過濾要求和待過濾文本之間的相似度。

      另外,還可以從論文的篇章結構相似度出發進行檢測。例如金博等人提出了基于篇章結構相似度的復制檢測算法。此算法是在學術論文理解的基礎上,針對學術論文的特有結構,對學術論文進行篇章結構分析。文章的篇章結構用數據庫表可以表示為編號、全文特征值、發表時間、標題、作者、單位、摘要、關鍵詞集合、中圖分類號、段落集合、參考文獻集合等。其中全文特征值是對某篇論文的全文進行Hash處理得到的整數值。接著再通過數字指紋和詞頻統計等方法計算出學術論文之間的相似度,從而找出抄襲的現象。不過此算法只針對書寫格式規范的學術論文的抄襲現象。

      二、內容抄襲檢測方法

      (一)文本抄襲的檢測方法

      文本抄襲包括中文、英文和數據的抄襲,現在所采用的檢測方法主要有兩種:數字指紋法和詞頻統計法。數字指紋是通過某種選取策略對論文中的有些特征進行HASH計算而生成的,這些HASH函數可以為論文的每一特征語句或段落產生惟一整數值,通過比較指紋來計算論文間的相似程度。詞頻統計是采用空間模型(VSM)來表示,在模型中,論文空間被看做由一組獨立詞條所組成的向量空間,每個論文表示為一個特征向量進行相似度計算,常采用的計算公式包括點積法和余弦法等。

      在國外,自從1991年用于查詢重復基金申請書的WordCheck軟件應用以后,自然語言文本的抄襲檢測技術有了較大的發展,出現了多個抄襲檢測系統,如siff工具、復制檢測系統SCAM、SE方法和Winnowing算法等。但由于英文論文和中文論文的語法和格式等有很大差別,所以檢測方法也有很大區別,一般不能直接套用。

      在國內,2001年西安交通大學宋擒豹等人提出了CDSDG系統,這是為了解決數字商品非法復制和擴散問題而開發的一個基于注冊的復制監測原型系統。此系統通過對數字正文的多層次、多粒度表示來構建基于統計的重疊度度量算法,取得了較好的效果。金博、史彥軍等提出的利用知網的知識結構及其知識描述語言的語法進行相似度計算的方法。

      在詞語的相似度計算中,利用知網義原樹狀結構及知網知識的網狀知識特點,計算全面可靠;通過對實詞集合的相似度計算來更有效地計算句子相似度;再將基于知網的語義理解相似度計算推廣到段落及文本范圍,使相似度計算更具實用價值。

      霍華、馮博琴提出的基于壓縮稀疏矩陣矢量相乘的文本相似度計算方法,能夠減少計算和存儲空間的開銷。該方法僅對非零元素存儲和表示,然后用壓縮稀疏矩陣矢量相乘的方法計算文本和查詢的相似度,可通過給定相似度闡值來判定一個文本是否和查詢相似。

      余剛、裴仰軍等提出的基于詞匯語義計算的文本相似度研究。采用了基于知網的詞匯語義計算方法來計算兩篇文章向量的相關性,并用最大匹配算法來獲得這兩篇文章的相似度,通過該計算過程達到揭示文本所涉及概念的目的。

      化柏林開發了一個基于句子匹配的文章自寫度測試系統。句子是組成文章的重要單位,也是表明作者行文觀點的最小單位,所以對于任意一篇稿子,利用句子匹配分析可以得到文章的自寫度(自寫不一定為創新,但相同可能為抄襲或引用)。對每一個句子都有匹配度,審核人員可以一目了然地看清有哪些句子是抄的,哪些句子是參考別人的,哪些句子是自己寫的。

      此外還有麻會東、劉國華等人提出了基于提取關鍵詞的中文文檔復制檢測方法,王濤,樊孝忠等人提出了基于復雜特征集的剽竊檢測算法等,都有一定的特色和檢測效果。

      筆者也提出了一種基于基于分類思想的論文抄襲判定系統(CBTPJS),可以在分類結果的基礎上進行比較精確的抄襲判定并輸出抄襲段落中的具體抄襲內容。其主要思路是從分類出發,先進行全篇相似度計算,經過初步篩選,然后對篩選結果再進行精確比較,即進行段落相似度計算,最后如果判定是抄襲則輸出具體抄襲的內容。

      另外,中國知網推出的科技期刊學術不端文獻監測系統、社科期刊學術不端文獻監測系統和學位論文學術不端文獻監測系統,從2009年也開始投入使用,其主要采用的是數字指紋技術。

      (二)算法與程序代碼的抄襲判定方法

      對于程序代碼的抄襲,有的是直接復制或稍加改動,例如修改變量的名稱,修改輸入、輸出語句的格式等。有的改動較大,例如抄襲者采用另一種程序設計語言進行實現而不做說明,其實算法是相同的,這屬于算法的抄襲。算法的表示形式有很多種,包括程序流程圖、N-S圖、過程設計語言等,對于某種算法用另一種形式進行描述,或者用另一種語言進行實現,這實際是抄襲了他人的核心思想。

      程序代碼相似度自動度量技術的研究始于20世紀70年代,至今已比較成熟。目前的抄襲檢測系統大部分使用了結構度量技術,即通過系統比較表示程序結構的字符串來檢測抄襲,但表示程序結構的字符串不需要精確匹配。有的系統混合使用了結構度量技術和屬性計數技術。比較有代表性的有AlexAiken于1994年開發的MOSS系統,主要用于檢測用C、C++、JAVA、PASCAL、Ada、ML、Lisp、Scheme等編寫的源程序的相似性;MichaelWise于1996年開發的YAP3,不但可以檢測源程序代碼的抄襲,還可以檢測自然語言文本間的相似性。由于算法可能以不同形式表示,直接檢測不易,因此可以考慮把算法通過某種工具,如ROSE等CASE工具,轉換成統一的形式,例如偽碼或PAD圖等,然后再進一步比較偽碼或圖形。

      (三)圖片與公式抄襲的檢測方法

      圖片抄襲是指對他人論文中的圖形或圖像直接插入到自己的論文中作為自己成果的一部分。圖片不做處理,也可能稍加處理。抄襲的圖片大多是重要的論據,或者是實驗的結果等,這種抄襲從量上也可能不足1/10,但實際上也構成了抄襲。對于論文中的圖片抄襲問題,一般借助圖像匹配方法進行檢測。圖像匹配是指通過一定的匹配算法在兩幅或多幅圖像之間識別同名點。圖像匹配主要包括以灰度為基礎的匹配和以特征為基礎的匹配。即使抄襲者對圖片進行了少量修改,通過此方法也能檢測出來。

      論文中涉及到的模型、公式和定義等也可能被別人抄襲,這部分內容可能只占很少的篇幅,但這可能是論文的精華部分和亮點,整篇文章都是基于此模型的實驗結果或者公式的演算結果進行分析和論證的,因此這也屬于抄襲的一種形式。由于公式不同于普通文本,如果采用一般的文本抄襲檢測方法可能判斷不出公式是否被抄襲。因為抄襲者可能會更改變量名、調整表達式中常量、變量或函數等成份位置等,而且公式中還使用了很多專用數學符號。

      因此,對于公式的抄襲檢測要采用特殊的方法。一種方法是把公式當作圖片,采用前面提到的圖像匹配技術,即使有所改動也能大致判斷出來是否涉嫌抄襲;另一種方法是采用特定技術把兩個公式中的數學符號、常量、變量、函數等分別抽取出來,然后對比,從使用的個數及順序的相似程度上進行檢測是否涉嫌抄襲。當然這兩種方法都存在一定的缺陷,可能會誤判,進一步人工判定還是必要的。

      學術論文抄襲問題已經越來越被大家所關注,解決論文抄襲的檢測問題不但對于保護知識產權、提高學術論文質量、凈化學術領域、防止學術腐敗都有很重要的意義,而且可以有效地防止一稿多投和減輕審稿人員的工作負擔。抄襲者之所以去抄襲,一是利益驅動;二是抱有不會被發現的僥幸心理。因此,除了設法進一步提高論文抄襲檢測系統的效果和效率外,還要加強科學道德教育和完善相關法律條款,從多方面入手,使得論文抄襲者無機可乘。

      caoporn超碰97免费人妻