Navigationsweiche Anfang

Navigationsweiche Ende

Sprache wählen


HyPlag – Hybride Plagiatserkennung

Fig. 1: HyPlag's Results Overview
(click on figure to enlarge).
Fig. 2: HyPlag's Detailed Comparison View
(click on figure to enlarge).

 

HyPlag ist ein Plagiatserkennungssystem, das einen hybriden Ansatz zur Identifikation potenziell verdächtiger Ähnlichkeiten in wissenschaftlichen Dokumenten verfolgt. Bisherige Plagiatserkennungssysteme suchen ausschließlich nach übereinstimmendem Text und erkennen daher in der Regel keine verschleierten Plagiatsformen, wie z.B. Paraphrasen, Übersetzungen oder Ideenplagiate. Im Gegensatz zu solchen Systemen analysiert HyPlag neben der textuellen Ähnlichkeit auch mathematische Ausdrücke, Abbildungen und Quellenverweise, um verschleierte Plagiate besser zu identifizieren. Der hybride Erkennungsansatz ist insbesondere für Forschungspublikationen wie Zeitschriftenartikel, Doktorarbeiten und Anträge auf Forschungsförderung relevant.

 

HyPlag testen (Benutzer: guest@hyplag.org | PW: hybridPD).

Der Source Code für das HyPlag-System und die Ressourcen für unsere Experimente, z. B. Testfälle, sind auf GitHub verfügbar
(Bitte zuerst in GitHub anmelden! Benutzer: hyplag-guest | PW: hybridPD20). 

 

Die obigen Abbildungen zeigen die Analyseansichten von HyPlag - die Ergebnisübersicht (Abb. 1) und die detaillierte Vergleichsansicht (Abb. 2). Mit der Ergebnisübersicht können Benutzer schnell alle entdeckten Ähnlichkeiten sichten und überprüfen, welche Teile des Eingabedokuments betroffen sind. Der linke Teil der Ansicht zeigt den Text des Eingabedokuments (siehe (1) in Abb. 1). Der rechte Teil zeigt zusammenfassende Visualisierungen der Ergebnisse (2) für alle Dokumente, in denen Ähnlichkeiten zum Eingabedokument festgestellt wurden. Jede Ergebnisvisualisierung enthält eine oder mehrere Komponenten (3), welche die Ähnlichkeiten spezifischer Analyseverfahren repräsentieren, z.B. übereinstimmende Quellenverweise oder ähnliche Formeln. Jede der Komponenten ist zweigeteilt. Der linke Teil (4a) repräsentiert das Eingabedokument, der rechte (4b) das Vergleichsdokument. Als übereinstimmend oder stark ähnlich klassifizierte Merkmale in den beiden Dokumenten werden durch Linien verbunden. Die Ergebnisvisualisierungen in Abbildung 1 zeigen die Ähnlichkeit von Text (links), Quellenverweisen (Mitte) und mathematischem Inhalt (rechts) in einer zurückgezogenen Publikation und zwei Publikationen anderer Autoren.

In der detaillierten Vergleichsansicht (Abb. 2) können Benutzer erkannte Ähnlichkeiten detailliert untersuchen. Die Ansicht zeigt den Text des Eingabedokuments (8) und eines ausgewählten Vergleichsdokumentes (9) nebeneinander. Zwischen den Texten zeigt eine Überblickvisualisierung (10) alle Ergebnisse für die ausgewählten Analyseverfahren in beiden Dokumenten. In dieser Ansicht wird jeder Übereinstimmung (11a, b) eine separate Farbe zugewiesen. Durch Klicken auf eine Hervorhebung für übereinstimmende Merkmale innerhalb der Texte oder in der zentralen Überblickvisualisierung werden die zugehörigen Übereinstimmungen einander gegenübergestellt, indem automatisch an die entsprechenden Stellen in den Dokumenten gescrollt wird. Da die zentrale Überblickvisualisierung beide Dokumente in ihrer Gesamtheit darstellt, werden die aktuell sichtbaren Textbereiche durch ein dunkleres Segment verdeutlicht.

Einzelheiten zu den Visualisierungen und der Systemarchitektur von HyPlag finden Sie in der Publikation [1].

HyPlag umfasst aktuell die folgenden Analyseverfahren für nicht-textuelle Inhalte:

Quellenverweise

HyPlag verwendet vier Analyseverfahren, die sich in unseren früheren Untersuchungen zum Thema als wirksam erwiesen haben. (Einzelheiten finden Sie auf unserer Projektseite zur zitatbasierten Plagiatserkennung oder in den Publikationen [4-10]). Der Code für die zitatbasierte Analyse ist als separates GitHub-Repository verfügbar.

  • Bibliographic Coupling (BC) quantifiziert die Anzahl oder den relativen Anteil geteilter Referenzen in zwei Dokumenten, wobei Anzahl, Position und Reihenfolge der Quellenverweise im Text ignoriert werden.
  • Longest Common Citation Sequence (LCCS) quantifiziert die maximale Anzahl an Quellenverweisen, die in beiden Dokumenten in identischer Reihenfolge auftreten, jedoch nicht unbedingt in einem zusammenhängenden Block. Wir haben gezeigt, dass LCCS gute Ergebnisse für die Erkennung längerer Passagen wiederverwendeten Textes erzielt, in denen die Reihenfolge der Ideen unverändert ist.
  • Greedy Citation Tiling (GCT) identifiziert alle individuell längsten Folgen identischer Quellenverweise in zwei Dokumenten ("Citation Tiles"), d.h. alle Blöcke aufeinanderfolgender identischer Quellenverweise in der gleichen Reihenfolge. Längere Citation Tiles sind ein starker Indikator für eine hohe semantische Ähnlichkeit von Textpassagen, selbst wenn die Reihenfolge übernommener Textpassagen geändert wurde.
  • Citation Chunking (CC) bezeichnet eine Klasse heuristischer Verfahren, um unterschiedlich lange Muster übereinstimmender Quellenverweise zu finden, auch solche, in denen Anzahl und Reihenfolge der übereinstimmenden Quellenverweise variieren.

Abbildungen

Aktuell enthält HyPlag vier Analyseverfahren, um potenziell verdächtige Bildähnlichkeiten zu identifizieren (siehe Publikation [2] für Details). Der Code für die bildbasierte Analyse ist als separates  GitHub-Repository verfügbar.

  • Perceptual Hashing (pHash) ist ein etabliertes, effizientes und zuverlässiges Verfahren, um stark ähnliche Bilder zu finden.
  • Trigram Text Matching ist ein klassischer Textvergleich und eignet sich insbesondere für Textkomponenten, die mittels OCR aus Abbildungen extrahiert wurden.
  • Positional Text Matching verbessert die Ähnlichkeitsanalyse für Text, der signifikante Erkennungsfehler enthält, z.B. durch fehlerhaftes OCR. Der Ansatz berücksichtigt für Berechnung der Ähnlichkeit zweier Bilder nur solche Textübereinstimmungen, die in beiden Bildern in ähnlichen Bereichen vorkommen.
  • Ratio Hashing ist ein Verfahren zur Erkennung ähnlicher Balkendiagramme. Das Verfahren berechnet einen numerischen Ähnlichkeitswert für Balkendiagramme, indem es die relativen Höhen der Balken bestimmt, diese in absteigender Reihenfolge sortiert und die Unterschiede summiert.

Mathematische Ausdrücke

HyPlag nutzt drei Ähnlichkeitsmaße, die mathematische Variablen analysieren, um die mathematikbasierte Ähnlichkeit von Dokumenten zu bestimmen. Wir haben in einer früheren Studie gezeigt, dass Variablen für diesen Zweck am effektivsten sind (siehe unsere Projektseite zu mathematik-basierten Plagiatserkennung oder Publikation [3]).

  • Frequency Histograms of Mathematical Identifiers (Histo) ist ein Verfahren, dass die Ähnlichkeit zweier Dokumente bestimmt, indem es die Vereinigungsmenge aller Variablen in beiden Dokumenten analysiert und den relativen Unterschied in der Anzahl der Vorkommen einzelner Variablen berechnet. Das Histo-Maß quantifiziert somit die globale Übereinstimmung mathematischer Variablen in den analysierten Dokumenten. Die Anzahl der übereinstimmenden Variablen wird mithilfe der Summe der Variablen in beiden Dokumenten normalisiert. Um hohe Ähnlichkeitswerte zu erzielen, müssen die Dokumente eine ähnlich viele Variablen. In der Regel ist diese Anforderung nur erfüllt, wenn die beiden Dokumente ähnlich lang sind.
  • Longest Common Subsequence of Identifiers (LCIS) quantifiziert die maximale Anzahl an Variablen, die in beiden Dokumenten in identischer Reihenfolge auftreten, jedoch nicht unbedingt in einem zusammenhängenden Block. Wie Histo quantifiziert das LCIS-Maß die globale Ähnlichkeit von Dokumenten, berücksichtigt jedoch die Reihenfolge, während Histo die Reihenfolge ignoriert.
  • Greedy Identifier Tiles (GIT) identifiziert alle individuell längsten Folgen identischer Variablen in zwei Dokumenten, d.h. alle Blöcke aufeinanderfolgender identischer Variablen in der gleichen Reihenfolge.

Text

HyPlag nutzt etablierte Verfahren, um übereinstimmende Textpassagen zu identifizieren.

  • Text Fingerprinting unterteilt den Text in Wort-3-gramme, wählt probabilistisch eine Teilmenge aller für das Eingabe- und Vergleichsdokument gebildeten 3-gramme aus und berechnet die Übereinstimmung der beiden Mengen. Die mittlere Auswahlwahrscheinlichkeit eines 3-grams beträgt 1/16. Wir haben das Verfahren durch Anpassung des Sherlock Tools realisiert.
  • Encoplot, entwickelt von Grozea et al. [12], ist ein effizienter 16-gram-Zeichenvergleich, bei dem eine Zeitkomplexität von O (n) erreicht wird, indem wiederholte Übereinstimmungen ignoriert werden.
  • Boyer-Moore String Matching identifiziert alle Folgen mit 12 oder mehr identischen Wörtern, wobei auch mehrfach auftretende Folgen berücksichtigt werden.

ZUGEHÖRIGE VERÖFFENTLICHUNGEN

  1. Academic Plagiarism Detection: A Systematic Literature Review
    T. Foltynek, N. Meuschke, B. Gipp
    ACM Computing Surveys, vol. 52, iss. 6, p. 112:1-112:42, 2019
    (PDF | DOI)
  2. Improving Academic Plagiarism Detection for STEM Documents by Analyzing Mathematical Content and Citations
    N. Meuschke, V. Stange, M. Schubotz, M. Kramer, and B. Gipp,
    Proc. ACM/IEEE Joint Conference on Digital Libraries (JCDL), 2019.
    (PDF | DOI | Slides
  3. HyPlag: A Hybrid Approach to Academic Plagiarism Detection,
    N Meuschke, V Stange, M Schubotz, B Gipp,
    Proc. Int. ACM SIGIR Conf, on Research & Development in Information Retrieval, 2018.
    (PDF | DOI | BibTeX)
  4. An Adaptive Image-based Plagiarism Detection Approach,
    N. Meuschke, C. Gondek, D. Seebacher, C. Breitinger, D. Keim, and B. Gipp,
    Proc. ACM/IEEE-CS Joint Conf. on Digital Libraries (JCDL), 2018.
    (PDF DOI | BibTeX | Slides)
  5. Analyzing Mathematical Content to Detect Academic Plagiarism,
    N Meuschke, M Schubotz, F Hamborg, T Skopal, B Gipp,
    Proc. ACM Conf. on Information and Knowledge Management (CIKM), 2017.
    (PDF | Poster | BibTeX)
  6. Reducing Computational Effort for Plagiarism Detection by using Citation Characteristics to Limit Retrieval Space,
    N. Meuschke and B. Gipp,
    Proc. IEEE/ACM Int. Conf. on Digital Libraries (JCDL), 2014.
    (PDF | DOI | BibTeX)
  7. Citation-based Plagiarism Detection: Practicability on a Large-scale Scientific Corpus,
    B. Gipp, N. Meuschke, and C. Breitinger,
    Journal of the American Society for Information Science and Technology (JASIST), vol. 65, iss. 2, pp. 1527-1540, 2014.
    (PDF | DOI | BibTeX)
  8. Citation-based Plagiarism Detection - Detecting Disguised and Cross-language Plagiarism using Citation Pattern Analysis,
    B. Gipp,
    Springer Vieweg Research, 2014.
    (PDF | DOI | BibTeX)
  9. Demonstration of Citation Pattern Analysis for Plagiarism Detection,
    B. Gipp, N. Meuschke, C. Breitinger, M. Lipinski, and A. Nuernberger,
    Proc. Int. ACM SIGIR Conf. on Research and Development in Information Retrieval, 2013.
    (PDF | DOI | BibTeX)
  10. Citation Pattern Matching Algorithms for Citation-based Plagiarism Detection: Greedy Citation Tiling, Citation Chunking and Longest Common Citation Sequence,
    B. Gipp and N. Meuschke,
    Proc. ACM Symposium on Document Engineering (DocEng), 2011.
    (PDF | DOI | BibTeX)
  11. Comparative Evaluation of Text- and Citation-based Plagiarism Detection Approaches using GuttenPlag,
    B. Gipp, N. Meuschke, and J. Beel,
    Proc. ACM/IEEE Joint Conf. on Digital Libraries (JCDL), 2011.
    (PDF | DOI | BibTeX)
  12. Citation Based Plagiarism Detection – A New Approach to Identify Plagiarized Work Language Independently,
    B. Gipp and J. Beel,
    Proc. ACM Conf. on Hypertext and Hypermedia (HT), 2010.
    (PDF | DOI | BibTeX)

    Cited Sources
  13. An Approach to Math-Similarity Search,
    Qun Zhang and Abdou Youssef
    Proc. Conf. on Intelligent Computer Mathematics (CICM), 2014.
  14. ENCOPLOT: Pairwise Sequence Matching in Linear Time Applied to Plagiarism Detection,
    Christian Grozea, Christian Gehl, and Marius Popescu,
    Proc. PAN Workshop, 2009.

MEDIENBERICHTERSTATTUNG

Wir freuen uns mitteilen zu können, dass die Deutsche Forschungsgemeinschaft (DFG) eine Förderung unseres Forschungsprojektes „Analyse mathematischer Ausdrücke zur Erkennung verschleierter...

mehr

 

Der KlarText Preis für Wissenschaftskommunikation würdigt besonders gelungene Beiträge, die wissenschaftliche Erkenntnisse allgemeinverständlich präsentieren. Das Editorial für den KlarText Preis...

mehr

The Westdeutsche Zeitung interviewed our group member Norman Meuschke about HyPlag and our other efforts to aid in the prevention and detection of academic plagiarism. Read the report (in German).  

mehr

news post (in German) featured on the main page of the University of Wuppertal’s website reports on our plagiarism detection research as part of the HyPlag project.

mehr

Die Frankfurter Allgemeine Zeitung (FAZ) beschreibt, wie unsere Forschung zu neuartigen Plagiatserkennungsmethoden und Blockchain-gestützten dezentralen vertrauenswürdigen Zeitstempeln die Bekämpfung...

mehr

Die Deutsche Forschungsgemeinschaft (DFG) hat unserem Lehrstuhl eine dreijährige Forschungsförderung für das Projekt Methoden und Werkzeuge zur Verbesserung des Zugriffs auf mathematisches Wissen in...

mehr

Wikipedia verwendet einen neuen Ansatz zur Darstellung mathematischer Formeln, der von unserem Teammitglied Moritz Schubotz entwickelt wurde.

Die Darstellung von Formeln als Bitmap-Bilder wurde...

mehr

Die öffentlich-rechtlichen Radiosender Deutschlandfunk und Deutschlandradio Kultur haben über unsere Forschung zur Verhinderung und Erkennung von Plagiaten und über unser prototypisches...

mehr

Mehrere Medien berichteten kürzlich über unsere Forschung zur Verhinderung und Erkennung von Plagiaten und über unser prototypisches Plagiatserkennungssystem CitePlag.

Artikel sind erschienen in der...

mehr

Ein Artikel über unser Plagiatserkennungssystem CitePlag ist in der 59. Ausgabe von uni'kon erschienen.

Klicken Sie auf das Bild, um den Bericht in hoher Auflösung zu sehen.

mehr

CitePlag ist der erste Prototyp eines zitatbasierten Plagiatserkennungssystems (CbPD). Der Prototyp wurde kürzlich auf der SIGIR Konference 2013 vorgeführt.

Was macht CitePlag so neu?

Im Gegensatz...

mehr
zuletzt bearbeitet am: 08.12.2020