Szövegegyezések vizsgálata tudományos szövegekben

A Crossref Similarity Check felületén keresztül használható az iThenticate – az tudományos szövegek eredetiségének ellenőrzését segítő szövegegyezőség vizsgáló – szolgáltatás.

Az iThenticate összehasonlítja a kéziratot saját folyamatosan bővülő adatbázisával, amely nagyszámú (több tízmillió) dokumentumot tartalmaz tudományos konferenciákról, folyóiratokból és könyvekből. Az eszköz keresést végez az interneten és több más tartalomszolgáltató adatbázisában is.

Fetöltés

A szolgáltatás jelenleg könyvtárosi feltöltéssel vehető igénybe. A vizsgálat a szolg@uni-corvinus.hu címre küldött e-mailben kérhető.

A kötelező adatok (keresztnév, vezetéknév, dokumentum címe) mellett a vizsgálandó dokumentumra az alábbi követelmények érvényesek:

kisebb méretű, mint 100MB;
legfeljebb 800 oldal;
legalább 20 szavas szövegnek kell lennie;
a csak szöveges fájlok nem haladhatják meg a 2MB-ot;
a tömörített fájlok maximális mérete 200MB vagy 1000 fájl.

Jelenleg az alábbi fájlok feltöltése lehetséges:
MS Word (doc, docx), Text (txt), PostScript, PDF, HTML, Excel, PowerPoint, Word Perfect WPD, OpenOffice ODT, RTF, Hangul HWP

Amint elkészül a dokumentum ellenőrzése, a program létrehoz egy hasonlósági indexet (similarity index), a százalékos eredményre kattintva megtekinthetőek a részletek. Általában a hasonlósági pontszámot használják annak mérésére, hogy mennyire hasonlít egy kézirat a korábban közzétett szöveghez.

Az iThenticate rendszerben hasonlósági indexre kattintás után ez az ablak jelenik meg:

A teljes kézirat általános hasonlósági indexe a jobb felső sarokban található. Az Egyezés áttekintése (match overview) megmutatja a felhasználónak, hogy mely adatbázis-forrásokat kell megvizsgálnia az esetleges szövegegyezőség miatt, és megmutatja az adott források hasonlósági indexét és a hasonló szavak számát.

A hasonlósági index mellett látható néhány, a felhasználó által kiválasztott kizárás (pl. idézett szöveg vagy a bibliográfia szűrve van-e).

A jelentés a fő szövegben (bal oldalon) szám és szín szerint is kiemeli a konkrét forrásokat, hogy a felhasználó gyorsan lássa, mely szövegterületek lehetnek problémásak.

Mit tartalmaz az iThenticate similarity report?

A kéziratot kiemelt részekkel. A kiemelt részek a már publikált anyagokkal összevetett hasonlóságot jelzik.
A konkrét források felsorolását. Ezeket a forrásokat százalékos arányban rangsorolják attól függően mekkora a hasonlóság a kézirat szövegéhez.
Hasonlósági indexet. A hasonlósági index a kézirat és a közzétett szöveg teljes százalékos hasonlósága. A hamis pozitív adatok kockázatának csökkentése érdekében érdemes csak a kézirat fő szövegére alkalmazni, az irodalomjegyzékre és az idézetekre nem.

Ezenkívül kizárhatók a közzétett forrásokhoz hasonló módon megjelölt rövid szövegrészek (< 10 szó).

Az oldalról letölthető a PDF jelentés, amelyben az egyezés áttekintése általában a kiemelt cikk végén található. Kevesebb a dinamikus funkcionalitás a PDF-fájlban, de a PDF végén található néhány adatbázis-forrás kattintással elérhető, így eljuthatunk a megfelelő anyaghoz. Alternatív megoldásként a fő szöveg színkódolásával meg lehet nézni, hogy mely mondatok felelnek meg a számozott forrásoknak.

Milyen szintű hasonlóság megengedett?

Nincs általánosan elfogadott hasonlósági százalékhatár. Néha a magasabb hasonlósági pontszám kevésbé problematikus, mint például egy alacsonyabb hasonlósági pontszámú cikk, de olyan bekezdést tartalmaz, amelyet közvetlenül másoltak át egy másik forrásból.

Hogyan kell használni az iThenticate similarity report-ot?

Különös figyelmet kell fordítani ezekre a kérdésekre:

Nagy hasonlóságú szövegtömbök, például egy egész mondat vagy egy mondatsor ugyanazon bekezdésen belül

Ismételt hasonlóság ugyanazon forrással (forrásokkal)

A következő kérdések kevésbé aggasztóak:

Hasonló szöveg, amely a szakterületén általánosan használt szabványos kifejezésekből áll, ahelyett, hogy egy vagy néhány konkrét forrásra vonatkozna;
Hasonló szöveg, amely a korábban publikált módszerek leírásából áll.