-
Path: news-archive.icm.edu.pl!news.icm.edu.pl!newsfeed2.atman.pl!newsfeed.atman.pl!.P
OSTED!not-for-mail
From: Borneq <b...@a...hidden.pl>
Newsgroups: pl.comp.programming
Subject: Wykrywanie plagiatów offline
Date: Tue, 24 Nov 2015 11:52:10 +0100
Organization: ATMAN - ATM S.A.
Lines: 17
Message-ID: <n31fgq$n0t$1@node2.news.atman.pl>
NNTP-Posting-Host: 91.239.205.105
Mime-Version: 1.0
Content-Type: text/plain; charset=utf-8; format=flowed
Content-Transfer-Encoding: 8bit
X-Trace: node2.news.atman.pl 1448362330 23581 91.239.205.105 (24 Nov 2015 10:52:10
GMT)
X-Complaints-To: u...@a...pl
NNTP-Posting-Date: Tue, 24 Nov 2015 10:52:10 +0000 (UTC)
User-Agent: Mozilla/5.0 (Windows NT 6.3; WOW64; rv:38.0) Gecko/20100101
Thunderbird/38.3.0
X-Mozilla-News-Host: news://news.atman.pl:119
Xref: news-archive.icm.edu.pl pl.comp.programming:208861
[ ukryj nagłówki ]Nie chodzi mi tutaj o wyszukiwaniu w Google fragmentów ale o podanie
dwóch plików : źródłowego i wynikowego, źródłowych może być kilka,
zresztą wynikowych też.
I ma powiedzieć ile procent z tego jest plagiatu i wskazać te miejsca.
Do porównywania tekstów służy najdłuższy wspólny podciąg, ale tutaj jest
bezużyteczny.
Bo np. mam tekst, dzielę go na 5 bloków (rozdziałów), mieszam ich
kolejność i mam wynikowy plik.
Detektor powinien w takim wypadku powiedzieć że 100% tekstu jest
plagiatem, w jakiś sposób rozpoznając początki i końce bloku.
A teraz zmieniam jedno słowo w bloku; nie powinien traktować bloków jako
różne ale jako prawie podobne, mógłby też podzielić ten blok na dwa i
stwierdzić że skoro bloki 3 i 4 w jednym pliku występują jako 3 i 4 w
drugim w tej kolejności to jest to jeden blok z małą zmianą.
Ewentualne rozszerzenia to słownik synonimów, ale w języku polskim
trudność z uwagi na odmianę słów, zarówno słowo się odmieni jak i jego
synonim.
Następne wpisy z tego wątku
- 24.11.15 12:17 M.M.
- 24.11.15 14:21 bartekltg
- 24.11.15 15:07 M.M.
- 24.11.15 15:14 bartekltg
- 24.11.15 15:36 M.M.
- 24.11.15 16:24 platformowe głupki
- 24.11.15 17:09 M.M.
- 24.11.15 17:16 bartekltg
- 24.11.15 17:17 bartekltg
- 24.11.15 17:37 M.M.
- 24.11.15 20:01 platformowe głupki
- 24.11.15 22:54 szemrany
- 24.11.15 22:56 szemrany
- 24.11.15 23:00 M.M.
- 24.11.15 23:06 szemrany
Najnowsze wątki z tej grupy
- TCL - problem z escape ostatniego \ w nawiasach {}
- Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- testy-wyd-sort - Podsumowanie
- Tworzenie Programów Nieuprzywilejowanych Opartych Na Wtyczkach
- Do czego nadaje się QDockWidget z bibl. Qt?
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
- Re: (PDF) Surgical Pathology of Non-neoplastic Gastrointestinal Diseases by Lizhi Zhang
- CfC 28th Ada-Europe Int. Conf. Reliable Software Technologies
- Młodzi programiści i tajna policja
- Ada 2022 Language Reference Manual to be Published by Springer
Najnowsze wątki
- 2024-11-11 Wyważanie kół rowerowych
- 2024-11-11 Kosz, gdzie??
- 2024-11-11 Coraz mniej ludzi robi prawo jazdy
- 2024-11-11 Opole => SAP HANA Cloud Dev / Data Engineer <=
- 2024-11-11 Warszawa => Spedytor Międzynarodowy <=
- 2024-11-11 Lublin => Senior PHP Developer <=
- 2024-11-11 Marki => Senior PHP Symfony Developer <=
- 2024-11-11 Chrzanów => Team Lead / Tribe Lead FrontEnd <=
- 2024-11-11 Gliwice => Specjalista ds. public relations <=
- 2024-11-11 Gdańsk => Kierownik Działu Spedycji Międzynarodowej <=
- 2024-11-11 Gdańsk => Head of International Freight Forwarding Department <=
- 2024-11-11 Warszawa => Sales Development Representative (in German) <=
- 2024-11-11 Marsz niepodległości
- 2024-11-08 Belka
- 2024-11-09 pierdolec na punkcie psa