-
1. Data: 2015-11-24 11:52:10
Temat: Wykrywanie plagiatów offline
Od: Borneq <b...@a...hidden.pl>
Nie chodzi mi tutaj o wyszukiwaniu w Google fragmentów ale o podanie
dwóch plików : źródłowego i wynikowego, źródłowych może być kilka,
zresztą wynikowych też.
I ma powiedzieć ile procent z tego jest plagiatu i wskazać te miejsca.
Do porównywania tekstów służy najdłuższy wspólny podciąg, ale tutaj jest
bezużyteczny.
Bo np. mam tekst, dzielę go na 5 bloków (rozdziałów), mieszam ich
kolejność i mam wynikowy plik.
Detektor powinien w takim wypadku powiedzieć że 100% tekstu jest
plagiatem, w jakiś sposób rozpoznając początki i końce bloku.
A teraz zmieniam jedno słowo w bloku; nie powinien traktować bloków jako
różne ale jako prawie podobne, mógłby też podzielić ten blok na dwa i
stwierdzić że skoro bloki 3 i 4 w jednym pliku występują jako 3 i 4 w
drugim w tej kolejności to jest to jeden blok z małą zmianą.
Ewentualne rozszerzenia to słownik synonimów, ale w języku polskim
trudność z uwagi na odmianę słów, zarówno słowo się odmieni jak i jego
synonim.
-
2. Data: 2015-11-24 12:17:49
Temat: Re: Wykrywanie plagiatów offline
Od: "M.M." <m...@g...com>
On Tuesday, November 24, 2015 at 11:52:11 AM UTC+1, Borneq wrote:
> Nie chodzi mi tutaj o wyszukiwaniu w Google fragmentów ale o podanie
> [...]
> synonim.
Zamieszczanie cytatów to jeszcze nie plagiat. Nie wiem czy istnieje algorytm
który rozpozna cytaty w teksie i odróżni je od plagiatów.
Pozdrawiam
-
3. Data: 2015-11-24 14:21:48
Temat: Re: Wykrywanie plagiatów offline
Od: bartekltg <b...@g...com>
On 24.11.2015 12:17, M.M. wrote:
> On Tuesday, November 24, 2015 at 11:52:11 AM UTC+1, Borneq wrote:
>> Nie chodzi mi tutaj o wyszukiwaniu w Google fragmentów ale o podanie
>> [...]
>> synonim.
>
> Zamieszczanie cytatów to jeszcze nie plagiat. Nie wiem czy istnieje algorytm
> który rozpozna cytaty w teksie i odróżni je od plagiatów.
To nie są programy bezobsługowe, ale narzędzia dla człowieka.
pzdr
bartekltg
-
4. Data: 2015-11-24 15:07:22
Temat: Re: Wykrywanie plagiatów offline
Od: "M.M." <m...@g...com>
On Tuesday, November 24, 2015 at 2:21:50 PM UTC+1, bartekltg wrote:
> On 24.11.2015 12:17, M.M. wrote:
> > On Tuesday, November 24, 2015 at 11:52:11 AM UTC+1, Borneq wrote:
> >> Nie chodzi mi tutaj o wyszukiwaniu w Google fragmentów ale o podanie
> >> [...]
> >> synonim.
> >
> > Zamieszczanie cytatów to jeszcze nie plagiat. Nie wiem czy istnieje algorytm
> > który rozpozna cytaty w teksie i odróżni je od plagiatów.
>
> To nie są programy bezobsługowe, ale narzędzia dla człowieka.
>
> pzdr
> bartekltg
I tak napisanie wygodnej i skutecznej aplikacji tego typu wydaje się trudne.
Pozdrawiam
-
5. Data: 2015-11-24 15:14:04
Temat: Re: Wykrywanie plagiatów offline
Od: bartekltg <b...@g...com>
On 24.11.2015 15:07, M.M. wrote:
> On Tuesday, November 24, 2015 at 2:21:50 PM UTC+1, bartekltg wrote:
>> On 24.11.2015 12:17, M.M. wrote:
>>> On Tuesday, November 24, 2015 at 11:52:11 AM UTC+1, Borneq wrote:
>>>> Nie chodzi mi tutaj o wyszukiwaniu w Google fragmentów ale o podanie
>>>> [...]
>>>> synonim.
>>>
>>> Zamieszczanie cytatów to jeszcze nie plagiat. Nie wiem czy istnieje algorytm
>>> który rozpozna cytaty w teksie i odróżni je od plagiatów.
>>
>> To nie są programy bezobsługowe, ale narzędzia dla człowieka.
>>
>> pzdr
>> bartekltg
>
> I tak napisanie wygodnej i skutecznej aplikacji tego typu wydaje się trudne.
> Pozdrawiam
>
Chyba przesadzasz. Nauczyciel i tak ma przeczytać tekst.
A tak czytając będzie widział podkreślone fragmenty.
Na czrwono, jak to akapit identyczny z wpisem w bazie,
na żółto, jeśli to tylko dwa zdania...
I sam musi zdecydować czytając, czy to plagiat, cytat,
czy może tylko powszechnie występująca formułka lub sposób
wyrażania.
Pomoc takiego algorytmu jest ogromna, bo zamiast działać na zasadzie
"oj, ten fragment brzmi za mądrze na Jasia, lepiej wpisze go w google",
automatycznie dostaje podpowiedź "to brzmi podejranie podobnie to tego
źródła".
pzdr
bartekltg
-
6. Data: 2015-11-24 15:36:56
Temat: Re: Wykrywanie plagiatów offline
Od: "M.M." <m...@g...com>
On Tuesday, November 24, 2015 at 3:14:06 PM UTC+1, bartekltg wrote:
> On 24.11.2015 15:07, M.M. wrote:
> [..]
> źródła".
Ja widzę problem już na poziomie konwertowania pdf lub html do ciągu utf8.
Albo w automatycznym rozpoznawaniu czy to 8859-2 czy win1250. A co dopiero
z bazą do porównywania. To wszystko (chyba nie tylko moim zdaniem) są
cechy wygodnej aplikacji. Oprzeć coś takiego na googlu? Książek nie
ma w googlach.
Pozdrawiam
-
7. Data: 2015-11-24 16:24:31
Temat: Re: Wykrywanie plagiatów offline
Od: platformowe głupki <N...@g...pl>
ja to się do dziś zastanawiam jak działa linuxowy tool DIFF...
-
8. Data: 2015-11-24 17:09:13
Temat: Re: Wykrywanie plagiatów offline
Od: "M.M." <m...@g...com>
On Tuesday, November 24, 2015 at 4:24:36 PM UTC+1, platformowe głupki wrote:
> ja to się do dziś zastanawiam jak działa linuxowy tool DIFF...
Inaczej w platformie, inaczej w po.
Pozdrawiam
-
9. Data: 2015-11-24 17:16:23
Temat: Re: Wykrywanie plagiatów offline
Od: bartekltg <b...@g...com>
On 24.11.2015 16:24, platformowe głupki wrote:
> ja to się do dziś zastanawiam jak działa linuxowy tool DIFF...
Linia to symbol.
Szuka najdłuższego wspolnego podciągu.
Reszta to 'zmiany'.
Nie wykrywa więc przeniesienia akapitu jako
_przeniesienia_, ale jako dodanie czegoś i usunięcie
czegoś. Nie rozwodzi się nat tym, że to to samo.
Nie wiem czy git nie robi tego lepiej.
pzdr
bartekltg
-
10. Data: 2015-11-24 17:17:31
Temat: Re: Wykrywanie plagiatów offline
Od: bartekltg <b...@g...com>
On 24.11.2015 17:09, M.M. wrote:
> On Tuesday, November 24, 2015 at 4:24:36 PM UTC+1, platformowe głupki wrote:
>> ja to się do dziś zastanawiam jak działa linuxowy tool DIFF...
> Inaczej w platformie, inaczej w po.
A PO przeróbkach może być platform-independent?
pzdr
bartekltg