-
11. Data: 2015-11-24 17:37:52
Temat: Re: Wykrywanie plagiatów offline
Od: "M.M." <m...@g...com>
On Tuesday, November 24, 2015 at 5:17:32 PM UTC+1, bartekltg wrote:
> On 24.11.2015 17:09, M.M. wrote:
> > On Tuesday, November 24, 2015 at 4:24:36 PM UTC+1, platformowe głupki wrote:
> >> ja to się do dziś zastanawiam jak działa linuxowy tool DIFF...
>
> > Inaczej w platformie, inaczej w po.
>
> A PO przeróbkach może być platform-independent?
>
Co to za partia platform-independent? ;-)
A tak ciut poważniej: nigdy nie czytałem dokumentacji do
żadnego diffa. Używam ich w tak prosty sposób, że nie
interesują mnie bebech algorytmiczne, ani opcje. Niemniej
jednak oceniając intuicyjnie, doszedłem do wniosku, że
tak prostym algorytmem jaki przytoczyłeś powyżej, nie da
się uzyskać takich efektów (jakie widziałem). Może był
użyty z jakimś opcjami, a może to była jakaś wersja z
gita lub innej kontroli wersji.
Pozdrawiam
-
12. Data: 2015-11-24 20:01:08
Temat: Re: Wykrywanie plagiatów offline
Od: platformowe głupki <N...@g...pl>
nadal nie rozumeim jak to działa
-
13. Data: 2015-11-24 22:54:48
Temat: Re: Wykrywanie plagiatów offline
Od: szemrany <s...@o...off>
On Tue, 24 Nov 2015 06:36:56 -0800 (PST), M.M. wrote:
> Ja widzę problem już na poziomie konwertowania pdf lub html do ciągu utf8.
> Albo w automatycznym rozpoznawaniu czy to 8859-2 czy win1250. A co dopiero
> z bazą do porównywania. To wszystko (chyba nie tylko moim zdaniem) są
> cechy wygodnej aplikacji. Oprzeć coś takiego na googlu? Książek nie
> ma w googlach.
Archivarius 3000 - rozwala w tym temacie system.
--
howgh
szemrany
"Trzeba z żywymi naprzód iść, po życie sięgać nowe,
a nie w uwiędłych laurów liść z uporem stroić głowę"
-
14. Data: 2015-11-24 22:56:03
Temat: Re: Wykrywanie plagiatów offline
Od: szemrany <s...@o...off>
On Tue, 24 Nov 2015 20:01:08 +0100, platformowe głupki wrote:
> nadal nie rozumeim jak to działa
Tym się charakteryzuje brak rozumu :-)
--
howgh
szemrany
"Trzeba z żywymi naprzód iść, po życie sięgać nowe,
a nie w uwiędłych laurów liść z uporem stroić głowę"
-
15. Data: 2015-11-24 23:00:41
Temat: Re: Wykrywanie plagiatów offline
Od: "M.M." <m...@g...com>
On Tuesday, November 24, 2015 at 10:56:05 PM UTC+1, szemrany wrote:
> On Tue, 24 Nov 2015 20:01:08 +0100, platformowe głupki wrote:
>
> > nadal nie rozumeim jak to działa
>
> Tym się charakteryzuje brak rozumu :-)
Po co kopiesz się z tym koniem ;-)
-
16. Data: 2015-11-24 23:06:48
Temat: Re: Wykrywanie plagiatów offline
Od: szemrany <s...@o...off>
On Tue, 24 Nov 2015 14:00:41 -0800 (PST), M.M. wrote:
>>> nadal nie rozumeim jak to działa
>>
>> Tym się charakteryzuje brak rozumu :-)
>
> Po co kopiesz się z tym koniem ;-)
Nie kopię się, tylko na razie kopię konia ;-)
--
howgh
szemrany
"Trzeba z żywymi naprzód iść, po życie sięgać nowe,
a nie w uwiędłych laurów liść z uporem stroić głowę"
-
17. Data: 2015-11-25 00:43:56
Temat: Re: Wykrywanie plagiatów offline
Od: bartekltg <b...@g...com>
On 24.11.2015 17:37, M.M. wrote:
> On Tuesday, November 24, 2015 at 5:17:32 PM UTC+1, bartekltg wrote:
>> On 24.11.2015 17:09, M.M. wrote:
>>> On Tuesday, November 24, 2015 at 4:24:36 PM UTC+1, platformowe głupki wrote:
>>>> ja to się do dziś zastanawiam jak działa linuxowy tool DIFF...
>>
>>> Inaczej w platformie, inaczej w po.
>>
>> A PO przeróbkach może być platform-independent?
>>
>
> Co to za partia platform-independent? ;-)
>
> A tak ciut poważniej: nigdy nie czytałem dokumentacji do
> żadnego diffa. Używam ich w tak prosty sposób, że nie
> interesują mnie bebech algorytmiczne, ani opcje. Niemniej
> jednak oceniając intuicyjnie, doszedłem do wniosku, że
> tak prostym algorytmem jaki przytoczyłeś powyżej, nie da
> się uzyskać takich efektów (jakie widziałem). Może był
> użyty z jakimś opcjami, a może to była jakaś wersja z
> gita lub innej kontroli wersji.
Też myślałem, że robi coś sprytniejszego, ale intenert pisał,
że tylko szuka najlepszego podciągu. Zmajstrowałem więc
dwa małe pliki i test wydaje się to potwierdzać.
$ cat t1
dupa
bar
car
dar
foo
gop
hoo
dupa
$ cat t2
dupa
foo
goo
hoo
bar
car
dar
dupa
$ diff t1 t2
1a2,4
> foo
> goo
> hoo
5,7d7
< foo
< gop
< hoo
pzdr
bartekltg
-
18. Data: 2015-11-25 11:45:51
Temat: Re: Wykrywanie plagiatów offline
Od: "M.M." <m...@g...com>
On Wednesday, November 25, 2015 at 12:43:58 AM UTC+1, bartekltg wrote:
> Też myślałem, że robi coś sprytniejszego, ale intenert pisał,
> że tylko szuka najlepszego podciągu. Zmajstrowałem więc
> dwa małe pliki i test wydaje się to potwierdzać.
Może masz rację, może ja nie doceniam możliwości tego prostego
algorytmu. Na pewno wydaje mi się, że w systemach kontroli wersji
efekt był lepszy. Nie będę się kłócił, ja diffa ostatnio używam
tylko do sprawdzenia czy pliki są identyczne czy nie.
Pozdrawiam
-
19. Data: 2015-11-25 12:26:46
Temat: Re: Wykrywanie plagiatów offline
Od: "M.M." <m...@g...com>
On Wednesday, November 25, 2015 at 12:43:58 AM UTC+1, bartekltg wrote:
> Też myślałem, że robi coś sprytniejszego, ale intenert pisał,
> że tylko szuka najlepszego podciągu. Zmajstrowałem więc
> dwa małe pliki i test wydaje się to potwierdzać.
Też poszukałem troszkę. Znalazłem, że diff próbuje znaleźć ciąg wierszy,
który wymaga minimalnej ilości skasowań i/lub insercji, aby odtworzyć
oryginalny plik - coś w okolicy minimalnej odległości Levenshteina. Czyli
nie ma żadnej gwarancji że diff ma zaimplementowany NWP. Podobno od
dawna ma zaimplementowany NWP z jakimiś udoskonaleniami.
Pozdrawiam
-
20. Data: 2015-11-25 13:03:32
Temat: Re: Wykrywanie plagiatów offline
Od: bartekltg <b...@g...com>
On 25.11.2015 12:26, M.M. wrote:
> On Wednesday, November 25, 2015 at 12:43:58 AM UTC+1, bartekltg wrote:
>> Też myślałem, że robi coś sprytniejszego, ale intenert pisał,
>> że tylko szuka najlepszego podciągu. Zmajstrowałem więc
>> dwa małe pliki i test wydaje się to potwierdzać.
>
> Też poszukałem troszkę. Znalazłem, że diff próbuje znaleźć ciąg wierszy,
> który wymaga minimalnej ilości skasowań i/lub insercji, aby odtworzyć
> oryginalny plik - coś w okolicy minimalnej odległości Levenshteina.
Przecież dokłądnie to napisałem ;>
> Czyli
> nie ma żadnej gwarancji że diff ma zaimplementowany NWP. Podobno od
> dawna ma zaimplementowany NWP z jakimiś udoskonaleniami.
odległości Levenshteina zakąłda skasowanie/dopisanie/substytucje.
NWP zakłada skasowanie/dopisanie.
Z tego co piszesz to jednak NWP.
Zmodyfikowana odległosć edycyjna (bez podstawienia)
d'(X,Y) = |X| + |Y| - 2|NWP(X,Y)|
pzdr
bartekltg