Re: wyszukiwarka duplikatów jpg - Grupy dyskusyjne w eGospodarka.pl

eGospodarka.pl › Grupy › pl.rec.foto.cyfrowa › wyszukiwarka duplikatów jpg › Re: wyszukiwarka duplikatów jpg

Path: news-archive.icm.edu.pl!news.rmf.pl!agh.edu.pl!news.agh.edu.pl!news.onet.pl!lub
lin.pl!uw.edu.pl!newsgate.cistron.nl!newsgate.news.xs4all.nl!194.109.133.84.MIS
MATCH!newsfeed.xs4all.nl!newsfeed5.news.xs4all.nl!xs4all!feeder.news-service.co
m!postnews.google.com!news1.google.com!border1.nntp.dca.giganews.com!nntp.gigan
ews.com!novia!nx01.iad01.newshosting.com!newshosting.com!newsfeed.neostrada.pl!
unt-exc-01.news.neostrada.pl!atlantis.news.neostrada.pl!news.neostrada.pl!not-f
or-mail
From: Cezary Grądys <c...@w...onet.pl>
Newsgroups: pl.rec.foto.cyfrowa
Subject: Re: wyszukiwarka duplikatów jpg
Date: Sat, 13 Mar 2010 20:13:12 +0100
Organization: TP - http://www.tp.pl/
Lines: 44
Message-ID: <hngo94$86i$1@atlantis.news.neostrada.pl>
References: <131ddhlxu2to$.1peuy2chhff0d.dlg@40tude.net>
<hnbcpf$bpu$1@mx1.internetia.pl> <hnbon0$gul$1@nemesis.news.neostrada.pl>
<hnem0h$sud$1@news.dialog.net.pl>
NNTP-Posting-Host: doj41.neoplus.adsl.tpnet.pl
Mime-Version: 1.0
Content-Type: text/plain; charset=UTF-8; format=flowed
Content-Transfer-Encoding: 8bit
X-Trace: atlantis.news.neostrada.pl 1268507748 8402 83.24.117.41 (13 Mar 2010
19:15:48 GMT)
X-Complaints-To: u...@n...neostrada.pl
NNTP-Posting-Date: Sat, 13 Mar 2010 19:15:48 +0000 (UTC)
User-Agent: Thunderbird 2.0.0.23 (X11/20090817)
In-Reply-To: <hnem0h$sud$1@news.dialog.net.pl>
Xref: news-archive.icm.edu.pl pl.rec.foto.cyfrowa:851288
[ ukryj nagłówki ]
nb pisze:

> #time crc32 K* # szybkośc obliczenia crc
> bb2b61ee K2.avi
> bb2b61ee Kolja-DVD.avi
> real 0m42.831s
> user 0m7.646s
> sys 0m7.237s
>
> #time fdupes . # szybkość działania fdupes
> ./Kolja-DVD.avi
> ./K2.avi
> real 5m33.525s
> user 4m36.092s
> sys 0m14.206s
>
> Widać, że patent z crc jest około 8 razy szybszy.
> Nawet md5 (wykluczający przypadkową zbieżność crc)
> będzie pięć razy szybszy.
>

No ten przykład świadczy na niekorzyść fdupes. Miałes 2 jednakowe pliki
więc żeby stwierdzić, że są jednakowe musiały być przeczytane w całości
niezaleznie czy bezpośrednio porównane, czy liczona jakaś suma. Mnie się
wydaje, że liczenie sum powinno być wolniejsze, bo to dodatkowa zbędna
operacja.
Wielu chce liczyć te sumy, bo potrzeba te pliki (czy sumy) posortować
przed porównaniem, nie do przyjęcia jest porównywanie każdy z każdym.
Ja osobiscie zastosował bym nastepujący algorytm (zakładam, że już
odrzuciliśmy ze względu na długość):
- czytamy po 10..100 początkowych bajtów plików, zapisujemy do tablicy
- sortujemy (sort)
- szukamy duplikatów (uniq)
- dla znalezionych duplikatów porównujemy całość, a jak mamy ich
bardzo dużo to powtarzamy procedurę dla większej ilosci bajtów
poczatkowych.

Dlaczego tak?
Przede wszystkim powtarzających się plików będzie raczej niedużo, jest
to jakaś patologia z którą walczymy. Czyli plików różnych może być 99%,
a żeby stwierdzić różność nie trzeba czytać całości. Po drugie zapewne
nawet dla bardzo długich plików różnica będzie już gdzieś na początku.
Plików jednakowej długosci może być całkiem sporo biorąc pod uwagę, ze
mogą to być zdjęcia w RAW.