eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.rec.foto.cyfrowawyszukiwarka duplikatów jpg › Re: wyszukiwarka duplikatów jpg
  • Path: news-archive.icm.edu.pl!news.rmf.pl!agh.edu.pl!news.agh.edu.pl!news.onet.pl!lub
    lin.pl!uw.edu.pl!newsgate.cistron.nl!newsgate.news.xs4all.nl!194.109.133.84.MIS
    MATCH!newsfeed.xs4all.nl!newsfeed5.news.xs4all.nl!xs4all!feeder.news-service.co
    m!postnews.google.com!news1.google.com!border1.nntp.dca.giganews.com!nntp.gigan
    ews.com!novia!nx01.iad01.newshosting.com!newshosting.com!newsfeed.neostrada.pl!
    unt-exc-01.news.neostrada.pl!atlantis.news.neostrada.pl!news.neostrada.pl!not-f
    or-mail
    From: Cezary Grądys <c...@w...onet.pl>
    Newsgroups: pl.rec.foto.cyfrowa
    Subject: Re: wyszukiwarka duplikatów jpg
    Date: Sat, 13 Mar 2010 20:13:12 +0100
    Organization: TP - http://www.tp.pl/
    Lines: 44
    Message-ID: <hngo94$86i$1@atlantis.news.neostrada.pl>
    References: <131ddhlxu2to$.1peuy2chhff0d.dlg@40tude.net>
    <hnbcpf$bpu$1@mx1.internetia.pl> <hnbon0$gul$1@nemesis.news.neostrada.pl>
    <hnem0h$sud$1@news.dialog.net.pl>
    NNTP-Posting-Host: doj41.neoplus.adsl.tpnet.pl
    Mime-Version: 1.0
    Content-Type: text/plain; charset=UTF-8; format=flowed
    Content-Transfer-Encoding: 8bit
    X-Trace: atlantis.news.neostrada.pl 1268507748 8402 83.24.117.41 (13 Mar 2010
    19:15:48 GMT)
    X-Complaints-To: u...@n...neostrada.pl
    NNTP-Posting-Date: Sat, 13 Mar 2010 19:15:48 +0000 (UTC)
    User-Agent: Thunderbird 2.0.0.23 (X11/20090817)
    In-Reply-To: <hnem0h$sud$1@news.dialog.net.pl>
    Xref: news-archive.icm.edu.pl pl.rec.foto.cyfrowa:851288
    [ ukryj nagłówki ]

    nb pisze:

    > #time crc32 K* # szybkośc obliczenia crc
    > bb2b61ee K2.avi
    > bb2b61ee Kolja-DVD.avi
    > real 0m42.831s
    > user 0m7.646s
    > sys 0m7.237s
    >
    > #time fdupes . # szybkość działania fdupes
    > ./Kolja-DVD.avi
    > ./K2.avi
    > real 5m33.525s
    > user 4m36.092s
    > sys 0m14.206s
    >
    > Widać, że patent z crc jest około 8 razy szybszy.
    > Nawet md5 (wykluczający przypadkową zbieżność crc)
    > będzie pięć razy szybszy.
    >

    No ten przykład świadczy na niekorzyść fdupes. Miałes 2 jednakowe pliki
    więc żeby stwierdzić, że są jednakowe musiały być przeczytane w całości
    niezaleznie czy bezpośrednio porównane, czy liczona jakaś suma. Mnie się
    wydaje, że liczenie sum powinno być wolniejsze, bo to dodatkowa zbędna
    operacja.
    Wielu chce liczyć te sumy, bo potrzeba te pliki (czy sumy) posortować
    przed porównaniem, nie do przyjęcia jest porównywanie każdy z każdym.
    Ja osobiscie zastosował bym nastepujący algorytm (zakładam, że już
    odrzuciliśmy ze względu na długość):
    - czytamy po 10..100 początkowych bajtów plików, zapisujemy do tablicy
    - sortujemy (sort)
    - szukamy duplikatów (uniq)
    - dla znalezionych duplikatów porównujemy całość, a jak mamy ich
    bardzo dużo to powtarzamy procedurę dla większej ilosci bajtów
    poczatkowych.

    Dlaczego tak?
    Przede wszystkim powtarzających się plików będzie raczej niedużo, jest
    to jakaś patologia z którą walczymy. Czyli plików różnych może być 99%,
    a żeby stwierdzić różność nie trzeba czytać całości. Po drugie zapewne
    nawet dla bardzo długich plików różnica będzie już gdzieś na początku.
    Plików jednakowej długosci może być całkiem sporo biorąc pod uwagę, ze
    mogą to być zdjęcia w RAW.

Podziel się

Poleć ten post znajomemu poleć

Wydrukuj ten post drukuj


Następne wpisy z tego wątku

Najnowsze wątki z tej grupy


Najnowsze wątki

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: