-
Data: 2010-03-13 19:13:12
Temat: Re: wyszukiwarka duplikatów jpg
Od: Cezary Grądys <c...@w...onet.pl> szukaj wiadomości tego autora
[ pokaż wszystkie nagłówki ]nb pisze:
> #time crc32 K* # szybkośc obliczenia crc
> bb2b61ee K2.avi
> bb2b61ee Kolja-DVD.avi
> real 0m42.831s
> user 0m7.646s
> sys 0m7.237s
>
> #time fdupes . # szybkość działania fdupes
> ./Kolja-DVD.avi
> ./K2.avi
> real 5m33.525s
> user 4m36.092s
> sys 0m14.206s
>
> Widać, że patent z crc jest około 8 razy szybszy.
> Nawet md5 (wykluczający przypadkową zbieżność crc)
> będzie pięć razy szybszy.
>
No ten przykład świadczy na niekorzyść fdupes. Miałes 2 jednakowe pliki
więc żeby stwierdzić, że są jednakowe musiały być przeczytane w całości
niezaleznie czy bezpośrednio porównane, czy liczona jakaś suma. Mnie się
wydaje, że liczenie sum powinno być wolniejsze, bo to dodatkowa zbędna
operacja.
Wielu chce liczyć te sumy, bo potrzeba te pliki (czy sumy) posortować
przed porównaniem, nie do przyjęcia jest porównywanie każdy z każdym.
Ja osobiscie zastosował bym nastepujący algorytm (zakładam, że już
odrzuciliśmy ze względu na długość):
- czytamy po 10..100 początkowych bajtów plików, zapisujemy do tablicy
- sortujemy (sort)
- szukamy duplikatów (uniq)
- dla znalezionych duplikatów porównujemy całość, a jak mamy ich
bardzo dużo to powtarzamy procedurę dla większej ilosci bajtów
poczatkowych.
Dlaczego tak?
Przede wszystkim powtarzających się plików będzie raczej niedużo, jest
to jakaś patologia z którą walczymy. Czyli plików różnych może być 99%,
a żeby stwierdzić różność nie trzeba czytać całości. Po drugie zapewne
nawet dla bardzo długich plików różnica będzie już gdzieś na początku.
Plików jednakowej długosci może być całkiem sporo biorąc pod uwagę, ze
mogą to być zdjęcia w RAW.
Następne wpisy z tego wątku
- 13.03.10 22:40 lux
- 16.03.10 16:19 Saiko Kila
Najnowsze wątki z tej grupy
- Nikon D5500 i wyzwalanie migawki
- Canon 550D
- EOS 600D i balans bieli w filmach
- EOS 90D i sentymenty
- Skanowanie: Canon MG2550S vs HP OfficeJet 6950
- czas exif a czas modyfikacji pliku
- karta SD po formacie odzyskiwanie zdjęć i filmów
- Chess
- Vitruvian Man - parts 7-11a
- Eltec nie zyje?
- Steve McCurry
- Light - lajkowe klasyki od Chinczykow
- Forum o Sony serii A (alfa)?
- obrobka RAW na konputerze
- Sklejanie bracketowanych JPGów
Najnowsze wątki
- 2024-11-24 Aby WKOOOORWIĆ ekofaszystów ;-)
- 2024-11-22 OC - podwyżka
- 2024-11-22 wyszedł z domu bez buta
- 2024-11-22 Bieda hud.
- 2024-11-24 DS1813-10 się psuje
- 2024-11-23 Białystok => Inżynier bezpieczeństwa aplikacji <=
- 2024-11-23 Szczecin => QA Engineer <=
- 2024-11-23 Warszawa => SEO Specialist (15-20h tygodniowo) <=
- 2024-11-22 Warszawa => Kierownik Działu Spedycji Międzynarodowej <=
- 2024-11-22 Warszawa => Senior Account Manager <=
- 2024-11-22 Warszawa => Key Account Manager <=
- 2024-11-22 Warszawa => DevOps Specialist <=
- 2024-11-22 Kraków => IT Expert (Network Systems area) <=
- 2024-11-22 Warszawa => Infrastructure Automation Engineer <=
- 2024-11-22 Warszawa => Presales / Inżynier Wsparcia Technicznego IT <=