-
11. Data: 2010-03-12 19:56:13
Temat: Re: wyszukiwarka duplikatów jpg
Od: "Hue Saturation" <n...@n...post.pl>
Użytkownik "EMPI" <e...@p...onet.pl> napisał w wiadomości
news:hnd9fs$m62$1@atlantis.news.neostrada.pl...
>> duplicate_photo_finder
>
> możesz podać link do strony z tym programem, bo google pokazuje pełno
> różnych podobnych programów...
Prosze bardzo http://duplicatefinder.firmtools.com/
-
12. Data: 2010-03-13 00:24:50
Temat: Re: wyszukiwarka duplikatów jpg
Od: nb <n...@n...net>
at Thu 11 of Mar 2010 22:40, Cezary Grądys wrote:
> Kris pisze:
>
>> tylko i wylacznie
>> DoubleKiller
>> szukasz wg wlasnych kryteriow
>> jak i sum crc32
>>
>
> Jak to według sum crc32? Czyli cały plik czytany, żeby stwierdzić
> różnicę, która może na 10 bajcie już jest?
Zawartość plików jest porównywana tylko wtedy, kiedy ich wielkość
jest jednakowa. Wówczas prawdopodobieństwo że ich zawartość jest
identyczna (a więc konieczność porównywania całych plików bajt
po bajcie) radykalnie rośnie. W mojej praktyce 99% czasu
działania fdupes to strata na jednakowych plikach.
I przykład jak to może wyglądać w praktyce:
~ls -l # mamy dwa bardzo duże pliki
-r--r--r-- 1 root wheel 1466035052 13 Mar 00:37 K2.avi
-r--r--r-- 1 root wheel 1466035052 22 Oct 2007 Kolja-DVD.avi
#time crc32 K* # szybkośc obliczenia crc
bb2b61ee K2.avi
bb2b61ee Kolja-DVD.avi
real 0m42.831s
user 0m7.646s
sys 0m7.237s
#time fdupes . # szybkość działania fdupes
./Kolja-DVD.avi
./K2.avi
real 5m33.525s
user 4m36.092s
sys 0m14.206s
Widać, że patent z crc jest około 8 razy szybszy.
Nawet md5 (wykluczający przypadkową zbieżność crc)
będzie pięć razy szybszy.
> Było by to dobre jakby było większość plików jednakowych i chcieli
> byśmy wśród nich jeden inny (lub kilka) znaleźć.
A jakiś przykład podobny do mojego?
--
nb
-
13. Data: 2010-03-13 03:04:13
Temat: Re: wyszukiwarka duplikatów jpg
Od: mg <a...@p...onet.pl>
> Może mi ktoś doradzić sprawny program do wyszukiwania duplikatów plików graficzych
?
>
GQview ma opcję wyszukiwania plików według różnych kryteriów: nazwa,
rozmiar, data, wymiary, suma kontrolna, podobieństwo w procentach. Są
dwie opcje w menu:
- "wyszukaj pliki" - dla wyświetlanego obecnie pliku
- "wyszukaj duplikaty" - oddzielne okno do którego przeciąga się
porównywane zbiory
http://gqview-win.sourceforge.net/
Program wymaga biblioteki GTK (przygotowana razem z programem w dziale
pobrań).
-
14. Data: 2010-03-13 14:59:28
Temat: Re: wyszukiwarka duplikatów jpg
Od: EMPI <e...@p...onet.pl>
Hej !
>> możesz podać link do strony z tym programem, bo google pokazuje pełno
>> różnych podobnych programów...
>
> Prosze bardzo http://duplicatefinder.firmtools.com/
Ale tam jest tylko wersja Trial, nigdzie nie znalazłem wersji free ani
jakiegokolwiek zapisu odnośnie funkcjonalności jaka zostaje po upływie
okresu trial...
EMPI
http://www.empi.art.pl
-
15. Data: 2010-03-13 19:13:12
Temat: Re: wyszukiwarka duplikatów jpg
Od: Cezary Grądys <c...@w...onet.pl>
nb pisze:
> #time crc32 K* # szybkośc obliczenia crc
> bb2b61ee K2.avi
> bb2b61ee Kolja-DVD.avi
> real 0m42.831s
> user 0m7.646s
> sys 0m7.237s
>
> #time fdupes . # szybkość działania fdupes
> ./Kolja-DVD.avi
> ./K2.avi
> real 5m33.525s
> user 4m36.092s
> sys 0m14.206s
>
> Widać, że patent z crc jest około 8 razy szybszy.
> Nawet md5 (wykluczający przypadkową zbieżność crc)
> będzie pięć razy szybszy.
>
No ten przykład świadczy na niekorzyść fdupes. Miałes 2 jednakowe pliki
więc żeby stwierdzić, że są jednakowe musiały być przeczytane w całości
niezaleznie czy bezpośrednio porównane, czy liczona jakaś suma. Mnie się
wydaje, że liczenie sum powinno być wolniejsze, bo to dodatkowa zbędna
operacja.
Wielu chce liczyć te sumy, bo potrzeba te pliki (czy sumy) posortować
przed porównaniem, nie do przyjęcia jest porównywanie każdy z każdym.
Ja osobiscie zastosował bym nastepujący algorytm (zakładam, że już
odrzuciliśmy ze względu na długość):
- czytamy po 10..100 początkowych bajtów plików, zapisujemy do tablicy
- sortujemy (sort)
- szukamy duplikatów (uniq)
- dla znalezionych duplikatów porównujemy całość, a jak mamy ich
bardzo dużo to powtarzamy procedurę dla większej ilosci bajtów
poczatkowych.
Dlaczego tak?
Przede wszystkim powtarzających się plików będzie raczej niedużo, jest
to jakaś patologia z którą walczymy. Czyli plików różnych może być 99%,
a żeby stwierdzić różność nie trzeba czytać całości. Po drugie zapewne
nawet dla bardzo długich plików różnica będzie już gdzieś na początku.
Plików jednakowej długosci może być całkiem sporo biorąc pod uwagę, ze
mogą to być zdjęcia w RAW.
-
16. Data: 2010-03-13 22:40:24
Temat: Re: wyszukiwarka duplikatów jpg
Od: lux <b...@o...de>
> Ale tam jest tylko wersja Trial, nigdzie nie znalazłem wersji free ani
> jakiegokolwiek zapisu odnośnie funkcjonalności jaka zostaje po upływie
> okresu trial...
====
nie ma free. ten trial to tylko brak kasowania z programu.
lux
-
17. Data: 2010-03-16 16:19:16
Temat: Re: wyszukiwarka duplikatów jpg
Od: Saiko Kila <f...@p...vqrn.arg.cy>
Proces lux <b...@o...de> zwrócił błąd:
> w wersji darmowej nie możesz tylko z programu usunąć podwójnego pliku
> tylko ręcznie. Ale program jest genialny np.: jeśli masz foto w tiff 10
> mpx, to znajdzie jej duplikat zapisany pod inna nazwą jako jpeg 0,5
> mpix. Ponadto posiada przeglądarkę która od razu wyświetla jej zdaniem
> identyczne foto, co ułatwia sprawę. Inne programy nie potrafią
> rozpoznawać "treści fotki".
Ależ potrafią, tylko nie są popularne z jakiegoś powodu. Może tego, że
takie wyszukiwanie "trochę" trwa i nie jest takie trywialne, bo muszą
sobie zrobić bazę i trochę od użytkownika wymagają. Kiedyś używałem tego
sporo, teraz sporadycznie bo nie zależy mi na miejscu. DupDetector i
ImgSearch to dwa przykłady darmowych programów tego typu. OK, darmowe
były kiedy je na dysku umieściłem, teraz może nie są (lata 2002-2003),
nie sprawdzałem.
UPDATE:
to nowsza wersja ImgSearch, nadal darmowa
http://www.softpedia.com/get/Multimedia/Graphic/Grap
hic-Others/ImgSearch.shtml
i nowsza wersja DupDetector, nadal darmowa
http://www.photo-freeware.net/dupdetector.php
--
Saiko Kila
Unregistered Windows User #7.29581131e8