eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.programmingTablica int i usuwanie duplikatówRe: Tablica int i usuwanie duplikatów
  • Data: 2015-09-19 18:10:58
    Temat: Re: Tablica int i usuwanie duplikatów
    Od: bartekltg <b...@g...com> szukaj wiadomości tego autora
    [ pokaż wszystkie nagłówki ]

    On 19.09.2015 13:35, M.M. wrote:
    > On Saturday, September 19, 2015 at 3:08:29 AM UTC+2, bartekltg wrote:
    >> http://pastebin.com/Bd53Qj2e
    >>
    >> cztery wersje, z hashmapą, ze zbiorem na drzewie, z hashmapą,
    >> ale wstepnie wypelnioną i opróżnianą, oraz wersja naiwna.
    >> Do tego wersja z sortowaniem, która biła na głowę wszystko;-)
    >>
    >> Dalej w kodzie nie ma nic ciekawego a jest brzydki:]
    >>
    >> M.M jednak miał niezłą intuicję, algorytm naiwny trzyma się jako
    >> tako do 1000 liczb! Przynajmniej w porównaniu do kontenerowych,
    >> w stosunku do sortowania to przebija już dla 10.
    > Jeśli algorytmy się przełączają na inne wersje gdy jest
    > mało elementów, to moja intuicja nie ma tutaj zastosowania :)
    >
    >
    >
    >
    >> Sortowanie diała tak dobrze, że dorzuciłem gdzieś wpominaną wersję,
    >> gdzie kopiuję tablice, sortuję, wyszukuję w niej przetwarzanego
    >> elementu i indeksu tego elementu używam na tablicy 'czy już było'.
    >> Szybsze, ale nie tak jak samo sortowanie i 'unique'.
    >>
    >> Czy gdzieś nie ma błędów, nie wiem, specjalnie mocno nie testowałem ;-)
    > Tylko nie byłem pewny, czy nie sortujesz już częściowo posortowanych
    > elementów.


    Przecież tablica była losowana, dlaczego miałaby być posorotwana?

    random_device rd;
    mt19937 gen(rd());
    ....
    generate(tab.begin(), tab.end(), gen);

    Przez każdym pojedyńczym pomiarem.

    > Lekko zmieniłem Twój kod i dodałem moją samoróbkę. Moją
    > samoróbkę można jeszcze ze dwa razy przyspieszyć przez:
    > 1) lepszą kompilację
    > 2) profilowanie
    > 3) lepszą funkcję hash


    Napisać to w c++, nie C ;->


    > 4) lepsze rozwiązanie if( zero )

    No tak, zero to całkiem poprawna wartość inta;>
    Dorzuć kilka zer do testowej tablicy, nie działa.



    > Rzecz jasna, też nie wiem czy nic nie spartoliłem, macie kod do
    > sprawdzenia:
    > http://pastebin.com/uRAqi8iv
    >
    > Wyniki:

    Nagmatwałeś troche z różną ilośćią zer;-)
    po odgmatwaniu widać, że ręczna hashmapa jest kilkanaście(!)*
    razy szybsze. No to śledztwo:

    Tochę porównujemy jakbłka z gruszkami.
    "
    (unsigned int)(size/2*5+2);

    cout<<"s2 "<<s2<<endl;

    int *u = new int[s2];
    "

    OK, to ja też mogę wpisać:
    iter stable_unique_1 ( iter first, iter last )
    {
    unordered_set<int> temp; //zbiór użytych
    temp.rehash ( distance(first, last)*5/2+2 ); // alokuje wstępnie
    nieco pamieci.

    i wtedy nie musimy co chwila robić realokacji i rehashowania,
    gotowa hashmapa jest 2.5 raza wolniejsza. I to jest spodziewany
    wynik, bo tamta hashmapa rozwiązuje kolizje tworząc listę,
    a Twoja stosuje sztuczkę z wartośćią specjalną . Jeśli informację
    o zajętości będziesz trzymał w osobnej tablicy, różnica ciut spadnie.


    samorobka
    100 zajelo 3.4711e-05s
    1000 zajelo 0.000145689s
    10000 zajelo 0.000330489s
    100000 zajelo 0.00406414s
    1000000 zajelo 0.0826325s
    10000000 zajelo 0.97905s

    hashmapa budowana
    10 zajelo 1.18089e-06s
    100 zajelo 1.31643e-05s
    1000 zajelo 0.000130519s
    10000 zajelo 0.00139489s
    100000 zajelo 0.0192994s
    1000000 zajelo 0.233072s
    10000000 zajelo 2.65135s

    zbior budowany
    10 zajelo 6.43753e-07s
    100 zajelo 1.03399e-05s
    1000 zajelo 0.000142441s
    10000 zajelo 0.00209884s
    100000 zajelo 0.0432259s
    1000000 zajelo 0.777911s
    10000000 zajelo 14.2428s

    hashmapa usuwana
    10 zajelo 1.90731e-06s
    100 zajelo 1.9725e-05s
    1000 zajelo 0.000195841s
    10000 zajelo 0.00210182s
    100000 zajelo 0.0296034s
    1000000 zajelo 0.389643s
    10000000 zajelo 4.44893s

    sortowanie
    10 zajelo 5.58256e-08s
    100 zajelo 8.79121e-07s
    1000 zajelo 1.12299e-05s
    10000 zajelo 0.000183867s
    100000 zajelo 0.00352831s
    1000000 zajelo 0.0571969s
    10000000 zajelo 0.732117s

    sortowanie stab
    10 zajelo 2.3127e-07s
    100 zajelo 4.69011e-06s
    1000 zajelo 8.10539e-05s
    10000 zajelo 0.00110062s
    100000 zajelo 0.0153352s
    1000000 zajelo 0.256625s
    10000000 zajelo 5.16851s



    *) Domyślnie unordered set ma load_factor 1!
    Po zmianie go na przyzwoitszy:
    temp.max_load_factor(2.0/5.0);
    czas spadł do 4.5 sekund z hakiem. Z grubsza 2 razy więcej
    niż z przygotowaną tablicą (tyle się należy spodziewać).
    Wiekszosć zwolnienia poprzednio było więc z podowu dużej
    liczby kolizji.


    pzdr
    bartekltg





Podziel się

Poleć ten post znajomemu poleć

Wydrukuj ten post drukuj


Następne wpisy z tego wątku

Najnowsze wątki z tej grupy


Najnowsze wątki

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: