eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.programmingPotyczkiRe: Potyczki
  • Path: news-archive.icm.edu.pl!agh.edu.pl!news.agh.edu.pl!news.cyf-kr.edu.pl!news.nask
    .pl!news.nask.org.pl!newsfeed.pionier.net.pl!news.glorb.com!kt20no8908153pbb.1!
    news-out.google.com!s9ni26043pbb.0!nntp.google.com!kt20no8908145pbb.1!postnews.
    google.com!glegroupsg2000goo.googlegroups.com!not-for-mail
    Newsgroups: pl.comp.programming
    Date: Wed, 5 Dec 2012 03:02:28 -0800 (PST)
    In-Reply-To: <50abbc9e$0$1214$65785112@news.neostrada.pl>
    Complaints-To: g...@g...com
    Injection-Info: glegroupsg2000goo.googlegroups.com; posting-host=89.229.34.123;
    posting-account=xjvq9QoAAAATMPC2X3btlHd_LkaJo_rj
    NNTP-Posting-Host: 89.229.34.123
    References: <k8frhm$5pg$1@node1.news.atman.pl>
    <50abbc9e$0$1214$65785112@news.neostrada.pl>
    User-Agent: G2/1.0
    MIME-Version: 1.0
    Message-ID: <8...@g...com>
    Subject: Re: Potyczki
    From: "M.M." <m...@g...com>
    Injection-Date: Wed, 05 Dec 2012 11:02:28 +0000
    Content-Type: text/plain; charset=ISO-8859-2
    Content-Transfer-Encoding: quoted-printable
    Lines: 54
    Xref: news-archive.icm.edu.pl pl.comp.programming:201423
    [ ukryj nagłówki ]

    W dniu wtorek, 20 listopada 2012 18:23:43 UTC+1 użytkownik slawek napisał:

    "Dany jest plik długości 2 gigabajtów (tj. 2*1024*1024*1024). Wśród
    wszystkich możliwych podciągów 16-bajtowych (których jest 2**31 - 2^4 + 1,
    bo wybieramy kolejne bajty) znaleźć taki, który najczęściej występuje w tym
    pliku. Uwaga: dane w pliku /mogą/ być zupełnie przypadkowe, może też cały
    plik być wypełniony zerami itd. itp. - wszystkie złośliwe przypadki
    dozwolone - tzn. nie wolno zgadywać, trzeba sprawdzić. Premiowane będą
    rozwiązania szybkie i oszczędzające pamięć (zakładamy że mamy tylko 512 MB
    RAM do dyspozycji)."


    Fajne zadanie. Tak od razu po przeczytaniu nie wiem jak je rozwiązać
    szybko i zagwarantować dokładny wynik. Heurystycznie bym zrobił kolejkę
    priorytetową i dodawał do niej klucze pod-ciągów, a te które wystąpiły
    najrzadziej bym wywalał. W 512MB można upakować powiedzmy 60mln
    par (klucz,częstość). Podciągów niestety jest 32 razy więcej.

    Heurystycznie można jeszcze przejrzeć plik kilka razy, z różnych
    offsetów i w rożnych kolejnościach.

    Co tam jeszcze może być pomocne... 256MB pamięci RAM to 2G bitów. Można
    funkcją hash ustawić bity. Jeśli bit jest ustawiony, a klucza nie ma
    w kolejce, to być może klucz został przedwcześnie usunięty z kolejki. Może w
    takich sytuacjach należy się cofnąć na początek pliku, policzyć częstość
    tylko tego jednego klucza, a jeśli częstość przekroczy minimum jakie jest
    w kolejce, to dodać go z powrotem. Zdaje się że taki algorytm przy doskonałej
    funkcji hash gwarantuje rozwiązanie. Jednak po pierwsze doskonałej nie da się
    zrobić dla każdych danych, a po drugie nawrotów na początek pliku może być
    dużo - więc czas obliczeń może być długi. Niby można policzyć kilka razy dla
    różnych funkcji hash - ale to też nie zagwarantuje rozwiązania na 100%.



    Pozdrawiam

Podziel się

Poleć ten post znajomemu poleć

Wydrukuj ten post drukuj


Następne wpisy z tego wątku

Najnowsze wątki z tej grupy


Najnowsze wątki

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: