-
Path: news-archive.icm.edu.pl!agh.edu.pl!news.agh.edu.pl!news.cyf-kr.edu.pl!news.nask
.pl!news.nask.org.pl!newsfeed.pionier.net.pl!news.glorb.com!kt20no8908153pbb.1!
news-out.google.com!s9ni26043pbb.0!nntp.google.com!kt20no8908145pbb.1!postnews.
google.com!glegroupsg2000goo.googlegroups.com!not-for-mail
Newsgroups: pl.comp.programming
Date: Wed, 5 Dec 2012 03:02:28 -0800 (PST)
In-Reply-To: <50abbc9e$0$1214$65785112@news.neostrada.pl>
Complaints-To: g...@g...com
Injection-Info: glegroupsg2000goo.googlegroups.com; posting-host=89.229.34.123;
posting-account=xjvq9QoAAAATMPC2X3btlHd_LkaJo_rj
NNTP-Posting-Host: 89.229.34.123
References: <k8frhm$5pg$1@node1.news.atman.pl>
<50abbc9e$0$1214$65785112@news.neostrada.pl>
User-Agent: G2/1.0
MIME-Version: 1.0
Message-ID: <8...@g...com>
Subject: Re: Potyczki
From: "M.M." <m...@g...com>
Injection-Date: Wed, 05 Dec 2012 11:02:28 +0000
Content-Type: text/plain; charset=ISO-8859-2
Content-Transfer-Encoding: quoted-printable
Lines: 54
Xref: news-archive.icm.edu.pl pl.comp.programming:201423
[ ukryj nagłówki ]W dniu wtorek, 20 listopada 2012 18:23:43 UTC+1 użytkownik slawek napisał:
"Dany jest plik długości 2 gigabajtów (tj. 2*1024*1024*1024). Wśród
wszystkich możliwych podciągów 16-bajtowych (których jest 2**31 - 2^4 + 1,
bo wybieramy kolejne bajty) znaleźć taki, który najczęściej występuje w tym
pliku. Uwaga: dane w pliku /mogą/ być zupełnie przypadkowe, może też cały
plik być wypełniony zerami itd. itp. - wszystkie złośliwe przypadki
dozwolone - tzn. nie wolno zgadywać, trzeba sprawdzić. Premiowane będą
rozwiązania szybkie i oszczędzające pamięć (zakładamy że mamy tylko 512 MB
RAM do dyspozycji)."
Fajne zadanie. Tak od razu po przeczytaniu nie wiem jak je rozwiązać
szybko i zagwarantować dokładny wynik. Heurystycznie bym zrobił kolejkę
priorytetową i dodawał do niej klucze pod-ciągów, a te które wystąpiły
najrzadziej bym wywalał. W 512MB można upakować powiedzmy 60mln
par (klucz,częstość). Podciągów niestety jest 32 razy więcej.
Heurystycznie można jeszcze przejrzeć plik kilka razy, z różnych
offsetów i w rożnych kolejnościach.
Co tam jeszcze może być pomocne... 256MB pamięci RAM to 2G bitów. Można
funkcją hash ustawić bity. Jeśli bit jest ustawiony, a klucza nie ma
w kolejce, to być może klucz został przedwcześnie usunięty z kolejki. Może w
takich sytuacjach należy się cofnąć na początek pliku, policzyć częstość
tylko tego jednego klucza, a jeśli częstość przekroczy minimum jakie jest
w kolejce, to dodać go z powrotem. Zdaje się że taki algorytm przy doskonałej
funkcji hash gwarantuje rozwiązanie. Jednak po pierwsze doskonałej nie da się
zrobić dla każdych danych, a po drugie nawrotów na początek pliku może być
dużo - więc czas obliczeń może być długi. Niby można policzyć kilka razy dla
różnych funkcji hash - ale to też nie zagwarantuje rozwiązania na 100%.
Pozdrawiam
Następne wpisy z tego wątku
- 05.12.12 17:13 e...@g...com
- 05.12.12 18:40 R.e.m.e.K
- 05.12.12 19:42 PK
- 05.12.12 19:45 PK
- 05.12.12 19:56 e...@g...com
- 05.12.12 22:31 PK
- 05.12.12 22:41 e...@g...com
- 05.12.12 23:08 PK
- 09.12.12 23:12 slawek
- 16.12.12 06:24 M.M.
- 19.12.12 21:38 slawek
Najnowsze wątki z tej grupy
- TCL - problem z escape ostatniego \ w nawiasach {}
- Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- testy-wyd-sort - Podsumowanie
- Tworzenie Programów Nieuprzywilejowanych Opartych Na Wtyczkach
- Do czego nadaje się QDockWidget z bibl. Qt?
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
- Re: (PDF) Surgical Pathology of Non-neoplastic Gastrointestinal Diseases by Lizhi Zhang
- CfC 28th Ada-Europe Int. Conf. Reliable Software Technologies
- Młodzi programiści i tajna policja
- Ada 2022 Language Reference Manual to be Published by Springer
Najnowsze wątki
- 2024-11-08 Warszawa => Head of International Freight Forwarding Department <=
- 2024-11-08 Warszawa => Key Account Manager <=
- 2024-11-08 Szczecin => Key Account Manager (ERP) <=
- 2024-11-08 Białystok => Full Stack web developer (obszar .Net Core, Angular6+) <
- 2024-11-08 Wrocław => Senior PHP Symfony Developer <=
- 2024-11-08 Warszawa => QA Engineer <=
- 2024-11-08 Warszawa => QA Inżynier <=
- 2024-11-08 Warszawa => Key Account Manager <=
- 2024-11-08 Gdańsk => Software .Net Developer <=
- 2024-11-08 Akumulator Hyundai
- 2024-11-08 Warszawa => Manager/Specialist e-commerce (B2C) <=
- 2024-11-08 Gdańsk => Specjalista ds. Sprzedaży <=
- 2024-11-08 Gdańsk => Kierownik Działu Spedycji Międzynarodowej <=
- 2024-11-08 znaj podstawe
- 2024-11-08 Chrzanów => Specjalista ds. public relations <=