-
Path: news-archive.icm.edu.pl!news.gazeta.pl!newsfeed.pionier.net.pl!news.glorb.com!p
ostnews.google.com!s31g2000yqs.googlegroups.com!not-for-mail
From: Mariusz Marszałkowski <m...@g...com>
Newsgroups: pl.comp.programming
Subject: Re: kompresja danych
Date: Sat, 17 Oct 2009 14:09:53 -0700 (PDT)
Organization: http://groups.google.com
Lines: 37
Message-ID: <8...@s...googlegroups.com>
References: <4...@c...googlegroups.com>
<2...@p...null.onet.pl.invalid>
NNTP-Posting-Host: 89.229.16.190
Mime-Version: 1.0
Content-Type: text/plain; charset=ISO-8859-2
Content-Transfer-Encoding: quoted-printable
X-Trace: posting.google.com 1255813793 8161 127.0.0.1 (17 Oct 2009 21:09:53 GMT)
X-Complaints-To: g...@g...com
NNTP-Posting-Date: Sat, 17 Oct 2009 21:09:53 +0000 (UTC)
Complaints-To: g...@g...com
Injection-Info: s31g2000yqs.googlegroups.com; posting-host=89.229.16.190;
posting-account=xjvq9QoAAAATMPC2X3btlHd_LkaJo_rj
User-Agent: G2/1.0
X-HTTP-UserAgent: Mozilla/5.0 (Windows; U; Windows NT 5.2; pl; rv:1.9.1.3)
Gecko/20090824 Firefox/3.5.3,gzip(gfe),gzip(gfe)
Xref: news-archive.icm.edu.pl pl.comp.programming:183831
[ ukryj nagłówki ]On 17 Paź, 20:34, Wojciech Muła
<w...@p...null.onet.pl.invalid> wrote:
> Mariusz Marszałkowski <m...@g...com> wrote:
> > Są jakieś specjalne algorytmy do kompresji tabel danych, w których
> > jest stała długość wiersza, a kolejność wierszy nie ma znaczenia?
>
> > Oznacza to, że kompresor może dowolnie zmieniać kolejność
> > wierszy i podczas dekompresji nie musi odtworzyć pierwotenj
> > kolejności.
>
> Nie słyszałem o niczym takim. A co masz w tych wierszach?
> Te wiersze się powtarzają?
Np. jest 30 kolumn i 20mln wierszy. Dane często wyglądają tak,
jakby sąsiadujące wiersze miały z dużym prawdopodobieństwem
te sam wartości w kolumnach. Np. w kolumnie 3-ciej od wiersza
100 do 200 są same jedynki, w kolumnie 2 od wiersza 50 do 150
są same zera. Wszystkie dane to mały podzbiór liczb całkowitych,
powiedzmy o mocy kilkuset elementów.
Uważam że można do tego podejść na dwa sposoby:
1) Skompresować każdą kolumnę osobno, podejrzewam że prosta
metoda długości serii skompresuje niektóre kolumny 100 krotnie.
2) Jakoś specjalnie posortować wiersze, aby dane powtarzające się
były blisko siebie
3) Można połączyć obie metody, najpierw jakoś posortować wiersze,
a później sortować każdą kolumnę niezależnie.
Kompresja może trwać dowolnie długo, nawet całą dobę, ale dekompresja
musi być bardzo szybka, gdyż skompresowane dane trafią do pamięci
RAM i będą dekompresowane w każdej iteracji algorytmu.
Pozdrawiam serdecznie
Następne wpisy z tego wątku
- 17.10.09 21:42 Wojciech Muła
- 17.10.09 22:05 Mariusz Marszałkowski
- 18.10.09 00:55 Wojciech Muła
- 18.10.09 07:37 Mariusz Marszałkowski
- 17.10.09 14:08 Wiktor S.
- 18.10.09 17:11 Mariusz Marszałkowski
- 19.10.09 13:36 Daniel Janus
Najnowsze wątki z tej grupy
- Alg. kompresji LZW
- Popr. 14. Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- Arch. Prog. Nieuprzywilejowanych w pełnej wer. na nowej s. WWW energokod.pl
- 7. Raport Totaliztyczny: Sprawa Qt Group wer. 424
- TCL - problem z escape ostatniego \ w nawiasach {}
- Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- testy-wyd-sort - Podsumowanie
- Tworzenie Programów Nieuprzywilejowanych Opartych Na Wtyczkach
- Do czego nadaje się QDockWidget z bibl. Qt?
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
Najnowsze wątki
- 2025-02-21 Warszawa => Key Account Manager IT <=
- 2025-02-21 Warszawa => Data Engineer (Tech Lead) <=
- 2025-02-21 Aliexpress zaczął oszukiwać na bezczelnego.
- 2025-02-21 Warszawa => System Architect (Java background) <=
- 2025-02-21 Kula w łeb
- 2025-02-21 Warszawa => System Architect (background deweloperski w Java) <=
- 2025-02-21 Warszawa => Solution Architect (Java background) <=
- 2025-02-21 Lublin => JavaScript / Node / Fullstack Developer <=
- 2025-02-21 Pawel S
- 2025-02-21 Warszawa => Key Account Manager (Usługi HR) <=
- 2025-02-21 Katowice => Senior Field Sales (system ERP) <=
- 2025-02-21 Chrzanów => Programista NodeJS <=
- 2025-02-21 Wrocław => Konsultant wdrożeniowy Comarch XL/Optima (Księgowość i
- 2025-02-21 Warszawa => Administrator Systemów Windows IT <=
- 2025-02-21 Wrocław => Specjalista ds. Sprzedaży (transport drogowy) <=