eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.programmingalgorytm stringiRe: algorytm stringi
  • X-Received: by 10.50.13.130 with SMTP id h2mr310212igc.16.1358347079841; Wed, 16 Jan
    2013 06:37:59 -0800 (PST)
    X-Received: by 10.50.13.130 with SMTP id h2mr310212igc.16.1358347079841; Wed, 16 Jan
    2013 06:37:59 -0800 (PST)
    Path: news-archive.icm.edu.pl!agh.edu.pl!news.agh.edu.pl!newsfeed2.atman.pl!newsfeed.
    atman.pl!news.supermedia.pl!plix.pl!newsfeed2.plix.pl!feed.xsnews.nl!border-2.a
    ms.xsnews.nl!feeder1.cambriumusenet.nl!feed.tweaknews.nl!209.197.12.246.MISMATC
    H!nx02.iad01.newshosting.com!newshosting.com!69.16.185.11.MISMATCH!npeer01.iad.
    highwinds-media.com!news.highwinds-media.com!feed-me.highwinds-media.com!ld4no2
    139668pbb.0!news-out.google.com!s9ni26pbb.0!nntp.google.com!f6no2104290pbd.1!po
    stnews.google.com!glegroupsg2000goo.googlegroups.com!not-for-mail
    Newsgroups: pl.comp.programming
    Date: Wed, 16 Jan 2013 06:37:59 -0800 (PST)
    In-Reply-To: <4...@g...com>
    Complaints-To: g...@g...com
    Injection-Info: glegroupsg2000goo.googlegroups.com; posting-host=46.134.95.44;
    posting-account=Sb6m8goAAABbWsBL7gouk3bfLsuxwMgN
    NNTP-Posting-Host: 46.134.95.44
    References: <kceu17$8cf$1@node1.news.atman.pl>
    <c...@g...com>
    <kckmci$3s2$1@node1.news.atman.pl>
    <f...@g...com>
    <4...@g...com>
    <6...@g...com>
    <c...@g...com>
    <9...@g...com>
    <1...@g...com>
    <2...@g...com>
    <4...@g...com>
    User-Agent: G2/1.0
    MIME-Version: 1.0
    Message-ID: <e...@g...com>
    Subject: Re: algorytm stringi
    From: firr kenobi <p...@g...com>
    Injection-Date: Wed, 16 Jan 2013 14:38:00 +0000
    Content-Type: text/plain; charset=ISO-8859-2
    Content-Transfer-Encoding: quoted-printable
    X-Received-Bytes: 4454
    Xref: news-archive.icm.edu.pl pl.comp.programming:201680
    [ ukryj nagłówki ]

    W dniu środa, 16 stycznia 2013 10:29:01 UTC+1 użytkownik M.M. napisał:
    > W dniu środa, 16 stycznia 2013 09:29:22 UTC+1 użytkownik firr kenobi napisał:
    >
    > > nie rozumiem, jak wogole wygladalo by
    >
    > > takie indeksowanie np na przykladzie zaindeksowania 'robinsona cruzoe' (okolo
    >
    > > 500kb)? robi sie cos w rodzaju slownika/mapy
    >
    > > ze slowami i offsetami w pliku?
    >
    >
    >
    > Też nie mam ani szczegółowej wiedzy, ani doświadczeń praktycznych z
    >
    > tego typu algorytmami. Wyobrażam sobie to mniej/więcej w ten sposób...
    >
    >
    >
    > Mamy tekst:
    >
    > char text[M];
    >
    >
    >
    > Mamy długość prefixa:
    >
    > const int N = 6;
    >
    >
    >
    > Mamy parę:
    >
    > struct Pair {
    >
    > unsigned int key; // suma-klucz
    >
    > unsigned int pos; // pozycja w text.
    >
    > Pair *next;
    >
    > };
    >
    >
    >
    > Mamy hash-table:
    >
    > Pair *hash_table[S];
    >
    >
    >
    > Mamy klucze, po jednym kluczu dla znaku alfabetu:
    >
    > const unsigned int keys[256] = {rand,rand...rand};
    >
    >
    >
    > Inicjujemy hash-table:
    >
    > unsigned int key = 0;
    >
    > for( int i=0 ; i<N ; i++ )
    >
    > key ^= keys[ text[i] ];
    >
    > for( int i=N ; i<M ; i++ ) {
    >
    > Pair *pair = new Pair( key , i-N , NULL );
    >
    > const unsigned int entry = key % S;
    >
    > insert( pair , hash_table , entry );
    >
    > key ^= text[i-N] ^ text[i];
    >
    > }
    >
    >
    >
    > Potem mamy wzorzec:
    >
    > char pattern[N+R];
    >
    >
    >
    > Liczymy klucz:
    >
    > key = 0;
    >
    > for( int i=0 ; i<N ; i++ )
    >
    > key ^= keys[ pattern[i] ];
    >
    >
    >
    > Liczymy punkt wejścia do hash-table:
    >
    > entry = hash_table + key % S;
    >
    > while( entry ) {
    >
    > print( entry->pos ); // pozycje pod którymi może zaczynać się wyszukiwany tekst
    >
    > enetry = entry->next;
    >
    > }
    >

    Ni do konca rozumiem niestaty co tu sie robi,
    moze jakis komentarz szczegolowy? co to jest pattern?

    nie wiem czy budowanie drzewa z pojedynczych liter czy bajtow (np w przypadku
    indeksowani tresci robinsona kruzoe) mieloby jakies spore walory co do uzytecznosci
    bo to drzewo byloby zaiste wielkie tj 'roztyte' (jak ja ostatnio bo pysk mi
    ostatnio nieststy utył)
    Pewnie mozna takie drzewo zbudowac ale byloby bolaste - zapewne kilka (iles) razy
    wieksze od oryginalnego pliku, no i trzebe by przebudowywac przy zmianach (ogolnie np

    obrabianie 100 k oryginalnych danych i np 900k
    indeksu nie wydaje sie zbyt praktyczne),
    ale w pewnych przypadkach jak moze przy kompresji itp moze sie przydac - nie wiem
    nie interesowalem sie tym :/

Podziel się

Poleć ten post znajomemu poleć

Wydrukuj ten post drukuj


Następne wpisy z tego wątku

Najnowsze wątki z tej grupy


Najnowsze wątki

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: