eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.programmingAlgorytm szukania podobny do GoogleRe: Algorytm szukania podobny do Google
  • Path: news-archive.icm.edu.pl!news.icm.edu.pl!newsfeed2.atman.pl!newsfeed.atman.pl!.P
    OSTED!not-for-mail
    From: Borneq <b...@a...hidden.pl>
    Newsgroups: pl.comp.programming
    Subject: Re: Algorytm szukania podobny do Google
    Date: Wed, 8 Jun 2016 10:32:13 +0200
    Organization: ATMAN - ATM S.A.
    Lines: 19
    Message-ID: <nj8l6d$di4$1@node1.news.atman.pl>
    References: <nj6f0k$26n$1@node2.news.atman.pl>
    <c...@g...com>
    <nj6j3r$7db$1@node2.news.atman.pl> <nj6pik$edr$1@dont-email.me>
    <nj7auq$3i4$1@node1.news.atman.pl>
    NNTP-Posting-Host: apn-37-248-91-32.dynamic.gprs.plus.pl
    Mime-Version: 1.0
    Content-Type: text/plain; charset=utf-8; format=flowed
    Content-Transfer-Encoding: 8bit
    X-Trace: node1.news.atman.pl 1465374733 13892 37.248.91.32 (8 Jun 2016 08:32:13 GMT)
    X-Complaints-To: u...@a...pl
    NNTP-Posting-Date: Wed, 8 Jun 2016 08:32:13 +0000 (UTC)
    User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64; rv:45.0) Gecko/20100101
    Thunderbird/45.1.1
    In-Reply-To: <nj7auq$3i4$1@node1.news.atman.pl>
    Xref: news-archive.icm.edu.pl pl.comp.programming:209456
    [ ukryj nagłówki ]

    W dniu 07.06.2016 o 22:31, Borneq pisze:
    > Tu też potrzebny jakiś algorytm aby nie trzeba używać całej bazy
    > polimorfologika
    >
    >> słowa, które występują bardzo często i nie wnoszą żadnej informacji
    >> do wyszukiwania się po prostu pomija

    Tu praca nlp.ipipan.waw.pl/~adamp/msc/janus.daniel/praca.pdf.
    gz
    pokazuje że bitowe indeksy są niepraktyczne:
    "Jednak to dla dużych korpusów zalety indeksowania są najbardziej
    widoczne, a wtedy ten sposób przechowywania indeksów jest zupełnie
    niepraktyczny. Dla próbki Korpusu IPI PAN (por. tabela 4.2), zajmującej
    w postaci binarnej
    bez indeksów 303 MB, sam tylko indeks form literalnych reprezentowany w
    ten sposób miałby
    rozmiar 670475?30002374/8 B = 2,29 TB, czyli blisko 8000-krotnie (!)
    więcej niż wyjściowy korpus."

    Bo binarne indeksy wzrastają kwadratowo z wielkością tekstu.

Podziel się

Poleć ten post znajomemu poleć

Wydrukuj ten post drukuj


Następne wpisy z tego wątku

Najnowsze wątki z tej grupy


Najnowsze wątki

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: