-
Path: news-archive.icm.edu.pl!news.icm.edu.pl!newsfeed2.atman.pl!newsfeed.atman.pl!.P
OSTED!not-for-mail
From: Borneq <b...@a...hidden.pl>
Newsgroups: pl.comp.programming
Subject: Re: Algorytm szukania podobny do Google
Date: Wed, 8 Jun 2016 10:32:13 +0200
Organization: ATMAN - ATM S.A.
Lines: 19
Message-ID: <nj8l6d$di4$1@node1.news.atman.pl>
References: <nj6f0k$26n$1@node2.news.atman.pl>
<c...@g...com>
<nj6j3r$7db$1@node2.news.atman.pl> <nj6pik$edr$1@dont-email.me>
<nj7auq$3i4$1@node1.news.atman.pl>
NNTP-Posting-Host: apn-37-248-91-32.dynamic.gprs.plus.pl
Mime-Version: 1.0
Content-Type: text/plain; charset=utf-8; format=flowed
Content-Transfer-Encoding: 8bit
X-Trace: node1.news.atman.pl 1465374733 13892 37.248.91.32 (8 Jun 2016 08:32:13 GMT)
X-Complaints-To: u...@a...pl
NNTP-Posting-Date: Wed, 8 Jun 2016 08:32:13 +0000 (UTC)
User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64; rv:45.0) Gecko/20100101
Thunderbird/45.1.1
In-Reply-To: <nj7auq$3i4$1@node1.news.atman.pl>
Xref: news-archive.icm.edu.pl pl.comp.programming:209456
[ ukryj nagłówki ]W dniu 07.06.2016 o 22:31, Borneq pisze:
> Tu też potrzebny jakiś algorytm aby nie trzeba używać całej bazy
> polimorfologika
>
>> słowa, które występują bardzo często i nie wnoszą żadnej informacji
>> do wyszukiwania się po prostu pomija
Tu praca nlp.ipipan.waw.pl/~adamp/msc/janus.daniel/praca.pdf.
gz
pokazuje że bitowe indeksy są niepraktyczne:
"Jednak to dla dużych korpusów zalety indeksowania są najbardziej
widoczne, a wtedy ten sposób przechowywania indeksów jest zupełnie
niepraktyczny. Dla próbki Korpusu IPI PAN (por. tabela 4.2), zajmującej
w postaci binarnej
bez indeksów 303 MB, sam tylko indeks form literalnych reprezentowany w
ten sposób miałby
rozmiar 670475?30002374/8 B = 2,29 TB, czyli blisko 8000-krotnie (!)
więcej niż wyjściowy korpus."
Bo binarne indeksy wzrastają kwadratowo z wielkością tekstu.
Następne wpisy z tego wątku
- 08.06.16 11:41 Borneq
Najnowsze wątki z tej grupy
- Nowa ustawa o ochronie praw autorskich - opis problemu i szkic ustawy
- Alg. kompresji LZW
- Popr. 14. Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- Arch. Prog. Nieuprzywilejowanych w pełnej wer. na nowej s. WWW energokod.pl
- 7. Raport Totaliztyczny: Sprawa Qt Group wer. 424
- TCL - problem z escape ostatniego \ w nawiasach {}
- Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- testy-wyd-sort - Podsumowanie
- Tworzenie Programów Nieuprzywilejowanych Opartych Na Wtyczkach
- Do czego nadaje się QDockWidget z bibl. Qt?
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
Najnowsze wątki
- 2025-03-20 Grubość socketa AM4+procesor
- 2025-03-20 Środa Wielkopolska => Konsultant wewnętrzny SAP FI/CO <=
- 2025-03-20 Warszawa => Senior Programmer C <=
- 2025-03-20 Re: Dlaczego tak odstają od Tesli?
- 2025-03-20 Greenpeace została zobowiązana do zapłaty niemal 667 mln dolarów [USA,wyrok sądu]
- 2025-03-20 Re: Dlaczego tak odstają od Tesli?
- 2025-03-19 Brak ograniczeń dla chińskiego kapitału - wam nie do rządu, tylko na zmywak do chińskiej knajpy!!!
- 2025-03-19 Wietnam wykłada 500M$ i chce zbudować fabrykę za 50G$
- 2025-03-19 szal-Unia == federacja policyjna
- 2025-03-19 Polsza == państwo policyjne
- 2025-03-19 Grzegorz Płaczek o programie szczepień dzieci. ,,Stworzono eldorado dla firm farmaceutycznych"
- 2025-03-19 Wietnam wykłada 500M$ i chce zbudować fabrykę za 50G$
- 2025-03-19 Gemini
- 2025-03-19 Mokry sen Zenka :)
- 2025-03-19 Re: Dlaczego tak odstają od Tesli?