-
Path: news-archive.icm.edu.pl!agh.edu.pl!news.agh.edu.pl!newsfeed2.atman.pl!newsfeed.
atman.pl!.POSTED!not-for-mail
From: Borneq <b...@a...hidden.pl>
Newsgroups: pl.comp.programming
Subject: Re: Algorytm szukania podobny do Google
Date: Tue, 7 Jun 2016 15:44:24 +0200
Organization: ATMAN - ATM S.A.
Lines: 26
Message-ID: <nj6j3r$7db$1@node2.news.atman.pl>
References: <nj6f0k$26n$1@node2.news.atman.pl>
<c...@g...com>
NNTP-Posting-Host: apn-37-7-7-80.dynamic.gprs.plus.pl
Mime-Version: 1.0
Content-Type: text/plain; charset=utf-8; format=flowed
Content-Transfer-Encoding: 8bit
X-Trace: node2.news.atman.pl 1465307068 7595 37.7.7.80 (7 Jun 2016 13:44:28 GMT)
X-Complaints-To: u...@a...pl
NNTP-Posting-Date: Tue, 7 Jun 2016 13:44:28 +0000 (UTC)
User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64; rv:45.0) Gecko/20100101
Thunderbird/45.1.1
In-Reply-To: <c...@g...com>
Xref: news-archive.icm.edu.pl pl.comp.programming:209451
[ ukryj nagłówki ]W dniu 07.06.2016 o 15:36, M.M. pisze:
> Podstawą jest zahasowany słownik słów. Każde słowo ma listę stron na
> których ono wstępuje. Lista jest uporządkowana według trafności. Trafność
> liczą jakimś algorytmem - dobry algorytm wydaje się bardziej
> problematyczny. Jeśli wyszukiwanie z minusem, to jeszcze strona musi
> mieć zahasowany słownik słów. Jeśli z operatorem and, to część wspólna
> urli. Problemem jest zrównoleglenie i osiągnięcie dużej wydajności.
jak to na przykładzie?
dokument 0: Ala ma kota
dokument 1: Tadek ma psa
leksykon słów :
Ala - 0
kota - 0
ma - 0,1
psa - 1
Tadek -1
dla danego słowa może być bardzo dużo:
the - 0,1,2,3,4,6,7,8,9,10..
is - 0,1,2,3,4,5,6,7,9,10..
teraz operacja [the AND is] może trwać długo
Nie wiem na przykład dlaczego w
http://webserver2.tecgraf.puc-rio.br/eda/referencias
/Google-petteri_huuhka_google_paper.pdf
w Forward barrels nhits jest 8 bitowe a w inverted barrels tylko 5 bitowe.
Następne wpisy z tego wątku
- 07.06.16 16:53 M.M.
- 07.06.16 17:34 Piotr Chamera
- 07.06.16 22:31 Borneq
- 08.06.16 10:32 Borneq
- 08.06.16 11:41 Borneq
Najnowsze wątki z tej grupy
- TCL - problem z escape ostatniego \ w nawiasach {}
- Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- testy-wyd-sort - Podsumowanie
- Tworzenie Programów Nieuprzywilejowanych Opartych Na Wtyczkach
- Do czego nadaje się QDockWidget z bibl. Qt?
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
- Re: (PDF) Surgical Pathology of Non-neoplastic Gastrointestinal Diseases by Lizhi Zhang
- CfC 28th Ada-Europe Int. Conf. Reliable Software Technologies
- Młodzi programiści i tajna policja
- Ada 2022 Language Reference Manual to be Published by Springer
Najnowsze wątki
- 2024-10-07 Sprzedawanie zaszyfrowanych filmów na płytach Blu-Ray bez kluczy deszyfrujących
- 2024-10-07 Sprzedawanie zaszyfrowanych filmów na płytach Blu-Ray bez kluczy deszyfrujących
- 2024-10-07 Kraków => Head of International Freight Forwarding Department <=
- 2024-10-07 Sprzedawanie zaszyfrowanych filmów na płytach Blu-Ray bez kluczy deszyfrujących
- 2024-10-07 Aparat, zewnętrzny mikrofon, brum
- 2024-10-07 MĂźnchen => Data Scientist <=
- 2024-10-07 Gdańsk => Full Stack web developer (obszar .Net Core, Angular6+) <=
- 2024-10-07 Kraków => Programista Full Stack .Net <=
- 2024-10-07 Re: Taniocha!!!
- 2024-10-07 Warszawa => Technical Leader (Java Background) <=
- 2024-10-07 Zielona Góra => Power Electronics R&D Engineer <=
- 2024-10-07 Warszawa => Junior New Business Development Manager <=
- 2024-10-07 Warszawa => Key Account Manager <=
- 2024-10-07 Wrocław => Konsultant wdrożeniowy ERP (Symfonia) <=
- 2024-10-07 policja szuka