-
X-Received: by 10.157.5.212 with SMTP id 78mr104207otd.8.1465306610733; Tue, 07 Jun
2016 06:36:50 -0700 (PDT)
X-Received: by 10.157.5.212 with SMTP id 78mr104207otd.8.1465306610733; Tue, 07 Jun
2016 06:36:50 -0700 (PDT)
Path: news-archive.icm.edu.pl!news.icm.edu.pl!news.nask.pl!news.nask.org.pl!news.unit
0.net!usenet.blueworldhosting.com!feeder01.blueworldhosting.com!peer01.iad.high
winds-media.com!news.highwinds-media.com!feed-me.highwinds-media.com!q32no47799
41qgq.0!news-out.google.com!z5ni85qge.0!nntp.google.com!p34no3760185qgp.1!postn
ews.google.com!glegroupsg2000goo.googlegroups.com!not-for-mail
Newsgroups: pl.comp.programming
Date: Tue, 7 Jun 2016 06:36:50 -0700 (PDT)
In-Reply-To: <nj6f0k$26n$1@node2.news.atman.pl>
Complaints-To: g...@g...com
Injection-Info: glegroupsg2000goo.googlegroups.com; posting-host=178.37.232.66;
posting-account=xjvq9QoAAAATMPC2X3btlHd_LkaJo_rj
NNTP-Posting-Host: 178.37.232.66
References: <nj6f0k$26n$1@node2.news.atman.pl>
User-Agent: G2/1.0
MIME-Version: 1.0
Message-ID: <c...@g...com>
Subject: Re: Algorytm szukania podobny do Google
From: "M.M." <m...@g...com>
Injection-Date: Tue, 07 Jun 2016 13:36:50 +0000
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: quoted-printable
X-Received-Bytes: 2527
X-Received-Body-CRC: 1512296936
Xref: news-archive.icm.edu.pl pl.comp.programming:209450
[ ukryj nagłówki ]On Tuesday, June 7, 2016 at 2:34:29 PM UTC+2, Borneq wrote:
> Mam wiele dokumentów i mam sprawdzić czy dany tekst znajduje się w
> którymś. Zamiast szukania wszystkich, lepiej skorzystać z indeksu. Stąd,
> wyszukiwać będę całe słowa a nie części słów.
> Algorytm szukania Google opisany jest:
> rakaposhi.eas.asu.edu/cse494/notes/f05-google.ppt
> infolab.stanford.edu/pub/papers/google.pdf
> jak to wygląda? Jest lista alfabetyczna słów, albo jakaś zhaszowana. Dla
> każdego słowa jest lista dokumentów? Jest to linked-list?
> No dobrze, a co gdy mam szukać word1 AND word2 albo word1 - word2?
> albo ważna kolejność: "word1 word2" ?
Podstawą jest zahasowany słownik słów. Każde słowo ma listę stron na
których ono wstępuje. Lista jest uporządkowana według trafności. Trafność
liczą jakimś algorytmem - dobry algorytm wydaje się bardziej
problematyczny. Jeśli wyszukiwanie z minusem, to jeszcze strona musi
mieć zahasowany słownik słów. Jeśli z operatorem and, to część wspólna
urli. Problemem jest zrównoleglenie i osiągnięcie dużej wydajności.
Pozdrawiam
Następne wpisy z tego wątku
- 07.06.16 15:44 Borneq
- 07.06.16 16:53 M.M.
- 07.06.16 17:34 Piotr Chamera
- 07.06.16 22:31 Borneq
- 08.06.16 10:32 Borneq
- 08.06.16 11:41 Borneq
Najnowsze wątki z tej grupy
- Alg. kompresji LZW
- Popr. 14. Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- Arch. Prog. Nieuprzywilejowanych w pełnej wer. na nowej s. WWW energokod.pl
- 7. Raport Totaliztyczny: Sprawa Qt Group wer. 424
- TCL - problem z escape ostatniego \ w nawiasach {}
- Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- testy-wyd-sort - Podsumowanie
- Tworzenie Programów Nieuprzywilejowanych Opartych Na Wtyczkach
- Do czego nadaje się QDockWidget z bibl. Qt?
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
Najnowsze wątki
- 2025-02-17 EPS12V
- 2025-02-18 Kraków => Spedytor Międzynarodowy <=
- 2025-02-18 Policja nie może się dowiedzieć komu administrator wynajmowal garaż.
- 2025-02-18 Bursztyn się znalazł
- 2025-02-18 Ruski samolot z turystami nielegalnie internowany po awaryjnym lądowaniu w Poznaniu. Czemu o tym nic nie piszecie pieniacze?!?
- 2025-02-18 Obcokrajowcy w bankach
- 2025-02-17 Kraków => MS Dynamics 365BC/NAV Developer <=
- 2025-02-17 Chrzanów => Programista NodeJS <=
- 2025-02-17 Warszawa => Node.js / Fullstack Developer <=
- 2025-02-17 Białystok => System Architect (Java background) <=
- 2025-02-17 Białystok => Solution Architect (Java background) <=
- 2025-02-17 Gliwice => Team Lead / Tribe Lead FrontEnd <=
- 2025-02-17 Gdańsk => PHP Developer <=
- 2025-02-17 Warszawa => Senior ASP.NET Developer <=
- 2025-02-17 Gliwice => Business Development Manager - Network and Network Security