eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.programmingAlgorytm szukania podobny do Google › Re: Algorytm szukania podobny do Google
  • X-Received: by 10.157.1.174 with SMTP id e43mr100878ote.9.1465311187643; Tue, 07 Jun
    2016 07:53:07 -0700 (PDT)
    X-Received: by 10.157.1.174 with SMTP id e43mr100878ote.9.1465311187643; Tue, 07 Jun
    2016 07:53:07 -0700 (PDT)
    Path: news-archive.icm.edu.pl!news.icm.edu.pl!news.nask.pl!news.nask.org.pl!news.unit
    0.net!usenet.blueworldhosting.com!feeder01.blueworldhosting.com!peer01.iad.high
    winds-media.com!news.highwinds-media.com!feed-me.highwinds-media.com!q32no48075
    84qgq.0!news-out.google.com!z5ni90qge.0!nntp.google.com!p34no3787746qgp.1!postn
    ews.google.com!glegroupsg2000goo.googlegroups.com!not-for-mail
    Newsgroups: pl.comp.programming
    Date: Tue, 7 Jun 2016 07:53:07 -0700 (PDT)
    In-Reply-To: <nj6j3r$7db$1@node2.news.atman.pl>
    Complaints-To: g...@g...com
    Injection-Info: glegroupsg2000goo.googlegroups.com; posting-host=178.37.232.66;
    posting-account=xjvq9QoAAAATMPC2X3btlHd_LkaJo_rj
    NNTP-Posting-Host: 178.37.232.66
    References: <nj6f0k$26n$1@node2.news.atman.pl>
    <c...@g...com>
    <nj6j3r$7db$1@node2.news.atman.pl>
    User-Agent: G2/1.0
    MIME-Version: 1.0
    Message-ID: <2...@g...com>
    Subject: Re: Algorytm szukania podobny do Google
    From: "M.M." <m...@g...com>
    Injection-Date: Tue, 07 Jun 2016 14:53:07 +0000
    Content-Type: text/plain; charset=UTF-8
    Content-Transfer-Encoding: quoted-printable
    X-Received-Bytes: 3063
    X-Received-Body-CRC: 3301987270
    Xref: news-archive.icm.edu.pl pl.comp.programming:209452
    [ ukryj nagłówki ]

    On Tuesday, June 7, 2016 at 3:44:29 PM UTC+2, Borneq wrote:
    > W dniu 07.06.2016 o 15:36, M.M. pisze:
    > > Podstawą jest zahasowany słownik słów. Każde słowo ma listę stron na
    > > których ono wstępuje. Lista jest uporządkowana według trafności. Trafność
    > > liczą jakimś algorytmem - dobry algorytm wydaje się bardziej
    > > problematyczny. Jeśli wyszukiwanie z minusem, to jeszcze strona musi
    > > mieć zahasowany słownik słów. Jeśli z operatorem and, to część wspólna
    > > urli. Problemem jest zrównoleglenie i osiągnięcie dużej wydajności.
    >
    > jak to na przykładzie?
    > dokument 0: Ala ma kota
    > dokument 1: Tadek ma psa
    >
    > leksykon słów :
    > Ala - 0
    > kota - 0
    > ma - 0,1
    > psa - 1
    > Tadek -1
    Bo jak inaczej?


    > dla danego słowa może być bardzo dużo:
    > the - 0,1,2,3,4,6,7,8,9,10..
    > is - 0,1,2,3,4,5,6,7,9,10..
    Może jeśli słowo ma więcej niż 100tys stron, to jest trafia do osobnej
    hash-table?


    > teraz operacja [the AND is] może trwać długo
    Bo ja wiem... To dobrze działa w środowisku
    rozproszonym. Tego bym się nie bał. Trudniej zrobić
    dobry page-rank. Trudniej zapewnić aktualizację w
    locie, albo redundancję, typu N% komputerów padło a
    wyszukiwarka poprawnie działa z prawdopodobieństwem
    powyżej M%.


    > Nie wiem na przykład dlaczego w
    > http://webserver2.tecgraf.puc-rio.br/eda/referencias
    /Google-petteri_huuhka_google_paper.pdf
    > w Forward barrels nhits jest 8 bitowe a w inverted barrels tylko 5 bitowe.

    Nie wiem, trzaby się wczytać.

    Pozdrawiam

Podziel się

Poleć ten post znajomemu poleć

Wydrukuj ten post drukuj


Następne wpisy z tego wątku

Najnowsze wątki z tej grupy


Najnowsze wątki

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: