eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.programminginteligentne wyszukiwanieRe: inteligentne wyszukiwanie
  • Path: news-archive.icm.edu.pl!news.gazeta.pl!newsfeed.pionier.net.pl!news.glorb.com!p
    ostnews.google.com!m16g2000vbs.googlegroups.com!not-for-mail
    From: qertoip <q...@g...com>
    Newsgroups: pl.comp.programming
    Subject: Re: inteligentne wyszukiwanie
    Date: Sat, 11 Sep 2010 07:12:00 -0700 (PDT)
    Organization: http://groups.google.com
    Lines: 20
    Message-ID: <1...@m...googlegroups.com>
    References: <1...@e...googlegroups.com>
    NNTP-Posting-Host: 87.205.161.92
    Mime-Version: 1.0
    Content-Type: text/plain; charset=ISO-8859-2
    Content-Transfer-Encoding: quoted-printable
    X-Trace: posting.google.com 1284214323 9058 127.0.0.1 (11 Sep 2010 14:12:03 GMT)
    X-Complaints-To: g...@g...com
    NNTP-Posting-Date: Sat, 11 Sep 2010 14:12:03 +0000 (UTC)
    Complaints-To: g...@g...com
    Injection-Info: m16g2000vbs.googlegroups.com; posting-host=87.205.161.92;
    posting-account=GryREQoAAADxnigKRSywm7SX-jG2DJ_G
    User-Agent: G2/1.0
    X-HTTP-UserAgent: Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/533.4
    (KHTML, like Gecko) Chrome/5.0.375.127 Safari/533.4,gzip(gfe)
    Xref: news-archive.icm.edu.pl pl.comp.programming:186834
    [ ukryj nagłówki ]

    On Sep 4, 8:16 pm, Mariusz Marszałkowski <m...@g...com> wrote:
    > Jest bardzo dużo plików tekstowych na dysku. Pliki trzeba
    > jakoś sprytnie zaindeksować, tak, aby później było możliwe
    > szybkie wyszukanie wszystkich plików które zawierają
    > jakąś frazę, albo nawet wzorzec, typu program*anie.
    > Idealnie byłoby jakby jeszcze był jakiś ranking, np.
    > tym większa liczba im strona lepiej pasuje do wzorca.

    Sphinx jest bardzo szybki i niezawodny. Domyślnie działa nad bazą
    danych, ale można go też nakarmić samemu (np. via XML). Pozostaje więc
    rekurencyjny odczyt plików tekstowych w zadanym katalogu. To jest
    łatwe zadanie niezależnie od języka. Drobnym problemem może być
    jeszcze niezawodne rozróżnienie plików tekstowych od binarnych. Jeśli
    platforma Javy, to polecam do tego bibliotekę istext.jar (GitHub).

    --
    http://qertoip.typepad.com - programista kontra rzeczywistość czyli
    blog zawodowego swetra

Podziel się

Poleć ten post znajomemu poleć

Wydrukuj ten post drukuj

Najnowsze wątki z tej grupy


Najnowsze wątki

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: