-
Path: news-archive.icm.edu.pl!news.gazeta.pl!newsfeed.pionier.net.pl!news.glorb.com!p
ostnews.google.com!m16g2000vbs.googlegroups.com!not-for-mail
From: qertoip <q...@g...com>
Newsgroups: pl.comp.programming
Subject: Re: inteligentne wyszukiwanie
Date: Sat, 11 Sep 2010 07:12:00 -0700 (PDT)
Organization: http://groups.google.com
Lines: 20
Message-ID: <1...@m...googlegroups.com>
References: <1...@e...googlegroups.com>
NNTP-Posting-Host: 87.205.161.92
Mime-Version: 1.0
Content-Type: text/plain; charset=ISO-8859-2
Content-Transfer-Encoding: quoted-printable
X-Trace: posting.google.com 1284214323 9058 127.0.0.1 (11 Sep 2010 14:12:03 GMT)
X-Complaints-To: g...@g...com
NNTP-Posting-Date: Sat, 11 Sep 2010 14:12:03 +0000 (UTC)
Complaints-To: g...@g...com
Injection-Info: m16g2000vbs.googlegroups.com; posting-host=87.205.161.92;
posting-account=GryREQoAAADxnigKRSywm7SX-jG2DJ_G
User-Agent: G2/1.0
X-HTTP-UserAgent: Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/533.4
(KHTML, like Gecko) Chrome/5.0.375.127 Safari/533.4,gzip(gfe)
Xref: news-archive.icm.edu.pl pl.comp.programming:186834
[ ukryj nagłówki ]On Sep 4, 8:16 pm, Mariusz Marszałkowski <m...@g...com> wrote:
> Jest bardzo dużo plików tekstowych na dysku. Pliki trzeba
> jakoś sprytnie zaindeksować, tak, aby później było możliwe
> szybkie wyszukanie wszystkich plików które zawierają
> jakąś frazę, albo nawet wzorzec, typu program*anie.
> Idealnie byłoby jakby jeszcze był jakiś ranking, np.
> tym większa liczba im strona lepiej pasuje do wzorca.
Sphinx jest bardzo szybki i niezawodny. Domyślnie działa nad bazą
danych, ale można go też nakarmić samemu (np. via XML). Pozostaje więc
rekurencyjny odczyt plików tekstowych w zadanym katalogu. To jest
łatwe zadanie niezależnie od języka. Drobnym problemem może być
jeszcze niezawodne rozróżnienie plików tekstowych od binarnych. Jeśli
platforma Javy, to polecam do tego bibliotekę istext.jar (GitHub).
--
http://qertoip.typepad.com - programista kontra rzeczywistość czyli
blog zawodowego swetra
Najnowsze wątki z tej grupy
- 7. Raport Totaliztyczny: Sprawa Qt Group wer. 424
- TCL - problem z escape ostatniego \ w nawiasach {}
- Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- testy-wyd-sort - Podsumowanie
- Tworzenie Programów Nieuprzywilejowanych Opartych Na Wtyczkach
- Do czego nadaje się QDockWidget z bibl. Qt?
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
- Re: (PDF) Surgical Pathology of Non-neoplastic Gastrointestinal Diseases by Lizhi Zhang
- CfC 28th Ada-Europe Int. Conf. Reliable Software Technologies
- Młodzi programiści i tajna policja
Najnowsze wątki
- 2024-11-25 Karty przedpłacone (podarunkowe) Google Play - pytanie do korzystających
- 2024-11-26 wina Tóska
- 2024-11-26 Rewolucja/Rewelacja!
- 2024-11-25 grupa ożyła ;)
- 2024-11-24 Być jak Clint
- 2024-11-24 Rura kanalizacja konceptu Franke = problem
- 2024-11-25 Wrocław => Lead Java EE Developer <=
- 2024-11-25 Warszawa => Business Development Manager - Network and Network Securit
- 2024-11-25 Kraków => Programista Full Stack (.Net Core) <=
- 2024-11-25 Lublin => Senior PHP Developer <=
- 2024-11-25 Karlino => Konsultant wewnętrzny SAP (FI/CO) <=
- 2024-11-25 Warszawa => ECM Specialist / Consultant <=
- 2024-11-25 Katowice => Regionalny Kierownik Sprzedaży (OZE) <=
- 2024-11-25 Warszawa => Senior Frontend Developer (React + React Native) <=
- 2024-11-25 Lublin => Inżynier Serwisu Sprzętu Medycznego <=