-
Data: 2010-09-11 14:12:00
Temat: Re: inteligentne wyszukiwanie
Od: qertoip <q...@g...com> szukaj wiadomości tego autora
[ pokaż wszystkie nagłówki ]On Sep 4, 8:16 pm, Mariusz Marszałkowski <m...@g...com> wrote:
> Jest bardzo dużo plików tekstowych na dysku. Pliki trzeba
> jakoś sprytnie zaindeksować, tak, aby później było możliwe
> szybkie wyszukanie wszystkich plików które zawierają
> jakąś frazę, albo nawet wzorzec, typu program*anie.
> Idealnie byłoby jakby jeszcze był jakiś ranking, np.
> tym większa liczba im strona lepiej pasuje do wzorca.
Sphinx jest bardzo szybki i niezawodny. Domyślnie działa nad bazą
danych, ale można go też nakarmić samemu (np. via XML). Pozostaje więc
rekurencyjny odczyt plików tekstowych w zadanym katalogu. To jest
łatwe zadanie niezależnie od języka. Drobnym problemem może być
jeszcze niezawodne rozróżnienie plików tekstowych od binarnych. Jeśli
platforma Javy, to polecam do tego bibliotekę istext.jar (GitHub).
--
http://qertoip.typepad.com - programista kontra rzeczywistość czyli
blog zawodowego swetra
Najnowsze wątki z tej grupy
- Alg. kompresji LZW
- Popr. 14. Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- Arch. Prog. Nieuprzywilejowanych w pełnej wer. na nowej s. WWW energokod.pl
- 7. Raport Totaliztyczny: Sprawa Qt Group wer. 424
- TCL - problem z escape ostatniego \ w nawiasach {}
- Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- testy-wyd-sort - Podsumowanie
- Tworzenie Programów Nieuprzywilejowanych Opartych Na Wtyczkach
- Do czego nadaje się QDockWidget z bibl. Qt?
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
Najnowsze wątki
- 2025-03-11 Warszawa => Kierownik ds. kluczowych Klientów <=
- 2025-03-11 Łódź => System Administrator (Linux, Active Directory) <=
- 2025-03-10 roaming
- 2025-03-10 wodor
- 2025-03-10 Ostrów Wielkopolski => NodeJS Developer <=
- 2025-03-10 Białystok => System Architect (background deweloperski w Java) <=
- 2025-03-10 Częstochowa => Backend Developer (Node + Java) <=
- 2025-03-10 Poznań => Konsultant wdrożeniowy Comarch XL (Logistyka, WMS, Produkc
- 2025-03-10 Bydgoszcz => Specjalista ds. Sprzedaży (transport drogowy) <=
- 2025-03-10 China-Kraków => Senior PHP Symfony Developer <=
- 2025-03-10 Chiny-Kraków => Senior PHP Symfony Developer <=
- 2025-03-10 Szczecin => Key Account Manager IT <=
- 2025-03-10 Warszawa => Node.js / Fullstack Developer <=
- 2025-03-10 Warszawa => Data Engineer (Tech Leader) <=
- 2025-03-10 Gliwice => Business Development Manager - Network and Network Security