-
1. Data: 2010-09-04 18:16:47
Temat: inteligentne wyszukiwanie
Od: Mariusz Marszałkowski <m...@g...com>
Witam
Jest bardzo dużo plików tekstowych na dysku. Pliki trzeba
jakoś sprytnie zaindeksować, tak, aby później było możliwe
szybkie wyszukanie wszystkich plików które zawierają
jakąś frazę, albo nawet wzorzec, typu program*anie.
Idealnie byłoby jakby jeszcze był jakiś ranking, np.
tym większa liczba im strona lepiej pasuje do wzorca.
Co polecacie?
Pozdrawiam
-
2. Data: 2010-09-05 08:19:44
Temat: Re: inteligentne wyszukiwanie
Od: "ivr" <g...@p...onet.pl>
Jest bardzo dużo plików tekstowych na dysku. Pliki trzeba
jakoś sprytnie zaindeksować, tak, aby później było możliwe
szybkie wyszukanie wszystkich plików które zawierają
jakąś frazę, albo nawet wzorzec, typu program*anie.
Idealnie byłoby jakby jeszcze był jakiś ranking, np.
tym większa liczba im strona lepiej pasuje do wzorca.
google->
Pamięci asocjacyjne
Pozdr.
-
3. Data: 2010-09-05 09:55:26
Temat: Re: inteligentne wyszukiwanie
Od: Jacek Czerwinski <...@...z.pl>
W dniu 2010-09-04 20:16, Mariusz Marszałkowski pisze:
> Witam
>
> Jest bardzo dużo plików tekstowych na dysku. Pliki trzeba
> jakoś sprytnie zaindeksować, tak, aby później było możliwe
> szybkie wyszukanie wszystkich plików które zawierają
> jakąś frazę, albo nawet wzorzec, typu program*anie.
> Idealnie byłoby jakby jeszcze był jakiś ranking, np.
> tym większa liczba im strona lepiej pasuje do wzorca.
>
nad biblioteką Lucene jest kilka fajnych aplikacji wyszukiwarek m.in Solr.
http://wiki.apache.org/lucene-java/PoweredBy
planujesz cos programowac (w jakim jezyku?), czy zupelnie chcesz gotowca?
-
4. Data: 2010-09-05 09:55:31
Temat: Re: inteligentne wyszukiwanie
Od: Marcin Kral <k...@p...tu-onet.pl>
W dniu 2010-09-04 20:16, Mariusz Marszałkowski pisze:
> Witam
>
> Jest bardzo dużo plików tekstowych na dysku. Pliki trzeba
> jakoś sprytnie zaindeksować, tak, aby później było możliwe
> szybkie wyszukanie wszystkich plików które zawierają
> jakąś frazę, albo nawet wzorzec, typu program*anie.
> Idealnie byłoby jakby jeszcze był jakiś ranking, np.
> tym większa liczba im strona lepiej pasuje do wzorca.
>
> Co polecacie?
Lucene albo Sphinx.
Googlaj pod haslem: "full text search"
--
Pozdrawiam
Marcin Kral
-
5. Data: 2010-09-05 13:18:44
Temat: Re: inteligentne wyszukiwanie
Od: Mariusz Marszałkowski <m...@g...com>
On 5 Wrz, 11:55, Jacek Czerwinski <x...@...z.pl> wrote:
>
> planujesz cos programowac (w jakim jezyku?), czy zupelnie chcesz
> gotowca?
Na razie tylko padł temat inteligentnej-branżowej wyszukiwarki,
nie mam pojęcia czy skończy się to pisaniem od nowa, czy użyciem
gotowca, czy może zupełnie niczym. Na razie chciałem się ogólnie
zapoznać z bibliotekami, algorytmami, możliwościami, itd.
Co do języka to jakaś kombinacja C/C++/PHP/Javy/JSP
Pozdrawiam i dzięki
-
6. Data: 2010-09-05 14:35:12
Temat: Re: inteligentne wyszukiwanie
Od: Jacek Czerwinski <...@...z.pl>
W dniu 2010-09-05 15:18, Mariusz Marszałkowski pisze:
> On 5 Wrz, 11:55, Jacek Czerwinski<x...@...z.pl> wrote:
>>
>> planujesz cos programowac (w jakim jezyku?), czy zupelnie chcesz
>> gotowca?
> Na razie tylko padł temat inteligentnej-branżowej wyszukiwarki,
> nie mam pojęcia czy skończy się to pisaniem od nowa, czy użyciem
> gotowca, czy może zupełnie niczym. Na razie chciałem się ogólnie
> zapoznać z bibliotekami, algorytmami, możliwościami, itd.
>
> Co do języka to jakaś kombinacja C/C++/PHP/Javy/JSP
Jak powszechnie (?) wiadomo Lucene to Java, ale ma porty (binarnie
kompatybilne na pliku "bazy" ). O C++ Lucene byl kiedys artykul w
polskim Software/SDJ (?)
Dla mnie, mimo wielkiego uznania intelektualnego dla fulltext-search, i
sukcesow firm np. Googla, grzebanie w smietniku (bo ciagle tak to
postrzegam) to skutek czegos-co-braklo w definicji danych. Oczywiscie
Lucene na rowniez koncepcje do pracowania z wysoko zorganizowaną
informacją, a nie tylko ze smietnikiem. Jak jestes na etapie koncepcji,
wrzucam kwestie.
-
7. Data: 2010-09-11 14:12:00
Temat: Re: inteligentne wyszukiwanie
Od: qertoip <q...@g...com>
On Sep 4, 8:16 pm, Mariusz Marszałkowski <m...@g...com> wrote:
> Jest bardzo dużo plików tekstowych na dysku. Pliki trzeba
> jakoś sprytnie zaindeksować, tak, aby później było możliwe
> szybkie wyszukanie wszystkich plików które zawierają
> jakąś frazę, albo nawet wzorzec, typu program*anie.
> Idealnie byłoby jakby jeszcze był jakiś ranking, np.
> tym większa liczba im strona lepiej pasuje do wzorca.
Sphinx jest bardzo szybki i niezawodny. Domyślnie działa nad bazą
danych, ale można go też nakarmić samemu (np. via XML). Pozostaje więc
rekurencyjny odczyt plików tekstowych w zadanym katalogu. To jest
łatwe zadanie niezależnie od języka. Drobnym problemem może być
jeszcze niezawodne rozróżnienie plików tekstowych od binarnych. Jeśli
platforma Javy, to polecam do tego bibliotekę istext.jar (GitHub).
--
http://qertoip.typepad.com - programista kontra rzeczywistość czyli
blog zawodowego swetra