-
Path: news-archive.icm.edu.pl!news.icm.edu.pl!news.nask.pl!news.nask.org.pl!news.inte
rnetia.pl!not-for-mail
From: "MarlonB" <z...@w...kon>
Newsgroups: pl.comp.programming,pl.comp.lang.c
Subject: Re: darmowy silnik wyszukiwarki
Date: Mon, 9 Jan 2012 15:22:16 +0100
Organization: Netia S.A.
Lines: 26
Message-ID: <jeet6f$64p$1@mx1.internetia.pl>
References: <jdssgg$fgl$1@mx1.internetia.pl>
NNTP-Posting-Host: 87-205-19-179.ip.netia.com.pl
Mime-Version: 1.0
Content-Type: text/plain; format=flowed; charset="UTF-8"; reply-type=response
Content-Transfer-Encoding: 8bit
X-Trace: mx1.internetia.pl 1326118927 6297 87.205.19.179 (9 Jan 2012 14:22:07 GMT)
X-Complaints-To: a...@i...pl
NNTP-Posting-Date: Mon, 9 Jan 2012 14:22:07 +0000 (UTC)
X-MimeOLE: Produced By Microsoft MimeOLE V6.00.2900.6157
X-Tech-Contact: u...@i...pl
X-Newsreader: Microsoft Outlook Express 6.00.2900.5931
X-Priority: 3
X-Server-Info: http://www.internetia.pl/
X-MSMail-Priority: Normal
Xref: news-archive.icm.edu.pl pl.comp.programming:194660 pl.comp.lang.c:297587
[ ukryj nagłówki ]
Użytkownik "Szyk" <s...@o...pl> napisał w wiadomości
news:jdssgg$fgl$1@mx1.internetia.pl...
> Witam
>
> Mam plik XML ponad 20GB. Z tego pliku sobie wyciągam kawałki tekstu. Te
> kawałki chcę sobie zindeksować, tak bym mógł określić częstość
> występowania poszczególnych wyrazów i fraz (sekwencji kilku wyrazów -
> kolejność wyrazów ma znacznie). Indeks wyszukiwarki chcę zrobić na własny
> użytek. Indeks nie musi być super szybki ale musi odpowiadać w jakimś
> rozsądnym czasie (do 10s).
>
> Domyślam się, że istnieją jakieś darmowe silniki wyszukiwania (raczej
> tylko w C/C++) jakie mogłyby sprostać temu zadaniu. Myślę też że problem
> nie jest zbyt specyficzny by nie spytać się na grupach dyskusyjnych. Więc:
>
> Jakie silniki wyszukiwania byście polecili do realizacji tego zadania.
>
Widziałeś to http://vtd-xml.sourceforge.net/ ? Może Ci przypasi. Ja
korzystam z tego w javie.
Pozdro.
M.
Następne wpisy z tego wątku
- 09.01.12 16:07 Adam Przybyla
Najnowsze wątki z tej grupy
- Popr. 14. Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- Arch. Prog. Nieuprzywilejowanych w pełnej wer. na nowej s. WWW energokod.pl
- 7. Raport Totaliztyczny: Sprawa Qt Group wer. 424
- TCL - problem z escape ostatniego \ w nawiasach {}
- Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- testy-wyd-sort - Podsumowanie
- Tworzenie Programów Nieuprzywilejowanych Opartych Na Wtyczkach
- Do czego nadaje się QDockWidget z bibl. Qt?
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
- Re: (PDF) Surgical Pathology of Non-neoplastic Gastrointestinal Diseases by Lizhi Zhang
Najnowsze wątki
- 2025-02-06 PROGRAM DOPŁAT DO AUT ELEKTRYCZNYCH TO ABSURD. ZA ŚRODKI Z KPO KUPIMY NIEMIECKIE I CHIŃSKIE AUTA
- 2025-02-05 ceny OC
- 2025-02-05 Re: ceny OC
- 2025-02-05 Re: ceny OC
- 2025-02-07 Smar do video
- 2025-02-06 Litowe baterie AA Li/FeS2 a alkaliczne
- 2025-02-07 Gliwice => Business Development Manager - Network and Network Security
- 2025-02-07 Warszawa => System Architect (Java background) <=
- 2025-02-07 Warszawa => System Architect (background deweloperski w Java) <=
- 2025-02-07 Warszawa => Solution Architect (Java background) <=
- 2025-02-07 Gliwice => Ekspert IT (obszar systemów sieciowych) <=
- 2025-02-07 Lublin => Programista Delphi <=
- 2025-02-07 Warszawa => Architekt rozwiązań (doświadczenie w obszarze Java, AWS
- 2025-02-07 Dęblin => Node.js / Fullstack Developer <=
- 2025-02-07 Bieruń => Spedytor Międzynarodowy (handel ładunkami/prowadzenie flo