-
1. Data: 2014-01-23 15:55:45
Temat: Oszczędne kodowanie form gramatycznych
Od: Borneq <b...@a...hidden.pl>
W języku polskim, w odróżnieniu od np. angielskiego większość wyrazów
może mieć bardzo wiele form. W jaki sposób je oszczędnie zapamiętać, aby
nie pamiętać ich wszystkich, tylko wyraz główny i regułę. W morfologiku
np. są wszystkie formy co powoduje, że plik jest znacznych rozmiarów.
A teraz mamy takie coś jak słownik korekty języka polskiego dla peceta
lub smartfona, czy też klawiaturę dla smartfona. Słownik cały czas
siedzi w pamięci, więc chcemy aby był w miarę nieduży.
A jak to jest rozwiązane w istniejącej korekcie pisowni? Zdaje się, że
słowniki są nawet dublowane, np. inny słownik używa Word, inny Firefox,
a jeszcze inny Chrome, zjadają pamięć, ale chyba nie ma tam wszystkich form.
Na przykład działająca klawiatura XPeria liczy 8.2 MB, a gdyby tam
pamiętać wszystkie formy choćby tylko dla języka polskiego, to mogła by
liczyć np. nie 8.2 a a 82 MB.
-
2. Data: 2014-01-25 19:55:27
Temat: Re: Oszczędne kodowanie form gramatycznych
Od: Wojciech Muła <w...@g...com>
On Thursday, January 23, 2014 3:55:45 PM UTC+1, Borneq wrote:
> W języku polskim, w odróżnieniu od np. angielskiego większość wyrazów
> może mieć bardzo wiele form. W jaki sposób je oszczędnie zapamiętać, aby
> nie pamiętać ich wszystkich, tylko wyraz główny i regułę.
No właśnie tak jak piszesz - jest lista reguł oraz listę wyrazów
+ dla każdego wyrazu zbiór reguł, które się do niego stosują.
Googlaj za affix compression.
w.
-
3. Data: 2014-02-09 13:22:33
Temat: Re: Oszczędne kodowanie form gramatycznych
Od: Borneq <b...@a...hidden.pl>
W dniu 2014-01-25 19:55, Wojciech Muła pisze:
> No właśnie tak jak piszesz - jest lista reguł oraz listę wyrazów
> + dla każdego wyrazu zbiór reguł, które się do niego stosują.
>
> Googlaj za affix compression.
Znalazłem coś takiego:
http://www.eti.pg.gda.pl/katedry/kiw/pracownicy/Jan.
Daciuk/personal/fsa_polski.html
Jana Daciuka
jeszcze nic z tym nie robiłem ale zapowiada się ciekawie.
-
4. Data: 2014-02-12 13:34:04
Temat: Re: Oszczędne kodowanie form gramatycznych
Od: Daniel Janus <d...@d...pl>
Dnia 23.01.2014 Borneq <b...@a...hidden.pl> napisał/a:
> W języku polskim, w odróżnieniu od np. angielskiego większość wyrazów
> może mieć bardzo wiele form. W jaki sposób je oszczędnie zapamiętać, aby
> nie pamiętać ich wszystkich, tylko wyraz główny i regułę. W morfologiku
> np. są wszystkie formy co powoduje, że plik jest znacznych rozmiarów.
Zobacz sobie morfologik-stemming -- tam jest stosowana bardzo efektywna
kompresja, dzięki czemu jar ze słownikiem ma ledwo kilka MB.
--
Daniel Janus <d...@d...pl> | http://danieljanus.pl
Perl is "311 code" (chmod 311 *.pl); writer can write and execute,
his team and the world can execute, nobody can read.
-- Chris Shiflett