eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.programming › Oszczędne kodowanie form gramatycznych
Ilość wypowiedzi w tym wątku: 4

  • 1. Data: 2014-01-23 15:55:45
    Temat: Oszczędne kodowanie form gramatycznych
    Od: Borneq <b...@a...hidden.pl>

    W języku polskim, w odróżnieniu od np. angielskiego większość wyrazów
    może mieć bardzo wiele form. W jaki sposób je oszczędnie zapamiętać, aby
    nie pamiętać ich wszystkich, tylko wyraz główny i regułę. W morfologiku
    np. są wszystkie formy co powoduje, że plik jest znacznych rozmiarów.
    A teraz mamy takie coś jak słownik korekty języka polskiego dla peceta
    lub smartfona, czy też klawiaturę dla smartfona. Słownik cały czas
    siedzi w pamięci, więc chcemy aby był w miarę nieduży.
    A jak to jest rozwiązane w istniejącej korekcie pisowni? Zdaje się, że
    słowniki są nawet dublowane, np. inny słownik używa Word, inny Firefox,
    a jeszcze inny Chrome, zjadają pamięć, ale chyba nie ma tam wszystkich form.
    Na przykład działająca klawiatura XPeria liczy 8.2 MB, a gdyby tam
    pamiętać wszystkie formy choćby tylko dla języka polskiego, to mogła by
    liczyć np. nie 8.2 a a 82 MB.


  • 2. Data: 2014-01-25 19:55:27
    Temat: Re: Oszczędne kodowanie form gramatycznych
    Od: Wojciech Muła <w...@g...com>

    On Thursday, January 23, 2014 3:55:45 PM UTC+1, Borneq wrote:
    > W języku polskim, w odróżnieniu od np. angielskiego większość wyrazów
    > może mieć bardzo wiele form. W jaki sposób je oszczędnie zapamiętać, aby
    > nie pamiętać ich wszystkich, tylko wyraz główny i regułę.

    No właśnie tak jak piszesz - jest lista reguł oraz listę wyrazów
    + dla każdego wyrazu zbiór reguł, które się do niego stosują.

    Googlaj za affix compression.

    w.


  • 3. Data: 2014-02-09 13:22:33
    Temat: Re: Oszczędne kodowanie form gramatycznych
    Od: Borneq <b...@a...hidden.pl>

    W dniu 2014-01-25 19:55, Wojciech Muła pisze:
    > No właśnie tak jak piszesz - jest lista reguł oraz listę wyrazów
    > + dla każdego wyrazu zbiór reguł, które się do niego stosują.
    >
    > Googlaj za affix compression.

    Znalazłem coś takiego:
    http://www.eti.pg.gda.pl/katedry/kiw/pracownicy/Jan.
    Daciuk/personal/fsa_polski.html
    Jana Daciuka
    jeszcze nic z tym nie robiłem ale zapowiada się ciekawie.


  • 4. Data: 2014-02-12 13:34:04
    Temat: Re: Oszczędne kodowanie form gramatycznych
    Od: Daniel Janus <d...@d...pl>

    Dnia 23.01.2014 Borneq <b...@a...hidden.pl> napisał/a:
    > W języku polskim, w odróżnieniu od np. angielskiego większość wyrazów
    > może mieć bardzo wiele form. W jaki sposób je oszczędnie zapamiętać, aby
    > nie pamiętać ich wszystkich, tylko wyraz główny i regułę. W morfologiku
    > np. są wszystkie formy co powoduje, że plik jest znacznych rozmiarów.

    Zobacz sobie morfologik-stemming -- tam jest stosowana bardzo efektywna
    kompresja, dzięki czemu jar ze słownikiem ma ledwo kilka MB.

    --
    Daniel Janus <d...@d...pl> | http://danieljanus.pl
    Perl is "311 code" (chmod 311 *.pl); writer can write and execute,
    his team and the world can execute, nobody can read.
    -- Chris Shiflett

strony : [ 1 ]


Szukaj w grupach

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: