eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.programmingBiblia jako XML, reprezentacja danychRe: Biblia jako XML, reprezentacja danych
  • Path: news-archive.icm.edu.pl!newsfeed.gazeta.pl!news.onet.pl!lublin.pl!uw.edu.pl!new
    sgate.cistron.nl!newsgate.news.xs4all.nl!194.109.133.84.MISMATCH!newsfeed.xs4al
    l.nl!newsfeed5.news.xs4all.nl!xs4all!feeder.news-service.com!postnews.google.co
    m!d20g2000yqh.googlegroups.com!not-for-mail
    From: MinkoSoft <m...@g...com>
    Newsgroups: pl.comp.programming
    Subject: Re: Biblia jako XML, reprezentacja danych
    Date: Thu, 3 Dec 2009 10:43:32 -0800 (PST)
    Organization: http://groups.google.com
    Lines: 89
    Message-ID: <5...@d...googlegroups.com>
    References: <heu8ha$94r$1@inews.gazeta.pl>
    NNTP-Posting-Host: 92.29.117.134
    Mime-Version: 1.0
    Content-Type: text/plain; charset=ISO-8859-2
    Content-Transfer-Encoding: quoted-printable
    X-Trace: posting.google.com 1259865813 15475 127.0.0.1 (3 Dec 2009 18:43:33 GMT)
    X-Complaints-To: g...@g...com
    NNTP-Posting-Date: Thu, 3 Dec 2009 18:43:33 +0000 (UTC)
    Complaints-To: g...@g...com
    Injection-Info: d20g2000yqh.googlegroups.com; posting-host=92.29.117.134;
    posting-account=tcceaAoAAAAicmRaPPDSU6KxSU6ybphR
    User-Agent: G2/1.0
    X-HTTP-UserAgent: Mozilla/5.0 (Windows; U; Windows NT 5.1; pl; rv:1.9.1.5)
    Gecko/20091102 Firefox/3.5.5,gzip(gfe),gzip(gfe)
    Xref: news-archive.icm.edu.pl pl.comp.programming:184236
    [ ukryj nagłówki ]

    On 29 Lis, 16:46, "Wojciech \"Spook\" Sura"
    <s...@s...please.op.pl> wrote:
    > Witam!
    >
    > Chciałbym przechować Pismo Święte w postaci pliku XML z podziałem na księgi,
    > rozdziały i wersety. W Internecie udało mi się znaleźć tylko jedno miejsce z
    > którego da się ściągnąć Biblię w tej postaci, ale wynikł pewien problem w
    > reprezentacji danych.
    >
    > Otóż na samym początku, w księdze Genesis mamy następujący fragment:
    >
    > [Cytuję]
    > (...)
    > <werset numer="4">Oto są dzieje początków po stworzeniu nieba i
    > ziemi.</werset>
    > <header_2>Drugi opis stworzenia człowieka</header_2>
    > Gdy Pan Bóg uczynił ziemię i niebo,
    > <werset numer="5">nie było jeszcze żadnego krzewu polnego na ziemi, ani
    > żadna trawa polna jeszcze nie wzeszła - bo Pan Bóg nie zsyłał deszczu na
    > ziemię i nie było człowieka, który by uprawiał ziemię</werset>
    > (...)
    > [/Cytuję]
    >
    > I dalej mamy już normalnie. Zapytam pewnie jakiegoś biblistę, ale wygląda na
    > to, że werset czwarty jest przedzielony na dwa kawałki nagłówkiem drugiego
    > stopnia. Jestem też przekonany, że nie jest to jedyne miejsce takiej
    > postaci, a co gorsza będę musiał narzeźbić jakiś parser do poprawienia tego
    > błędu, bo cały tekst ma przeszło 190000 linijek i ręczne poprawki nie
    > wchodzą w grę.
    >
    > No i tu mam zagwózdkę, bo nie wiem, jak to teraz ubrać w poprawnego XMLa.
    > Powyższy kod jest oczywiście nieprawidłowy, bo - przynajmniej za mojej
    > pamięci - gałąź może zawierać albo tekst albo podgałęzie, nigdy na raz. Mam
    > kilka pomysłów, ale nie jestem zadowolony z żadnego rozwiązania:
    >
    > a) Ubrać urwany kawałek w znaczniki <werset> i nadać mu ten sam numer, jak
    > werset poprzedzający nagłówek. Wtedy jednak powstaje pewna
    > niejednoznaczność - co mam pokazać, jeśli użytkownik zażyczy sobie
    > przeczytać właśnie ten werset?
    > b) Podobnie, jak powyżej, ale dodać do znacznika jakiś parametr informujący
    > o tym, że jest to kontynucja urwanego wersetu, coś pokroju <werset
    > rodzaj="cd">. Tyle tylko, że wtedy będę musiał przygotować jakiś dodatkowy
    > mechanizm analizujący to, co jest za danym wersetem, bo może się okazać, że
    > werset jest połamany na kawałki, jak powyżej.
    > c) Zrezygnować z oznaczania wersetów znacznikami, natomiast wprowadzić
    > własne formatowanie wewnątrz rozdziału - przykładowo przyjąć, że @(1)
    > oznacza, że jest to początek pierwszego wersetu. Niby wygodne do
    > oprogramowania i przetworzenia, ale wydaje mi się, że jest to hackerskie
    > rozwiązanie, z którym będę miał później same problemy.
    >
    > Rozwiązaniem byłoby oczywiście usunięcie znacznika nagłówka drugiego
    > poziomu, ale w ten sposób pozbywam się treści, co oczywiście jest
    > nieakceptowalne.
    >
    > Czy macie może jakiś lepszy pomysł?
    >
    > Pozdrawiam -- Spook.
    >
    > --
    > ! ._______. Warning: Lucida Console sig!    //)    !
    > ! || spk ||    www.spook.freshsite.pl     / _ """*!
    > ! ||_____||        spook at op.pl         / '  | ""!
    > ! |  ___  |   tlen: spoko_ws gg:1290136  /. __/"\ '!
    > ! |_|[]_|_|  May the SOURCE be with you! \/)     \ !

    A tak BTW to po cholerę Ci biblia w XML-u?

Podziel się

Poleć ten post znajomemu poleć

Wydrukuj ten post drukuj


Następne wpisy z tego wątku

Najnowsze wątki z tej grupy


Najnowsze wątki

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: