Re: Biblia jako XML, reprezentacja danych - Grupy dyskusyjne w eGospodarka.pl

Path: news-archive.icm.edu.pl!newsfeed.gazeta.pl!news.onet.pl!lublin.pl!uw.edu.pl!new
sgate.cistron.nl!newsgate.news.xs4all.nl!194.109.133.84.MISMATCH!newsfeed.xs4al
l.nl!newsfeed5.news.xs4all.nl!xs4all!feeder.news-service.com!postnews.google.co
m!d20g2000yqh.googlegroups.com!not-for-mail
From: MinkoSoft <m...@g...com>
Newsgroups: pl.comp.programming
Subject: Re: Biblia jako XML, reprezentacja danych
Date: Thu, 3 Dec 2009 10:43:32 -0800 (PST)
Organization: http://groups.google.com
Lines: 89
Message-ID: <5...@d...googlegroups.com>
References: <heu8ha$94r$1@inews.gazeta.pl>
NNTP-Posting-Host: 92.29.117.134
Mime-Version: 1.0
Content-Type: text/plain; charset=ISO-8859-2
Content-Transfer-Encoding: quoted-printable
X-Trace: posting.google.com 1259865813 15475 127.0.0.1 (3 Dec 2009 18:43:33 GMT)
X-Complaints-To: g...@g...com
NNTP-Posting-Date: Thu, 3 Dec 2009 18:43:33 +0000 (UTC)
Complaints-To: g...@g...com
Injection-Info: d20g2000yqh.googlegroups.com; posting-host=92.29.117.134;
posting-account=tcceaAoAAAAicmRaPPDSU6KxSU6ybphR
User-Agent: G2/1.0
X-HTTP-UserAgent: Mozilla/5.0 (Windows; U; Windows NT 5.1; pl; rv:1.9.1.5)
Gecko/20091102 Firefox/3.5.5,gzip(gfe),gzip(gfe)
Xref: news-archive.icm.edu.pl pl.comp.programming:184236
[ ukryj nagłówki ]
On 29 Lis, 16:46, "Wojciech \"Spook\" Sura"
<s...@s...please.op.pl> wrote:
> Witam!
>
> Chciałbym przechować Pismo Święte w postaci pliku XML z podziałem na księgi,
> rozdziały i wersety. W Internecie udało mi się znaleźć tylko jedno miejsce z
> którego da się ściągnąć Biblię w tej postaci, ale wynikł pewien problem w
> reprezentacji danych.
>
> Otóż na samym początku, w księdze Genesis mamy następujący fragment:
>
> [Cytuję]
> (...)
> <werset numer="4">Oto są dzieje początków po stworzeniu nieba i
> ziemi.</werset>
> <header_2>Drugi opis stworzenia człowieka</header_2>
> Gdy Pan Bóg uczynił ziemię i niebo,
> <werset numer="5">nie było jeszcze żadnego krzewu polnego na ziemi, ani
> żadna trawa polna jeszcze nie wzeszła - bo Pan Bóg nie zsyłał deszczu na
> ziemię i nie było człowieka, który by uprawiał ziemię</werset>
> (...)
> [/Cytuję]
>
> I dalej mamy już normalnie. Zapytam pewnie jakiegoś biblistę, ale wygląda na
> to, że werset czwarty jest przedzielony na dwa kawałki nagłówkiem drugiego
> stopnia. Jestem też przekonany, że nie jest to jedyne miejsce takiej
> postaci, a co gorsza będę musiał narzeźbić jakiś parser do poprawienia tego
> błędu, bo cały tekst ma przeszło 190000 linijek i ręczne poprawki nie
> wchodzą w grę.
>
> No i tu mam zagwózdkę, bo nie wiem, jak to teraz ubrać w poprawnego XMLa.
> Powyższy kod jest oczywiście nieprawidłowy, bo - przynajmniej za mojej
> pamięci - gałąź może zawierać albo tekst albo podgałęzie, nigdy na raz. Mam
> kilka pomysłów, ale nie jestem zadowolony z żadnego rozwiązania:
>
> a) Ubrać urwany kawałek w znaczniki <werset> i nadać mu ten sam numer, jak
> werset poprzedzający nagłówek. Wtedy jednak powstaje pewna
> niejednoznaczność - co mam pokazać, jeśli użytkownik zażyczy sobie
> przeczytać właśnie ten werset?
> b) Podobnie, jak powyżej, ale dodać do znacznika jakiś parametr informujący
> o tym, że jest to kontynucja urwanego wersetu, coś pokroju <werset
> rodzaj="cd">. Tyle tylko, że wtedy będę musiał przygotować jakiś dodatkowy
> mechanizm analizujący to, co jest za danym wersetem, bo może się okazać, że
> werset jest połamany na kawałki, jak powyżej.
> c) Zrezygnować z oznaczania wersetów znacznikami, natomiast wprowadzić
> własne formatowanie wewnątrz rozdziału - przykładowo przyjąć, że @(1)
> oznacza, że jest to początek pierwszego wersetu. Niby wygodne do
> oprogramowania i przetworzenia, ale wydaje mi się, że jest to hackerskie
> rozwiązanie, z którym będę miał później same problemy.
>
> Rozwiązaniem byłoby oczywiście usunięcie znacznika nagłówka drugiego
> poziomu, ale w ten sposób pozbywam się treści, co oczywiście jest
> nieakceptowalne.
>
> Czy macie może jakiś lepszy pomysł?
>
> Pozdrawiam -- Spook.
>
> --
> ! ._______. Warning: Lucida Console sig! //) !
> ! || spk || www.spook.freshsite.pl / _ """*!
> ! ||_____|| spook at op.pl / ' | ""!
> ! | ___ | tlen: spoko_ws gg:1290136 /. __/"\ '!
> ! |_|[]_|_| May the SOURCE be with you! \/) \ !

A tak BTW to po cholerę Ci biblia w XML-u?