-
Path: news-archive.icm.edu.pl!newsfeed.gazeta.pl!news.onet.pl!lublin.pl!uw.edu.pl!new
sgate.cistron.nl!newsgate.news.xs4all.nl!194.109.133.84.MISMATCH!newsfeed.xs4al
l.nl!newsfeed5.news.xs4all.nl!xs4all!feeder.news-service.com!postnews.google.co
m!d20g2000yqh.googlegroups.com!not-for-mail
From: MinkoSoft <m...@g...com>
Newsgroups: pl.comp.programming
Subject: Re: Biblia jako XML, reprezentacja danych
Date: Thu, 3 Dec 2009 10:43:32 -0800 (PST)
Organization: http://groups.google.com
Lines: 89
Message-ID: <5...@d...googlegroups.com>
References: <heu8ha$94r$1@inews.gazeta.pl>
NNTP-Posting-Host: 92.29.117.134
Mime-Version: 1.0
Content-Type: text/plain; charset=ISO-8859-2
Content-Transfer-Encoding: quoted-printable
X-Trace: posting.google.com 1259865813 15475 127.0.0.1 (3 Dec 2009 18:43:33 GMT)
X-Complaints-To: g...@g...com
NNTP-Posting-Date: Thu, 3 Dec 2009 18:43:33 +0000 (UTC)
Complaints-To: g...@g...com
Injection-Info: d20g2000yqh.googlegroups.com; posting-host=92.29.117.134;
posting-account=tcceaAoAAAAicmRaPPDSU6KxSU6ybphR
User-Agent: G2/1.0
X-HTTP-UserAgent: Mozilla/5.0 (Windows; U; Windows NT 5.1; pl; rv:1.9.1.5)
Gecko/20091102 Firefox/3.5.5,gzip(gfe),gzip(gfe)
Xref: news-archive.icm.edu.pl pl.comp.programming:184236
[ ukryj nagłówki ]On 29 Lis, 16:46, "Wojciech \"Spook\" Sura"
<s...@s...please.op.pl> wrote:
> Witam!
>
> Chciałbym przechować Pismo Święte w postaci pliku XML z podziałem na księgi,
> rozdziały i wersety. W Internecie udało mi się znaleźć tylko jedno miejsce z
> którego da się ściągnąć Biblię w tej postaci, ale wynikł pewien problem w
> reprezentacji danych.
>
> Otóż na samym początku, w księdze Genesis mamy następujący fragment:
>
> [Cytuję]
> (...)
> <werset numer="4">Oto są dzieje początków po stworzeniu nieba i
> ziemi.</werset>
> <header_2>Drugi opis stworzenia człowieka</header_2>
> Gdy Pan Bóg uczynił ziemię i niebo,
> <werset numer="5">nie było jeszcze żadnego krzewu polnego na ziemi, ani
> żadna trawa polna jeszcze nie wzeszła - bo Pan Bóg nie zsyłał deszczu na
> ziemię i nie było człowieka, który by uprawiał ziemię</werset>
> (...)
> [/Cytuję]
>
> I dalej mamy już normalnie. Zapytam pewnie jakiegoś biblistę, ale wygląda na
> to, że werset czwarty jest przedzielony na dwa kawałki nagłówkiem drugiego
> stopnia. Jestem też przekonany, że nie jest to jedyne miejsce takiej
> postaci, a co gorsza będę musiał narzeźbić jakiś parser do poprawienia tego
> błędu, bo cały tekst ma przeszło 190000 linijek i ręczne poprawki nie
> wchodzą w grę.
>
> No i tu mam zagwózdkę, bo nie wiem, jak to teraz ubrać w poprawnego XMLa.
> Powyższy kod jest oczywiście nieprawidłowy, bo - przynajmniej za mojej
> pamięci - gałąź może zawierać albo tekst albo podgałęzie, nigdy na raz. Mam
> kilka pomysłów, ale nie jestem zadowolony z żadnego rozwiązania:
>
> a) Ubrać urwany kawałek w znaczniki <werset> i nadać mu ten sam numer, jak
> werset poprzedzający nagłówek. Wtedy jednak powstaje pewna
> niejednoznaczność - co mam pokazać, jeśli użytkownik zażyczy sobie
> przeczytać właśnie ten werset?
> b) Podobnie, jak powyżej, ale dodać do znacznika jakiś parametr informujący
> o tym, że jest to kontynucja urwanego wersetu, coś pokroju <werset
> rodzaj="cd">. Tyle tylko, że wtedy będę musiał przygotować jakiś dodatkowy
> mechanizm analizujący to, co jest za danym wersetem, bo może się okazać, że
> werset jest połamany na kawałki, jak powyżej.
> c) Zrezygnować z oznaczania wersetów znacznikami, natomiast wprowadzić
> własne formatowanie wewnątrz rozdziału - przykładowo przyjąć, że @(1)
> oznacza, że jest to początek pierwszego wersetu. Niby wygodne do
> oprogramowania i przetworzenia, ale wydaje mi się, że jest to hackerskie
> rozwiązanie, z którym będę miał później same problemy.
>
> Rozwiązaniem byłoby oczywiście usunięcie znacznika nagłówka drugiego
> poziomu, ale w ten sposób pozbywam się treści, co oczywiście jest
> nieakceptowalne.
>
> Czy macie może jakiś lepszy pomysł?
>
> Pozdrawiam -- Spook.
>
> --
> ! ._______. Warning: Lucida Console sig! //) !
> ! || spk || www.spook.freshsite.pl / _ """*!
> ! ||_____|| spook at op.pl / ' | ""!
> ! | ___ | tlen: spoko_ws gg:1290136 /. __/"\ '!
> ! |_|[]_|_| May the SOURCE be with you! \/) \ !
A tak BTW to po cholerę Ci biblia w XML-u?
Następne wpisy z tego wątku
- 04.12.09 14:13 MoonWolf
- 05.01.10 22:19 Wojciech \"Spook\" Sura
- 05.01.10 23:14 Borneq
- 06.01.10 07:16 Wojciech \"Spook\" Sura
- 16.11.15 11:58 k...@g...com
- 28.02.17 23:07 s...@g...com
- 01.03.17 21:40 t...@g...com
- 06.04.17 22:24 m...@g...com
- 24.04.18 15:23 m...@g...com
- 26.04.18 01:34 M.M.
Najnowsze wątki z tej grupy
- 7. Raport Totaliztyczny: Sprawa Qt Group wer. 424
- TCL - problem z escape ostatniego \ w nawiasach {}
- Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- testy-wyd-sort - Podsumowanie
- Tworzenie Programów Nieuprzywilejowanych Opartych Na Wtyczkach
- Do czego nadaje się QDockWidget z bibl. Qt?
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
- Re: (PDF) Surgical Pathology of Non-neoplastic Gastrointestinal Diseases by Lizhi Zhang
- CfC 28th Ada-Europe Int. Conf. Reliable Software Technologies
- Młodzi programiści i tajna policja
Najnowsze wątki
- 2024-11-29 Dławik CM
- 2024-11-29 [OT] Lewe oprogramowanie
- 2024-11-29 Błonie => Sales Specialist <=
- 2024-11-29 Warszawa => IT Expert (Network Systems area) <=
- 2024-11-29 Warszawa => Ekspert IT (obszar systemów sieciowych) <=
- 2024-11-29 Warszawa => Head of International Freight Forwarding Department <=
- 2024-11-29 Białystok => Inżynier Serwisu Sprzętu Medycznego <=
- 2024-11-29 Pómpy ciepła darmo rozdajoo
- 2024-11-29 Białystok => Application Security Engineer <=
- 2024-11-29 Białystok => Programista Full Stack (.Net Core) <=
- 2024-11-29 Gdańsk => Software .Net Developer <=
- 2024-11-29 Wrocław => Key Account Manager <=
- 2024-11-29 Gdańsk => Specjalista ds. Sprzedaży <=
- 2024-11-29 Chrzanów => Specjalista ds. public relations <=
- 2024-11-27 Re: UseGalileo -- PRODUKTY I APLIKACJE UŻYWAJĄ JUŻ DZIŚ SYSTEMU GALILEO