Linked-Data-Projekt

Linked-Data-Projekt

Beitragvon skreutzer » 2018-01-08T03:30:12+00:00

Am 2017-12-26 wurde der Vorschlag eingebracht, einen freien Bibeltext wie beispielsweise den der Luther 1912 semantisch auszuzeichnen, d.h. ein Linked-Data-Projekt zu beginnen. Der Text soll in einer Datenbank erfasst und durchsuchbar gemacht werden, insbesondere Namen und Orte wären auszuzeichnen. SPARQL-Abfragen wären eine Möglichkeit, herauszufinden, wo ein Name oder Ort vorkommt, aber auch automatisch generierte Namens- und Ortsverzeichnisse. Zunächst sollen die benötigten Verfahren an einem ausgewählten Kapitel, welches idealerweise Namen und Orte enthält und möglichst das erste eines Bibelbuches ist, entwickelt werden, wozu dessen authentischer digitaler Text hergestellt werden muss, um dann mit einem noch zu entwickelnden Unterstützungswerkzeug ähnlich des Span Selectors die Namen im Text markieren zu können. Die meisten Projekte dieser Art werden hinter verschlossenen Türen durchgeführt, weil proprietäre Bibelprogramme und -verlage ihre Texte aufbereiten wollen, auf der offenen/freien Seite gibt es leider bloß Open Scriptures und bei der Visualisierung von Christoph Römhild und Chris Harrison ist nicht klar, ob es sich um eine einmalige, beschränkte Sache handelt, welcher Bibeltext zugrundegelegt wurde und ob die Daten erhältlich sind.
Benutzeravatar
skreutzer
Administrator
 
Beiträge: 136
Registriert: 2012-12-13T09:31:37+00:00
Wohnort: Bietigheim-Bissingen

Re: Vorbereitungen

Beitragvon therb » 2018-01-10T19:16:58+00:00

In den letzten Tagen habe ich überlegt, welcher Text, für einen ersten Versuch zur Erfassung der Namen geeignet wäre. Er sollte möglichst viele Namen von Personen und eventuell auch ein paar Orte enthalten. Mein Vorschlag, wäre ein Text in der 1. Chronik, da das 1. Kapitel. Hier werden sehr viele Namen aufgezählt. Bezüglich der Namen muss man sich überlegen, ob man die Namen übernimmt, wie sie in der Lutherbibel 1912 vorkommen, oder ob man die Namen entsprechend den Loccumer Richtlinien anpasst. Hier ein Link zu diesen Richtlinien. Die Anpassung an die Richtlinien, wäre benutzerfreundlicher, obwohl es natürlich durchaus auch interessant ist den Originalnamen vor sich zu haben. Was würdet ihr bevorzugen? Den Originalnamen oder die Anpassung gemäß den Loccumer Richtlinien.
therb
 
Beiträge: 6
Registriert: 2018-01-08T19:22:45+00:00

Re: Linked-Data-Projekt

Beitragvon skreutzer » 2018-01-15T03:22:47+00:00

Nur ein kleiner Fortschitt diese Woche: ich habe verifiziert, dass die neuen Dateien auf mybible.zone mit den alten inhaltlich identisch sind, geändert wurden lediglich die Angaben zu den Bibelbüchern. Als nächstes würde ich versuchen, den Text zu extrahieren/vorzubereiten, und ein gedrucktes Exemplar als Vorlage zu erfassen. Bezüglich der Loccumer Richtlinien würde ich vorschlagen, dass wir natürlich die Namen wie in der Vorlage beibehalten, die dann aber im Rahmen unseres Linked-Data-Projekts mit dem Loccumer Äquivalent verknüpfen, sodass man nach dem Loccumer Namen suchen kann, wenn man den der Luther 1912 nicht kennt und um über verschiedene Bibeln, wo ein solches Mapping ebenfalls besteht, die Personen eindeutig zuordnen kann. Alternativ oder zusätzlich würde ich gerne mal nachfragen, ob sie bei Open Scriptures etwas zu diesem Thema haben.
Benutzeravatar
skreutzer
Administrator
 
Beiträge: 136
Registriert: 2012-12-13T09:31:37+00:00
Wohnort: Bietigheim-Bissingen

Re: Linked-Data-Projekt

Beitragvon therb » 2018-01-16T20:16:39+00:00

Das ist eine gute Idee. Ich habe inzwischen eine Lutherbibel aus dem Jahr 1912 vorliegen. Wann diese gedruckt wurde, weiß ich nicht genau, ich habe jedoch mit ihrer Hilfe schon mal es anhand dem ersten Kapitel der Chronik versucht, wie man es auch später eventuell machen könnte. Inwieweit hast du schon überlegt bezüglich der spätereren Umsetzung. Ich fände es toll, wenn man die Daten in einer Datenbank erfasst. Ich arbeite ja auch bei Wikidata und finde Wikibase von der Oberfläche und von der Bedienung recht gut, vielleicht könnte man ja das installieren und dann mal beginnen mit der Datenbank und den ersten Namen. Allein schon in der Chronik gibt es sehr viele Namen, da diese ja viel von den vorherigen Büchern zusammenfasst. Würde man mal mit dem was man in der Chronik findet beginnen, dann wäre das ein erster Schritt. Man muss dann natürlich auch schauen bezüglich den Eigenschaften die man anlegt und wie man die Datenobjekte benennt und auch zu was man eines anlegt. Da diese so weit ich weiß eher wenig Speicher benötigen, muss man da aber nicht sonderlich sparen. Das sind sehr viele Punkte, die man da bedenken muss, aber damit anfangen wäre gut.
therb
 
Beiträge: 6
Registriert: 2018-01-08T19:22:45+00:00

Re: Linked-Data-Projekt

Beitragvon skreutzer » 2018-01-17T02:19:39+00:00

therb hat geschrieben:Das ist eine gute Idee. Ich habe inzwischen eine Lutherbibel aus dem Jahr 1912 vorliegen.

Sehr gut! Dann können wir bei nächster Gelegenheit abgleichen, ob in unserem Kapitel Unterschiede bestehen oder es sich um die gleiche Textfassung handelt.

Mein Ansatz zur Organisation der Daten wäre ein neuer, nicht wie das vorher bei mir mit Zefania-XML/Haggai-XML/OSIS funktioniert hat, siehe
edl.png
edl.png (76.87 KiB) 6179-mal betrachtet

Der Nachteil ist, dass ich dafür erstmal einiges programmieren muss, der Vorteil aber, dass das für die Zukunft viel flexibler sein wird als die bisherigen Formate (für ein Linked-Data-Projekt bedeutet das, dass man noch weitere Auszeichnungen einfach hinzufügen kann, ohne die anderen Auszeichnungen durcheinanderzubringen usw.). Von dort würde ich nach XML, SQL oder jedes andere beliebige Datenformat konvertieren. Auf meiner Seite wären dann spätere Änderungen recht günstig, weil nichts anderes betroffen wäre von der Änderung außer den Teilen selbst, die geändert werden sollen, und man könnte auch in separaten Schritten über den Text gehen und jeweils weitere Auszeichnungen hinzufügen, ohne sich auch mit den anderen bestehenden befassen zu müssen. Ich könnte damit voraussichtlich sehr spezifische Tools programmieren, die die Arbeit mit dem Text unterstützen. Klar muss das dann jedes Mal in Code gegossen werden (solange kein generisches XSLT-Äquivalent besteht), aber ich würde gerne herausfinden, ob sich diese Form der Datenhaltung lohnt. Wäre das zu abgehoben oder zu langsam für deine Zwecke? Für dein Datenbanktabellen-Design könntest du vermutlich anlegen, wie du es gern hättest, und mit wenig Aufwand könnten die bestehenden Daten in andere Spalten überführt werden, so jedenfalls die Idee...
Benutzeravatar
skreutzer
Administrator
 
Beiträge: 136
Registriert: 2012-12-13T09:31:37+00:00
Wohnort: Bietigheim-Bissingen

Re: Linked-Data-Projekt

Beitragvon therb » 2018-01-17T19:59:04+00:00

Das freut mich sehr, dass du jetzt auch schon weißt, wie du das organisieren möchtest. Ich finde es gut, wenn man neue Wege ausprobiert. Die Zeit ist kein Problem, es wäre halt gut, wenn ich bald starten könnte, das Projekt ist ja sehr langfristig und die Zahl der Bibelübersetzungen ja auch sehr groß. Da ich mich selbst mit Datenbanken von der Installation her nicht gut auskenne, wäre die Bitte an dich, ob du mir eine installieren könntest. Wikibase, das auch bei Wikidata verwendet wird kenne ich bereits. Vielleicht kann man ja das verwenden und dann den Inhalt der Datenbank irgendwann, wenn es gewünscht ist auch dort zur Verfügung gestellt werden, ohne große Änderungen. Ich habe gerade anhand deiner Beispiele geschaut, die Namen sind alle in meiner Version gleich. Das heißt also hier wurde nichts geändert, bzw. meine Version ist eventuell authentisch. Weißt du was da im Original für eine Schriftart verwendet wird. Manche Buchstaben sind nur schwer zu unterscheiden. Daran gewöhnt man sich aber. Ich mache gerade Versuche mit der Transkription des Griechischen und Hebräischen. Weißt du eine gute Übersicht, wie das Ganze transkribiert wird. Das würde mir weiterhelfen.
therb
 
Beiträge: 6
Registriert: 2018-01-08T19:22:45+00:00

Re: Linked-Data-Projekt

Beitragvon skreutzer » 2018-01-17T23:51:58+00:00

Nachdem ich am Wochenende bereits verifizieren konnte, dass sich bei unserer bevorzugten digitalen Quelle LUT+ 1912 von mybible.zone nichts geändert hat außer der Spaltenaufbau, habe ich mir die Datenbank nochmal genauer angeschaut. Der Seite zur Übersetzung hast du wahrscheinlich schon entnommen, dass diese Datei eine SQLite-Datenbank ist, für welche man im Unterschied zu vielen anderen DBMSs nicht extra einen Server installieren und starten muss, sondern alles in einer einzigen Datei verwaltet wird. Mit dem wunderbaren frei lizenzierten SQLite Database Browser kann man da direkt reinschauen, und damit hättest du auch eigentlich schon deine Datenbanksoftware eingerichtet. Ob die jetzt all das kann, was du gerne machen möchtest, weiß ich freilich nicht, das wäre noch herauszufinden. Falls es aber ein anderes DBMS sein soll, gibt es einen SQL-Export (habe ich noch nicht probiert) und wichtig für mich: einen CSV-Export. Ich habe zwar bereits einen CSV-zu-XML-Konverter, den ich heute auf das Exportergebnis angesetzt habe, der Konverter enthält aber, wie ich früher schon festgestellt habe, offenbar ein paar Fehler, sodass ich wohl einen neuen programmieren werde. Das dauert natürlich auch ein wenig (mindestens ein Wochenende, vielleicht an die zwei Wochen, wenn ich dazu komme), aber wenn ich die Verse erstmal in XML habe, kriege ich sie leicht überallsonsthin.

Wenn du bereits Wikibase kennst, hast du bei dir eine Instanz davon eingerichtet, mit der du arbeiten kannst? Brauchst du dabei Hilfe? Obwohl ich die Wikimedia eigentlich mag, finde ich die technisch ziemlich schlecht aufgestellt (z.B. Wikitext zur Datenhaltung), weshalb ich nicht wirklich Lust habe, mir Wikibase genauer anzuschauen. Ich habe gerade etwas zur API und zum Import gefunden, kann den Angaben aber nur schwer entnehmen, ob die irgendwie relevant sind. Daher halt auch nochmal die Frage, was ganz am Ende mit den Ortnamen/Personennamen geschehen soll, was für dich persönlich das Nutzungsziel wäre – geht es ausschließlich darum, diese Daten am Ende in Wikidata einspeisen zu können oder hast du für dich evtl. noch andere Nutzungsszenarien (Personen-/Ortsverzeichnis, Verwertung in Apps/Bibelprogrammen, Suche, ...)?

Am Wochenende würde ich mein gedrucktes Exemplar mal erfassen, damit es als Quelle/Vorlage zugrunde gelegt werden kann, und dann könnten sowohl du als auch ich von 1. Chronik 1 Scans/Fotos machen, damit wir unsere Textgrundlage vergleichen können und die dann mit der digitalen LUT+. Das kann ich alles übernehmen, du kannst auch auf ein Scan/Foto von deiner verzichten und die bloß mit meinen Bildern vergleichen, wenn dir das überhaupt wichtig ist. Wenn am Ende von meiner Seite aus feststeht, dass die LUT+ zumindest in diesem Kapitel die gedruckte Ausgabe authentisch wiedergibt, kann dann natürlich mit der digitalen Fassung bedenkenlos gearbeitet werden. Der Abgleich der Namen allein hilft vermutlich wenig, da die jetzt nicht so sehr übersetzerischen Veränderungen unterliegen wie der sonstige Text. Aussagekräftiger ist da vermutlich Hesekiel 37,25.

Die verwendete Schriftart gehört zur Gruppe der gebrochenen Schriften, namentlich wird das wohl eine Frakturschrift sein. Falls es bei der Identifizierung von Buchstaben Schwierigkeiten geben sollte, können wir uns das ruhig mal gemeinsam anschauen, oder alternativ kannst du dann auch auf den digitalen Text zurückgreifen, sobald er korrekturgelesen ist oder auch schon vorab. Für die Transkription von Griechisch oder Hebräisch gibt es freilich Regeln, aber meinst du den Fraktursatz oder eben Griechisch/Hebräisch?
Benutzeravatar
skreutzer
Administrator
 
Beiträge: 136
Registriert: 2012-12-13T09:31:37+00:00
Wohnort: Bietigheim-Bissingen

Re: Linked-Data-Projekt

Beitragvon therb » 2018-01-18T19:39:43+00:00

Heute habe ich nochmal über das Ziel, das dieses Projekt aus meiner Sicht verfolgen sollte nachgedacht. Mein Ziel ist es eine Übersicht über alle Personen, Völker und Orte in der Bibel zu erstellen und diese unter einer freien Lizenz einem breiten Publikum zur Verfügung zu stellen. Dafür muss dann das Ergebnis gut präsentiert werden und die Bedienung leicht verständlich sein. Ich habe die SQL-Lite Datenbank angeschaut und denke, dass man damit arbeiten kann. Wichtig ist für mich, dass man Beziehungen zwischen Objekten angeben kann. So eine Datenbank kann erst mal als Basis dienen und das Endresultat sollte dann anderst präsentiert werden. Wikibase habe ich noch nicht installiert und das kann ich auch nicht. Dazu fehlt mir das Wissen, wie das funktioniert. Aus Sicht der benötigten Ressourcen ist SQLite ja besser, wenn man da keinen Server braucht. Bei der Transkription meine ich das Griechische und Hebräische. Das versuche ich gerade in einer einfachen Form in Excel. Da kann man das Wort eingeben, das in lateinische Schrift transkribiert werden soll, dann zerlege ich dieses in die einzelnen Buchstaben, über die Finden-Funktion und als nächster Schritt würde dann das zuordnen der des entsprechenden lateinischen Buchstaben folgen, wo ja je nach vorkommenden Buchstaben im Wort der hebräische oder griechische Buchstabe mit unterschiedlichen lateinischen Buchstaben ersetzt wird. Dazu gibt es recht umfangreiche Regeln und da bräuchte ich eine gute Übersicht. Wegen der Schrift, wäre es toll gemeinsam ein paar Buchstaben anzuschauen.
therb
 
Beiträge: 6
Registriert: 2018-01-08T19:22:45+00:00

Re: Linked-Data-Projekt

Beitragvon skreutzer » 2018-01-21T13:09:42+00:00

Super! Das hört sich überschaubar an, sodass wir da realistisch gesehen zu einem ersten Ergebnis kommen können und von dort dann weiter. SQLite ist jetzt noch längst nicht das letzte Wort, aber als erstes Hilfsmittel für Queries vielleicht ganz brauchbar, zumal der Bibeltext darin bereits vorliegt. Sicher wird die Erarbeitung der Daten nicht direkt darin stattfinden, sondern entweder per Schnittstelle oder per Export/Import.

Wegen der Transkription Griechisch fällt mir spontan die ehemalige Mailingliste Bibelgriechisch, jetzt linguascriptura.org, ein, Peter Streitenberger hatte dafür eine eigene Systematik entwickelt. Die kann ich aber im Moment nicht finden, werde mal nachfragen. Ob das jetzt normativ ist, weiß ich nicht, es gäbe auch noch andere Anlaufstellen. Auch die Aufschlüsselung der Fraktursatz-Buchstaben würde ich verschieben, bis die konkrete Arbeit am Text beginnt.

Diese Woche habe ich meine Luther-Ausgabe erfasst, die als authentische Grundlage gelten kann, solange es mir nicht gelingt, ein NT von 1912 der Preußischen Haupt-Bibelgesellschaft zu finden. Daneben habe ich angefangen, einen Konverter von CSV nach XML zu programmieren (Parser mit Baumstruktur), und bin im ersten Anlauf erstmal gescheitert. Ich habe zwar schon einen Konverter mit Code von jemand anderem, der produziert aber eine fehlerhafte Ausgabe. Der andere Code (externes Projekt) wurde zwar in der Zwischenzeit aktualisiert, ich weiß aber nicht, ob es sich lohnt, diese Updates zu übernehmen, ob sie den Fehler beheben. Wichtig wäre diese Komponente, um vom digitalen Text wie von mybible.zone bereitgestellt in SQLite nach CSV exportieren zu können (es wäre auch denkbar, einen XML-Export in SQLite einzubauen...), von dort dann nach XML, und von XML via XSLT nach überallhin.

Update: Die neueste Version vom Konverter des anderen Entwicklers hat den Fehler nicht mehr, sodass ich augenscheinlich den CSV-Export aus SQLite erfolgreich nach XML (17 MB) konvertieren konnte. Auf der Basis dieser Datei kann die Korrekturlesung von 1. Chronik 1 demnächst beginnen, sobald ein Scan der Seite angefertigt ist. Ob ich meinen eigenen CSV-Parser zwecks XML-Generierung noch fertigstellen soll?

Update: Scans von 1. Chronik 1 sind da.

Update: Ich habe jetzt doch csv2xml2 auf den aktuellen Stand gebracht, und mit den Fehlerkorrekturen funktioniert es auch richtig. Ob ich immer noch meinen eigenen Parser schreiben oder den bisherigen Code dafür wegschmeißen soll? Jedenfalls habe ich die Textgrundlage von mybible.zone via SQLite Database Browser nach CSV exportiert und mithilfe der Konfigurations-/Jobdatei

Code: Alles auswählen
<?xml version="1.0" encoding="UTF-8"?>
<csv2xml2-config>
  <delimiter>,</delimiter>
  <ignore-first-line>true</ignore-first-line>
  <root-tag-name>bible</root-tag-name>
  <encapsulation-tag-name>verses</encapsulation-tag-name>
  <row-tag-name>verse</row-tag-name>
  <mapping>
    <csv-column number="0" xml-tag-name="book-number"/>
    <csv-column number="1" xml-tag-name="chapter-number"/>
    <csv-column number="2" xml-tag-name="verse-number"/>
    <csv-column number="3" xml-tag-name="text"/>
  </mapping>
</csv2xml2-config>


erfolgreich in eine XML-Datei mit dem Aufbau

Code: Alles auswählen
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<bible>
    <verses>
        <verse>
            <book-number>130</book-number>
            <chapter-number>1</chapter-number>
            <verse-number>1</verse-number>
            <text>Adam<S>121</S>, Seth<S>8352</S>, Enos<S>583</S></text>
        </verse>
    </verses>
</bible>


konvertiert. Nötig war dabei lediglich, die in der CSV enthaltenen < und >, die von csv2xml2 natürlich nach &lt; und &gt; escaped werden mussten, wieder zurück nach < und > zu ersetzen, damit diese als <S>-XML-Elemente genutzt werden konnten, womit die Strong-Nummern der Quelle ausgezeichnet sind. Die Buchnummer ist in der Quelle um Faktor 10 erhöht. Ich werde 1. Chronik 1 einmal zuschicken und habe schon festgestellt, dass Unterschiede bestehen, eine Korrekturlesung also nötig ist und als nächster Schritt vorgesehen wäre: im Vers 1 fehlt am Ende das Komma, so auch in weiteren Versen der Aufzählung. Von mir aus kann auch gerne jetzt in eins der bekannten Formate oder auch SQL mithilfe von XSLT konvertiert werden, ich persönlich kann die Korrekturlesung aber auch gut am jetzigen Stand vornehmen.

Update: Ich habe ein kleines Tool in C++ programmiert (auf Wunsch portiere ich das auch gerne nach Java, damit es zu den anderen Tools passt, aber eigentlich brauchen wir es nur einmalig kurz aufrufen und machen dann mit dem Ergebnis weiter), das die Strong-Nummern um ihr Wort herumwrappt, wie sich das in XML gehört. Der neue Aufbau ist

Code: Alles auswählen
<?xml version="1.0" encoding="UTF-8"?>
<bible>
    <verses>
        <verse>
            <book-number>130</book-number>
            <chapter-number>1</chapter-number>
            <verse-number>1</verse-number>
            <text><S number="121">Adam</S>, <S number="8352">Seth</S>, <S number="583">Enos</S></text>
        </verse>
    </verses>
</bible>


Strongs sind zwar nett, aber ich persönlich würde die in meinen eigenen Projektergebnissen eher ignorieren, da sie nicht im originalen Druck enthalten sind. Für die Verknüpfung mit Namen/Orten können sie sehr hilfreich sein, weshalb wir sie uns zu einem späteren Zeitpunkt nochmal anschauen werden. Bei der Anwendung meines kleinen Tools auf den gesamten Luther-1912-Text stellte sich heraus, dass csv2xml2 immer noch Fehler enthält, weshalb doch die Fertigstellung eines eigenen CSV-nach-XML-Konverters wieder notwendig wäre. 1. Chronik 1 scheint jedoch nicht davon betroffen zu sein, d.h. wir können auch ohne meine Neuentwicklung erstmal weiterarbeiten.
Benutzeravatar
skreutzer
Administrator
 
Beiträge: 136
Registriert: 2012-12-13T09:31:37+00:00
Wohnort: Bietigheim-Bissingen

Re: Linked-Data-Projekt

Beitragvon therb » 2018-01-31T18:32:58+00:00

Aktuell versuche ich mir einen Überblick über die Bibel zu verschaffen, indem ich jedes Kapitel in einer Tabelle erfasse. Ich bin gerade im alten Testament und da gibt es viele Aufzählungen von Personen und teilweise auch Orten. Hierbei sind bei mir die Überschriften teilweise an anderer Stelle, der Inhalt ist aber soweit ich gesehen habe gleich. Meine Bibel hat ein kleineres Format und ist zweispaltig aufgebaut, also sind auf einer Buchseite vier Spalten. Es ist viel Arbeit alles zu erfassen aber auch sehr interessant und wichtig um einen Überblick zu erlangen. Kannst du eventuell die SQL-Lite Datenbank einrichten, da ich von Datenbanken von Seiten der Installation wenig Ahnung habe.
therb
 
Beiträge: 6
Registriert: 2018-01-08T19:22:45+00:00

Nächste

Zurück zu Luther 1912

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 0 Gäste

cron