Annotationsebenen in ANNIS
Die untenstehende Tabelle gibt einen Überblick über alle Annotationsebenen und ihre Verfügbarkeit in den einzelnen Teilkorpora.
Unter der Tabelle folgt eine kurze Beschreibung der Annotationsebenen.
| Layer | ReF.RUB/ReF.MLU | ReF.UP |
|---|---|---|
line |
✓ | × |
column |
✓ | × |
side |
✓ | × |
page |
✓ | × |
reference |
✓ | × |
tok |
entspricht tok_dipl |
✓ |
tok_dipl |
✓ | × |
tok_anno |
✓ | tok |
lemma |
✓ | × |
lemmaID |
✓ | × |
pos |
✓ | ✓ |
posLemma |
✓ | × |
inflection |
✓ | nur ReFMorph.UP |
cat |
× | ✓ |
label |
× | ✓ |
edge |
× | ✓ |
secedge |
× | ✓ |
tokenization |
✓ | × |
boundary |
✓ | × |
punc |
✓ | × |
annoType |
✓ | × |
Layoutebenen
Die Layoutebene reference setzt sich aus den Annotationen line, column, side und page zusammen. Diese beziehen sich in der Regel auf Zeile, Spalte, Blattseite und Folioseite der Handschriften. Ausnahmen sind Texte, in denen die Editionszählung die Primärzählung ist - z.B. weil das Manuskript nicht mehr existiert. Bei diesen wird eine virtuelle Editionszählung genutzt, die je nach Text unterschiedliche Semantik haben kann. Alle Layoutebenen
sind suchbar, werden aber in den Resultaten nicht einzeln, sondern nur
konkateniert als reference angezeigt.
Tokenebenen
tok_dipl und tok_anno sind die grundlegenden Tokenebenen. Sie kombinieren je zwei Aspekte der Wortformen: Tokenisierung und Schreibung. Tokenisierung
betrifft Wörter, die modern anders getrennt würden, als es historisch der Fall
war, wie beispielsweise soltu - “sollst du” (siehe unten
Tokenisierung).
Schreibung unterscheidet sich darin, ob Buchstaben oder Diakritika verwendet werden können, die nicht Teil des ASCII Zeichensatzes sind (siehe Simplifizierung).
tok_dipl ist soweit möglich an die historischen Formen angelehnt: Es
kombiniert historische Tokenisierung mit einer möglichst getreuen Darstellung
der Buchstaben. tok_anno dagegen kombiniert die simplifizierte Schreibung mit
der modernisierten Tokenisierung.
Lemmaebenen
Die lemma Ebene enthält das belegspezifische Lemma nach dem DWB.
Ergänzend hierzu enthält lemmaId die ID des Eintrags im Wörterbuchnetz, sowie einen Link zu der Online-Version. Da die lemmaId Ebene HTML Links enthält, kann sie in ANNIS nur über Regular Expressions durchsucht werden. Beispiel:
lemmaId=/.*GE05989.*/ ('er')
Wortart- und Morphologieebenen
pos und posLemma enthalten die beleg- bzw. lemmaspezifische Wortartenannotation. Morphologie wird in der Ebene inflection annotiert.
Syntaxebenen
Die Ebenen cat, label, edge und secedge enthalten die im Teilkorpus ReF.UP annotierten Syntaxannotationen (siehe Dokumentation).
Tokenisierung
Die Ebene tokenization dokumentiert die Änderungen im historischen Text, die im Rahmen der Modernisierung vorgenommen wurden. Die konkreten Tags sind dem HiTS Standard1 entnommen.
| MS | Multiverbierung mit Spatium |
| ML | Multiverbierung am Zeilenende |
| US | Univerbierung mit Spatium |
| UL | Univerbierung am Zeilenende |
| UH | Univerbierung mit Hyphen (Trenn-/Bindestrich) |
| UB | Univerbierung mit Binnenmajuskel |
| MLH | Multiverbierung am Zeilenende mit Hyphen (Trenn-/Bindestrich) |
| ULH | Univerbierung am Zeilenende mit Hyphen (Trenn-/Bindestrich) |
| ULS | Univerbierung am Zeilenende mit Spatium |
Wenn bei einer Tokenisierungsänderung mehrere tok_anno einem tok_dipl entsprechen, ist dies durch eine angehängte Nummer am Tag kenntlich gemacht. Beispielsweise bezeichnet MS2 das zweite tok_anno aus einer Multiverbierung mit Spatium. Das bedeutet, dass bei einer Suche nur nach MS mit Regular Expressions gearbeitet werden muss:
tokenization=/MS.*/
Bei quantitativen Anfragen nach Multiverbierung muss explizit nach MS1 gesucht werden, da sonst die Zahl überschätzt würde.
Satzstruktur
punc stellt die handschriftliche (tatsächliche) Interpunktion dar. boundary enthält die präeditierten (interpretierten) Satz- und Segmentgrenzen, die aus modernisierter Interpunktion resultieren.
- (,)
- (.)
- (?)
- (!)
- (:)
- (;)
- (“)
- («)
- (»)
Anders als bei den anderen Ebenen sind hier nicht annotierte Felder tatsächlich leer, das heißt, man kann nicht nach der Abwesenheit von Satzsstrukturannotation suchen.
Annotationsweise
annoTypegibt an, ob ein Token manuell (manual) oder automatisch (auto) annotiert wurde.