Humboldt-Universität zu Berlin - Sprach- und literaturwissenschaftliche Fakultät - Institut für Slawistik und Hungarologie

DiaUk – Korpus zur Geschichte des Ukrainischen im 16.-18. Jahrhundert

DiaUk corpus history of Ukrainian

Die Korpusabfrage erfolgt über die Such- und Visualisierungsumgebung Annis (Krause & Zeldes 2016) unter dem Link https://korpling.org/annis/diauk

Die Erstfassung des Korpus DiaUk wurde kompiliert von Iryna Parkhomenko im Rahmen ihrer Dissertation "Agreement and Transitivity in Middle Ukrainian Resultative and Passive -no/-to Constructions: A Corpus-Based Diachronic Investigation" (2016), gefördert durch die Deutsche Forschungsgemeinschaft als Teil des Projekts "Corpus linguistics and diachronic syntax: Subject case, finiteness and agreement in Slavonic languages" (ME4125/1-2, PIs: Roland Meyer und Björn Hansen). Die Texte stammen zum Großteil von der Webseite http://izbornyk.org.ua/ (mit freundlicher Genehmigung durch deren Autor); die Qualität der Digitalisierung wurde stichprobenartig überprüft von Iryna Parkhomenko und Olesja Lazarenko. Die Aufnahme zweier größerer administrativer Texte, der Gerichtsakten aus Žytomyr (1590-1635) und aus Poltava (1668-1740) wurde freundlicherweise ermöglicht durch die Ukrainische Akademie der Wissenschaften (P. Ju. Hrycenko, V. M. Mojsijenko und U. M. Štandenko). Die Zusammensetzung des Korpus ist hier dokumentiert.

Die Korpustexte wurden von Olesja Lazarenko und Iryna Parkhomenko manuell in Sätze und Teilsätze (clauses) aufgeteilt. Iryna Parkhomenko annotierte zudem die für Parkhomenko (2016) relevanten grammatischen Informationen explizit auf Token-Ebene. Die Tokenisierung erfolgte regelbasiert im Annotationstool GATE, nach dem Export wurde die Texte mit Hilfe der Stanford Stanza NLP (UD-Ukrainian) automatisch nach Wortarten getaggt und dependenzsyntaktisch analysiert. Diese automatische Annotation ist noch stark fehlerbehaftet und soll sukzessive verbessert werden. Für die computerlinguistische Umsetzung in und außerhalb von GATE ist Roland Meyer verantwortlich.

Für Unterstützung zu Annis bedanken wir uns sehr herzlich bei Martin Klotz und Thomas Krause, für ihre unermüdliche Mithilfe bei der Annotation bei Olesja Lazarenko.

Mit Fragen und Kommentare wenden Sie sich bitte an roland.tiff

 
Quellen: