Dissertation

Download

  • Lezius, Wolfgang (2002) Ein Suchwerkzeug für syntaktisch annotierte Textkorpora Ph.D. thesis IMS, University of Stuttgart Arbeitspapiere des Instituts für Maschinelle Sprachverarbeitung (AIMS), volume 8, number 4. PDF

Zusammenfassung (Deutsch)

Diese Dissertation beschreibt die Konzeption und Implementation von TIGERSearch, einem Suchwerkzeug für syntaktisch annotierte Textkorpora. Das Werkzeug ist speziell zur Suche auf der deutschsprachigen TIGER-Baumbank, aber auch zur Suche auf möglichst vielen weiteren Baumbankformaten entwickelt worden.

Der erste Teil der Arbeit stellt bisherige Arbeiten im Bereich Baumbank-Suchwerkzeuge und Baumbank-Repräsentationsformate vor. Die Diskussion dieser Arbeiten zeigt, dass kein verfügbares Suchwerkzeug die Besonderheiten der TIGER-Baumbank vollständig abdeckt, so dass die Entwicklung eines speziellen Werkzeugs erforderlich ist.

Der zweite Teil stellt eine Korpusbeschreibungssprache vor, die sowohl zur Korpusdefinition als auch zur Korpusanfrage verwendet wird. Durch diese Verbindung ergeben sich zahlreiche Vorteile, u.a. muss lediglich die Syntax und Semantik einer Sprache formal definiert werden. Mit dem XML-basierten TIGER-XML-Format wird eine weitere Sprache beschrieben, die zur Korpusdefinition der Beschreibungssprache semantisch äquivalent ist und dabei zahlreiche technische Probleme wie die Kodierung von Sonderzeichen löst. Eine formale Definition der Syntax und Semantik der Beschreibungssprache schließt diesen Teil der Arbeit ab.

Im dritten Teil wird die Verarbeitung von Korpusanfragen behandelt. Dazu wird zunächst ein Logikkalkül definiert, der einen syntaktischen Ableitungsbegriff definiert. Hier wird mit Hilfe von Verarbeitungsregeln überprüft, ob eine Anfrage aus einem Korpus folgt. Die Abfrageverarbeitung des Suchwerkzeugs implementiert diesen Kalkül. Die Implementation setzt sich aus der Repräsentation des Korpus als Index und der Anfrageverarbeitung zur Laufzeit zusammen. Die Konzeption und Realisierung der Implementation werden detailliert beschrieben. Überlegungen zur Verbesserung der Verarbeitungseffizienz runden diesen Teil ab.

Der abschließende vierte Teil der Arbeit behandelt ausgewählte Aspekte der grafischen Benutzeroberfläche. Hier werden u.a. Konzepte zur Visualisierung von Anfrageergebnissen und Ideen zur grafischen Eingabe von Suchanfragen vorgestellt.

Abstract (English)

This thesis presents the design and implementation of the TIGERSearch tool. Although this search tool has been specially developed for searching the TIGER treebank, it can also be used for a large number of other existing syntactically annotated text corpora. The first section of the thesis discusses existing treebank search tools and treebank representation formats. It concludes that both a specialized search tool and a representation format have to be developed for the TIGER treebank. The second section defines a corpus description language, i.e. a formal language that can be used for both corpus definition and corpus querying. It also presents the TIGER-XML format, an XML-based treebank representation format that is semantically equivalent to the corpus definition part of the proposed format. The third section of the thesis describes the processing of corpus queries. It defines a calculus that checks if a query can be deduced from a corpus by applying inference rules. Subsequently the implementation of the calculus is described in detail. Finally, the fourth section presents some essential aspects of the graphical user interface of the search tool.

Extended abstract

PDF

BibTeX entry (English)

@PhdThesis{LeziusDiss,
author = "Wolfgang Lezius",
title = "Ein Suchwerkzeug f{\"u}r syntaktisch annotierte Textkorpora",
school = "IMS, University of Stuttgart",
year = 2002,
month = "December",
note = "{A}rbeitspapiere des Instituts für Maschinelle Sprachverarbeitung (AIMS), volume 8, number 4"
}