POS-Tags bestimmen

In vielen Text-Mining-Disziplinen ist es erforderlich, die Wortart eines bestimmten Begriffs zu ermitteln. In der Regel können damit unterschiedliche Bedeutungen eines Wortes aufgelöst (disambiguiert) werden. Ich will die POS-Tags verwenden, um Begriffe einer bestimmten Relation vorab zu filtern.

Nun gibt es einige POS-Tags zur freien Verfügung:

  • TreeTagger der Universität Stuttgart: Er basiert auf Entscheidungsbäumen, was zu sehr schnellen Trainings-Ergebnissen führt und benötigt dementsprechend eine Lernmenge zum Training. Tests in einer Diplomarbeit für grammatikalisch unsaubere Texte haben hier im Haus jedoch gezeigt, dass die Ergebnisse nicht überragend gut sind.
  • Unsupos der Universität Leipzig: Dabei handelt es sich um einen komplett unüberwachten POS-Tagger, der das Sprachmodell mit Cluster-Verfahren bestimmt. Tests eines Kollegen haben gezeigt, dass er auf deutschen Texten recht gut funktioniert.
  • Stanford Tagger der Universität Stanford: Das ist wohl der interessanteste Tagger, der zum Training jedoch eine Lernmenge braucht. Tests haben ergeben, dass er sowohl auf englischen als auch deutschen Texten sehr gut funktioniert und dass er auch bei schlechter Grammatik brauchbare Ergebnisse liefert.

Ich schau jetzt mal, wie der Stanford Tagger auf englischen und deutschen Forentexten funktioniert.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.