UIMA – eine Einführung

Im Rahmen meiner Doktorarbeit habe ich mir inzwischen eine Reihe unterschiedlichster Systeme zur Verarbeitung von Texten (NLP Tools) angeschaut. Hier gibt es inzwischen auch eine ganze Reihe freier Implementierungen, am bekanntesten sind sicherlich folgende: Natural Language Toolkit: eine Sammlung von python-Modulen Weka: An sich eher ein Data-Mining-System, das aber auch “einfache” Module für Text-Verarbeitung anbietet. […]

Lesen Sie weiter


Blog-Analysen

Bei Robert kam bezüglich dem deutschen Blog-Corpus die Frage auf, was denn analysiert werden soll. Eine Analyse, die ich für sehr unwahrscheinlich halte (aber nicht ausschließen kann, soll der Wissenschaft ja frei zur Verfügung stehen), besteht darin, die Qualität eines Blogs zu bewerten. Nur was ist Qualität? Ich habe mich erst kürzlich im Rahmen eines […]

Lesen Sie weiter


Kommentar-Statistiken für Foren

So, ich hab jetzt ein paar Antworten auf meine Anfrage bekommen. Ich will mein bisherigen Stand hier mal veröffentlichen: Ich habe 3.500 Beiträge analysiert. Ich habe dabei aus jedem Forum Stichproben zufällig ausgewählt. Beim letzten hinzugefügten Forum (danke an Ubuntuusers für ihre schön große Datenbasis) hat sich kaum etwas verändert, so dass ich von gefestigten […]

Lesen Sie weiter


Kommentar-Statistiken

Ich muss ein paar Statistiken über Foren-Beiträge und nach Möglichkeit auch Blogs erstellen. Vielleicht kann mir ja der ein oder andere hier ein paar Daten liefern. Ich brauche die Anzahl der Buchstaben (für Mittelwert- / Varianz-Berechnung) und die Anzahl der Zeilenumbrüche. In mySQL geht das ganz leicht: Als erstes eine Funktion zum Zählen von bestimmten […]

Lesen Sie weiter