Blog-Analysen

Bei Robert kam bezüglich dem deutschen Blog-Corpus die Frage auf, was denn analysiert werden soll.

Eine Analyse, die ich für sehr unwahrscheinlich halte (aber nicht ausschließen kann, soll der Wissenschaft ja frei zur Verfügung stehen), besteht darin, die Qualität eines Blogs zu bewerten. Nur was ist Qualität? Ich habe mich erst kürzlich im Rahmen eines Papers damit beschäftigt, ob man die Expertise eines Benutzers automatisch und objektiv bewerten kann. Dafür gibt es meiner Meinung nach eine relativ große Anzahl unterschiedlicher Indizien. Aber was Expertise und damit Qualität / Professionalität letztendlich ausmacht, das kommt auf die Fragestellung an. Jemand der nur mit Fachbegriffen um sich schmeißt, macht vielleicht einen professionellen Eindruck, aber liefert er damit eine hohe Qualität? Jemand, der auch mit „Anfänger-Fragen“ umgehen kann bietet doch mindestens eine ebensolche Qualität. Einen objektiven Wert für Qualität gibt es demnach meiner Meinung nach nicht. Es kommt auf die Fragestellung an.

Mit Hilfe des Weblog-Corpus verspreche ich mir Antworten auf eine Reihe ganz anderer Fragen. Sie beruhen alle auf der Analyse des Schreibstils:

  • Verwenden Frauen mehr Adjektive?
  • Verwenden junge Menschen auffallend viel Slang-Begriffe? Also Begriffe, die nicht im Lexikon auftauchen?
  • Schreiben Beamte wirklich „umständlicher“ – z.B. im Nominalstil?

Es gibt natürlich noch eine Reihe weiterer Fragen. Sie alle haben aber die Eigenschaft, dass man mit Hilfe von statistischen Verfahren versuchen will, Benutzereigenschaften zu bestimmen. Die große Frage lautet also: was sind die relevanten Eigenschaften. So hat z.B. Prof. Koppel herausgefunden, dass im englischen Raum die durchschnittliche Satzlänge auffallend stark mit dem Alter zusammenhängt. Auch bei Slang-Begriffen sei dies der Fall.

Für mich stellt sich eben die Frage: Funktionieren die Algorithmen im deutschen ebenso gut? Und was verrät man sonst noch über sich?

Um das bestimmen zu können braucht man also zur statistischen Relevanz einen relativ großen Corpus. Bisher haben sich knapp über 30 Blogs registriert. Das ist leider deutlich zu wenig. Ich würde mich also freuen, wenn ihr den Link weiter veröffentlichen könntet.

5 Kommentare zu “Blog-Analysen

  1. @ttr

    Das erstellte Blog-Corpus wird auf der verlinkten Seite veröffentlicht, sobald ich die Daten entsprechend verarbeitet habe.

    Zur Verarbeitung natürlicher Sprachen hab ich mir sehr viele unterschiedliche Systeme angeschaut und bin leider von fast allen enttäuscht worden. Die meisten Frameworks sind einfach nicht für eine derart große Datenmenge ausgelegt wie was ich eigentlich analysieren will.

    Ich habe mich deshalb in den letzten Monaten mit dem UIMA Framework auseinandergesetzt, das hervorragende Leistungen bringen kann. Das System realisiert ein Multi-Agenten-System, das recht einfach parallelisiert werden kann. Entsprechende Implementierungen vorausgesetzt schaffe ich so derzeit die Analyse von 13 Mio. Benutzerbeiträgen innerhalb 2 Tagen. Diese Performanz-Eigenschaften sind bei solchen Datenmengen sehr wichtig und genau hier scheitern die meisten verfügbaren Tools.

    Ich hab mir vorgenommen, in den nächsten Tagen einzelne Teile hier im Blog vorzustellen. Dazu gehört eben UIMA, aber auch Lucene. Analyse-Details werden in entsprechenden Veröffentlichungen dann publiziert, für die demnächst eine eigene enstprechende Seite angelegt wird.

  2. Gefällt mir, starkes Projekt!
    Ich bin gespannt, wie du es in den Griff kriegst.

    Die Art der Fragestellung ist äußerst schwierig, denn schon bei deinen 3 Beispielen fiel mir ein Schwachpunkt auf:
    „Verwenden Frauen mehr Adjektive?“ – Wer schreiben richtig gelernt hat, egal ob Mann oder Frau, streicht beim Überarbeiten so viele Adjektive wie möglich, um einen guten Stil zu erreichen.
    Das – und vieles andere – gehört zum Handwerk. Ich habe es mir antrainiert. Verfälscht die Statistik, oder? 😉

    Jedenfalls habe ich mich angemeldet. Übrigens fehlt eine Option bei der Berufsangabe: nicht berufstätig. Mir blieb nur die Möglichkeit „keine Angabe“. Ich kenne viele Blogger, die nicht (mehr) berufstätig sind. Liegt ja bei den demografischen Verhältnissen auf der Hand.

    – Hannelore

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.