Kommentar-Statistiken

Ich muss ein paar Statistiken über Foren-Beiträge und nach Möglichkeit auch Blogs erstellen. Vielleicht kann mir ja der ein oder andere hier ein paar Daten liefern.

Ich brauche die Anzahl der Buchstaben (für Mittelwert- / Varianz-Berechnung) und die Anzahl der Zeilenumbrüche. In mySQL geht das ganz leicht:

Als erstes eine Funktion zum Zählen von bestimmten Zeichen:

[source:sql]
CREATE Function substrCount(x TEXT, delim varchar(12)) returns int
return (CHAR_LENGTH(x) – CHAR_LENGTH(REPLACE(x,delim,”)))/CHAR_LENGTH(delim);
[/source]

Und dann noch die Abfrage:
[source:sql]
Select CHAR_LENGTH(trim(content)) as strLength, substrCount(trim(content),”\n”) as lnbrk from postingTable Order by rand() limit 100;
[/source]

Falls ihr eine sehr große Anzahl an Beiträgen habt, entfert das rand(), da die Abfrage sonst sehr lange dauern kann.

Wäre super, wenn ihr mir entweder per Kommentar oder per Mail an mathias _ at _ thunder-2000 _dot_ com das Ergebnis schicken könntet. Am liebsten als CSV-Datei. Bitte vermerkt, ob es ein Blog oder ein Forum war.

Update:
In UTF8-Tabellen zählt length falsch, weshalb ich die Funktionen jetzt auf CHAR_LENGTH geändert habe (danke an Nitek)

6 Gedanken zu „Kommentar-Statistiken

  1. So, und hier mal ein paar Statistiken von ubuntuusers.de

    Die Dateien mit jeweils 100 Kommentaren und Foren-Beiträgen wurden dir ja schon zugeschickt, nachfolgend nochmal für die ganze Datenbank. Ich hoffe das dich die fast 2 Milionen Werte nicht überfordern 🙂

    Mich würde allerdings mal interessieren, was genau du mit den Werten machen möchtest. Das würde mich (und einige hier im IRC) sehr interessieren.

    Grüße, Christopher

    http://webshox.org/~shoxi/uu/mb_comments.csv (Kommentare)
    http://webshox.org/~shoxi/uu/mb_posts.csv (Foren-Beiträge)

  2. Ich schreibe im Rahmen meiner Dissertation an einem Foren-Crawler, der selbständig Benutzerbeiträge herunterladen kann. Die Zielsetzung dabei ist vielfältig, unter anderem eine verbesserte Suche.

    Für den Crawler habe ich einige Foren manuell angeschaut und mir Heuristiken überlegt, welche die meisten Forenbeiträge erfüllen müssten. Und eine Heuristik besagt eben, dass ein Forentext mindestens 100 Zeichen bzw. 50 Zeichen und mindestens einen Zeilenumbruch enthalten muss. Die Frage ist nun, ob sich das in einer möglichst breiten Masse bestätigen lässt. Und bisher sind das extrem gut aus!

    Mir ist klar, dass ich durch diese Heuristik ein paar Beiträge verliere, die eben nicht passen. Das wird an anderer Stelle kompensiert. An der Stelle, wo die Heuristiken angewendet werden ist es nur wichtig, dass die Kommentar-Kandidaten sicher Kommentare sind (und keine Struktur-Elemente eines Postings).

    Am Montag muss ich das Paper dafür einreichen. Sobald ich die Genehmigung habe, werde ich es hier veröffentlichen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.