Beiträge lassen sich extrahieren :)

Nachdem ich mit einer Anpassung des SiteStyleTree-Algorithmus auf den Content-Bereich gekommen bin, bestand ja die Aufgabe, direkt an die Beiträge ran zu kommen, den Content-Bereich also aufzuspalten. Für solche “Data Records” wurden schon einige Paper veröffentlicht. Am interessantesten fand ich dazu das Paper “Mining Data Records in Web Pages” von Bing Liu, das wiederholende Strukturen im DOM-Baum sucht. Das ganze basiert auf der Idee, Teilbäume miteinander zu vergleichen. Und das schöne daran: die Idee kommt aus einem ganz anderen Sektor, nämlich der Programm-Analyse. So stellt Wuu Yang in “Idenfying Syntactic Differences Between Two Programs” einen Algorithmus vor, mit dem eine Ähnlichkeit zwischen zwei Teilbäumen berechnet werden kann. Das wird an unterschiedlichsten Stellen verwendet, z.B. bei DIFF-Programmen.

Jetzt gibt es natürlich eine Vielzahl an unterschiedlichen Vorgehensweisen, um Gruppen zu finden. Das beginnt bei einigen Klassifizierungsverfahren und geht bis hin zu unüberwachten Cluster-Verfahren. Das ist mit Hilfe der Ähnlichkeitsberechnung ja auch kein Problem.

Allerdings sind die bisherigen Ansätze eher auf Produkt-Listen ausgerichtet. In Foren haben die Unterbäume teilweise eine sehr unterschiedliche Struktur (Zietierungen, Bilder, Links), so dass das Ähnlichkeitsmaß nur bedingt nützlich ist. Man könnte natürlich wie Yeonjung Kim et. al die Knoten unterschiedlich gewichten, das löst das Problem aber auch nur bedingt, weil viele Forensysteme Tabellen für Zietierung und Beitragstruktur verwenden (über diesen Schwachsinn lass ich mich jetzt lieber nicht aus). Ich hab mir deshalb jetzt einen ganz anderen Einsatz einfallen lassen, der die Beiträge in unterschiedlichsten Systemen (inkl. Weblogs) erkennen kann. Eine mögliche Hierarchie und damit Verschachtelung in den Beiträgen ist dabei ebenso berücksichtigt, wie die unterschiedlichsten Formatierungsmöglichkeiten (semantisch sauber oder HTML-Gemurkse).

Wie das ganze funktioniert, werde ich natürlich in einem Paper veröffentlichen. Jetzt muss ich es erstmal ausgiebig austesten.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.