Ursache und Wirkung

Wenn ich mir überlege, was für Kritiken ich bei meinen Veröffentlichungen bekommen habe, dann stellt sich mir doch die Frage, wie solch eine Studie so eine Aufmerksamkeit erlangen kann. Da behaupten doch tatsächlich zwei Harvard-Studenten, dass Google die Suchergebnisse manipulieren würde. Ich will gar nicht auf das Ergebnis eingehen, weil ich das weder bekräftigen möchte […]

Lesen Sie weiter


Unstructured Information Architectures

Arbeite gerade an einem Paper, in dem ich eine Übersicht über aktuell vorhandene OpenSource-Architekturen zur Behandlung von unstrukturierten Daten geben will. Folgende fallen mir da ein: UIMA: der einzige OASIS Standard Heart of Gold: für mich bisher interessant aus wissenschaftlicher Sicht, aber aus Anwendungssicht mach ich mir durch den exzessiven XML / XSLT-Gebrauch große Performanz-Sorgen. […]

Lesen Sie weiter


Hadoop mit UIMA

Ich spiele in den letzten Wochen immer wieder den Gedanken durch, ob ich nach dem sehr erfolgreichen Einsatz von UIMA mal ausprobieren sollte, ob man das ganze noch mit Hadoop kombinieren sollte. Ich verspreche mir dadurch die Möglichkeit, Performanz-Engpässe relativ einfach durch Hardware-Skalierung lösen zu können (à la Google). In den Mailinglisten hab ich jetzt […]

Lesen Sie weiter


Deutscher Blogcorpus – Zwischenstand

Nachdem nun ein paar Blogger bereits auf das deutsche Blogcorpus verwiesen haben, möchte ich hier mal den aktuellen Zwischenstand veröffentlichen. Aktuell haben sich 64 Blogs bereits beteiligt. Der älteste Blogger ist dabei 65, der jüngste 17. Die Altersverteilung sieht wie folgt aus: Wie man schön erkennen kann, haben wir für die Jahrgänge 1970 – 1985 […]

Lesen Sie weiter