Diese Web-Site dient dazu, einen deutschen Blog-Corpus zu etablieren, der in der wissenschaftlichen Forschung genutzt werden kann.
Der Corpus soll ein Pendant zum Corpus von Professor Moshe Koppel darstellen, mit dessen Hilfe viele interessante Arbeiten im Bereich der Computerlinguistik in englischer Sprache möglich wurden.
Für die deutsche Sprache existiert bisher kein Blog-Corpus, weshalb bisherige Analyse-Verfahren schlicht nur übernommen wurden ohne ihre Anwendbarkeit unter Beweis stellen zu können. Dies soll nun mit eurer Hilfe geändert werden. Mit diesem Formular werden die Grundlagen gesetzt.
Zum Erstellen des Corpus wird der eingetragene Blog automatisch gecrawlt (RSS) und die Beiträge mit Autor-Alter, -Geschlecht und Berufsgruppe (opt.) versehen. Je nach Wunsch des Blogbesitzers wird zusätzlich die Quelle gespeichert.
Aus der Summe aller Beiträge wird ein Gesamt-Corpus im XML-Format erstellt, welcher an dieser Stelle nach persönlicher Kontaktaufnahme für nicht-kommerzielle Forschungszwecke zum Download angeboten wird.
Sämtliche Rechte an den Beiträgen verbleiben natürlich beim Blog-Autor. Mit dem Eintragen der Blog-Daten in dieses Formular wird aber das Recht zugesprochen, die Beiträge an dieser Stelle für wissenschaftliche Zwecke veröffentlichen zu dürfen. Außerdem erklärt man sich einverstanden, dass die Daten im Rahmen nicht-kommerzieller und kommerzieller Forschung genutzt werden können, wobei sie nicht reproduzierbar weiter veröffentlicht werden dürfen. Damit soll Duplicate Content von Beginn an unterbunden werden, so dass für Blogbetreiber keine Nachteile entstehen.
Diese Seite benötigt Session-Cookies, um das Formular gegen Spam zu schützen. Über die Sitzung hinaus werden keinerlei Daten außer den selbst eingetragenen Daten erfasst und gespeichert.