Deutscher Blog-Corpus

Diese Web-Site dient dazu, einen deutschen Blog-Corpus zu etablieren, der in der wissenschaftlichen Forschung genutzt werden kann.

Corpus-Verwendung

Der Corpus soll ein Pendant zum Corpus von Professor Moshe Koppel darstellen, mit dessen Hilfe viele interessante Arbeiten im Bereich der Computerlinguistik in englischer Sprache möglich wurden.

Für die deutsche Sprache existiert bisher kein Blog-Corpus, weshalb bisherige Analyse-Verfahren schlicht nur übernommen wurden ohne ihre Anwendbarkeit unter Beweis stellen zu können. Dies soll nun mit eurer Hilfe geändert werden. Mit diesem Formular werden die Grundlagen gesetzt.

Vorgehen und Urheberrecht

Zum Erstellen des Corpus wird der eingetragene Blog automatisch gecrawlt (RSS) und die Beiträge mit Autor-Alter, -Geschlecht und Berufsgruppe (opt.) versehen. Je nach Wunsch des Blogbesitzers wird zusätzlich die Quelle gespeichert.

Aus der Summe aller Beiträge wird ein Gesamt-Corpus im XML-Format erstellt, welcher an dieser Stelle nach persönlicher Kontaktaufnahme für nicht-kommerzielle Forschungszwecke zum Download angeboten wird.

Sämtliche Rechte an den Beiträgen verbleiben natürlich beim Blog-Autor. Mit dem Eintragen der Blog-Daten in dieses Formular wird aber das Recht zugesprochen, die Beiträge an dieser Stelle für wissenschaftliche Zwecke veröffentlichen zu dürfen. Außerdem erklärt man sich einverstanden, dass die Daten im Rahmen nicht-kommerzieller und kommerzieller Forschung genutzt werden können, wobei sie nicht reproduzierbar weiter veröffentlicht werden dürfen. Damit soll Duplicate Content von Beginn an unterbunden werden, so dass für Blogbetreiber keine Nachteile entstehen.

Datenschutz

Diese Seite benötigt Session-Cookies, um das Formular gegen Spam zu schützen. Über die Sitzung hinaus werden keinerlei Daten außer den selbst eingetragenen Daten erfasst und gespeichert.

Deine Blog-Daten

Bitte trage im Folgenden die entsprechenden Daten korrekt und vollständig ein. Es ist sehr wichtig, korrekte Angaben zu machen.

Bitte trag keinen Blog ein, der von mehreren Autoren geschrieben wird oder an dem du nicht die notwendigen Rechte besitzt.

Pflicht-Angaben


freiwillige Angaben

Folgende Informationen könnten weiter von Interesse sein: