Programm

Montag, 30.09.2013

 

08:00   Registrierung

08:45   Begrüßung

09:00   CLARIN-D – Infrastruktur & Showcases

09:00      CLARIN-D – Bericht zur Infrastruktur / aktueller Stand (Dieter van Uytvanck; CLARIN-D Technical Management)
09:30      Globale Elemente der CLARIN-D-Infrastruktur (Kathrin Beck; Universität Tübingen)
09:55      WebMAUS – automatisches Segmentieren und Etikettieren über das Web (Thomas Kisler; BAS)
10:20      TEI-Integrator (Thomas Eckart; Universität Leipzig)

10:45   Kaffeepause

11:15      Verstetigung – Oder wie verankern wir die Infrastrukturproblematik nachhaltig in den Fachcommunities? (F-AG 2/4; Prof. Mair, M. Rücker)

11:45 – 12:45   Track 1a: Anwendungsszenarien

11:45      Annotation textueller Ressourcen – Die Annotationsplattform „WebAnno“
(F-AG 7 KP1; Prof. Biemann)

11:45 – 12:45   Track 2a: Dokumentation, Metadaten und
Community Best Practices

11:45      Dokumentation von Ressourcen und ihrer Anwendungsmöglichkeiten (F-AG 1; Prof. Gloning, S. Seim, J. Baranauskaite)
12:15      Metadatenbeschreibungen für multimodale Ressourcen (F-AG 6; Farina Freigang)

12:45   Mittagsimbiss

14:00 – 15:30   Track 1b: Anwendungsszenarien

14:00      GeWiss – Ein Vergleichskorpus gesprochener Wissenschaftssprache (F-AG 1 KP2; Daisy Lange, Daniel Jettka)
14:30      Open Science & Reproducible Research (F-AG 5 KP1; Ingmar Schuster)
15:00      Erschließung digitaler Textarchive über Metadaten und Lemmata (F-AG 2 KP2; Paul Burzlaff, Simon Ederer, Prof. Meyer)

14:00 – 15:30   Track 2a: Dokumentation, Metadaten und
Community Best Practices

14:00      Linguistische Annotation von Nichtstandardvarietäten — Guidelines und „Best Practices" (F-AG-7 KP2; Prof. Lüdeling, Marc Reznicek)
14:30      Anforderungen an eine inhaltliche Bewertung von Sprachressourcen auf der Basis nicht-technischer Metadaten (CLARIN-D AP5; Axel Herold)
15:00      Metadata for a combined Text-Image-Database – combined text and image search in defined corpora (F-AG 4 KP1; Michaela Rücker, Andreas Gerstacker)

15:30   Kaffeepause

16:00   Poster-/Demosession (Showcases, Kurationsprojekte, …)

     Curation of the GeWiss resources and their integration into the CLARIN infrastructure (F-AG 1 KP2; Daisy Lange, Daniel Jettka)
     Metadata for a combined Text-Image-Database – combined text and image search in defined corpora (F-AG 4 KP1; Michaela Rücker, Andreas Gerstacker)
     Bibliographische Datenbanken als visualisiertes Wissensnetz (F-AG 4 KP2; Sabine Thänert)
     Open Science (F-AG 5 KP1; Ingmar Schuster)
     Annotation textueller Ressourcen – Die Annotationsplattform „WebAnno“ (F-AG 7 KP1; Chris Biemann)
     Der Clarin-D Helpdesk (Hamburg; Timm Lehmberg)
     Globale Elemente der CLARIN-D-Infrastruktur (Universität Tübingen; Kathrin Beck)
     WebMAUS – automatisches Segmentieren und Etikettieren über das Web (BAS; Thomas Kisler)
     TEI-Integrator (Universität Leipzig; Thomas Eckart)
     Integration von Wikisourcedatensätzen in die CLARIN-D-Infrastruktur (BBAW; Frank Wiegand)
     Adaptable Linguistic Tools (IMS Stuttgart; Andre Blessing und Kerstin Eckart)

17:30   Ende des Workshops

 

Verstetigung – Verankerung der Fachcommunities (F-AG 2/4; Prof. Mair, M. Rücker)

CLARIN-D (wie auch das Vorgängerprojekt D-SPIN) haben während ihrer Laufzeit zahlreiche Aktivitäten im Bereich der Entwicklung einer digitalen Forschungsinfrastruktur für die Sprachwissenschaften und verwandte Disziplinen gebündelt bzw. neu angestoßen und entsprechende Ressourcen und Tools zur Verfügung gestellt. Mittel- und langfristig stellt sich die Frage, wie die Nachhaltigkeit der Aktivitäten nach Ende der Projektförderung gesichert werden kann. In unserem Beitrag nähern wir uns dem Problem aus der Perspektive von zwei der 7 “Fachspezifischen Arbeitsgruppen” an (F-AG 2: Andere Philologien, F-AG 4: Altertumswissenschaften, Klassische Philologien, Archäologie). Wir diskutieren unter anderem folgende Fragen:
(1) Wie rezipieren die betroffenen Fach-Communities die Arbeiten und Ergebnisse der von den F-AGs unternommenen Kurationsprojekte?

(2) Welche Rolle könnten die Fachgesellschaften als Partner bei der Dissemination der Ergebnisse und der Verstetigung der Aktivitäten spielen?

(3) Wie erreicht man am besten die wichtige Zielgruppe der Promovierenden und Post-Docs, die mittelfristig die wissenschaftliche Arbeitskultur prägen werden.

Annotation textueller Ressourcen – Die Annotationsplattform „WebAnno“ (F-AG 7 KP1; Prof. Dr. Chris Biemann)

Wir demonstrieren die Erstellung und Durchführung eines Annotationsprojektes mit WebAnno. WebAnno unterstützt neben linguistischer Annotation von Part-of-Speech, Named Entity, Dependendenzsyntax und Koreferenz auch selbst definierbare Annotationsarten. Wir stellen insbesondere die Ausdrucksfähigkeit der Plattform dar, und geben Hinweise für den Einsatz in verschiedenen Szenarien. Der Vortrag richtet sich an Zuhörer, die Annotationsprojekte durchführen oder durchführen wollen, und die Eignung von WebAnno für ihr Projekt überprüfen wollen.

Linguistische Annotation von Nichtstandardvarietäten — Guidelines und „Best Practices" (F-AG-7 KP2; Prof. Dr. Lüdeling, Marc Reznicek)

Syntax im deutschen Nicht-Standard annotieren
Wir zeigen in diesem Workshop, wie man mithilfe der im KP2 entwickelten Guidelines Varietäten des Deutschen beschreiben kann, deren Strukturen von Standardgrammatiken nicht abgedeckt werden (gesprochene Sprache, Chat, diachrone und Lernerdaten). Wir richten uns an alle Zuhörer, die Interesse daran haben, nichtstandardsprachliche Phänomen zu annotieren und Korpora zu untersuchen.

Metadatenbeschreibungen für multimodale Ressourcen (F-AG 6; Farina Freigang)

Metadaten spielen eine zentrale Rolle für erfolgreiches Korpusmanagement und die Wiederverwendbarkeit von Daten. Für linguistische Ressourcen gibt es bereits eine Vielzahl von Metadatenbeschreibungen und -schemata, wohingegen bisher nur sehr wenige Schemata für die spezielle Struktur multimodaler Korpora existieren. Wir präsentieren zunächst eine vergleichende Übersicht bereits existierender CMDI-basierter Metadatenprofile für multimodale Daten. Diese werden hinsichtlich ihrer Eignung zur Beschreibung multimodaler Ressourcen diskutiert und es werden mögliche Konklusionen für die Struktur und Realisierung adäquater Metadatenbeschreibungen aus Sicht multimodaler Ressourcen herausgearbeitet. Dabei konzentrieren wir uns insbesondere darauf, wie die Art der Modalitäten, die ein Korpus abdeckt, auf Ebene von Metadaten repräsentiert werden kann. Weiterhin werden verschiedene Möglichkeiten zur Realisierung von Metadatenbeschreibungen am Beispiel multimodaler Ressourcen diskutiert.

Anforderungen an eine inhaltliche Bewertung von Sprachressourcen auf der Basis nicht-technischer Metadaten (CLARIN-D AP5; Axel Herold)

Eine wichtige Aufgabe bei der Kuration und Einbindung fachspezifischer Sprachressourcen in CLARIN-D ist die inhaltliche Evaluation dieser Ressourcen im Hinblick auf ihre Verwendungsfähigkeit im Rahmen fachspezifischer Fragestellungen. Typische Fragen, die in diesem Zusammenhang wärend des Workshops behandelt werden sollen, sind:
(1) Gibt es in der jeweiligen Community bereits etablierte Standards für die inhaltliche Bewertung von LRT (oder auch von nicht-linguistischen Ressourcen/Tools, die sich eventuell übertragen lassen)?
(2) Werden für die Auswahl von Sprachressourcen andere Metadaten benötigt als die bisher verwendeten? Wenn ja, welche? Sind diese Metadaten auch für die facettierte Suche im VLO und ähnlichen Katalogen geeignet?
Diskutiert werden diese Fragen am Beispiel konkreter Metadatenmodelle.

GeWiss – Ein Vergleichskorpus gesprochener Wissenschaftssprache (F-AG 1 KP2; Daisy Lange, Daniel Jettka)

In diesem Beitrag wird das GeWiss-Korpus vorgestellt, ein Vergleichskorpus der gesprochenen Wissenschaftssprache des Deutschen, Englischen und Polnischen, welches im Rahmen des 2. Kurationsprojekts der F-AG 1 in die CLARIN-Infrastruktur eingebunden wird. Wir zeigen die in GeWiss enthaltenen Sprachressourcen und Zugriffsoptionen. Im Besonderen gehen wir auf die Nutzungsmöglichkeiten ein, die das Korpus für sprachvergleichende Untersuchungen bietet. Der Beitrag richtet sich an Zuhörer, die für ihre Forschungsfragen mündliche Sprachdaten des Deutschen, Englischen oder Polnischen suchen, insbesondere zur Wissenschaftskommunikation, oder die an mündlichen lernersprachlichen Daten des Deutschen interessiert sind.

Dokumentation von Ressourcen und ihrer Anwendungsmöglichkeiten
(F-AG 1; Th. Gloning, S. Seim, J. Baranauskaite)

Zu den wesentlichen Zielsetzungen von Infrastrukturumgebungen wie CLARIN gehört es, digitale Sprachressourcen (im wesentlichen gehören dazu digitalisierte Sprach- und Kommunikationsdaten und darauf bezogene Software-Werkzeuge) nachhaltig und webbasiert für die gesamte Wissenschaftsgemeinschaft zur Verfügung zu stellen. Zu den weiterführenden Zielsetzungen gehört es dabei, wissenschaftliche Forschung durch den Einsatz digitaler Ressourcen besser, schneller, ökonomischer und durch allgemeinen Zugang auch gerechter zu machen.
Damit verfügbare Ressourcen in den unterschiedlichen Fachgemeinschaften auch tatsächlich genutzt werden können, müssen die Ressourcen zentral dokumentiert und systematisch auffindbar sein, zum anderen müssen FachwissenschaftlerInnen um die Existenz der Ressourcendokumentation wissen, schließlich ist es ein sehr wesentlicher Gesichtspunkt, auch die Nutzungsmöglichkeiten der Ressourcen für unterschiedliche wissenschaftliche Fragestellungen zu dokumentieren. Dabei müssen realistischerweise auch die Grenzen des Digital Humanities-Paradigmas erkennbar sein.
Auf dem Workshop in Leipzig verfolgen wir mit unserem Beitrag drei Ziele:
(i) Wir werden zum einen über den bisherigen Stand der Dokumentation von verfügbaren Ressourcen im Bereich der Germanistik berichten.
(ii) Wir werden über den Stand des Auskunftssystems zu typischen Nutzerfragen berichten, die sich auf Ressourcen und ihre Anwendungsszenarien in Teilgebieten der Germanistik beziehen.
(iii) Mit Blick auf die weitere Arbeit sollen auch unsere Vorschläge und Planungen für die nächsten Schritte skizziert werden. Hier stehen die Dokumentation von realistischen Anwendungsszenarien und die Frage nach brauchbaren Formaten der Darstellung (z.B. Texte, Lehrfilme, Screencasts) im Vordergrund.

Erschließung digitaler Textarchive über Metadaten und Lemmata (F-AG 2 KP2; Paul Burzlaff, Simon Ederer, Prof. Meyer)

Im hier vorgestellten Kurationsprojekt geht es um die Entwicklung eines Werkzeugs zur besseren Erschließung online verfügbarer historischer Archive des Polnischen. Ziel ist eine Abfragemöglichkeit nach Lemmata sowie eine Integration der Metadaten in die CLARIN-Infrastruktur. Suchmöglichkeiten dieser Art werden für Archive verschiedener Sprachen benötigt; die Methoden und Ergebnisse des Projekts sollten daher zu einem guten Teil auf andere Fälle übertragbar sein. Der Vortrag präsentiert das Projekt und stellt erste Arbeitsergebnisse im Bereich der Lemmatisierung historischer Texte vor.

TEI-Integrator (Thomas Eckart)

Der “TEI-Integrator” vereinfacht die Integration TEI-kodierter Volltextdokumente in die CLARIN Infrastruktur. Über ein einfaches Web-Interface wird der Nutzer bei den verschiedenen Schritten des Integrationsprozesses unterstützt. Darunter fällt die semiautomatische Erstellung von Metadaten für einzelne TEI-Dokumente und Dokumentkollektionen sowie die Unterstützung bei der Weitergabe der Ressourcen an ein CLARIN-Zentrum. Dieses übernimmt im Folgenden die Langzeitarchivierung und weitere Integrationsmaßnahmen.