< zurück zur Blockveranstaltung


 
 Hinter den Kulissen einer Suchmaschine - Optimierte Recherche durch Integration, Innovation und Kooperation (#114)

Moderation:   Christine Baron
Hochschulbibliothekszentrum NRW - Köln, Deutschland
Themenkreis:   10 - Information erschließen und recherchieren - aktuelle Entwicklungen und Perspektiven
Zeit:   Donnerstag 04. Juni 2009 16:00 - 18:00
Raum:   H. Erhardt | rechts und links (1.OG)
     

 

Vortrag:

2. Differenzierter suchen: Automatische Klassifikation mit computerlinguistischen Verfahren und Services zur inhaltsorientierten Vernetzung von Repositorien (#475)

Friedrich Summann
Universitätsbibliothek Bielefeld - Bielefeld, Deutschland

Die fachbezogene Content-Beschaffung durch Harvesten von OAI-Metadaten sowie
die aufgrund sehr heterogener Qualität notwendige Normalisierung derselben zur angemessenen Repräsentation in Suchmaschinen ist für OAI-Serviceprovider
vergleichweise aufwändig. Darüber hinaus lässt die Qualität der Erschließungsinformationen in den OAI-Metadaten in der Regel zu wünschen übrig. In den Fällen, in denen beispielsweise veranlasst durch Zertifizierung DDC-Klassifikationsinformationen vorhanden sind, ist die Erschließungstiefe für einen fachlich differenzierteren Zugang zu diesen Dokumenten in Suchmaschinen häufig nicht ausreichend.

Die Universitätsbibliothek Bielefeld plant daher zusammen mit der Fakultät für Linguistik und Literaturwissenschaft der Universität Bielefeld sowie dem Institut für Informatik der Universität Leipzig die Entwicklung, Erprobung und Bereitstellung einer nachnutzbaren Software für die inhaltsorientierte Vernetzung von Repositorien. Mit Hilfe von texttechnologischen Klassifikationsalgorithmen auf Basis automatischen Lernens aus
natürlichsprachigen Texten werden die OAI-Metadaten von Repositorien mit klassifikatorischen Sacherschließungsinformationen nach DDC klassifiziert bzw. vorhandene (DDC-)Klassifikationsinformationen verfeinert, um ein verbessertes, fachlich differenzierteres Retrieval für diese Dokumente zu erreichen. Die semantische Suche von Dokumenten wird
mit dem semantischen Browsing verbunden, was prototypisch in BASE (Bielefeld Academic Search Engine) realisiert werden soll, die erzeugten Annotationen sollen über geeignete Schnittstellen weiteren OAI-Service- und -Data-Providern zu Verfügung gestellt werden.

Die Kooperation von anwendungsorientierter Universitätsbibliothek und forschungsorientierter Texttechnologie erzeugt eine interdisziplinäre Synergie, zu der keiner der beiden Bereiche alleine befähigt ist: Während die Universitätsbibliothek mit BASE jene hochqualitativen Dokumentmengen über eine standardisierte Schnittstelle verfügbar macht,
welche die Texttechnologie zur Entwicklung ihrer Klassifikationsalgorithmen benötigt, sind es die erwarteten linguistisch fundierten Klassifikationsergebnisse, welche die Bibliothek für die
Verbesserung ihrer Dienstleistungen benötigt. Erst die Integration beider Bereiche - automatische Textkategorisierung für das Repository-basierte Retrieval in der digitalen Bibliothek - erzeugt jenen Nutzen, der von der inhaltsorientierten Vernetzung von Repositorien erwartet wird. Genau diesen Mehrwert strebt das Projektvorhaben an.

 


< zurück zur Blockveranstaltung