Für Studierende

Fraunhofer-Institut für Arbeitswirtschaft und Organisation

Analyse und Anwendung von Textmining-Verfahren zur Bestimmung der »Neuigkeit« von Dokumenten und Inhalten

Allgemeine Informationen

Fachrichtungen:Alle
Beginn:Ab sofort

Hintergrund und Problem-Domäne

Im Rahmen des durch das BMWi geförderten Forschungsprojektes untersucht das IAO Fragestellungen im Bereich des Innovationsmanagements in Business-Value-Netzwerken. Der Fokus liegt hierbei vor allem auf der Verbesserung und Unterstützung von frühen Innovationsphasen durch Erschließung internetbasierter Informationsquellen.

Eine im Rahmen des vom BMBF geförderten Forschungsprojekt »NovaNet« durchgeführte Be-fragung von Innovationsakteuren und –experten aus Unternehmen kam zu dem Ergebnis, dass das Internet sich zur wichtigsten Informationsquelle für Innovationsmanager entwickelt hat: 75 Prozent der Befragten gaben an, dass Internet im Rahmen ihrer Innovationstätigkeit zu nutzen. Bei den eingesetzten Internettechnologien dominieren die Suchmaschinen gefolgt von den Onli-ne-Ausgaben von Fachzeitschriften. Ferner kommt die Studie zu der Erkenntnis, dass Produktin-novatoren das Internet wesentlich häufiger nutzen, als Nichtinnovatoren. Insbesondere die Nutzung von Suchmaschinen sei bei Produktinnovatoren signifikant häufiger zu beobachten.

Die Nutzung generischer Suchmaschinen hat allerdings gravierende Nachteile: Eine unüberschaubare Anzahl an Treffern, eine einfache und im spezifischen Anwendungsfall dem Benutzer wenig Hilfestellung bietende Schlüsselwort-Anfrageschnittstelle, die Präsentation der Ergebnisse als unendlich lange Liste von URLs. Es liegt also nahe, für den Anwendungsfall »Innovation Mining« nach Optimierungen und Verbesserungen zu suchen – die Möglichkeiten sind vielfältig und reichen von der Unterstützung des Suchenden durch Domänenwissen über die automati-sche Identifikation von Experten zu einem Themengebiet bis zum Computerunterstützten Aufspüren neuer Trends und Technologien. Ein Ziel der IAO-Aktivitäten ist die Umsetzung dieser Erkenntnisse in eine speziell auf die Bedürfnisse von Innovationsmanagern zugeschnittene Spezialsuchmaschine.

Aufgabenstellung

Innovationen beinhalten immer die Eigenschaft der »Neuigkeit« - sei es, dass ein Produkt oder eine Dienstleistung neu auf den Markt kommt oder ein Prozess innerhalb eines Unternehmens neu gestaltet wird oder sonst eine Form der Neuerung. Um einen möglichst hohen Automatisierungsgrad bei der Bestimmung von für den Innovationsmanger relevanten Dokumenten zu erreichen, ist es somit wesentlich, den Neuigkeitsgrad oder zumindest die Neuigkeitseigenschaft eines Dokumentes bzw. seines Inhalts möglichst gut zu erkennen.

Im Rahmen der Diplomarbeit sollen Verfahren untersucht werden, mit deren Hilfe die Neuigkeit eines Dokumentes bzw. seines Inhalts möglichst automatisch bewertet werden können. Bestehende Methoden sollen untersucht und gegenübergestellt werden. Existierende Text-Mining-Werkzeuge und –Verfahren sind im Hinblick auf ihre Eignung für diese Fragestellungen zu analysieren und zu bewerten. Folgende Fragestellungen sollen (u.a.) adressiert werden:

  • Welche Informationen eignen sich zur Bestimmung des Neuigkeitsgrades eines Dokuments?
  • Wie unterscheiden sich hierbei unterschiedliche Dokumentklassen?
  • Welche Methoden zum Ranking nach Aktualität setzen bestehende Suchmaschinen ein und wie gut funktionieren diese?

Aufbauend auf den im theoretischen Teil der Arbeit gesammelten Erkenntnissen soll im prakti-schen Teil der Arbeit ein Konzept zur Bestimmung des Neuigkeitsgrades von Dokumenten eines eingeschränkten und homogenisierten Dokumentenkorpus entworfen und umgesetzt werden. Die Umsetzung kann dabei entweder durch Entwicklung eines eigenen Werkzeugs oder durch Erweiterung oder Konfiguration eines bestehenden Text-Mining-Werkzeugs erfolgen.

Wir bieten:

  • Interessante Themenstellung
  • Interessantes Projektumfeld
  • Moderne Hard- und Softwareausstattung
  • Nette und motivierte Teamkollegen

Wir erwarten:

  • Fähigkeit zur selbständigen und strukturierten Durchführung von Arbeiten
  • Kenntnis und Interesse an Internet-Technologien
  • Gute Kenntnisse der deutschen Sprache

Literaturhinweise

[1]
Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze: An Introduction to Information Retrieval, Cambridge University Press, Cambridge, England, 2007 (Preliminary draft)
[2]
Baeza-Yates, Ricardo und Ribeiro-Neto, Berthier (1999), Modern Information Retrieval, Ad-dison-Wesley Longman Publishing Co., Boston, MA, USA.
[3]
Dirk Lewandowski: Web Information Retrieval – Technologien zur Informationssuche im Internet, Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V., Frankfurt am Main, 2005
[4]
S. Beucker, S., C. Lang-Koetz und S. Springer: Strukturierung der verfügbaren Online-Unterstützung für das Innovationsmanagement, 2006. http://www.nova-net.de/fhg/Images/Beucker_Online-Unterstuetzung_InnoMgnt_2006_(nova-net_3-8167-7048-7)_www_tcm231-54861.pdf
[5]
Lukas Gotter, Text Mining - Wissensgewinnung aus Texten, http://wissensexploration.de/textmining.php (2007)
[6]
Apache UIMA Development Community: UIMA Overview & SDK Setup, http://incubator.apache.org/uima/downloads/releaseDocs/2.2.0-incubating/docs/html/overview_and_setup/overview_and_setup.html
[7]
Alexander Mehler und Christian Wolff: Einleitung: Perspektiven und Positionen des Text Mining, In: Zeitschrift für Computerlinguistik und Sprachtechnologie, Band 20, Heft 1, Seite 1-18, Regensburg, Deutschland, 2005
[8]
Gerhard Heyer, Uwe Quasthoff und Thomas Wittig: Text Mining: Wissensrohstoff Text, W3l, Herdecke, 2005
[9]
Hajo Hippner und René Rentzmann: Text Mining In: Informatik Spektrum, Volume 29, Nr. 4, Sprinter Verlag, Heidelberg, Deutschland, Seite 287-290, 2006
[10]
Ronen Feldman und James Sangler: The Text Mining Handbook – Advanced Approaches in Analyzing Unstructured Data, Cambridge University Press, New York, 2007
[11]
Jochen Dörre, Peter Gerstl und Roland Seiffert: Volltextsuche und Text Mining. In: Carstensen et. Al: Computerlinguistik und Sprachtechnologie – eine Einführung, Spektrum akademischer Verlag, Heidelberg, 2001