Für Studierende
Fraunhofer-Institut für Arbeitswirtschaft und Organisation
Entwurf und Implementierung eines UIMA-Services zur Identifikation von Unternehmensbeziehungen aus Web-Texten
Allgemeine Informationen
| Fachrichtungen: | Softwaretechnik, Informatik, Computerlinguistik |
| Beginn: | Ab sofort |
Hintergrund und Problem-Domäne
Am Competence Center Electronic Business werden durch Fraunhofer IAO im Rahmen des Theseus -Anwendungsfalles TEXO Methoden und Werkzeuge zur Akquisition und zielgerichteten Verarbeitung von Informationen aus Web-Dokumenten für professionelle Anwender entwickelt und erprobt. Das Anwendungsgebiet umfasst dabei neben dem strategischen Innovationsmanagement auch verwandte Disziplinen wie Wettbewerbsbeobachtung und Online-Reputationsmanagement.
Eine insbesondere im Rahmen der Wettbewerbsbeobachtung wichtige Aufgabe ist die Computerunterstützte Analyse von Unternehmensbeziehungen. Im Internet werden heutzutage viele Dokumente veröffentlicht, die Aufschluss über Relationen zwischen verschiedenen Organisationen geben können. Die Art der Relation kann dabei äußerst vielfältig sein und reicht von strategischen Partnerschaften über Kunden-Lieferanden-Beziehungen bis zu Akquisitionen. Durch die wachsende Informationsmenge und die kurzfristige Verfügbarkeit entsprechender Dokumente z.B. durch RSS-basierte Newsfeeds lassen sich durch entsprechende Textanalysen strategisch relevante Erkenntnisse gewinnen, etwa über sich anbahnende Firmenübernahmen durch Konkurrenten.
Aufgabenstellung
Im Rahmen der Diplomarbeit sollen Verfahren untersucht werden, wie mit Hilfe von statistischen und/oder regelbasierten Verfahren (etwa linguistischen Mustern) Unternehmensbeziehungen aus Online-Texten extrahiert werden können. Dieser theoretische Teil der Arbeit umfasst dabei so-wohl die Sichtung des wissenschaftlichen State-of-the-Arts bzgl. entsprechender Verfahren als auch die Bewertung verfügbarer kommerzieller und nicht-kommerzieller Angebote vie OpenCa-lais oder Alchemy . Basierend auf den gewonnenen Erkenntnissen soll anschließend ein Konzept zur Extraktion von Unternehmensbeziehungen entworfen und prototypisch implementiert und als Webservice zur Verfügung gestellt werden. Dabei werden in Abhängigkeit von den Erkenntnissen aus der vorangegangenen Untersuchung sowie in Abstimmung mit dem Betreuer Einschränkungen bezüglich der Sprache, der fachlichen Domäne sowie der Art(en) der zu identifizierenden Unternehmensbeziehungen vorgenommen. Abschließend sollen der erreichte Implementierungsstand sowie die Ausbaufähigkeit des Konzeptes bzgl. der genannten Dimensionen kritisch diskutiert werden.
Die Diplomarbeit umfasst die folgenden Arbeitsschritte:
- Untersuchung des State-of-the-Art der Extraktion von Unternehmensbeziehungen (also etwa Named Entity Recognition, Firmennamen-Unifikation und Firmen-Beziehungs-Identifikation). Analyse des wissenschaftlichen Wissensstands durch Literaturrecherche und Erprobung von verfügbaren Services.
- Entwicklung und Beschreibung eines Konzeptes zur Identifikation von (bestimmten) Unternehmensbeziehungen. Dabei sind zunächst in Abstimmung mit dem Betreuer Einschränkungen bzgl.
a. Fachlicher Domäne (z.B. „Erneuerbare Energien“),
b. Sprache (Deutsch oder Englisch) sowie
c. Beziehungsarten (z.B. „Akquisition“) festzulegen - Die Tragfähigkeit des Konzeptes soll anhand einer prototypischen Implementierung belegt werden. Die Implementierung erfolgt dabei in JAVA und soll als UIMA -Service bereitgestellt werden.
- Der UIMA-Service wird anhand eines Referenzkorpus evaluiert (bzgl. Precision und Recall). Die Erstellung des Korpus ist dabei nicht Bestandteil der Arbeit sondern wird begleitend durch den Betreuer sichergestellt.
- Kritische Diskussion der erreichten Ergebnisse sowie Bewertung der Ausbaufähigkeit des Konzeptes insb. bzgl. der in Schritt 2. gemachten Einschränkungen.
Wir bieten:
- Interessante Themenstellung
- Interessantes Projektumfeld
- Moderne Hard- und Softwareausstattung
- Nette und motivierte Teamkollegen
Wir erwarten:
- Fähigkeit zur selbständigen und strukturierten Durchführung von Arbeiten
- Kenntnis und Interesse an Internet-Technologien und Text-Mining
- Gute Kenntnisse der deutschen Sprache
Literaturhinweise
[1]
Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze: An Introduction to Information Retrieval, Cambridge University Press, Cambridge, England, 2007 (Preliminary draft)
[2]
Baeza-Yates, Ricardo und Ribeiro-Neto, Berthier (1999), Modern Information Retrieval, Ad-dison-Wesley Longman Publishing Co., Boston, MA, USA.
[3]
Dirk Lewandowski: Web Information Retrieval – Technologien zur Informationssuche im Internet, Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V., Frankfurt am Main, 2005
[4]
S. Beucker, S., C. Lang-Koetz und S. Springer: Strukturierung der verfügbaren Online-Unterstützung für das Innovationsmanagement, 2006. http://www.nova-net.de/fhg/Images/Beucker_Online-Unterstuetzung_InnoMgnt_2006_(nova-net_3-8167-7048-7)_www_tcm231-54861.pdf
[5]
Lukas Gotter, Text Mining - Wissensgewinnung aus Texten, http://wissensexploration.de/textmining.php (2007)
[6]
Jan Finzen; Maximilien Kintz and Holger Kett und Steffen Koch (2009): Strategic Innovation Management on the Basis of Searching and Mining Press Releases. In: Joaquim Filipe; José Cordeiro (Hg.): WEBIST 2009 - Proceedings of the Fifth International Conference on Web Information Systems and Technologies, Lisbon, Portugal, March 23-26, 2009: INSTICC Press, S. 347–353.

Lesezeichen setzen bei