Für Studierende

Fraunhofer-Institut für Arbeitswirtschaft und Organisation

Entwurf und Implementierung eines Services zur Firmennamenunifikation

Allgemeine Informationen

Fachrichtungen:Softwaretechnik, Informatik, Computerlinguistik
Beginn:Ab sofort

Hintergrund und Problem-Domäne

Am Competence Center Electronic Business werden durch Fraunhofer IAO im Rahmen des The-seus -Anwendungsfalles TEXO  Methoden und Werkzeuge zur Akquisition und zielgerichteten Verarbeitung von Informationen aus Web-Dokumenten für professionelle Anwender entwickelt und erprobt. Das Anwendungsgebiet umfasst dabei neben dem strategischen Innovationsmanagement auch verwandte Disziplinen wie Wettbewerbsbeobachtung und Onli-ne-Reputationsmanagement.

Eigennamen („Named Entities“) stellen bei der Analyse von Web-Dokumenten eine besonders wichtige Wortklasse dar: So können mittels Personen- oder Firmennamenerkennung Beziehungsnetzwerke identifiziert werden. Insbesondere das Wissen über Organisationbeziehungsnetzwerke kann für Unternehmen eine hohe strategische Relevanz haben, Anwendungsfälle sind z.B.: 

  • Erkennung von Forschungsgemeinschaften, und damit Identifikation relevanter Anlaufstellen für F&E-Vorhaben;
  • Frühzeitige Erkennung von sich anbahnenden Unternehmenspartnerschaften oder –übernahmen im Rahmen der Wettbewerbsbeobachtung;
  • Identifikation von (stark vernetzten) Meinungsführern in Online-Quellen im Rahmen des Reputationsmanagement.

Für die Identifikation von Organisationsnamen gibt es bereits eine ganze Reihe von Verfahren und Werkzeugen. Ein sehr wichtiges bislang aber nur unzureichend gelöstes (und untersuchtes)  Teilproblem besteht in der Unifikation von Organisationsnamen, also der Erkennung unter-schiedlicher Schreibweisen von Organisationsnamen (z.B. „Microsoft“ vs. „Microsoft Corp.“ Oder „Fraunhofer IAO“ vs „Fraunhofer-Institut für Arbeitswirtschaft und Organisation“). Ein weiterer Aspekt ist die korrekte Zuordnung von Organisationen zu Dachverbänden (z.B. Fraun-hofer IAO <- Fraunhofer Gesellschaft). 

Aufgabenstellung

In der Arbeit sollen die folgenden Aufgabenschritte durchgeführt werden: 

  • Beschreibung des Problemfeldes der Organisationsnamenunifikation;
  • Recherche und Beschreibung von bekannten Lösungsansätzen;
  • Untersuchung der Eignung der Lösungsansätze für einen bestimmten Anwendungsfall, der zu Beginn der Arbeit gemeinsam mit dem Betreuer festgelegt wird;
  • Konzeption eines für den Anwendungsfall optimierten Lösungsansatzes, ggf. durch Kombination oder Erweiterung verschiedener Verfahren oder auch Entwicklung eines eigenes Ansatzes;
  • (prototypische) Implementierung des Verfahrens und Bereitstellung als Webservice;
  • Evaluation und kritische Diskussion des Ergebnisses. 

Wir bieten:

  • Interessante Themenstellung
  • Interessantes Projektumfeld
  • Moderne Hard- und Softwareausstattung
  • Nette und motivierte Teamkollegen

Wir erwarten:

  • Fähigkeit zur selbständigen und strukturierten Durchführung von Arbeiten
  • Kenntnis und Interesse an Internet-Technologien und Text-Mining
  • Gute Kenntnisse der deutschen Sprache

Literaturhinweise

[1]
Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze: An Introduction to Information Retrieval, Cambridge University Press, Cambridge, England, 2007 (Preliminary draft)
[2]
Baeza-Yates, Ricardo und Ribeiro-Neto, Berthier (1999), Modern Information Retrieval, Ad-dison-Wesley Longman Publishing Co., Boston, MA, USA.
[3]
Dirk Lewandowski: Web Information Retrieval – Technologien zur Informationssuche im Internet, Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V., Frankfurt am Main, 2005
[4]
S. Beucker, S., C. Lang-Koetz und S. Springer: Strukturierung der verfügbaren Online-Unterstützung für das Innovationsmanagement, 2006. http://www.nova-net.de/fhg/Images/Beucker_Online-Unterstuetzung_InnoMgnt_2006_(nova-net_3-8167-7048-7)_www_tcm231-54861.pdf
[5]
Lukas Gotter, Text Mining - Wissensgewinnung aus Texten, http://wissensexploration.de/textmining.php (2007) 
[6] 
Jan Finzen; Maximilien Kintz and Holger Kett und Steffen Koch (2009): Strategic Innovation Management on the Basis of Searching and Mining Press Releases. In: Joaquim Filipe; José Cordeiro (Hg.): WEBIST 2009 - Proceedings of the Fifth International Conference on Web Information Systems and Technologies, Lisbon, Portugal, March 23-26, 2009: INSTICC Press, S. 347–353.
[7]
Joel Nothman (2008): Learning Named Entity Recognition from Wikipedia. Bachelor Thesis (Honours), Online abrufbar unter http://joelnothman.com/downloads/honsthesis.pdf
[8]
L. Ratinov und D. Roth (2009): Design Challenges and Misconceptions in Named Entity Rec-ognition. Proc. of the Annual Conference on Computational Natural Language Learning (CoNLL)