Data and Knowledge Engineering Group

Mehrsprachige Suche

Durch die verbreitete Nutzung des Internets hat die Anzahl der verfügbaren mehrsprachigen Dokumenten in den letzten Jahren sehr stark zugenommen. Darüberhinaus ist auch die Anzahl der Nutzer gestiegen, die nicht Englisch als Muttersprache haben und auf diese Dokumentensammlungen zugreifen möchten. Heutzutage sprechen mehr als die Hälfte (50,4%) der Internetnutzer eine andere Muttersprache als Englisch. Dadurch ist es viel wichtiger geworden, dass Dokumente verschiedener Sprache als Ergebnis auf die Anfrage eines Nutzers geliefert werden.

Im Mittelpunkt unserer Forschungsarbeit in diesem Gebiet steht die Unterstützung mehrsprachiger Informationssuche mit interaktiven Werkzeugen. Hierbei liegt der Schwerpunkt unserer Arbeiten auf europäischen Sprachen. Darüber hinaus legen wir aber ein besonderes Augenmerk auf die arabische Sprache. Wir betrachten hierbei unterschiedliche Ansätze für das mehrsprachige Suche: Zum einen die Nutzung von maschinenlesbaren mehrsprachigen Wörterbüchern; zum anderen die automatische Extraktion von möglichen zutreffend übersetzten Wortäquivalenten, die durch statistische Analyse paralleler Korpora ermittelt werden. Für den letzteren Ansatz wenden wir wahrscheinlichkeitsbasierte Verfahren auf parallelen Texte (d.h. Textsammlungen die in mehreren Sprachen vorliegen) an, um den richtigen Sinn einer Wortübersetzung zu bestimmen. Als Trainingsdaten werden jeweils zweisprachiger parallele Texte genutzt.

Ausgewählte Publikationen

Andargachew Gezmu and Andreas Nürnberger, Neural machine translation for amharic-english translation, In: Proceedings of the 13th International Conference on Agents and Artificial Intelligence. Volume 1: Online, 04-06.02.2021 - [Sétubal]: SCITEPRESS - Science and Technology Publications, Lda.; Rocha, Ana Paula . - 2021, pp. 526-53.
Farag Ahmed and Andreas Nürnberger, multi Searcher: Can we Support People to get Information from Text they can't Read or Understand?, In: Proceedings of the 33rd Annual ACM SIGIR conference in Research and Development in Information Retrieval (SIGIR2010), 19-23 July, pp. 837-838 Geneva, Switzerland.

Farag Ahmed and Andreas Nürnberger, Corpora based Approach for Arabic/English Word Translation Disambiguation. Journal of Speech and Language Technology, Volume 11, pp. 195-213, 2009.
Farag Ahmed and Andreas Nürnberger, Arabic/English Word Translations Disambiguation using Parallel Corpora and Matching Schemes, In: Proceedings of the 12th European Machine Translation Conference (EAMT08) 22-23 September 2008 at University of Hamburg, Germany. pp. 6-11.
Ernesto William De Luca, Stefan Hauke, Andreas Nürnberger and Stefan Schlechtweg, MultiLexExplorer: Combining Multilingual Web Search with Multilingual Lexical Resources, In: Proceedings of the combined Workshop on Language-Enabled Educational Technology and Development and Evaluation of Robust Spoken Dialogue Systems. In conjunction with the 17th European Conference on Artificial Intelligence (ECAI'06). Riva del Garda, Italy, pp. 17-21, 2006.