Durch die verbreitete Nutzung des Internets hat die Anzahl der verfügbaren mehrsprachigen Dokumenten in den letzten Jahren sehr stark zugenommen. Darüberhinaus ist auch die Anzahl der Nutzer gestiegen, die nicht Englisch als Muttersprache haben und auf diese Dokumentensammlungen zugreifen möchten. Heutzutage sprechen mehr als die Hälfte (50,4%) der Internetnutzer eine andere Muttersprache als Englisch. Dadurch ist es viel wichtiger geworden, dass Dokumente verschiedener Sprache als Ergebnis auf die Anfrage eines Nutzers geliefert werden.
Im Mittelpunkt unserer Forschungsarbeit in diesem Gebiet steht die Unterstützung mehrsprachiger Informationssuche mit interaktiven Werkzeugen. Hierbei liegt der Schwerpunkt unserer Arbeiten auf europäischen Sprachen. Darüber hinaus legen wir aber ein besonderes Augenmerk auf die arabische Sprache. Wir betrachten hierbei unterschiedliche Ansätze für das mehrsprachige Suche: Zum einen die Nutzung von maschinenlesbaren mehrsprachigen Wörterbüchern; zum anderen die automatische Extraktion von möglichen zutreffend übersetzten Wortäquivalenten, die durch statistische Analyse paralleler Korpora ermittelt werden. Für den letzteren Ansatz wenden wir wahrscheinlichkeitsbasierte Verfahren auf parallelen Texte (d.h. Textsammlungen die in mehreren Sprachen vorliegen) an, um den richtigen Sinn einer Wortübersetzung zu bestimmen. Als Trainingsdaten werden jeweils zweisprachiger parallele Texte genutzt.
Ausgewählte Publikationen
- Farag Ahmed and Andreas Nürnberger, Corpora based Approach for Arabic/English Word Translation Disambiguation. Journal of Speech and Language Technology, Volume 11, pp. 195-213, 2009.
- Farag Ahmed and Andreas Nürnberger, Arabic/English Word Translations Disambiguation using Parallel Corpora and Matching Schemes, In: Proceedings of the 12th European Machine Translation Conference (EAMT08) 22-23 September 2008 at University of Hamburg, Germany. pp. 6-11.
- Farag Ahmed, Ernesto William De Luca and Andreas Nürnberger. MultiSpell: an N-Gram Based Language-Independent Spell Checker. In: Poster Postproc of Eighth International Conference on Intelligent Text Processing and Computational Linguistics (CICLing-2007). Mexico City, Mexico, IEEE CS Press, 2008 (wird erscheinen)
- Farag Ahmed und Andreas Nürnberger, N-Grams Conflation Approach for Arabic Text, In:Proceedings of the International Workshop on improving Non English Web Searching (iNEWS 07) In conjunction with The 30th Annual International (ACM SIGIR Conference).Amsterdam City, Netherlands,2007, pp. 39-46.
- Ernesto William De Luca und Andreas Nürnberger, Adaptive Support for Cross-language Text Retrieval, in: Barry Smyth, Helen Ashman und Vincent Wade (Hrsg.), Proc. of the Int. Conf. on Adaptive Hypermedia and Adaptive Web-Based Systems (AH 2006), LNCS 4018, S.: 425-429, Springer Verlag, Berlin, 2006.
- Ernesto William De Luca, Martin Eul and Andreas Nürnberger. Multilingual Query-Reformulation using an RDF-OWL EuroWordNet Representation. In: Proceedings of the Workshop on Improving Web retrieval for non-English queries (iNEWS07). In conjunction with the SIGIR 2007 Konferenz, Amsterdam, 2007 (wird erscheinen).
- Ernesto William De Luca, Martin Eul and Andreas Nürnberger. Converting EuroWordNet in OWL and Extending It with Domain Ontologies. In: Proceedings of the Workshop on Lexical-Semantic and Ontological Resources. In conjunction with the GLDV-Frühjahrstagung (GLDV 2007). Tübingen, 2007.
- Ernesto William De Luca and Andreas Nürnberger, A Word Sense-Oriented User Interface for Interactive Multilingual Text Retrieval In: Proceedings of the Workshop Information Retrieval In conjunction with the LWA 2006, GI joint workshop event "Learning, Knowledge and Adaptivity", Hildesheim, 2006.
- Ernesto William De Luca and Andreas Nürnberger, LexiRes: A Tool for Exploring and Restructuring EuroWordNet for Information Retrieval In: Proceedings of the Workshop on Text-based Information Retrieval (TIR-06). In conjunction with the 17th European Conference on Artificial Intelligence (ECAI'06). Riva del Garda, Italy, 2006.
- Ernesto William De Luca, Stefan Hauke, Andreas Nürnberger and Stefan Schlechtweg, MultiLexExplorer: Combining Multilingual Web Search with Multilingual Lexical Resources In: Proceedings of the combined Workshop on Language-Enabled Educational Technology and Development and Evaluation of Robust Spoken Dialogue Systems. In conjunction with the 17th European Conference on Artificial Intelligence (ECAI'06). Riva del Garda, Italy, pp. 17-21, 2006.
- Ernesto William De Luca, Stefan Hauke, Andreas Nürnberger and Stefan Schlechtweg, Using Multilingual Ontologies for Adaptive Web-based Language Exploration. In: Proceedings of the International Workshop on Applications of Semantic Web Technologies for E-Learning (SW-EL06). In conjunction with the International Conference on Adaptive Hypermedia and Adaptive Web-Based Systems (AH2006), pp. 35-44, 2006.