Kategorie

A	B	C	D	E
F	G	H	I	J
K	L	M	N	O
P	Q	R	S	T
U	V	W	X	Y
Z	0

maschinelle a bersetzung

Maschinelle Übersetzung

Maschinelle Übersetzung (MÜ oder MT für engl. machine translation), auch automatische Übersetzung, bezeichnet die Übersetzung von Texten zwischen zwei Sprachen mithilfe eines Computerprogrammes. MÜ ist ein Teilbereich der künstlichen Intelligenz.

Während die menschliche Übersetzung Gegenstand der Sprachwissenschaft ist, wird MÜ vor allem in der Informatik und Computerlinguistik erforscht. Schon für die ersten Computer Ende der 40er Jahre wurden MÜ-Anwendungen geschrieben. MÜ gilt als die Königsdisziplin der Computerlinguistik.

Table of contents

1 Menschheitstraum
2 Geschichte
3 Wie funktioniert MÜ? (Methoden)
4 Warum ist die Qualität oft so miserabel?
5 Grammatische Problemgebiete (Diversionen)
6 Links

Menschheitstraum

Das Verstehen einer Sprache, ohne sie gelernt zu haben, ist ein alter Menschheitstraum (Turmbau zu Babel, Babelfisch, Pfingstwunder, Science Fiction-Geschichten). Die Erfindung der Computer in Kombination mit der Beschäftigung mit dem Phänomen Sprache als wissenschaftlicher Disziplin (Sprachwissenschaft) haben zum ersten Mal einen konkreten Weg zur Erfüllung dieses Traums geöffnet.

Geschichte

Bis zum heutigen Tag hat das militärische Interesse den Weg der MÜ entscheidend geprägt. Eines der frühesten Projekte war ein Russisch-Englisch-Übersetzungsprogramm für das US-Militär. Trotz seiner anekdotenhaft schlechten Qualität (Englisch: "der Geist ist willig, aber das Fleisch ist schwach" wurde angeblich zu Russisch: "der Wodka ist gut, aber das Steak ist schlecht") genoss das Programm hohe Popularität unter US-Militärs, die sich zum ersten Mal ohne den Umweg über Dritte (Dolmetscher und Übersetzer) selbst zumindest eine Idee vom Inhalt russischer Dokumente verschaffen konnten.

Der 1966 für das Pentagon erstellte "ALPAC"-Bericht bescheinigte der MÜ grundsätzliche Unrealisierbarkeit und brachte mit einem Schlag die Forschung für fast 20 Jahre praktisch ganz zum Erliegen. Erst in den 80er Jahren begannen Elektrokonzerne wie die Siemens AG ("Metal"-Projekt) erneut mit der Forschung. In der gleichen Zeit initiierte die japanische Regierung das Fünfte-Generation-Projekt, bei dem MÜ von Englisch in Japanisch zunächst auf der Basis der Programmiersprache Prolog implementiert wurde. Die enge Zusammenarbeit zwischen Universitäten, Elektrokonzernen und Regierung führte zu den weltweit ersten kommerziellen MÜ-Programmen für PCs und hat Japan in die Führungsposition der MÜ-Forschung weltweit gebracht.

Der Crash der dotcom-Firmen 2000-2001 hat auch viele kleinere MÜ-Firmen in den Ruin getrieben. Heutzutage sind in der MÜ-Software-Industrie weltweit schätzungsweise nur 10-20 Firmen aktiv (viele Programme sind lizenziert, so dass der falsche Eindruck einer größeren Vielfalt entsteht), so dass sich die Entwicklung großenteils an den Universitäten abspielt.

Derzeit wird weltweit nur etwa 1 % des gesamten Umsatzes auf dem Übersetzungs-Markt mit MÜ-Anwendungen erzielt. In den 00er Jahren hat der Bedarf an einsetzbaren MÜ-Anwendungen stark zu genommen.

Gründe für den ansteigenden Bedarf:

Praktisch alle Texte sind heute digital verfügbar (also leicht für den Computer zu verarbeiten).
Die Globalisierung erfordert die Übertragung von immer mehr Texten in immer mehr Sprachen (der Markt für Übersetzung verdoppelt sich alle vier Jahre), während die Popularität des Berufs des Übersetzers/Dolmetschers stagniert.
Gerade von nur wenigen Westeuropäern/Amerikanern gesprochene beziehungsweise für diese schwierig zu erlernende Sprachen aus Regionen, deren Bewohner ihrerseits kaum westliche Sprachen sprechen, werden immer wichtiger:
- kommerziell wichtig: die ostasiatischen Sprachen Chinesisch, Koreanisch und Japanisch; sowie Thai.
- militärisch wichtig: Sprachen der internationalen Konfliktregionen, vor allem mit Beteiligung des US-Militärs. 2003 haben gleich mehrere US-Software-Firmen Übersetzungsprogramme für Arabisch und sogar Paschtu (Sprache in Afghanistan) herausgebracht. Ebenfalls 2003 hat die DARPA einen Blind-Wettbewerb für eine unbekannte Ausgangssprache durchgeführt.

Wie funktioniert MÜ? (Methoden)

Alle MÜ-Systeme benutzen (in Datei-Form vorliegende) zweisprachige Wörterbücher und haben Module zumindest für grundsätzliche Grammatikregeln. Die einzelnen Methoden unterscheiden sich dennoch erheblich.

Die wichtigsten Methoden/Herangehensweisen der MÜ sind:

direkte MÜ. Die Wörter des Quelltextes werden mit dem Wörterbuch Wort für Wort und in der gleichen Reihenfolge in die Zielsprache übertragen. Anschließend werden Satzstellung und Flexion nach den Regeln der Zielsprache angepasst. Dies ist die älteste und einfachste MÜ-Methode, die beispielsweise auch obigem Russisch-Englisch-System zugrundelag.
Transfer. Die Transfer-Methode ist die klassische MÜ-Methode mit drei Schritten: Analyse, Transfer, Generation. Der zweite Schritt hat der ganzen Methode den Namen gegeben. Zunächst wird die grammatische Struktur des Quelltextes analysiert, oft in einer Baumstruktur. Dann werden in zwei getrennten Prozessen Wörter einerseits und grammatische Regeln andererseits in die Zielsprache übertragen (=transferiert). Schließlich werden in der Zielsprache die Wörter in die Regeln eingesetzt und so der Zieltext erzeugt (=generiert).
Interlingua. Die grammatische Information des Quelltextes wird zunächst in einer neutralen "Zwischensprache" (=Interlingua) ausgedrückt. Die grammatische Information in der Zielsprache wird aus dieser Zwischensprache erzeugt. Die Interlingua-Methode ist hilfreich bei komplexen Ausdrücken. So kann man deutsch "Wenn ich arbeiten würde, würde ich mir ein Auto kaufen." nicht mit einer Transfer-Regel würde-->would übersetzen. "*If I would work, I would buy a car.", weil in englisch if-Sätze would nicht erlauben. In der Interlingua würde die würde-Information abstrakt als "Irreales Konditional" weitergegeben und im Englischen je nach dem Satzkontext mit oder ohne would realisiert.
EBMT (steht für Example-Based Machine Translation, beispielbasierte MÜ). Das Kernstück eines EBMT-System ist ein Translation Memory, in dem häufig wiederkehrende Sätze oder Redewendungen mit ihren jeweiligen Übersetzungen gespeichert werden. Statistisch wird (mit Information-Retrieval-Methoden) berechnet, wie ähnlich alle Einträge des Translation Memory jeweils einem Satz des Quelltextes sind. Aus der Kombination der Übersetzung der ähnlichsten Sätze wird die Übersetzung generiert.
SBMT (steht für Statistics-Based Machine Translation, statistische MÜ). Vor der eigentlichen Übersetzung analysiert ein Programm einen möglichst großen und breitgefächerten Corpus von zweisprachigen Texten (oft zum Beispiel die Bibel). Dabei werden Wörter und grammatische Formen aufgrund ihrer Häufigkeit und Nähe im Text einander zugeordnet und somit ein Wörterbuch sowie Grammatikübertragungsregeln extrahiert. Auf dieser Basis werden nun Texte übersetzt. Die SBMT ist in letzter Zeit sehr populär, weil sie keinerlei Kenntnis der beteiligten Sprachen voraussetzt. Aus dem gleichen Grund ist die Übersetzungsqualität auch meist sehr schlecht. Das Computerprogramm erledigt die Extraktion von Wörtern und Regeln automatisch, vorausgesetzt man füttert ihn mit einem großen Corpus. SBMT wird beispielsweise vom Pentagon für die Sprachen favorisiert, für die man schnell ein MÜ-System braucht, ohne Zeit für das Zusammentragen von Regeln durch Menschen zu haben.
HAMT (steht für Human-Aided Machine Translation, MÜ mit menschlicher Hilfe). Anstatt die Übersetzung 100 % dem Computer zu überlassen, wird der menschliche Benutzer gebeten, mehrdeutige oder schwierig zu übersetzende Konstruktionen selbst zu übersetzen oder zu vermeiden. Dies kann im voraus geschehen, indem der Benutzer beispielsweise lange Sätze in kurze Sätze unterteilt, oder in Interaktion, zum Beispiel indem das Programm den Computer bittet, die gewünschte Bedeutung eines Wortes auszuwählen.

Die meisten Systeme in der Praxis sind eine Mischung aus mehreren Methoden (oft Dominanz des Transfersystems mit Interlingua und EBMT-Elementen).

Warum ist die Qualität oft so miserabel?

Ergebnisse von MÜ-Programmen sind in vielen Fällen falsch und darüber hinaus oft unbeabsichtigt erheiternd. Um diesen Effekt zu sehen, genügt es praktisch, irgendeinen willkürlich ausgewählten Text einer Fremdsprache von einer kostenlosen Übersetzungsmaschine wie bei Google in die eigene Muttersprache übersetzen zu lassen.

>> Hinweis: Die Antwort gibt absolut keine Information zur Frage !!! Gefragt wird warum die Qualität miserabel ist. Als Antwort wird nur gesagt wie man das erkennen kann bzw selbst testen kann. Meines erachtens völliger Schwachsinn

Grammatische Problemgebiete (Diversionen)

In keinem MÜ-System wird jede grammatische Regel angewendet beziehungsweise analysiert. Vielmehr wird oft auf free rides vertraut. Free rides (kostenlose Mitnahme) bedeutet, dass ein Phänomen ohne spezifische Analyse zufällig in der anderen Sprache ähnlich realisiert wird (und damit nur die Wörter übersetzt werden müssen), so beim Artikel: der, die, das wird sowieso fast immer zu the in Englisch, fast nie zu a, also scheint eine Extra-Analyse als "bestimmter Artikel" überflüssig. Dass aber auch zwischen Deutsch und Englisch free rides scheitern können, zeigt der obige if-Satz mit "würde". Zwischen entfernteren Sprachen, zum Beispiel Chinesisch-Deutsch sind free rides oft nicht mal auf der Wortebene eine sichere Bank.

Viele komplexe Grammatik-Phänomene sind von der MÜ noch gar nicht oder nur in Ansätzen erforscht und realisiert. Für sie sind free rides die einzige, oft fatale, Lösung. Solche Phänomene sind (Auswahl):

Artikel. Die germanischen und romanischen Sprachen haben Artikel, viele andere Sprachen dagegen nicht. Bei Übersetzung aus einer anderen Sprache muss der jeweils richtige Artikel quasi "aus dem Nichts" generiert werden -- aber eben nicht in allen Fällen.
Zusammengesetzte Nomina. In Sprachen wie Deutsch oder Japanisch kann die genaue Beziehung zwischen Nomina untereinander "kaschiert" werden, indem man sie einfach nebeneinander stellt. In anderen Sprachen muss die Beziehung explizit gemacht werden. Beispiel: Donaudampfschifffahrtsgesellschaftskapitän = "Ein Kapitän, der bei einer Gesellschaft arbeitet, deren Geschäft Schifffahrt auf der Donau ist"
Relativpronomen. Die meisten Sprachen haben gar kein oder nur ein einziges Relativpronomen. Bei Übersetzung in Deutsch (der, die, das) oder Englisch muss aber ausdifferenziert werden.
Tempus/Modalität. Jede Sprache hat ihr eigenes System, um zu sagen, dass ein Satz in der Vergangenheit passiert oder ein Befehl ist. In europäischen Sprachen wird dies oft mit Verb und Adverb realisiert.

Links

http://babelfish.altavista.com

Impressum

Datenschutzerklärung