Maschinelle Übersetzung Hausarbeit PDF

Title	Maschinelle Übersetzung Hausarbeit
Author	Linda Krzikalla
Course	Fallbasierte Systeme Und Anwendungen
Institution	Universität Hildesheim
Pages	28
File Size	450.7 KB
File Type	PDF
Total Downloads	15
Total Views	168

Preview

CLICK TO PREVIEW PDF

Summary

Hausarbeit mit integriertem Verscuh zur Maschinellen Übersetzung...

Description

Stiftung Universität Hildesheim Fachbereich 3 Institut für Informationswissenschaft und Sprachtechnologie Übung: Anwendungen der Sprachtechnologie in Übersetzung und technischen Redaktion (Ersatzleistung für IKÜ STO 2015, Modul 5.3 Sprachtechnologie) Dozent: Dr. Folker Caroli

Hausarbeit zu dem Thema:

Maschinelle Übersetzung für Marketingtexte. Ein Versuch mit PONS Textübersetzung und Google Translate im direkten Vergleich

vorgelegt am 28.02.2019 von: Krzikalla, Linda Matrikel-Nr. 249122 BA Internationale Kommunikation und Übersetzen 8. Fachsemester

[email protected]

1

Inhalt 1. Einleitung...................................................................................................................1 2. Maschinelle Übersetzung..........................................................................................2 2.1 Abhandlung zum Übersetzungsprozess............................................................3-5 2.2 Grundlagen, Herausforderungen und Ziele der MÜ..........................................5-6 2.3 Umsetzung.............................................................................................................7 2.3.1 Systemarten der MÜ.................................................................................7-9 2.3.2 Fehlerquellen..........................................................................................9-10 2.3.3 Methoden zur Fehlerbehebung und Qualitätssteigerung......................11-13 3. Ein Versuch mit PONS Textübersetzung und Google Translate.....................14-15 3.1 Versuchsbeschreibung....................................................................................15-16 3.2 Auswertung der Ergebnisse...........................................................................16-17 4. Fazit..........................................................................................................................18 Literaturverzeichnis Anhang (Versuch) Eigenständigkeitserklärung

1. Einleitung Das Web 2.0 bietet neue Plattformen wie Blogs, die heute sogar als Haupteinnahmequelle und Vollzeitjob bedient werden. Die Zielgruppen dieser Blogs die ihren Gewinn über Werbung oder Angebote einspielen, die auf diesen Seiten diskutiert und angepriesen werden. Da es sich um eine Online-Plattform handelt erwarten die Nutzer regelmäßig Einträge und die Möglichkeit die Inhalte mit zu beeinflussen oder sich an Diskussionen oder mit Fragen zu beteiligen. Die Zielgruppe des Reisemagazins Urlaubsguru richtet sich an deutschsprachige Reiselustige und Sparfüchse. Ein größerer Markt würde angesprochen wenn Inhalte auch auf Englisch oder Spanisch angeboten würden. Die Texte, die veröffentlicht werden erscheinen nur seriös wenn sie nicht nur inhaltliche wertvolle Informationen liefern sondern auch sprachlich korrekt sind. Wenn nun täglich mehrere Blogeinträge veröffentlicht und aktualisiert werden müssen, so ist gerade bei Reiseangeboten, Schnelligkeit besonders wichtig. Die Maschinelle Übersetzung (weiter MÜ abgekürzt) leistet Unterstützung wenn schnell und mit minimalem Eigenaufwand Übersetzungen angefertigt werden sollen. Sie eignet sich aber aus verschiedensten Gründen nicht für jede Textsorte, bspw. nicht für literarische oder kreative Sprache. Diese Arbeit soll untersuchen, ob eine Arbeit mit einem MÜ-Systeme für diese Textsorte sinnvoll ist, ob theoretisch erwartete Fehlerquellen sich auch in der Praxis abbilden und argumentiert werden, welche Strategie zur Fehlerbehebung und Qualitätssteigerung in diesem Falle vorteilhaft wären. Zu aller erst wird aber ein Überblick über die MÜ, ihre Entwicklung, Funktionsweise und Fehlerquellen sowie ihr Behebung gegeben, bevor die Tools für den Versuch vorgestellt, der Versuch beschrieben, durchgeführt und ausgewertet wird. Der Versuch hat zum Ziel, zwei kostenlose MÜ-Tools auf ihre Qualität und Nutzen für journalistische Marketingtexte zu überprüfen. Im Umfang dieser Arbeit beschränkt sich der Versuch auf einen Blog-Ausschnitt de Reiseblogs Urlaubsguru.

1

2. Maschinelle Übersetzung Im 17. Jahrhundert entstand in den Naturwissenschaften die Idee, ähnlich den mathematischen Formeln, einheitliche und unmissverständliche Codes als Basis für weltweite Kommunikation zu entwickeln (vgl Hutchins/Somers 1997, S.3). Den Aspekt der algorithmischen Erfassung von Sprache greift die MÜ-Forschung für den automatisierten Übersetzungsprozess

auf.

Ursprünglich

sollte

dieser

Prozess

in

Programmen

niedergeschrieben werden um ihn in einen algorithmischen Programmablauf, ausgeführt durch den Rechner, zu verwandeln (vgl. Wilss 2016, S.170). Die zunächst simple erscheinende Idee erfährt allerdings über die Jahre ihrer Erforschung, Entwicklung und Umsetzung, Rückschläge und Umorientierungen. So erklärt Hutchins, dass das ursprüngliche Ziel, eine vollautomatische qualitativ hochwertige Übersetzung zu produzieren, längst verworfen worden sei (Hutchins 1986, S.329). Ein Paradigmenwechsel nach Einsatz der ersten MÜ-Systeme verlagert den Fokus auf die Nach-und Vorbearbeitungsmöglichkeiten und die Qualitätssteigerung des Outputs (vgl. Uta 2017, S.107). Dennoch verbleibt der gesamte Übersetzungsprozess der MÜ vollautomatisch, was sie von maschinell-unterstützen Humanübersetzungen (MAHT), Menschen-unterstützter maschineller Übersetzung (HAMT) und Computer-Aided bzw. Computer-Assisted Machine Translation (CAT) unterscheidet (vgl. Hutchins/Somers 1997, S.3). Die verschiedenen Entwicklungsstufen, die die MÜ-Systeme durchlaufen sind und welche Systemarten dadurch entstanden sind, wird unter Punkt 2.3 besprochen. Zuvor soll allerdings auf den Übersetzungsprozess als solches, unabhängig davon, ob er von einem Menschen oder einer Maschine durchgeführt wird, genauer eingegangen werden (2.1), um dann auf die grundlegenden Ideen und Zielsetzungen der MÜ-Forschung einzugehen, bevor sie in aller Ausführlichkeit vorgestellt und kritisch betrachtet werden.

2.1 Abhandlung zum Übersetzungsprozess Um zu verstehen, welche Prozesse durch die MÜ-Systemen automatisch ablaufen sollen, muss sich zunächst der Übersetzungsprozess an sich vor Augen geführt werden. Beim 2

Übersetzen handelt es sich, ganz grob gesagt, um eine Mittleraktion zwischen zwei Sprachen (vgl. Wilss 2016, S.32). Die Aktion basiert auf einem Ausgangstext (AT) in Sprache A und produziert einen Zieltext (ZT) in Sprache B. Das Material jedes Übersetzungsprozesses sind demnach Sprachen. In der Linguistik mag Sprache zunächst als recht statisches regelorientiertes Konstrukt betrachtet worden sein, was sich allerdings spätestens mit der generativen Grammatik (Chomsky) und der pragmatischen Wende verändert hat. Sprache wird seither aus verschiedenen Blickwinkeln, in ihrem gesellschaftlichen Zusammenhang und in ihrer Äußerung, als von etlichen Faktoren abhängig, betrachtet. Die Sprachforschung berücksichtigt heute sowohl geschichtliche Aspekte, wie den Sprachwandel, als auch soziale Aspekte, wie die Abhängigkeit der Art der Verständigung von ihrem sozialen Umfeld, und psychologische Aspekte, wie den Spracherwerb und den kreativen Sprachgebrauch, als Einflussfaktoren und Eigenschaften von Sprache (Hutchins/Somers 1997, S.11). Diese Aspekte schlagen sich in den Bereichen Grammatik,

Phonologie,

Morphologie,

Orthografie,

Lexikon,

Syntax,

Semantik,

Textbeziehungen, Reprsentationen und Abhängigkeiten nieder (vgl. Hutchins/Somers 1997, S.12-28). Sprache und ihr Gebrauch werden folglich durch eine Vielzahl von Faktoren beeinflusst und auf verschiedene Weise verwendet und verstanden. Es kann auf zwei Arten übersetzt werden. Beim akommodierenden Übersetzen wird direktional vom Objekt zum Subjekt gearbeitet, also versucht die Inhalte des AT an die Zielgruppe anzupassen (vgl. Wilss 2016, S.32). Das assimilatorische Übersetzen geht von Eins-zu-Eins Entsprechungen der Lexeme aus und überträgt den AT Wort für Wort (vgl. ebd.). Es zeigt sich aber, dass lineare Substitutionsprozesse in den seltensten Fällen adäquate, grammatikalisch korrekte und verständliche Texte liefert (Wilss 2016, S.172), was dafür spricht, das sich hinter dem Übersetzen weit komplexere Prozesse verbergen. Zum einen ist es ein Verstehensprozess, zum anderen ein Entscheidungsprozess zusätzlich zu dem Herausarbeiten textsemantischer, textfuntionaler und textpragmatischer Bezüge, die laut Wilss von grundlegender Bedeutung für die Übersetzertätigkeit sind (Wilss 2016, S.37). Die Inhalte des AT müssen verstanden, seine spezifischen Funktionen, Eigenheiten und Ziele erkannt und Entscheidungen getroffen werden die zu einem adäquaten und wiederum verständlichen ZT führen.

3

Unser Verständnis basiert auf erlerntem Wissen. Stachowitz erkennt, dass Übersetzen einen Verstehensprozess darstellt (Stachowitz 1973, S.14) und beschreibt die Komponenten des allgemeinen

Verstehens

als

den

Sachverhalt

X,

die

dazugehörigen

Sachverhaltsbeschreibungen, die Abbildungen eines Sachverhalts X und die Abbildungen einer Sachverhaltsbeschreibung (ebd.). Es bieten sich also eine Vielzahl an Realisierungen eines einzelnen Sachverhaltes an, die alle als zu diesem zugehörig erkannt werden müssen, um sie zu verstehen. Laut Stachowitz Verstehensmodell, ist es möglich alle Sachverhaltsbeschreibungen von Sachverhalt X zu speichern, abzurufen, zu assoziieren, seine semantischen Komponenten zu erkennen und in logischen Zusammenhängen zu betrachten (Stachowitz 1973 S.40). Je mehr Weltwissen und Domäne-wissen vorhanden ist, desto mehr Sachverhaltsbeschreibungen werden verstanden, auch wenn der Sachverhalt X selbst nicht explizit genannt wird. Stachowitz verweist auch darauf, dass das Regelschema jeder

Grammatik

aus

zwei Teilen

besteht,

dem

syntaktischen Teil,

der

auf

kontextunabhängig Regeln basiert und einem kontextgebundenen Teil, dem fakultativen transformationellen Teil (Stachowitz 1973, S.75) der flexibel verwendet werden kann und seine Bedeutung erst durch den Kontext erhält. Dem stimmt die Annahme Wilss zu, Sprache sei ein offenes dynamisches, nur relativ fixiertes System, dass sich regelhaftig verhält, aber auch Änderungen und Regelabweichungen zulässt (Wilss 2016, S. 237). Als Menschen sind wir in der Lage sowohl den regelkonformen als auch den normabweichenden Teil zu verstehen. Wir verarbeiten und begreifen Informationen nach einer natürlichen Logik (vgl. Wilss 2016, S.238). Um einen Entscheidungsprozess handelt es sich beim Übersetzen insofern, als das zwischen den Vielseitigen Möglichkeiten, die oben erwähnt wurden, eine Text- und Zielkultur adäquate Wahl getroffen werden muss. Das geschieht durch Rückgriff auf Erfahrungswerte, angeeignete kulturelle Kenntnisse und ist bedingt vom Verständnis des AT und den Anforderungen an den ZT. Der Übersetzungsprozess ist dem zufolge ein Zusammenspiel aus sprachlichem Verständnis, von Sprache in ihren Kontexten, Kenntnis der Regelwerke der Sprachen und den möglichen Abweichungen, kulturspezifischem Wissen, und dem treffen fundierter und adäquater Entscheidungen. Diese komplexen Abläufe sollen nun in der MÜ nicht mehr vom Menschen bewerkstelligt, sondern von Maschinen vollautomatisch übernommen werden. Bleiben Fragen, wie die

4

danach mit welcher Intention die MÜ-Systeme entwickelt wurden, welche Ziele durch ihre Verwendung erreicht werden sollen, vor welchen Herausforderungen Forscher und Programmierer stehen und wie die MÜ-Systeme im Grunde funktioneren?

2.2 Grundlagen, Herausforderungen und Ziele der MÜ Die Komplexität des Übersetzungsprozess bedeutet gleichzeitig einen hohen Zeitaufwand für den Übersetzer. Eine große Menge an wissenschaftlichen und technischen Dokumenten, kommerziellen und administrativen oder juristischen Texten, Bedienungsanleitungen oder auch journalistische Texte sind, sich wiederholende Textarten (Hutchins/Somers 1997, S.2). Sie folgen meist strengen Formatierungen und besitzen relativ feste stilistische Eigenheiten. Dazu kommt, dass durch den technischen Fortschritt, der alltäglichen und privaten Nutzung des Internets im Zusammenspiel mit einer globalisierten und internationalisierten Welt eine große Menge an Inhalten täglich, stündlich, sekündlich übersetzt werden muss, gleichzeitig aber die qualitativen Ansprüche eher steigen als sinken. Als Beispiel sei die Zeitung genannt, die in ihrer Online-Präsenz Artikel zu aktuellen Geschehnissen und deren Aktualisierungen zur Verfügung stellen. Der ohnehin schon schnelle Journalismus steht unter zusätzlichem zeitlichen Druck. Ein anderes Beispiel sind Bedienungsanleitungen und Handbücher oder Beipackzettel, eine Textsorte mit immer gleichem Aufbau, klaren Strukturen und Vorgaben. Hier setzt die MÜ-Forschung an und versucht Systeme zu entwickeln, die diese Arbeiten für den Übersetzer übernehmen oder seinen Arbeitsaufwand deutlich reduzieren. Ziel ist es diese enormen Textmengen in kurzer Zeit zu bewältigen und dabei den Qualitätsansprüchen gerecht zu werden. Ein weiteres Ziel stellt, unabhängig von der Herangehensweise, eine schnelle, günstige und möglichst qualitativ hochwertige Übersetzung zu produzieren, dar. Je nach den Ansprüchen an den ZT muss die Ausgabe des MÜ verändert, bearbeitet und korrigiert werden. Manchmal ist das aber nicht notwendig, denn nach Hutchins 1986 kann wertvoller Nutzen auch aus Übersetzungen mangelhafter Qualität gezogen werden, wenn sie schnell und günstig produziert wird und nicht für die Veröffentlichung bestimmt ist (Hutchins 1986, S.330), etwa im privaten Rahmen. Herausforderung ist dabei das permanent wachsende Volumen an sprachlichen

5

Erkenntnissen, die algorithmisch verarbeitet werden müssen (Wilss 2016, S. 233) Wobei die Frage bleibt ob es Utopie ist, alle sprachlichen Phänomene erfassen zu wollen. Die Realisierbarkeit eines Systems ist zudem von seiner Geschwindigkeit, der Qualität des Outputs und dem Kostenaufwand abhängig (Stachwoitz 1973, S.111). Eine stetige Sprachforschung, permanente Programmierarbeit und wirtschaftliche Faktoren sind demnach maßgebend für die Entwicklung und Umsetzung eines MÜ-Systems. Die Systeme arbeiten normorientiert, die Entscheidungsprozesse des Übersetzungsvorgangs werden für den Rechner auf mathematisierte kognitive Theorien reduziert (vgl. Wilss 2016, S.94). Damit kann die MÜ, im Gegensatz zur Sprache (s.2.1, S.4), nur regelhaft sein, weil sie auf einem festgeschriebenen Programm fußt, was bedeutet, dass die MÜ-Systeme Grenzen haben. Sie folgen einer formalen Logik die weniger komplex ist, als die natürliche (vgl. Wilss 2016, S.238), dadurch allerdings erfassbar wird. Die Computerprogrammkonzeption ist entweder regelintensiv oder datenintensiv (Wilss 2016, S.144), was bedeutet, dass entweder nach festgeschrieben Norme vorgegangen wird oder aber auf Basis einer großen Text- und Datenbank. Unter

diesen

Bedingungen

und

mit

verschiedenen

Herangehensweisen

und

Forschungsgrundlagen wurden verschiedene Arten MÜ entwickelt, die unterschiedlich Ergebnisse zum Ziel hatten. Zusätzlich zu einer kurzen Zusammenfassung dieser Geneartionen MÜ-Systeme, soll verständlich gemacht werden wie die Systeme heute arbeiten, welche Fehlerquellen sie bergen und wie diese behoben werden können.

2.3 Umsetzung Erforscht wurde MÜ schon Jahrzehnte vor der ersten Umsetzung eines programmierten MÜ-Systems, was zu einem nicht unwesentlichem Teil der Tatsache geschuldet war, dass die Zugriffsmöglichkeiten auf Rechner und deren Arbeits- und Speicherkapazität sich in den 50er Jahren noch deutlich von denen der 70er Jahre unterschieden. Heute sind technische Voraussetzungen für Künstliche Intelligenz (KI, engl. AI) gegeben, was wiederum ganz neue Möglichkeiten eröffnet. Auch die Herangehensweisen haben sich, wie zuvor erwähnt, über die Jahre verändert und somit neue Arten MÜ-Systeme in Theorie oder Praxis geschaffen. Ein anderer Faktor war die vernichtende Einschätzung des ALPAC 6

Berichtes in den 60er Jahren und die darauf folgende Kürzung oder gar Streichung finanzieller Mittel für die Forschung. Bis dato waren noch keine MÜ-Sytseme praktisch umgesetzt worden (Stachowitz 1973, S.65). Das Programmieren eines MÜ-Systems ist äußerst aufwendig und bringt viele Herausforderungen mit sich. Je nach Systemart entstehen außerdem Fehler in der Übersetzung, die je nach gewünschter Qualität des angestrebten ZTs durch qualitätsverbessernde Vor- oder Nachbearbeitung des Outputs, oder die Überarbeitung des Programms, ausgeglichen oder revidiert werden können. In Folgendem wird vorgestellt, welche Systemarten es gibt, um anschließend auf die Fehlerquellen von MÜ und die Möglichkeiten der Fehlerbehebung und Qualitätssteigerung hinzuweisen.

2.3.1 Systemarten Die MÜ-Forschung schließt interdisziplinär die Bereiche Forschung, Linguistik, Computerwissenschaften, künstliche Intelligenz, Übersetzungstheorien und angewandte Wissenschaft mit ein (Hutchins/Somers 1997, S.3). Zu Beginn lag der Ansatz der MÜForschung in der Substitution eines Lexems einer Sprache, durch sein Äquivalent in der anderen Sprache, ganz nach assimilatorischer Art (vgl. Wilss 2016, S.171). Dieser Ansatz wurde verworfen, der Fokus wurde auf die Syntax verlagert und versucht, durch eine Analyse der Satzzusammenhänge der Sätze des AT die Relationen zu bestimmen um sie im Zieltext (ZT) rekonstruieren zu können (vgl. Wilss 2016, S.174). Die semantischen Aspekte jedoch wurden erst ergänzend in der nächsten Generation MÜ berücksichtigt (Wilss 2016, S.175) MÜ können nach Systemart oder nach Generationen sortiert werden. Wobei sich die Systemart generations-abhängig oder besser gesagt, abhängig von dem Entwicklungsstand der MÜ, entwickelt hat. So haben Fortschritte in der Technik und Umdenken in der Forschung zu verschiedenen Ansätzen geführt, die sich über die Jahre entwickelt haben und sich in vier MÜ-Systemarten niederschlagen. Die Systemarten können nicht eins zu eins den Generationen gleichgesetzt werden, da sie teilweise nur durch Additionen verändert wurden und hybride Formen dieser Systemarten zudem heute häufig sind (vgl. Wittonsky 2017, S.335 f.), allerdings können die Arten und deren Entwicklung im Zusammenhang mit der MÜ Entwicklung über die Generationen nachvollzogen werden. Es ist nicht unbedingt

7

eine Systemart besser als die andere, in bestimmten Situationen kann aber die eine sinnvoller oder zielführender als die andere verwendet werden. Die Entscheidung welche MÜ, welcher Systemart gewählt wird ist abhängig von Ausgangstext, Umstände und erwartetem bzw. benötigtem Ergebnis. Die Generationen sind im Detail bei Wittonsky 2017 und bei Wilss 2016 nachzulesen. Hutchins/Somers 1997 unterscheiden zusammenfassend unter drei Generationen und Systemarten (s. hierzu für besseres Verständnis auch Modell 'transfer and interlingua pyramid' Hutchins/Somers 1992 S.107). Die erste Generation beschreibt einen 'direct approach' also das direkte eins-zu-eins Übertragen der Worte der Sprache A in die äquivalente der Sprache B ohne eine Zwischenstufe (Hutchins/Somers 1997, S.71 f.). Es handelt sich hierbei um ein Beispiel- und Wortbaisertes System, dass mit Satzdatenbanken und Wortsegmenten arbeitet (Wittonsky 2017, S.335). In der zweiten Generation entstehen zwei Herangehensweisen, der 'transfer approach' und die 'interlingua method'. Hier wird zunächst eine Analyse des AT vorgenommen und auf Basis der Analyseergebnisse ein ZT generiert oder aber über eine 'interlingua' in die Sprache des ZT übersetzt (Hutchins/Somers 2997, S.71 f.). Mit 'Interlingua' ist eine Brückensprache, bspw. Englisch gemeint, die hilfreich sein kann wenn die Sprachen des Sprachenpaars nicht mit einander verwandt sind oder die Datenbank nicht genug Lexeme und Texte beinhaltet. Diese MÜ-Systeme analysieren zunächst top-down den Satzzusammenhang und geben diesen dann in den äquivalenten Relationen der Zie...