English Text Homepage
Preise/Info Einführung
Technik Bildschirmfotos
 
WIE FUNKTIONIERT SYSTRAN? 

Die nachstehende Beschreibung wurde uns freundlicherweise vom Hersteller SYSTRAN S.A. zur Verfügung gestellt und setzt voraus, daß der Leser über Grundkenntnisse in der automatischen Übersetzung verfügt. Weitere Informationen über die erwähnten Konzepte und Grundsätze finden Sie bei Arnold et Al. (1994), Hutchins & Somers (1992) oder Vasconcellos et Al. (1993). 


INDEX 
ÜBERSICHT 
Multi-Quell- und Zielsprachenverfahren
Quellen der Sprachkenntnisse
Eine von der Sprache unabhängige Erstellung
Zuverlässigkeit
Textart
ELEKTRONISCHE WÖRTERBÜCHER
Wörterbuch der einfachen Wörter
Wörterbuch der Ausdrücke
DIE VERSCHIEDENEN ETAPPEN
Verwaltungs-Software: Verarbeitung der Eingaben
Analyse
Übertragung
Synthese
Verwaltungs-Software: Verarbeitung der Ausgaben
QUELLEN
 

ÜBERSICHT
SYSTRAN ist als Dienstleistungsunternehmen der Regierung und der Industrie bekannt. Da SYSTRAN über eine flexible Architektur verfügt, kann es sich den technologischen Entwicklungen und aufkommenden Ideen auf dem Gebiet der DV-Linguistik schnell anpassen. 
Aufgrund der Investitionen, die sowohl an Personal wie auch an Zeit seit 1968 für die Entwicklung der Wörterbücher und Sprachregeln gemacht wurden und die zu der eindrucksvollen Palette an Sprachkombinationenen führten, hat SYSTRAN es verstanden ein hochentwickeltes System zur automatischen Übersetzung im Übertragungsverfahren zu schaffen. 
Das Multi-Quell - und Zielsprachenverfahren
Nach dem Beginn mit einem englisch-französischen System im Jahre 1974 wurde SYSTRAN zu einem Multi-Zielsprachensystem. Die Zielsprachen dieses Multisystems können an ein einziges Analysemodul angeschlossen werden, da die Analyse nur auf die Verarbeitung von Informationen aus dem Quelltext beschränkt bleibt. Mit anderen Worten: in der Analysephase wird keine Information bezüglich der Zielsprache verarbeitet. 
1987 wurden das Modularprinzip und die Kohärenz von SYSTRAN erhöht. Es wurden Analysemodule eingespart, indem - bei den romanischen Sprachen - die meisten getrennten Funktionen innerhalb eines Multiquellen-Analyseprogrammes miteinander kombiniert wurden. Die Entwicklung einer zweiten Serie von getrennten Analysefunktionen begann für die altaischen Sprachen sowie für Japanisch und Koreanisch. 

Die Tatsache, daß SYSTRAN ein Multi-Zielsprachensystem ist, ist wichtig für das Modularprinzip und die Pflege der zahlreichen Sprachkombinationen. Das bedeutet, daß die Entwicklungsarbeit an den Wörterbüchern und Sprachregeln für eine gegebene Quellsprache nur einmal gemacht werden muß. Die Übertragung auf sämtliche Synthesemodule der Zielsprachen erfolgt mit Hilfe des Übertragungsmoduls der Sprachkombinationen. 

Wenn die Analyse des Quelltextes abgeschlossen ist, werden die durch Symbole dargestellten Daten an das Übertragungsmodul übergeben. Dadurch kommen eine Reihe von Regeln zur Anwendung, die die Übersetzung in die verschiedenen Zielsprachen ermöglichen. Die " Übertragung " ist charakteristisch für die Systemarchitektur der automatischen Übersetzung im Übertragungsverfahren. 

Die Endstufe im automatischen Übersetzungsverfahren ist die Synthese. Dabei handelt es sich um ein Modul, das den Text in der (den) Zielsprache(n) erstellt. Theoretisch ist die Anzahl der Zielsprachen unbegrenzt. 

Die drei Teile Analyse, Übertragung und Synthese sind nachstehend genauer beschrieben. Insgesamt hat SYSTRAN 11 Module mit Quellsprachen entwickelt, aus denen sich 29 Sprachkombinationen ergeben. 

Die Quellen der Sprachkenntnisse
Die allgemeine Rolle eines Systems zur automatischen Übersetzung besteht darin, Sprachkenntnisse zu sammeln und zu benutzen. Die Hauptquellen von SYSTRAN sind: elektronische Wörterbücher und Sprachregeln, die im Dialog arbeiten. Die Wörterbücher enthalten Informationen über das Verhalten eines jeden Wortes, während sich die Sprachregeln auf die Satzlehre einer Sprache oder einer abgeleiteten Sprache sowie auf die semantischen Zusammenhänge beziehen. Die Wörterbücher enthalten aufsteigende Regeln über die Forderungen und Sonderheiten der Wörter, während die Sprachregeln von oben nach unten wirken und syntaktische und semantische Zusammenhänge herstellen. 

Dank der großen Menge der in den Wörterbüchern enthaltenen sprachlichen Kenntnisse und der grundsätzlichen Regeln war es SYSTRAN möglich, seit mehr als einem viertel Jahrhundert den ersten Platz in der Industrie der automatischen Übersetzung zu belegen. 

Eine von der Sprache unabhängige Erstellung
Das Multi-Zielverfahren von SYSTRAN kann leicht erweitert und neue Sprachkombinationen können schnell entwickelt werden, da die Grundeigenschaften in allen linguistischen Modulen zusammengelegt wurden: die Architektur, die Codierung des Wörterbuches, das Darstellungssystem durch Symbole, sowie die " Rezepte " für Analyse-, Übertragungs- und Syntheseverfahren sind unabhängig von der bearbeiteten Sprache. Diese Kohärenz gibt dem SYSTRAN-System die notwendige Leistungsfähigkeit bei der Extraktion von linguistischen Daten.
Die Zuverlässigkeit
Bei SYSTRAN wird weiterhin an der Entwicklung robuster Systeme gearbeitet, die in der Lage sind große Mengen von allgemeinen Texten zu bearbeiten. Dazu gehören auch Texte, die ursprünglich nicht für die automatische Übersetzung gedacht waren. Wenn SYSTRAN für derartige Arbeiten benutzt wird, kann es vorkommen, daß der Quelltext unpassend konstruiert, persönlich gestaltet (nicht dem Standard entspricht) oder in irgendeiner anderen Art verändert ist. 

Auch wenn die Analyse scheitert, kann SYSTRAN mit Hilfe der aufsteigenden Regeln immer eine Übersetzung erstellen. Auch die Bestandteile und Ausdrücke eines unvollendeten Satzes können mit Erfolg analysiert und synthetisiert werden. 

Wenn ein Wort des Quelltextes im STAMM-Wörterbuch (Wörterbuch der einfachen Wörter) nicht gefunden wird, so besteht die erste Etappe darin, nach einer anderen Schreibweise sowie nach Varianten zu suchen. Wird das entsprechende Wort immer noch nicht gefunden, so versucht das System die Funktion des Wortes nach seiner Morphologie und seinem unmittelbaren Zusammenhang zu bestimmen. 

SYSTRAN verfügt ebenfalls über ein Programm zur Fehlererkennung, das nach Beendigung des Analysevorgangs aktiviert werden kann. Wenn eine Analyse scheitert, wird von einer Anzeige aus ein Signal an das Übertragungsmodul geschickt, um sicherzugehen, daß der Übersetzungsvorgang nicht weiterläuft, wodurch das Problem noch erschwert würde. 

Die Textart 
Obwohl SYSTRAN vorrangig Texte allgemeinen Gebrauchs bearbeiten soll, gibt es auch Texte mit Besonderheiten sowohl im lexikalischen Gebrauch wie auch bei den grammatikalischen Vorschriften. Das heißt, daß eine Reihe von linguistischen Regeln nicht für alle Textarten angewendet werden kann. 

Die Textart muß vom Benutzer bei der Ausführung für einen kompletten Text oder für einen Textauszug festgelegt werden. Folgende Textarten stehen zur Verfügung: Übersichten, Handelskorrespondenz, Journalismus, Patente, Benutzerhandbücher, Sitzungsprotokolle, Nomenklaturen, Prosa, gesprochene/familiäre Sprache. 

Von dieser Option wird mit Hilfe von Verzweigungen an verschiedenen Stellen der Analyse Gebrauch gemacht, indem die Regeln stellenweise an die Eigenschaften der verschiedenen Textarten angepaßt werden. Anschließend werden im Laufe der Analyse bestimmte stilistische Wahlen getroffen. 


  ELEKTRONISCHE WÖRTERBÜCHER
Die Wörterbücher von SYSTRAN sind reich an Wortschatz und vollständig codiert. Sie sind wichtig, um die gute Qualität der Übersetzung zu garantieren. Für jede Quellsprache gibt es zwei Wörterbücher: das Wörterbuch der einfachen Wörter und das Wörterbuch der Ausdrücke

Die meisten Wörterbücher der Quellsprache enthalten mehrere Zielsprachen. Wie schon oben erwähnt, können die 11 Module der Quellsprachen kombiniert werden und auf diese Weise 29 Sprachenkombinationen ergeben. 

Insgesamt enthalten die Wörterbücher über 2,3 Millionen vollständig codierte 
Wörter und Ausdrücke. Die Wörterbücher sind nicht in Datenbanken für bestimmte Gebiete spezifische aufgeteilt. 

Unterschiede bezüglich dieser Gebiete werden durch die Identifizierung der in den Wörterbüchern der Quellsprache enthaltenen Codes bearbeitet. Diese Wörterbücher werden gleichzeitig mit den verschiedenen Übersetzungen, die - je nach dem behandelten Gebiet - in der Zielsprache möglich sind, benutzt. 

Das System entscheidet sich für eine Übersetzung je nach dem Spezialwörterbuch, das vom Benutzer zur Ausführung der Übersetzung gewählt wurde. Es ist möglich bis zu vier Spezialwörterbücher der Reihe nach auszuwählen. 

Das Wörterbuch der einfachen Wörter
Es enthält die einfachen Wörter (Terminologie und Wortstämme). Neben jedem Wort stehen codierte, erweiterte Informationen über seine Morphologie, sein syntaktisches Verhalten, seine möglichen Funktionen bei gleicher Schreibweise, seine semantischen Rollen und Attribute sowie seine Beziehungen zu anderen Konzepten, die auf einer semantischen Taxonomie von 500 Kategorien beruhen. 

Die Übersetzungen in die Zielsprache beziehen sich auf alle Sprachen, die vom Entwickler vorgesehen sind. Die zugeteilten Codes weisen auf Wortart, Morphologie, syntaktisches Verhalten und präpositionale Rektion hin. 

Für jedes polysemantische Wort (gleiche Schreibweise für dieselbe Wortart) können - je nach Gebiet oder Gebrauch des Wortes (Beispiel: Personen-/Sachbezeichnung bei Substantiven, transitiver/intransiver oder reflexiver/nicht reflexiver Gebrauch bei Verben) zahlreiche Übersetzungen vorgeschlagen werden. 

Das Wörterbuch der Ausdrücke
Das Wörterbuch der Ausdrücke kann mehrere Arten von Einträgen enthalten, die nachstehend nach ihrem Schwierigkeitsgrad geordnet sind. 
Durch den syntagmatischen Ersatzausdruck können feste idiomatische Ausdrücke, Präpositionalgefüge oder adverbiale Bestimmungen zu einem einzigen "Pseudo-Stamm" verknüpft werden, der dann im Stamm-Wörterbuch als einfaches Wort codiert wird. Es wird als einfaches Zeichen analysiert. 

Die Kollokation weist eine einfache Bedeutung einem Ausdruck zu und analysiert dessen Bestandteile. Das ist vor allem bei technischen Nominalsyntagmen üblich. 

Der konditionale Ausdruck gibt die Bedingungen an, unter denen ein oder mehrere Wörter eine besondere Übersetzung erfordern. Bei diesen Bedingungen kann es sich um ein beliebiges syntaktisches Kriterium (syntaktische Merkmale inbegriffen) oder semantisches Attribut oder um irgendeine semantische Beziehung handeln, die in SYSTRAN definiert ist. Diese Regeln können mehr oder weniger komplex sein. 

Sie werden bei der Übertragung zur Auswahl der Übersetzung eingesetzt und ermöglichen die Verbesserung weiterer Vorgänge (syntaktische Umordnung, Verwaltung der Präpositionen, Bestimmungen, Tempora), indem sie sich so weit wie möglich den Erfordernissen der Zielsprache anpassen. 

Der direktive syntaktische Ausdruck wendet im Laufe des Analysevorganges spezifische Regeln auf ein Wort an. Er wird besonders dazu benutzt, Ambiguitäten in Verbindung mit der Polysemie oder dem syntaktischen Gebrauch zu beseitigen. 

Jede Information des Wörterbuches der Quellsprache kann geändert werden, auch die semantischen Eigenschaften. In diesem Sinne können auch Regeln und Informationen hinzugefügt werden. Ein direktiver syntaktischer Ausdruck kann jeder Zeit während der Analyse auftauchen. 

Der homographische Ausdruck beseitigt homographische Ambiguitäten und teilt einem einfachen Wort die ihm entsprechende Wortart zu. 

Weitere Einzelheiten über die Struktur der SYSTRAN-Wörterbücher und die typischen Ausdrücke finden Sie bei Wheeler (1983,1987). 


 DIE VERSCHIEDENEN ETAPPEN
Verwaltungssoftware: Bearbeitung der Eingaben (Vorverarbeitung)
Das Ausgangsmodul von SYSTRAN enthält Filter für eine breite Skala von Textverarbeitungen und DTP-Extras. Die Formatcodes werden vor der Weitergabe zur Übersetzung vom Text getrennt und als Reserve aufbewahrt und später wieder angeknüpft . 

Bei der Vorverarbeitung wird der erfaßte Text in ein SYSTRAN-kompatibles Format umgewandelt. 

Der eingegebene Text wird satzweise verarbeitet. Das Unterprogramm zur Abfrage des Wörterbuches führt eine morphologische Analyse durch und identifiziert die Groß- und Kleinschreibung, die Zeichensetzung und die Worttrennung. 

Wenn die Abfrage abgeschlossen ist, teilt das Ausgangsmodul jedem im Wörterbuch nicht gefundenen Wort eine Wortart zu, indem es von seiner Morphologie und seinem unmittelbaren Zusammenhang ausgeht. 

Analyse
Das Analysemodul prüft den Satz methodisch, indem es etappenweise die richtige Funktion und den richtigen Sinn eines jeden Wortes, Ausdrucks oder Satzes mit Hilfe einer Reihe von Analyseprogrammen identifiziert. 

Jedes dieser Programme trifft Wahlen oder zieht Schlüsse über die besondere Art der syntaktischen oder semantischen Phänomene. Es kann sich zum Beispiel um die Beseitigung von Ambiguitäten und syntaktischen Grundbeziehungen handeln sowie um die Verwaltung von Präpositionen, semantischen Verhältnissen, Satzarten, Koordinationsstrukturen ... (siehe die genauere Beschreibung bei Wheeler, 1987) 

Jedes Programm fügt neue Daten zu den Informationen hinzu, die in Bezug auf den Satz gesammelt wurden. Die so erworbenen Kenntnisse werden in Form von Symbolen im Analysebereich gespeichert. Zu bemerken ist, daß die im Laufe der Analyse gesammelten Informationen nur die Quellsprache betreffen. 

Eine der Rollen der Analyseteils ist es, bestimmte Information über das Subjekt und das Prädikat des Satzes zu erfassen und zu speichern, um sich später darauf zu beziehen. 

Außer dieser syntaktischen Analyse werden die folgenden semantischen Beziehungen identifiziert: ausführendes Prädikat, Subjekt-Prädikat, modifizierendes voranstehendes Wort. Diese Funktionen werden zur Vervollständigung der syntaktischen Informationen durch Verbindung der Bestandteile untereinander benutzt. 

Gleichzeitig liefert die semantische Taxonomie von SYSTRAN (500 Kategorien) Informationen bezüglich der Eigenschaften und Beziehungen der Dinge, Zustände, Handlungen und Qualitäten, anhand derer das Verhalten von Wörtern oder der von ihnen dargestellten Gegenständen bestimmt werden kann. Die verschiedenen semantischen Kategorien, die durch " Tags " dargestellt sind, können durch Wörter oder Ausdrücke entweder im Wörterbuch der einfachen Wörter oder mit Hilfe der allgemeinen Sprachregeln codiert werden. 

Die Organiation der Taxonomie besteht aus sechs Rangordnungen. Im allgemeinen übernehmen die unteren Ränge alle Eigenschaften der oberen Ränge. Wenn notwendig kann diese Übertragung jedoch blockiert werden. 

Übertragung
Eine der Hauptfunktionen des Übertragungsmoduls ist es, die grammatikalischen Unterschiede zwischen den Sprachen zu verarbeiten. SYSTRAN ist in der Lage, die Strukturen von Sätzen und Ausdrücken zu ändern oder neu zu erstellen, um den syntaktischen Erfordernissen der Zielsprache zu entsprechen. 

Die zweite Funktion des Übertragungsmoduls ist es, die zutreffende Übersetzung in der Zielsprache auszuwählen. Dazu werden die Sprachregeln und Ausdrücke des Wörterbuches weitgehend benutzt. Die bis zu diesem Punkt erstellten, zahlreichen syntaktischen und semantischen Beziehungen ermöglichen die Anwendung einer breiten Skala von Tests. Eine weitere Hilfe zur Beseitigung von Ambiguitäten ist die Fülle an semantischen Informationen, die dieWörter in ihrem Zusammenhang bestimmen. 

So können im Laufe der Übertragung zusätzliche lexikalische Regeln auf die Wortklassen angewendet werden, um den Tempus, die Gestalt, den Numerus, die Passiv- oder Aktivform oder jedes andere grammatikalische Element anzupassen. Diese Anpassungen spielen eine wesentliche Rolle, da sie es sind, die eine grammatikalisch und idiomatisch korrekte Übersetzung garantieren.

Synthese
Durch die Benutzung des Übertragungsmodus neigt die Endübersetzung dazu, sich nahe an die Syntax der Quellsprache zu halten. Das Synthesemodul bestimmt die grammatikalische Wahl in der Zielsprache (Geschlecht, Numerus, Tempus, Gestalt ...) je nach den aus der Analyse abgeleiteten Informationen und den syntaktischen Erfordernissen der Zielsprache. 

Schließlich werden zahlreiche Regeln und Tabellen, die besonders für die Zielsprache gelten, benutzt. Dieses Modul kann ebenfalls Bestimmungswörter einfügen oder beseitigen, wozu auch die bestimmten oder unbestimmten Artikel sowie alle anderen Partikel gehören.

Verwaltungssoftware: Verarbeitung der Ausgaben (Nachverarbeitung)
Nach Beendigung dieser Sequenz suchen die Kontrollroutinen die Codes, die zu Beginn getrennt und gespeichert wurden, und knüpfen sie an die Übersetzung an. Dann wird der Zieltext satzweise herausgegeben. Bei der Nachverarbeitung wird das SYSTRAN-kompatible Format wieder in einen natürlichen Text gewandelt. 


 QUELLEN
Arnold, D. ; Balkan, L. ; Humphreys, R. Lee ; Meijer, S. ; Sadler, L. (1994) Machine Translation : An Introductory Guide. Manchester and Oxford : NCC Blackwell. 

Hutchins, W. John, & Somers, Harold L. (1992) An Introduction to Machine Translation. London, New York, etc. : Academic Press. 
 

Vasconcellos, M. ; Hovy, E. ; Scott, B.E., Miller, L.C. (1993) " Machine Translation : State of the Art " Byte, January, pp. 153-186. 

Wheeler, Peter J. (1983) " The Errant Avocado " Newsletter of the British Computer Society, Natural Language Translations Specialist Group, 13. 

Wheeler, Peter J. (1987) " SYSTRAN " In King, Margaret, ed., Machine Translation Today : The State of the Art. Proceedings of the Third Lugano Tutorial (Lugano, 2-7 April 1984). Edinburgh : Edinburgh University Press. Information Technology Series 2. Pp. 192-208. 

Copyright © SYSTRAN S.A. 


Tel: 0221 / 94 267-333
 Das schnelle Email an HEISOFT 
Fax: 0221 / 94 26 79
Seitenanfang   copyright (c) 1999   HEISOFT AG, 50944 Köln