Mit KI ein Übersetzungstool für Gebärdensprache entwickelt

1. Mai 2025

Ob Italienisch, Englisch oder Japanisch: Für die geschriebene und gesprochene Sprache gibt es zahlreiche, qualitativ hochwertige Übersetzungsprogramme. Im Vergleich dazu sind digitale Hilfsmittel zur Übersetzung von Gebärdensprache kaum verfügbar, obwohl die Gebärdensprache für Menschen mit Hör- und Sprachbeeinträchtigung essenziell ist. Zwei Absolventen des CAS Machine Learning for Software Engineers an der OST – Ostschweizer Fachhochschule haben einen Prototyp entwickelt, der verschiedene Gebärden per Webcam erkennt und in Echtzeit übersetzt. Ihre Projektarbeit zeigt auf, welches Potenzial Künstliche Intelligenz für die barrierefreie Kommunikation bietet.

Für über 10 000 Menschen in der Schweiz ist die Gebärdensprache die Hauptsprache – sei es, weil sie gehörlos sind oder eine Hörbehinderung haben. Die Gebärdensprache erleichtert jedoch auch all jenen die Kommunikation, denen die gesprochene Sprache aus anderen Gründen schwerfällt.

Roger Merz ist Vater einer neunjährigen Tochter. Das Mädchen hört und versteht einwandfrei, kann sich aufgrund einer Entwicklungsstörung aber nur begrenzt in der gesprochenen Sprache ausdrücken. Die Familie hat sich deshalb mit der Gebärdensprache vertraut gemacht und greift seither im Alltag ergänzend auf diese nonverbale Kommunikationsform zurück.

Dies sei auch die Motivation gewesen, sich im Rahmen einer Projektarbeit in der Weiterbildung an der OST vertieft mit der Materie auseinanderzusetzen, sagt Roger Merz. Zusammen mit Fabian Wipfli, ebenfalls Absolvent des CAS Machine Learning for Software Engineers, entwickelte er einen Prototyp eines digitalen Tools, das einzelne Gebärden über die Webcam erkennt und in Echtzeit eine schriftliche Übersetzung liefert.

Je mehr Beispiele, desto zuverlässiger das Resultat

Die beiden Softwareingenieure evaluierten mehrere neuronale Netzwerkarchitekturen (LSTM, 1D-CNN, Transformer) und wählten daraus jenes Modell aus, das die besten Ergebnisse erzielte. Auf Basis dessen trainierten sie dann eine Künstliche Intelligenz mithilfe von Daten dahingehend, die Gebärden präzise den passenden Begriffen zuzuordnen. Dies klingt einfacher als es ist. Denn damit ein System am Ende zuverlässig aussagen kann, ob nun die Gebärde für «Zahnbürste», für «Esel» oder für «aufwachen» gezeigt wird, muss es aus einer Vielzahl Beispielen lernen können. «Das neuronale Netzwerk funktioniert dabei ähnlich wie das menschliche Gehirn», erklärt Roger Merz.

Für das menschliche Gehirn als auch für das neuronale Netzwerk gilt: Je öfter etwas geübt oder erlebt wird, desto besser werden wiederkehrende Muster erkannt, desto stärker festigt sich das Gelernte und desto zuverlässiger kann es abgerufen oder angewendet werden. Im Fall der Gebärden bedeutet das: Je mehr Beispiele ein und derselben Gebärde das System zu sehen bekommt, desto besser lernt es, die charakteristischen Merkmale dieser Gebärde herauszufiltern, sie von nebensächlichen Variationen verschiedener Personen oder Kamerawinkel zu unterscheiden und das zugrunde liegende Bewegungsmuster präzise einzuordnen. 

Das Projektteam machte sich deshalb zuerst daran, genügend Daten zu beschaffen. Konkret handelte es bei diesen Daten um Videosequenzen, in denen eine Person eine bestimmte Gebärde ausführt. «Für ein optimales Training des neuronalen Netzwerks benötigten wir pro Gebärde 400 solcher Beispiele», erklärt Fabian Wipfli. Für die 20 Gebärden, auf die sich die Arbeit beschränkt, waren folglich 8000 Videosequenzen notwendig.

«Für ein optimales Training des neuronalen Netzwerks benötigten wir pro Gebärde 400 Beispiele.»

Fabian Wipfli
Absolvent CAS Machine Learning for Software Engineers

Ein Drittel der Zeit wendeten Fabian Wipfli und Roger Merz auf, die Daten zu prüfen und bereitzustellen. Ein weiteres Drittel benötigten sie für das Training der KI und das restliche Drittel für die Implementierung mit der Kamera. Vom ursprünglichen Plan, das System auf die Deutschschweizer Gebärdensprache zu trainieren, mussten die beiden letztlich abweichen, da zu wenige Daten verfügbar waren. Also entschieden sie sich für einen Datensatz mit Amerikanischer Gebärdensprache, der am meisten Samples bereithielt.

Als Lernsoftware oder für einfachere Alltagssituationen geeignet

Zusammen haben Fabian Wipfli und Roger Merz rund 300 Stunden ins Projekt investiert. Mit dem Resultat sind sie angesichts der kurzen Zeit zufrieden. «Wir haben erfolgreich einen Klassifikator erstellt, der die 20 isolierten Gebärden mit einer Genauigkeit von 92 Prozent erkennt», fasst Fabian Wipfli zusammen. Das System liesse sich beliebig mit zusätzlichen Gebärden erweitern. Es läuft im Moment auf Windows oder Linux, könnte aber auch für andere Plattformen erweitert werden.

Roger Merz und Fabian Wipfli haben sich in ihrer Projektarbeit auf das Übersetzungslevel isolated sign language recognition (ISLR) konzentriert. Dabei geht es um das Erkennen einzelner Gebärden, die nicht im Kontext eines Satzes stehen, sondern einzelne Wörter darstellen. Ihr Tool würde sich beispielsweise als Lernsoftware für Personen eignen, die die Gebärdensprache erlernen möchten.

«Die Umsetzung eines Systems, das nicht nur isolierte Gebärden, sondern ganze Texte übersetzen kann, ist technisch um ein Vielfaches komplexer und erfordert entsprechend sehr viel Ressourcen.»

Roger Merz
Absolvent CAS Machine Learning for Software Engineers

Um live umfangreichere Gespräche oder auch Fernsehsendungen zu übersetzen, ist continuous sign language recognition (CSLR) notwendig, das auf die Übersetzung ganzer Texte ausgerichtet ist. «Ich rechne fest damit, dass man in naher Zukunft Gebärdensprache bidirektional übersetzen kann», sagt Roger Merz. «Die Umsetzung eines Systems, das nicht nur isolierte Gebärden, sondern ganze Texte übersetzen kann, ist jedoch um ein Vielfaches komplexer und erfordert entsprechend sehr viel Ressourcen. Diese Mittel und Möglichkeiten haben praktisch nur grosse Firmen mit grossem Budget – beispielsweise Google oder Apple.»

Herausforderungen mit KI lösen

Mit ihrer Projektarbeit haben die beiden Absolventen des CAS Machine Learning for Software Engineers dennoch eine solide Grundlage geschaffen, auf der andere Projektteams aufbauen können. Auch für ihre eigene Berufspraxis haben sie wertvolle Erkenntnisse gewonnen – sowohl aus der Projektarbeit als auch aus der Weiterbildung überhaupt. «Ich habe viele neue Werkzeuge und Ideen gewonnen, die mir dabei helfen, Softwareprobleme anders zu lösen als nur mit dem bisherigen Ansatz, explizite Regeln und Algorithmen auszuprogrammieren», sagt Fabian Wipfli, der als Software Engineer im Hypothekarbereich der Glarner Kantonalbank arbeitet. «Daten könnten beispielsweise genutzt werden, um KI-Lösungen zu trainieren, die Abläufe für Endkunden und Kundenberater spürbar vereinfachen.»

Roger Merz ist für das Bildungslabor Smartfeld tätig und führt Workshops rund um Informatik und Künstliche Intelligenz auf Primar- und Sekundarstufe durch. «Im CAS konnte ich mich bezüglich KI auf den neuesten Stand bringen», sagt er. «Das hilft mir dabei, zu erkennen, welche Probleme und Herausforderungen man mit Künstlicher Intelligenz lösen kann.»

Gebärdensprache und ihre Übersetzungslevel

Die Gebärdensprache stellt eine eigenständige visuelle Sprache mit einer spezifischen Grammatik dar, die sich von der Lautsprache – der gesprochenen Sprache – unterscheidet. Sie wird mit Gestik, Mimik und Körperhaltung ausgedrückt. Weltweit gibt es eine Vielzahl unterschiedlicher Gebärdensprachen, zum Beispiel die Deutschschweizer Gebärdensprache (DSGS) in der Schweiz, die Deutsche Gebärdensprache (DGS) oder die American Sign Language (ASL) in den USA. Bei der digitalen Übersetzung von Gebärdensprache – also der automatischen Erkennung und Übersetzung von Gebärden durch Maschinen – existieren verschiedene Übersetzungslevel. Je nachdem können einzelne Worte oder ganze Sätze übersetzt werden.

Isolated sign language recognition (ISLR)
Bezeichnet die Erkennung einzelner Gebärden. Bei der Lautsprache würde man von Wort-zu-Wort-Übersetzung respektive Vokabular sprechen.

Continuous sign language recognition (CSLR)
Bezeichnet die automatische Übersetzung von flüssig ausgeführter Gebärdensprache, bei der die Gebärden hintereinander erfolgen.

CAS Machine Learning for Software Engineers

Als Form der künstlichen Intelligenz findet das maschinelle Lernen bei einer Vielzahl herausfordernder Aufgaben Anwendung: ob bei der Betrugserkennung oder beim autonomen Fahren. Der CAS Machine Learning for Software Engineers an der OST – Ostschweizer Fachhochschule vermittelt Kompetenzen, die in der Industrie benötigt werden, um Machine-Learning-Projekte selbständig zu implementieren und zu betreiben.