Wenn Roboter aufs Wort gehorchen
Redaktion
/ Pressemitteilung des Deutschen Zentrums für Luft- und Raumfahrt astronews.com
2. Juli 2020
Sprachsteuerung wird immer populärer: Moderne Smartphones
und smarte Lautsprecher lassen sich inzwischen mit Sprachbefehlen steuern. Was
in der heimischen Wohnung noch mehr Spielerei ist, könnte im Weltraum von großem
Nutzen sein, wenn Astronauten etwa Roboter durch gesprochene Befehle steuern
könnten. Das DLR und die Mozilla Corporation arbeiten dazu nun zusammen.
openvocs Benutzeroberfläche: Software aus
dem Raumfahrtbereich zur Sprachübertragung.
Foto: DLR (CC-BY 3.0) [Großansicht] |
Bei der Steuerung von Satelliten oder dem Betrieb des Columbus-Labors
auf der Internationalen Raumstation ISS dürfen keine Fehler passieren. Jeder
Arbeitsschritt und jeder Befehl folgt einer festgelegten Prozedur und wird
dokumentiert. Um den Sprechfunk des Kontrollraums automatisiert in
Textprotokolle zu überführen und Schlüsselinhalte gleichzeitig zu verlinken,
entwickelt das Deutsche Raumfahrtkontrollzentrum (GSOC) des DLR "openvocs" –
eine Software zur Sprachübertragung.
Die Technologie könnte künftig auch Astronauten zur Kommandierung von
Mondrovern oder anderen Robotersystemen dienen. Dazu untersucht das Deutsche
Zentrum für Luft- und Raumfahrt (DLR) in Zusammenarbeit mit der Mozilla
Corporation, ob die offene Spracherkennungsplattform "DeepSpeech" für eine
sprachbasierte Robotersteuerung verwendet werden kann. Ziel ist es, eine offene
Softwarelösung zu entwickeln, die zur freien Nutzung auf Smartphones und anderen
gängigen Eingabegeräten geeignet ist. Ein erster Prototyp soll bis zum Herbst
erarbeitet werden.
Die Sprachübertragung in openvocs basiert auf der Web-Echtzeitkommunikation
WebRTC und stellt die Verbindungen zwischen Spracheingabegerät und Roboter her.
Dieser offene Übertragungsstandard wird von allen großen Browsern unterstützt,
sodass eine Vielzahl von Endgeräten als Sprachterminal genutzt werden können. So
ist die Basistechnologie WebRTC auch bei Datentransfers von Videokonferenzen,
Chats oder Desktop-Sharing üblich.
Die DLR-Wissenschaftlerinnen und Wissenschaftler verfolgen den Ansatz, zuerst
die Spracheingabe mittels der DeepSpeech-Plattform in Text umzuwandeln. Die
künstliche Intelligenz von openvocs soll diesen Text dann analysieren und
festgelegte Kommandos erkennen. Für das Testszenario nutzen die Entwickler eine
Roversteuerung mit einfachen Befehlssätzen wie "nach links", "nach rechts",
"vorwärts" oder "rückwärts". Im letzten Schritt aktiviert die Texterkennung die
entsprechende Motorsteuerung des Roboters – der Sprachbefehl wird ausgeführt.
Die Sprachkommandos können individuell programmiert werden. Dazu nutzen die
Experten des GSOC maschinelles Lernen und testen, wie gut das neue Sprachmodell
die gelernten Befehle erkennt. Hier gilt es unter anderem Mehrfachbedeutungen
von Worten und andere semantische Überlagerungen, sowie Verneinungen korrekt
zuzuordnen. So muss die Software beispielsweise lernen, dass der Ausdruck
"niemanden zurücklassen" kein Bewegungsbefehl ist, und dass die Kommandos
"zurück" und "rückwärts" dieselbe Wortbedeutung haben.
Darüber hinaus arbeiten die Experten aus Berlin und Oberpfaffenhofen an einer
möglichst intuitiven Bedienung. Um die Sprachsteuerung zu aktivieren soll kein
Triggerbefehl notwendig sein. Stattdessen sollen die vordefinierten Kommandos
automatisch im Sprachstrom erkannt werden. Ferner benötigt Mozillas DeepSpeech-Plattform
keine Cloud-Lösung zur Datenverarbeitung und lässt sich als Software
herunterladen und individuell trainieren. Nutzer können das "speech-to-text"-Model
direkt auf den Roboter laden und verfügen damit über eine lokale
Spracherkennung.
Dank der Opensource-Lizenz von "DeepSpeech" ist künftig auch die freie
Nutzung der DLR-Technologieentwicklung möglich. "Wir haben das openvocs-Projekt
im DLR mit dem Ziel zur Bereitstellung einer offenen und flexiblen Plattform für
Kontrollraumkommunikation gestartet. Die Spracherkennungslösung von Mozilla fügt
sich hier nahtlos ein. Ich freue mich sehr über die Kombination beider Arbeiten,
da dies ganz neue und spannende Möglichkeiten für die Kommunikation im
Raumfahrtbereich bietet", sagt openvocs-Systemingenieur Markus Töpfer vom
DLR-Raumflugbetrieb und Astronautentraining.
Kelly Davis, Manager Machine Learning Group von Mozilla, ergänzt: "Das
Interesse des DLR an unserer STT-Technologie bestätigt insbesondere unsere
Arbeit an Leistungsoptimierungen für Embedded-Systeme und kleine
Geräteplattformen. Auch wenn wir noch in der Testphase sind: Ehrlicherweise ist
das Kind in mir auch begeistert von der Idee, vielleicht eines Tages in den
Himmel schauen zu können und zu wissen, dass wir eine kleine Rolle bei dem
gespielt haben, was sich so viele Kilometer über uns abspielt."
In den kommenden Monaten baut das Deutsche Raumfahrtkontrollzentrum die
Schnittstelle "Sprache-zu-Text" für die neue Kommunikationslösung auf und bindet
diese in die openvocs-Plattform des DLR ein. Gemeinsam mit Mozilla erforscht das
Entwicklerteam gezielt die Grundlagentechnologien, sodass Astronauten und Nutzer
auf der Erde ihre Hände in Zukunft frei bewegen können, wenn sie einen Roboter
steuern.
|