In vielen Haushalten hat der Einsatz von Sprachassistenten wie "Alexa" von Amazon - neben Apples Siri der wohl bekannteste Vertreter der Keyword-Spotting Lösungen (kurz KWS) - den Alltag revolutioniert. Nach einem sogenannten Wake-Word („Alexa!“, Hey Siri“), das die Applikation aktiviert, übermittelt diese den Wunsch des Bedienenden an einen entfernten Server, der den Sprachbefehl analysiert und anschließend das Auswertungsergebnis an das Gerät zurücksendet.
Auf diesem Weg werden Musikwünsche erfüllt, ein Film auf die Playlist gesetzt oder das Weihnachtsgeschenk für die Liebste bestellt. Ähnlichkeiten in der Technologie finden sich auch in der Industrie und Medizintechnik, wo KWS an Bedeutung zunimmt. Durch die Erfassung und Nutzung von Sprache können schon heute Prozesse beschleunigt sowie effizienter gestaltet und sogar Leben gerettet werden.
Zur Person: Viacheslav Gromov
Viacheslav Gromov ist Gründer und Geschäftsführer von AITAD. Das Unternehmen entwickelt elektronikbezogene künstliche Intelligenz (Embedded-KI), die in Geräten und Maschinen lokal und in Echtzeit definierte Aufgaben übernimmt. Er ist Verfasser zahlreicher Beiträge sowie diverser Lehrbücher im Halbleiterbereich. Gromov ist als Experte in verschiedenen KI- und Digitalisierungs-Gremien tätig, unter anderem von DIN und DKE sowie der Bundesregierung (DIT, BMBF). AITAD ist KI-Champion Baden-Württemberg 2023, einer der Top100-Innovatoren 2023 sowie Gewinner des embedded award 2023 in der Kategorie KI.
Die Vorteile auch für medizinische oder industrielle Anwendungen sind unübersehbar: Wenn der Mitarbeitende die Maschine in der Produktion mit seiner Stimme steuert, dann bedeutet das mehr Flexibilität. Er kann die Geräte aus der Ferne bedienen und muss keine Knöpfe mehr drücken oder auf dem Bildschirm der Maschine seine Eingabe eintippen. Es bedeutet auch die Vermeidung von Keimen und Bakterien, ein wichtiger Aspekt in der Medizin. Auch ein gerufener Befehl „Stop“ ist schneller, als zur Maschine zu laufen und diese anzuhalten.
Bleiben Sie informiert
Diese Themen interessieren Sie? Mit unserem Newsletter sind Sie immer auf dem Laufenden. Gleich anmelden!
Spracherkennung lokal und in Echtzeit
Die Übertragung von Sprachsignalen an entfernte Server birgt aber Latenzzeiten, die in sicherheitsrelevanten Umgebungen nicht akzeptabel sind. Ebenso spielen das Manipulations- und Ausfallrisiko einer Netzwerkverbindung eine Rolle. Der Einsatz in sicherheitskritischen Umgebungen in Industrie und Medizin erfordert Lösungen, die lokal und in Echtzeit arbeiten.
Hier kommen innovative Sprachsteuerungsmodelle ins Spiel, die mit Embedded-KI umgesetzt werden. Hierbei werden nicht nur einzelne Wakewords erkannt, sondern bis zu 30 vordefinierte Begriffe, was komplexe Befehle ermöglicht. Ein Schlüsselwort aktiviert das System. Anschließend können komplexe Kombinationen dieser vordefinierten Wortgruppe gesprochen und von der KI ausgewertet werden, die zusammen mit den Mikrofonen auf dem gleichen kleinen Board sitzt („Embedded-KI-Systemkomponente“). Beispiele für solche Sprachbefehle (hier mit „Roboter“ als Wakeword):
- „Roboter, starte Programm A auf Maschine 3“
- „Roboter, Förderband 6 anhalten“
- „Roboter, Motor 4 in Maschine 3, erhöhe die Drehzahl um 40 %“
- „Roboter, Rollstuhl, jetzt links abbiegen“
- „Roboter, Not aus“
Frei konfigurierbar, echtzeitfähig und robust
Entscheidend ist hier ein maximales Sicherheitslevel, das durch die lokale Verarbeitung der Sprachdaten - ohne Cloud oder Server – gewährleistet wird. Ebenso die Effizienz, da die Befehle in Echtzeit direkt im Chip ausgewertet werden und die Maschine dadurch schneller reagiert.
Unternehmen können ihre Sprachsteuerung individuell konfigurieren, angefangen von den Wakewords bis hin zur Wortgruppe. Dies ermöglicht maßgeschneiderte Systeme, die auch in mehreren Sprachen verfügbar sind. Bei Bedarf können synthetisch erzeugte Sicherheitsabfragen integriert werden.
Die Anwendungsmöglichkeiten für Sprachsteuerungen sind nahezu unbegrenzt:
- Im Operationssaal kann der Chirurg das Hochfrequenzskalpell per Sprachbefehl starten, justieren und wieder abschalten.
- Berührungsloses Steuern von Maschinen und Geräten in Produktion und Krankenhäusern.
- Notaus per Sprachbefehl erspart im Ernstfall den Spurt zum Not-Aus-Schalter.
- Menschen mit Assistenzbedarf können beispielsweise den Rollstuhl per Sprache steuern.
Anpassungsfähig in rauen Umgebungen
Innovative autarke Embedded-KI-Sprachsteuerungslösungen arbeiten nicht nur vollständig lokal und in Echtzeit, sondern bewähren sich auch in rauen Umgebungen. Die KI wird nicht nur mit den zu erkennenden Worten, sondern auch mit Störgeräuschen trainiert, um eine zuverlässige Spracherkennung sicherzustellen, selbst wenn es in der Umgebung laut ist. Die Integration eines zusätzlichen Mikrofons ermöglicht es, den Standort des Sprechers zu erkennen und störende Geräusche zu eliminieren (Beamforming).
Diese neue wegweisende Sprachsteuerung wird die Zukunft in Industrie und Medizin nachhaltig verändern und bestimmen, ist meine Überzeugung. Anfragen aus Industrie und Medizin nehmen vermehrt zu. Wir haben selbst eine Lösung entwickelt, die Unternehmen in die Lage versetzt, schon heute ihre Produkte mit dieser Technologie auszustatten und damit eine Vorreiterrolle einzunehmen. Diese zeichnet sich durch eine hohe Robustheit auch gegen Störgeräusche aus und wird individuell auf die Kundenanforderungen zugeschnitten.
Automation NEXT Conference
Entdecken Sie die Zukunft der Automatisierung auf der Automation NEXT Conference. Diese Veranstaltung im Jahr 2025 bringt Branchenexperten zusammen, um über neueste Trends und Technologien in der Automatisierung zu diskutieren.
Die Themenbereiche umfassen Künstliche Intelligenz, Industrie 4.0, Cybersicherheit, Edge Computing, Robotik und nachhaltige Automatisierungslösungen. Die Veranstaltung bietet eine einzigartige Plattform für Wissensaustausch, Netzwerken und Inspiration für Fachleute aus der Automatisierungsbranche.
Für weitere Informationen besuchen Sie bitte Automation NEXT Conference.