Es ist ein unauffälliges Produkt, das Amazon jetzt ausliefert: ein schlichter Zylinder, metallisch-silbern und 23 Zentimeter hoch. Doch wenn jemand in seiner Nähe das Wort «Alexa» sagt, wird das Gerät zum Leben erweckt.

Blaue Leuchtdioden auf der Oberseite beginnen zu leuchten, und die Box wird zur Kommunikationsmaschine. Auf Wunsch liest sie Hörbücher oder die Nachrichten des Tages vor.

Auch ist der kühl wirkende Zylinder ein guter Zuhörer. Trägt der Benutzer ihm per Sprachbefehl auf, seine To-do-Liste zu ergänzen, führt die Box das aus, auf Zuruf bringt sie ausgesuchte Webseiten auf den TV-Bildschirm oder ruft jemanden aus der Kontaktliste im Smartphone an. «Echo», so nennt Amazon die mit Mikrofonen und Lautsprechern bestückte Box, erfährt also eine Menge über die Menschen, die in ihrer Umgebung mit anderen reden.

Partner-Inhalte
 
 
 
 
 
 

Künftig werden elektronische Geräte vermehrt per Sprache zu bedienen sein. Hersteller wollen Nutzern den Umweg über Tastatur oder Touchscreen ersparen, der Anwender soll unmittelbar mit der Technik kommunizieren.

In Amazons Echo sind sieben Mikrofone auf Empfang

Das heisst aber auch: Wir werden umgeben sein von Mikrofonen, die uns zuhören – oder uns belauschen. Das hängt unter anderem davon ab, ob das gesprochene Wort in den eigenen vier Wänden bleibt oder durch das Internet mäandert.

So wie Amazons «Echo» werden auch alle anderen Geräte, die sich per Sprache steuern lassen, ständig mit dem Internet verbunden sein. Die meisten Fernseher und viele Radios sind es schon, die Smartphones ohnehin.

Bald wird man auch seinem Kühlschrank, dem Wecker oder der Waschmaschine mündliche Kommandos geben. Und Gefahr laufen, dass sie alles, was sie von uns hören, über das Netz weitergeben.

Wer sich mit seinem Partner dann über den anstehenden Urlaub unterhält, kann nicht sicher sein, dass nicht andere erfahren, wann das Haus unbewacht ist. Schliesslich sind die Lauscher in den Geräten immer auf Empfang.

So wie die sieben Mikrofone im «Echo» – damit sie das Schlüsselwort «Alexa» nicht verpassen. Stets ist der eingebaute Computer aktiv, der sofort untersucht, was die Hausbewohner von sich gegeben haben.

Hacker schalten Mikrofone im Smart-TV ein

«Das Audiosignal – und damit auch alles, was im Raum gesagt wird – muss ständig aufgenommen und analysiert werden. Nur dann kann das System mitbekommen, ob das Schlüsselwort gefallen ist. Ob eine Software im Gerät selbst die Wörter analysiert, oder ob das in der Cloud geschieht, bleibt dem Entwickler überlassen», sagt Stefan Ultes, Informatiker an der Universität Ulm und Experte für Sprachsteuerung. «Die Spracherkennung in der Cloud ist im Allgemeinen jedenfalls deutlich besser als eine Software, die lokal im Gerät arbeitet.»

Bleiben die aufgezeichneten Wörter in den sprachgesteuerten Geräten unter Verschluss, ohne Zugang zum Internet, sind sie sicher untergebracht, da die Speicherkapazität in den Geräten gering ist. «Findet die Spracherkennungssoftware das Schlüsselwort nicht, dürfte das Audiosignal in der Regel wohl gleich gelöscht werden. Ansonsten fallen einfach zu viele – unnütze – Daten an», so Informatiker Stefan Ultes.

In einer Umgebung voller Mikrofone dürfte trotzdem ein ungutes Gefühl bleiben. Zu Recht, wie Hacker in Tests gezeigt haben. Ihnen ist es gelungen, von aussen die Mikrofone und Kameras in Smartphones und Smart-TVs zu aktivieren und Ton und Bild aufzuzeichnen, ohne dass die Anwender davon etwas mitbekommen haben.

Noch unsicherer ist es, sollten die Unterhaltungen in den eigenen vier Wänden das lokale Gerät verlassen und über Internet zu einem zentralen Server geschickt werden. Dann wäre jedes Wort, das der Hausbewohner noch vor dem Nennen eines Schlüsselwortes wie «Alexa» ausgesprochen hat, unzureichend geschützt in den Weiten des Webs unterwegs.

Auch Gespräche zwischen Eheleuten, darüber, wie sie bei der nächsten Steuererklärung tricksen könnten. Vielfach sind die Audiodateien unverschlüsselt, für Hacker ist es dadurch ein leichtes Spiel, sie abzugreifen.

Schon einfache Kommandos sind verräterisch

Manche Hersteller äussern sich nicht zum Umgang mit den aufgezeichneten Gesprächen, andere versichern, keine Daten würden das Gerät verlassen, bevor nicht das Schlüsselwort genannt ist. Um allerdings ein bestimmtes Wort in einer lauten Umgebung zuverlässig zu erkennen, das unter Umständen noch in einem schwer verständlichen Dialekt dahingenuschelt wurde, dafür ist eine leistungsfähige Software notwendig, die kaum in einem kleinen Gerät Platz findet. Da müssen schon kraftvolle Programme in der Cloud aushelfen.

Ist das Schlüsselwort gefallen, dürfte den Nutzern zwar bewusst sein, dass die Mikrofone ihre Worte danach aufzeichnen, und sie werden wohl darauf verzichten, dem Gerät intime Dinge mitzuteilen. Sie werden sich eher auf einfache Kommandos wie «Licht einschalten» oder «Lauter stellen» beschränken.

Doch schon mit einfachen Kommandos kann Spezial-Software eine Menge anfangen. «Sprachanalyseprogramme können nach einiger Zeit Sprecher voneinander unterscheiden. Ob sie Hinweise auf die Identität des jeweiligen Sprechers geben können, hängt allerdings davon ab, ob sich das Gerät eindeutig einem Nutzer zuordnen lässt», sagt Ultes.

Auch die Gefühlswelt bleibt der Software nicht verborgen. Emotionen lassen sich mit hoher Trefferwahrscheinlichkeit anhand einer Stimme erkennen.

«Auf jeden Fall ist es einfacher, über die Stimme auf den emotionalen Zustand des Nutzers zu schliessen, als wenn er über den Touchscreen wischt oder auf der Tastatur tippt. Prinzipiell funktioniert das auch schon, wenn nur wenige Sätze für die Analyse zur Verfügung stehen», sagt Ultes. Ein ärgerlich dem Kühlschrank entgegen gebrülltes «Mach endlich die Tür auf» verrät schon einiges über die Gefühlslage des Nutzers.

Kinder werden abgehört

Noch mehr erfährt die Software, wenn der Nutzer den Geräten nicht nur einfache Kommandos zuruft, sondern etwas mehr über sich preisgibt – wenn er seinen neue Verabredungen in den Kalender eintragen oder neue Kontakte zur Liste hinzufügen lässt. Dann landen schon sehr persönliche Informationen auf Servern irgendwo in den USA. Was mit den Daten geschieht, darauf haben die Nutzer keinen Einfluss mehr.

Da Sprachsteuerung auf dem Vormarsch ist, wird dies immer häufiger geschehen. Die Rollläden werden ebenso ihre Steuerungsbefehle über Mikrofone erhalten wie der Kaffeeautomat.

Später werden dann noch Service-Roboter durch die Zimmer rollen, den Bewohnern lauschen und aus dem Gesagten ihre Befehle heraushören. Das gelingt nur, wenn sie die Sätze vorher in die Cloud schicken und dort analysieren lassen. Nur dort ist ausreichend Rechenkraft zur Interpretation der Töne vorhanden.

Kinder sind schon jetzt vor Lauschangriffen nicht mehr sicher. Mattel hat mit seinem Produkt «Hello Barbie» ein wahres Spionage-Spielzeug entwickelt.

Die Puppe zeichnet alles um sie herum in Bild und Ton auf, und sie animiert die Kinder sogar dazu, über alles Mögliche zu reden – darüber, was sie mögen, was sie doof finden und welche Wünsche sie haben. Dann weiss Mattel auch, warum Mama gestern geschimpft oder dass Papa am Sonntag nicht geduscht hat.

Die Kontributoren sind externe Autoren und wurden von bilanz.ch sorgfältig ausgewählt. Ihre Meinung muss nicht mit der Meinung der Redaktion übereinstimmen.