Personalisierung und blickbasierte Benutzerschnittstellen in Fahrzeugen und anderen Geräten
Gesichtserkennung und Head-Tracking in eingebetteten Systemen
Neue, effiziente Algorithmen ermöglichen es, Head-Tracking und Gesichtserkennung mit hoher Bildfrequenz in Geräte mit einfachen, mobilen CPU-Modulen einzubetten. Damit bietet sich eine unaufdringliche Möglichkeit zur Personalisierung von Fahrzeugen, Fernsehern und vielen anderen Gräten. Head-Tracking ermöglicht die Schaffung einfacher und intuitiver Benutzerschnittstellen, die auf die Blickbewegung des Anwenders reagieren.
Methoden der Gesichtserkennung und des Head-Tracking wenden eine Abfolge von Prozessschritten mit unterschiedlicher Komplexität auf Videobildserien an. Zunächst wird die Position des Gesichts erfasst. Anschließend wird eine Reihe von Bezugspositionen zur Detektion der Gesichtsmerkmale im Gesicht lokalisiert. Auf Basis dieser Positionen können die räumliche Ausrichtung und die Blickrichtung abgeleitet und die Frontalansicht des Gesichts rekonstruiert werden. Bei der Gesichtserkennung verwendet ein Klassifikator Referenzbilder, um die auf dem Bild abgebildete Person zu identifizieren.
Anwendungsfälle
Im automobilen Umfeld bietet die Gesichtserkennung bei einer Reihe unterschiedlicher Anwendungsfälle Vorteile. So kann die Identifikation des Fahrers mit personalisierten Funktionen verknüpft werden, wie die Voreinstellungen des Infotainments sowie die Einstellungen von Spiegel und Fahrersitz. Gesichtserkennung kann darüber hinaus zur Diebstahlsicherung bei Liefer- und Nutzfahrzeugen eingesetzt werden.
Heutzutage erkennen Assistenzsysteme im Fahrzeug die verminderte Aufmerksamkeit eines Fahrers anhand seiner verlangsamten Reaktion auf kleine Abweichungen von der Fahrspurmitte, indem sie die seitlichen Fahrzeugbeschleunigungen und des Lenkverhalten überwachen. Seit weiterentwickelte Fahrerassistenzsysteme es den Autofahrern erlauben, während einer Autobahnfahrt die Hände vom Lenkrad zu nehmen, muss der Aufmerksamkeitsassistent jetzt aber auf andere Eingabedaten zurückgreifen. Die Blickrichtung und der Zustand der Augenlider, die von Kameras im Innern des Fahrzeugs erfasst werden, stehen am deutlichsten in direktem Zusammenhang mit der Aufmerksamkeit des Fahrers.
Head-Tracking kann zu größerer Sicherheit im Straßenverkehr beitragen und die Versicherungskosten kommerzieller Fahrzeugflotten verringern. Heute können Telematiksysteme, die Fahrern Logistikinformationen liefern, auch gleichzeitig Statistiken zur Geschwindigkeit und Beschleunigung an die Flottenbetreiber übermitteln. Das Aufsichtspersonal für die Flotte kann diese Informationen verwenden, um Mitarbeiter zu einer sicheren und wirtschaftlichen Fahrweise anzuhalten.
Gestengesteuerte Benutzerschnittstellen, die auf die Blickrichtung eines Anwenders reagieren, sind eine spannende neue Perspektive. Nachdem die Anzahl der Geräte, die durch Gesten gesteuert werden können, weiter zunehmen wird, ist Head-Tracking ein wichtiges Mittel um festzustellen, auf welchen Gegenstand sich eine Geste bezieht. So kann mit einer Wischgeste genau das Fenster geöffnet oder geschlossen werden, das der Fahrer gerade ansieht. Dieselbe Geste kann womöglich verwendet werden, um durch ein Menü zu blättern, wenn der Fahrer auf den Bildschirm des Infotainment-Systems oder auf eine Frontscheibenanzeige blickt.
Gesichtsdetektion
Der erste Schritt bei der Gesichtsdetektion ist die Positionsbestimmung des Gesichts innerhalb eines Bildes. Gesichtsdetektion ist bereits in Digitalkameras, Smartphones und viele andere Geräte integriert. Der wichtigste unter den gebräuchlichen Gesichtserkennungsalgorithmen führt eine schrittweise Näherung über alle Größen und Positionen der Bildregionen durch. Bei jeder Region entscheidet eine Kaskade von Klassifikatoren darüber, ob tatsächlich ein Gesicht zu sehen ist. Auf jeder Kaskadenstufe testet eine Auswahl einfacher Klassifikatoren eine kleine Gruppe von Bildmerkmalen. Auf Grundlage des Testergebnisses wird die Kaskade durch eine negative Entscheidung beendet oder sie geht zur nächsten Stufe über. Nachdem bei den meisten Bildbereichen schon auf der obersten Kaskadenstufe eine negative Entscheidung getroffen werden kann, erfolgt die Gesichtsdetektion relativ schnell. Durch die Implementierung der Gesichtsdetektion auf spezieller Hardware wie FPGAs kann Gesichtserkennung weiter beschleunigt werden.
Erfassung von Gesichtsmerkmalen
Der nächste Schritt, die Detektion von Gesichtsmerkmalen, lokalisiert zwischen 5 und 50 Bezugspunkte im Gesicht, beispielsweise die Punkte, welche die Form von Ober- und Unterlippen, der oberen und unteren Augenlider sowie des Nasenrückens beschreiben (Abb. 1). Sobald deren Lage bestimmt wurde, werden diese Bezugspunkte in nachfolgenden Videobildern ohne erneute Gesichtsdetektion nachverfolgt.
In jüngster Zeit hat sich der Shape-Regression-Ansatz als genauer und um Größenordnungen schneller erwiesen als frühere Methoden. Shape-Regression verwendet Bilder von Gesichtern, in denen die Bezugspositionen manuell als Trainingsdaten gekennzeichnet wurden. Dieses Regressionsmodell wird wiederholt angewendet, bis die Bezugsmarken mit ihrer endgültigen Position übereinstimmen. Ein mit gekennzeichneten Daten trainiertes Konfidenzmodell ermittelt, ob an den endgültigen Positionsmarken tatsächlich ein Gesicht vorliegt.
Eine neue Methode, die Binärbaummerkmale verwendet, verkürzt die Ausführungsdauer der Shape-Regression um eine weitere Größenordnung. Der Vorteil dieses Ansatzes besteht darin, dass zur Verarbeitung jedes Videobildes nur diejenigen Merkmale berechnet werden müssen, die in einem einzigen Zweig eines jeden Entscheidungsbaums geprüft werden. In dieser Hinsicht erinnert dieser Ansatz an die Viola-Jones-Methode zur Gesichtsdetektion. Die Entscheidungsbäume werden dann in einem globalen Regressionsmodell kombiniert, das den endgültigen Abweichungsvektor für alle Marken vorhersagt.
Wir haben die Erfassung von Gesichtsmerkmalen um ein Modell teilweiser Verdeckung erweitert (siehe Abb. 2). Ein Modell für die Verdeckung ermittelt, welche Bezugspunkte in einem Bild sichtbar sind. Effiziente Shape-Regression-Algorithmen eignen sich für die Erfassung von Gesichtsmerkmalen mithilfe einfacher, mobiler CPU-Module in Echtzeit bei einer hohen Bildfrequenz.
Head-Tracking und Abschätzung der Blickrichtung
Durch Head-Tracking werden Position und Ausrichtung des Kopfes ermittelt. Die dreidimensionale Ausrichtung eines Gegenstandes kann aus einem einzigen, zweidimensionalen Bild abgeleitet werden, wenn ein dreidimensionales Modell des Gegenstandes vorliegt und entsprechende Bezugspunkte sowohl im Bild als auch im Modell lokalisiert worden sind. Der Genauigkeitsgrad dieser Ableitung hängt von der Anzahl der Bezugspunkte und der Genauigkeit des dreidimensionalen Modells ab. In diesem Punkt überschneiden und verstärken sich Head-Tracking und Gesichtserkennung gegenseitig: Durch Identifikation kann das dreidimensionale Modell mit der Zeit an die Form und Größe des individuellen Kopfes des Anwenders angepasst werden.
Weil Menschen bei der Änderung ihrer Blickrichtung den Kopf erheblich bewegen, gestattet die räumliche Ausrichtung des Kopfes eine Näherung der Blickrichtung. Die Augenbewegung dient in erster Linie dazu, auch die genauen Fixationspunkte mit großer Genauigkeit zu ermitteln. Zu diesem Zweck erfassen externe Eye-Tracker das von Netzhaut und Hornhaut reflektierte Infrarotlicht mittels Kameras, die den Augenbereich mit hoher Auflösung und Bildfrequenz darstellen und davon die Ausrichtung der Augen ableiten.
Das Head-Tracking kann mithilfe einfacher Kameras mit weitem Bildwinkel erfolgen. Die Ausrichtung des Gesichts kann durch effiziente Shape-Regression mittels einfacher, mobilere CPU-Module abgeleitet werden. Das Eye-Tracking, durch das die Blickrichtung wesentlich genauer bestimmt wird, erfordert demgegenüber Hardware, die noch zu teuer ist, als dass dieses Verfahren in naher Zukunft generell eingesetzt werden kann.
Die Erfassung von Gesichtsmerkmalen mit ausreichender Genauigkeit ergibt sich aus der Form der oberen und unteren Augenlider (Abb. 1). Der Bereich zwischen den Augenlidern gibt Aufschluss darüber, wie weit die Augen geöffnet sind.
Gesichtserkennung
Mithilfe eines dreidimensionalen Modells ist es möglich, Rückschlüsse auf die Frontalperspektive des Gesichts zu ziehen. Aus einem Halbprofilbild kann etwas mehr als die Hälfte der Frontalansicht eines Gesichts rekonstruiert werden. Der von der Kamera abgewandte Teil des Gesichts kann nur unter Symmetrieannahmen rekonstruiert werden.
Von einem Graustufenbild der Frontalansicht eines Gesichts können Filterbanken Vektoren für zigtausende Texturmerkmale ableiten. Von diesen elementaren Merkmalen werden abstraktere Merkmale abgeleitet. Diese übergeordneten Merkmale spiegeln stärker die Unterschiede zwischen Individuen wider, als die Unterschiede bei den Lichtbedingungen, der Haltung und anderer Faktoren. Sie werden erzeugt, indem nach Transformationen gesucht wird, die spezifisch zwischen bestimmten Paaren von Individuen unterscheiden oder durch das Trainieren von neuralen Netzen anhand von Millionen von Gesichtsabbildungen. Aufgrund der Gesamtheit aller generierten Merkmale entscheidet ein Klassifikator, ob ein Bild eine registrierte Person darstellt, wobei Referenzbilder verwendet werden und ein Konfidenzwert ermittelt wird.
Lange Zeit hat sich die Forschung im Bereich der Gesichtserkennung auf die Frontalansicht biometrischer Bilder bei guter Beleuchtung konzentriert. Im Umfeld der Fahrzeugtechnik sind sie es allerdings nicht. Die robuste Gesichtserkennung bei Bildern, die gleichzeitig abweichende Kopfhaltung, Ausdruck, Lichtbedingungen und eine teilweise Verdeckung aufweisen können, ist noch immer Gegenstand der Forschung.
Gesichtserkennung ist in Bezug auf Rechenzeit und Speicherkapazität im Allgemeinen relativ teuer. Filterbanken, aus denen zigtausend Merkmale abgeleitet werden können, erreichen leicht eine Größe von vielen Megabyte. Die teure Rechenanwendung der Filterbanken stellt Anforderungen an das CPU-Modul, die nicht von allen mobilen CPU-Modulen erfüllt werden können.
Wir haben eine Methode entwickelt, die nur diejenigen Texturmerkmale berechnet und bewertet, die absolut notwendig für die Identifikationsentscheidung bei einem vorliegenden Bild sind. Diese Methode verringert die Kosten der Rechenleistung bei der Gesichtserkennung um mehr als eine Größenordnung. Sie ermöglicht es, die gesamte Abfolge der Erfassung von Gesichtsmerkmalen, Head-Tracking und Gesichtserkennung in Echtzeit auszuführen und zwar bei hoher Bildfrequenz und auf energieeffizienten und kostengünstigen CPU-Modulen, die zudem in eine Vielzahl unterschiedlicher Geräte integriert werden können.
Eine hocheffiziente Gesichtserkennung ist damit nicht nur bei einer größeren Auswahl an Hardware-Plattformen möglich, auf denen Gesichtserkennung in Echtzeit erfolgt. Wenn eine größere Anzahl unterschiedlicher Bilder in der für die Identifikation des Anwenders verfügbaren Zeit analysiert werden kann, wird die Erkennung zudem robuster und die Wahrscheinlichkeit falsch positiver und falsch negativer Ergebnisse sinkt.
Schlussfolgerung
Neue, effiziente und robuste Algorithmen ermöglichen nicht nur die Entwicklung der Gesichtsdetektion, sondern auch der Erfassung von Gesichtsmerkmalen in Echtzeit, des Head-Tracking und der Gesichtserkennung auf eingebetteten Systemen, die einfache, energieeffiziente und kostengünstige CPU-Module verwenden.
Die Identifikation von Anwendern auf Grundlage der Gesichtserkennung ermöglicht eine personalisierte Interaktion zwischen Anwendern und Geräten. In Fahrzeugen ist damit die Aktivierung bevorzugter Einstellungen von Infotainment, Fahrersitz und Spiegeln möglich. Bei Lieferfahrzeugen dient die Identifikation als Sicherheitsfunktion. Gleichzeitig kann mithilfe von Head-Tracking und der Erfassung der Augenlider die Aufmerksamkeit des Fahrers überwacht werden, auch wenn zukunftsweisende Fahrerassistenzsysteme Fahrern gestatten, die Hände von der Lenkvorrichtung zu nehmen.
Kontakt
Asaphus Vision GmbH
Bismarckstraße 10 - 12
10625 Berlin
+49 30 850 191 77