Bildverarbeitung

Deep Learning in Fahrassistenzsystemen

Künstliche Intelligenz erkennt die Nutzung von Mobiltelefonen am Steuer

10.06.2020 -

Laut der Weltgesundheitsorganisation (WHO) sterben weltweit jedes Jahr etwa 1,35 Millionen Menschen bei Verkehrsunfällen und weitere 20 bis 50 Millionen werden verletzt. Eine der Hauptursachen dafür ist Unachtsamkeit am Steuer, weswegen viele Automobilhersteller bereits Fahrassistenzsysteme einsetzen, die Müdigkeit erkennen. Doch nicht nur Sekundenschlaf verursacht viele Unfälle, auch das Telefonieren sowie das Schreiben von Textnachrichten mit dem Smartphone oder der Verzehr von Lebensmitteln während der Fahrt sind sehr gefährlich. ARRK Engineering hat daher eine Testreihe auf Grundlage von CNNs durchgeführt, die es ermöglichen sollen, ein Fahrassistenzsystem zu entwickeln, das den Fahrer zuverlässig vor verkehrsgefährdendem Verhalten warnt.

Seit einigen Jahren kommen in der Automobilindustrie bereits Systeme zum Einsatz, die den Fahrer bei Müdigkeit warnen. Dafür analysieren diese Assistenten beispielsweise die Blickrichtung des Fahrers und erkennen automatisch Abweichungen vom üblichen Verhalten am Steuer. „Existierende Warnsysteme können bisher allerdings nur bestimmte Gefahrensituationen richtig erfassen“, erläutert Benjamin Wagner, Senior Consultant für Fahrassistenzsysteme bei ARRK Engineering. „Denn bei einigen Tätigkeiten, wie Essen, Trinken oder Telefonieren, wird die Kopfhaltung kaum verändert, da der Fahrer weiter auf die Straße vor sich schaut.“ Deswegen hat das Unternehmen eine Versuchsreihe gestartet, um unterschiedliche Körperhaltungen automatisch zu identifizieren, darunter die Nutzung von Mobiltelefonen und den Verzehr von Lebensmitteln. Um alle Arten von visueller, aber auch manueller und kognitiver Ablenkung korrekt zu erfassen, testete ARRK verschiedene Deep-Learning-Modelle und trainierte sie mit den ermittelten Daten.

Erstellung des ersten Bilddatensatzes zum Anlernen der Systeme

Für den Versuchsaufbau installierten die Experten in einem Testwagen zwei Kameras mit aktiver Infrarotbeleuchtung jeweils links und rechts des Fahrers an der A-Säule. Beide Kameras verfügten über eine Frequenz von 30 Hz und lieferten 8-Bit-Graustufenbilder mit einer Auflösung von 1.280 x 1.024 Pixeln. „Die Kameras waren außerdem mit einem IR-Langpassfilter ausgestattet, um den größten Teil des Lichts aus dem sichtbaren Spektrum mit einer Wellenlänge unter 780 nm zu blockieren“, so Wagner. „Dadurch stellten wir sicher, dass das empfangene Licht hauptsächlich von den IR-Strahlern stammt und deren volle Funktionalität sowohl bei Tag als auch bei Nacht gewährleistet ist.“ Darüber hinaus vermied das Blockieren des sichtbaren Tageslichts auch mögliche Schatteneffekte in der Fahrerkabine, die sonst zu Fehlern bei der Gesichtserkennung führen können. Damit die Bilder auf beiden Seiten gleichzeitig aufgenommen wurden, kam zusätzlich ein Raspberry Pi 3 Model B+ zum Einsatz, der ein Triggersignal an beide Kameras im Moment der Aufnahme sendete.

Mit diesem Aufbau wurden die Bilder der Körperhaltungen von 16 Probanden in einem stehenden Auto aufgenommen. Um möglichst vielfältige Daten zu erzeugen, unterschieden sich die Probanden beispielsweise in Geschlecht, Alter oder Kopfbedeckung. Aber auch verschiedene Mobiltelefonmodelle, Lebensmittel und Getränke wurden genutzt. „Für die jeweiligen Ablenkungsarten erstellten wir fünf Kategorien, in die wir später die Körperhaltungen einsortierten. Dabei handelte es sich um ‚keine sichtbare Ablenkung‘, ‚Telefonieren am Smartphone‘, ‚manuelle Bedienung des Smartphones‘, ‚Essen sowie Trinken‘, aber auch das ‚Halten von Lebensmitteln oder Getränken‘“, erläutert Wagner. „Für die Versuchsreihe instruierten wir unsere Probanden, zwischen diesen Tätigkeiten bei simuliertem Fahrverhalten zu wechseln.“ Nach der Aufnahme wurden die Bilder der beiden Kameras entsprechend kategorisiert und danach für das maschinelle Anlernen des Systems genutzt.

Training und Test der Bilderkennungssysteme

Um die Körperhaltungen zu erkennen, kamen vier modifizierte CNN-Modelle zum Einsatz: ResNeXt-34, ResNeXt-50, VGG-16 und VGG-19. Die beiden letztgenannten repräsentieren in der Praxis gängige Modelle wohingegen ResNeXt-34 und ResNeXt-50 eine dedizierte Struktur zur Verarbeitung von parallelen Pfaden enthalten. Für das Training der Systeme führte ARRK 50 Durchgänge mit dem Adam-Optimizer durch – einem Optimierungsalgorithmus mit adaptiver Lernrate. Dabei musste das CNN-Modell in jedem Durchgang die Körperhaltungen der Probanden in die vorher erstellten Kategorien einordnen. Mit jedem weiteren Schritt wurde diese Kategorisierung über ein Gradientenverfahren so angepasst, dass die Fehlerrate kontinuierlich sank. Zum Abschluss des Prozesses wurde ein dedizierter Testdatensatz für die Berechnung der Wahrheitsmatrix verwendet, um die Fehlerquote pro Fahrerhaltung für jedes CNN-Modell zu analysieren. „Der Einsatz von zwei Kameras mit jeweils separat geschultem CNN-Modell ermöglichte eine optimierte Fallunterscheidung für die linke und die rechte Gesichtshälfte“, führt Wagner aus. „Durch dieses Vorgehen konnten wir das beste System ermitteln, um den Gebrauch von Mobiltelefonen und den Verzehr von Lebensmitteln für einen großen Bereich von Kopfwinkeln zu erkennen.“ Die Gesamtauswertung ergab, dass die CNN-Modelle ResNeXt-34 und ResNeXt-50 die höchste Testgenauigkeit mit 92,88 Prozent für die linke Kamera und 90,36 Prozent für die rechte Kamera erreichten – ein mit bisherigen Lösungen zur Erkennung von Müdigkeit vergleichbares Ergebnis.

Die Genauigkeit des Systems weiter erhöhen

Mit diesen Informationen erweiterte ARRK abschließend seine Trainingsdatenbank und konnte beispielsweise bereits auf etwa 20.000 gelabelte Augendatensätze zugreifen. Dies ermöglicht es, darauf aufbauend ein automatisiertes, kamerabasiertes System für Fahrerbeobachtungssysteme zu entwickeln. Für eine geringere Fehlerquote planen die Experten bereits einen Schritt weiter. „Um die Genauigkeit weiter zu verbessern, werden wir in einem weiteren Projekt andere CNN-Modelle einsetzen“, resümiert Wagner. „Neben der Bewertung weiterer Klassifikationsmodelle werden wir dabei auch analysieren, ob die Integration von zugehörigen Objektpositionen aus dem Kamerabild zu zusätzlichen Verbesserungen führen kann.“ In diesem Zusammenhang werden Ansätze zu berücksichtigen sein, die auf dem Erkennen von sogenannten Bounding Boxes und der semantischen Segmentierung basieren. Letztere ermöglichen neben einer Klassifizierung auch verschiedene Detailstufen hinsichtlich der Lokalisierung von Objekten. Auf diese Weise kann ARRK die Genauigkeit eines Fahrassistenzsystems zur automatischen Erkennung von Ablenkungen am Steuer erhöhen.

Kontakt

P+Z Engineering GmbH

Frankfurter Ring 160
80807 München

+49 89 3185 70
+49 89 318571 11

Spannende Artikel zu Fokus-Themen finden Sie in unseren E-Specials. Lesen Sie jetzt die bisher erschienenen Ausgaben.

Zu den E-Specials

Media Kit

Die Mediadaten 2025 sind jetzt verfügbar! Laden Sie sie hier herunter.

Industrie-Lexikon

Begriffe aus der Bildverarbeitung und Automation, die man kennen sollte

Zum Lexikon

Spannende Artikel zu Fokus-Themen finden Sie in unseren E-Specials. Lesen Sie jetzt die bisher erschienenen Ausgaben.

Zu den E-Specials

Media Kit

Die Mediadaten 2025 sind jetzt verfügbar! Laden Sie sie hier herunter.

Industrie-Lexikon

Begriffe aus der Bildverarbeitung und Automation, die man kennen sollte

Zum Lexikon