Künstliche Intelligenz verbessert OCR entscheidend
22.04.2024 - Interview mit Rudolf Schambeck, Senior Manager Machine Vision DACH bei Zebra
Optische Zeichenerkennung (OCR) stößt schnell an Grenzen bei schmutzigen oder beschädigten Zeichen sowie ungünstigen Lichtverhältnissen. Hier kann künstliche Intelligenz unterstützen, die die Zeichenerkennung auch unter widrigen Bedingungen sicherstellt. Die inspect hat sich darüber mit Rudolf Schambeck, Senior Manager Machine Vision DACH bei Zebra, unterhalten. Er erläutert unter anderem, wie einfach der Einstieg in diese Technologie sein kann.
inspect: Künstliche Intelligenz, Deep Learning und Machine Learning werden häufig fälschlicherweise synonym gebraucht. Können Sie kurz die Unterschiede erläutern?
Rudolf Schambeck: Künstliche Intelligenz (KI) ist ein Oberbegriff für verschiedene Techniken, mit denen Maschinen menschenähnliche Intelligenz erlangen sollen. Dazu gehören beispielsweise Machine Learning, Deep Learning, aber auch klassische regelbasierte Ansätze. KI ist also der weit gefasste Rahmen.
Machine Learning ist eine Teilmenge der KI und bezeichnet das „Lernen“ von Computermodellen aus Beispieldaten ohne explizite Programmierung. Die Modelle erlernen also Muster in Daten und treffen so Vorhersagen oder Entscheidungen. Es gibt überwachte und unüberwachte Verfahren des Machine Learnings.
Deep Learning ist wiederum ein Teilbereich des Machine Learnings, der tiefe, künstliche neuronale Netze einsetzt. Diese Netze mit vielen Schichten können sehr komplexe Funktionen approximieren und damit beispielsweise Bilder, Sprache oder Videos analysieren. Deep Learning ist derzeit der fortgeschrittenste Bereich des maschinellen Lernens.
inspect: Künstliche Intelligenz in der Bildverarbeitung ist nur einer von vielen Anwendungsbereichen dieser Technologie.
Für welche Aufgaben kommt sie hier vor allem zum Einsatz?
Schambeck: Insbesondere der als Deep Learning bezeichnete Bereich des maschinellen Lernens kommt hier zum Einsatz. Die Vorteile der maschinellen Bildverarbeitung zeigen sich deutlich in Branchen, die hohe Anforderungen an Sicherheit, Qualität, Compliance und Effizienz bei hohen Geschwindigkeiten stellen, wie in der Automobil-, Lebensmittel- und Getränke-, Pharma- und Elektronikindustrie.
Anwendungen der industriellen Bildverarbeitung werden für Qualitäts-/End-of-Line-Inspektionen, die Rückverfolgbarkeit von Teilen entlang der Lieferkette, Messungen, An-/Abwesenheitsprüfungen, Metrologie und Porositätsprüfungen eingesetzt.
Auf Deep Learning basierende Bildverarbeitungs-Software ist eine hervorragende Lösung für die Oberflächeninspektion, die Inspektion natürlicher Materialien mit natürlichen Schwankungen, die Textilinspektion, die Klassifizierung, die Inspektion konformer Beschichtungen, die Segmentierung sowie die Erkennung von Merkmalen und Anomalien. Die richtige Kombination von Hard- und Software unter Verwendung von Deep Learning kann industrielle Bildverarbeitungsanwendungen verbessern, komplexere Anwendungsfälle ermöglichen und die Rolle von Ingenieuren zu Daten- und KI-Spezialisten weiterentwickeln. Neue Kameras, Sensoren und Bildverarbeitungsplattformen mit Deep Learning sind in der Lage, langfristige Herausforderungen zu meistern, zu deren Bewältigung herkömmliche Bildverarbeitungssysteme nicht in der Lage sind.
inspect: Welche Vorteile bringt künstliche Intelligenz bei der Optical Character Recognition (OCR)?
Schambeck: OCR benötigt viel Trainingszeit, kann instabil werden, wenn sich die Umgebungsbedingungen ändern, und kann komplexe Anwendungsfälle nur mäßig gut bewältigen. Eine Vielzahl von Faktoren wie stilisierte Schriften, unscharfe, verzerrte oder verdeckte Zeichen, reflektierende Oberflächen und komplexe, ungleichmäßige Hintergründe können es unmöglich machen, mit herkömmlichen OCR-Verfahren nützliche Ergebnisse zu erzielen.
Die neuesten auf Deep Learning basierenden OCR-Werkzeuge verwenden neuronale Netze, die der Funktionsweise des menschlichen Gehirns ähneln. Diese Tools liefern eine sehr hohe Genauigkeit direkt „out of the box“ und laufen auf Nvidia GPUs und CPUs. Sie sind in der Lage, komplexe Anwendungsfälle zu bewältigen, benötigen keine Trainingszeit und garantieren Stabilität und Benutzerfreundlichkeit auch für Laien. Diese Deep-Learning-OCR wird mit einem bereits trainierten neuronalen Netz geliefert, das mit Tausenden von Bildmustern vorbereitet wurde. Damit kann der Anwender in wenigen einfachen Schritten eine robuste OCR-Anwendung erstellen.
inspect: Welche Voraussetzungen müssen erfüllt sein, damit ein Anwender KI für seine OCR-Aufgabe einsetzen kann?
Schambeck: Ein Beispiel der KI-gestützten Anwendung in der Bilderkennung ist die auf Deep Learning basierte OCR, welche beispielsweise in der Software Zebra Aurora Focus zum Einsatz kommt. Hierbei handelt es sich um eine einzige, vereinheitlichte Plattform, mit der sich alle stationären Industriescanner und Machine-Vision-Smartkameras von Zebra einrichten, bereitstellen und ausführen lassen. Als Voraussetzung gelten auch hier die Regeln der Bildverarbeitung beziehungsweise die Anforderungen an Auflösung und Belichtung entsprechend den Randbedingungen. Jedoch müssen sich Anwender nur noch um diese allgemeinen Bildverarbeitungsparameter kümmern, denn den Rest erledigt die KI.
inspect: Für welche Anwendungen ist sie gedacht? Und welche Vorteile bringt sie dort im Vergleich zu anderer Software mit und ohne KI?
Schambeck: Deep Learning OCR (Optical Character Recognition) eignet sich für eine Vielzahl von Anwendungen, bei denen aus Bildern Text extrahiert werden soll. Typische Anwendungsbeispiele für Deep Learning OCR sind:
Automatisierte Paketerfassung: OCR kann Adressaufkleber oder Frachtbriefe auslesen, um Pakete automatisiert zuzuordnen und zu sortieren.
Teileerfassung und Mengenermittlung: Über OCR lassen sich Teilelisten, Lieferscheine oder Rechnungen automatisiert erfassen, um zum Beispiel Warenankünfte zu registrieren.
Qualitätsprüfung: Deep Learning OCR kann Produktionsdaten, Chargennummern oder Haltbarkeitsdaten auf Verpackungen lesen und so die Qualitätssicherung unterstützen.
Automatische Lagerverwaltung: Etiketten, Paletten-Codes und Platzierungen im Lager können per OCR erfasst werden, um Bestände und Lagerbewegungen zu dokumentieren.
Produktionsüberwachung: Produktionszahlen, Durchlaufzeiten und Ausschussquoten und ähnliches können automatisiert aus Bildschirmanzeigen oder Displays ausgelesen werden.
Fehleranalyse: OCR unterstützt auch die Analyse von Fehlerfotos oder Logdateien, um Probleme in Fertigungslinien schneller zu beheben.
Qualitätskontrolle: OCR kann Produktionschargen, Seriennummern, Verfallsdaten etc. auf Produkten erkennen. So lassen sich Rückverfolgbarkeit und Qualitätssicherung automatisieren.
Werkzeugverwaltung: OCR erkennt Nummern und IDs an Werkzeugen, Vorrichtungen oder Maschinen, um deren Verbleib oder Wartungszyklen zu überwachen.
inspect: Fachkräftemangel ist in aller Munde. Inwiefern kann moderne Bildverarbeitung dazu beitragen, die vorhandenen Mitarbeiter zu entlasten?
Schambeck: Eine stärkere Automatisierung, insbesondere auch bei Sichtprüfungen durch industrielle Bildverarbeitung, kann zu höherer Genauigkeit, Geschwindigkeit, Compliance und Sicherheit führen. Dies bedeutet auch, dass Ingenieure an der Fertigungslinie Prüfaufgaben an die industrielle Bildverarbeitung delegieren können und somit mehr Zeit für andere wertvolle und notwendige Aufgaben haben.
Herausforderungen bei der Rekrutierung von Arbeitskräften könnten sich somit als ein weiterer treibender Faktor erweisen, der zu einer stärkeren Nutzung von Machine Vision führt, um den Betrieb aufrechtzuerhalten und die derzeitige Belegschaft zu unterstützen.