Künstliche Intelligenz treibt die Suche nach der dunklen Materie
Integration von Inferenz-Beschleunigung mit Vorverarbeitung der Sensorsignale in FPGAs ermöglicht Leistungssteigerung
CERN (Conseil Européen pour la Recherche Nucléaire) ist mit weltweit mehr als 10 000 beteiligten Wissenschaftlern in 100 Ländern die weltweit führende Großforschungseinrichtung der Hochenergie-Physik. Sie betreibt breit angelegte Studien, um den Ursprung und das Wesen des Universums besser zu verstehen. Der unterirdische, knapp 27 km lange Große Hadronen-Speicherring (Large Hadron Collider, LHC) des CERN ist ein riesiges Synchrotron, in dem sub-atomare Partikel beschleunigt, durch gezielte Kollisionen in ihre elementaren Bestandteile zerlegt und mit einem komplexen Array aus Detektoren und Sensoren analysiert werden. Diese Experimente der Teilchenphysik sind, wie die erfolgreiche Entdeckung des Higgs-Boson zeigt, der vielversprechende Schlüssel zur Erweiterung des menschlichen Wissens über die Welt.
Ein ständig wachsendes Forscherteam von Physikern und Ingenieuren von CERN, Fermilab, MIT (Massachusetts Institute of Technology), UIC (University of Illinois) und UF (University of Florida) unter der Leitung von Philip Harris (MIT) und Nhan Tran (Fermilab) suchte kürzlich nach einem flexiblem Verfahren zur Optimierung der spezifischen Event-Filter im Compact Muon Solenoid (CMS), einem Teilchendetektor des LHC am CERN in Genf und Cessy in Frankreich. Die im CMS-Detektor auftretenden sehr hohen Datenraten (150 Terabyte/s) erfordern die Verarbeitung der beobachteten Events in Echtzeit. Doch die Bereitstellung der Algorithmen für die Event-Triggerfilter konnte mit den Ansprüchen des Teams nicht Schritt halten. Die Entwicklung der spezifischen Trigger zog sich oft über mehrere Monate hin.
Teamleiter Philip Harris erklärt die Entstehung des Projekts wie folgt: “Wir wurden inspiriert durch die Diskussion mit einigen Mitgliedern der Microsoft Brainwave Group, die an Machine-Learning Konzepten auf der Basis von FPGAs arbeiten. Und auf GitHub entdeckten wir einen äußerst einfachen Inferenz-Code für Machine-Learning, der von EJ Kreinar mit dem Xilinx Vivado HLS-Tool geschrieben worden war. (Ref.1). Beides erwies sich als sehr anregend für uns, denn wir sahen das Potenzial für unser hls4ml Projekt zur Schaffung reaktionsschneller ML-basierter Event-Trigger.”
Die Lösung: Tool-Flow mit Vivado HLS
Das CERN-Team befasste sich also mit der Entwicklung und dem Benchmarking eines spezifischen hls4ml-Tool-Flow auf der Basis der Xilinx Vivado High-Level Synthesis. Damit ließ sich der Zeitaufwand (“time-to-physics”) zur Generierung von Machine-Learning Algorithmen für den Level-1 Trigger des Compact Muon Solenoid (CMS) Detektors stark abkürzen. Das hls4ml-Tool umfasst eine Reihe von konfigurierbaren Parametern, mit denen die Anwender den Bereich der Latenz, das Initiierungs-Intervall und den angemessenen Ressourceneinsatz für ihre Applikation festlegen können. Da jede Applikation in dieser Hinsicht unterschiedlich ist, besteht die Zielsetzung von hls4ml darin, die Nutzer bei der Optimierung durch eine automatisierte Umsetzung in ein neuronales Netzwerk und die Design-Iteration im FPGA zu unterstützen.
Vor der erfolgreichen Beschäftigung des CERN-Teams mit dem hls4ml-Projekt mussten die Physiker ihre einfachen Trigger-Algorithmen manuell erstellen. Anschließend wurden FPGAs in Verilog oder VHDL programmiert – ein sehr zeitraubender Prozess, der oft mehrere Mann-Monate an Expertenarbeit mit Physikern und Ingenieuren in Anspruch nahm.
Teamleiter Nhan Tran blickt zurück: “Wir stellten uns vor, im Level-1 Trigger neuronale Netzwerke auf sehr hohem Niveau einzusetzen. Niemand hatte die Möglichkeit erwogen, generisch neuronale Netzwerke unterschiedlicher Typen zu verwenden. Wenn man der Forscher-Community diese Möglichkeit verschafft, dann können sie sich überall durchsetzen. Wir sehen das auch in der Myonen-Identifizierung, bei Tau-Leptonen, Photonen, Elektronen – bei allen Partikeln, die wir beobachten – dass wir die Performance mit diesen anspruchsvolleren Techniken verbessern können.”
Das höhere Abstraktionsniveau von hls4ml erlaubt den Physikern die Modell-Optimierung mithilfe von quelloffenen Industrie-Standard Big-Data Frameworks wie Keras, TensorFlow oder PyTorch. Deren Ausgangsdaten werden von hls4ml bei der Generierung der Firmware zur FPGA-Beschleunigung eingesetzt. Diese Automatisierung bringt, wie Nhan Tran hervorhebt, eine große Zeitersparnis: “Die passende Ingenieur-Erfahrung ist in der Physik eine knappe Ressource – und entsprechend teuer. Je mehr Physiker wir bei der Entwicklung der Algorithmen einsetzen können, und die Ingenieure bei der Entwicklung der Systeme, desto besser sind wir aufgestellt. Machine-Learning Algorithmen für Physiker zu erschließen ist sehr hilfreich. Das ist das Schöne, dass wir gleich auf der HLS-Ebene begonnen haben, und nicht mit Verilog oder VHDL. Jetzt können wir die gesamte Entwicklung auf einem FPGA vom Training bis zum Test an nur einem Tag durchlaufen.”
Wie können Physiker mit Machine-Learning Algorithmen nach der dunklen Materie suchen, wenn sie nicht wissen, wie diese eigentlich aussieht, um ihre neuralen Netzwerke trainieren? Die Antwort von Philip Harris: “Wir bilden eine Hypothese, wie sie aussehen könnte, und machen eine Liste aller möglichen zu erwartenden Signaturen.” Laut Harris und Tran gibt es in der Hochenergie-Physik eine lange Tradition für diese Vorgehensweise. Tran fügt hinzu: “Wir trainieren mit einer generischen Klasse von Signaturen. Beispielsweise verliert die dunkle Materie im Detektor an Energie, da sie durch diesen hindurchgeht. Wenn wir die Techniken des Machine-Learning zur Optimierung der Performance nutzen können, um diesen Energieverlust zu verstehen, dann verbessert das auch unser Verständnis der dunklen Materie.”
Ergebnis: Inferenz mit 100 ns Latenz bei 150 Terabyte/s
Die vom CMS-Detektor zu verarbeitende Datenrate ist gewaltig. Das macht die Triggerfilter zu einer grandiosen Herausforderung. Um diese Probleme zu überwinden, werden die Inferenzen mit extrem geringer zeitlicher Latenz ausgeführt, wie sie mit den Machine-Learning Algorithmen des CERN-Teams auf den Xilinx-FPGAs realisiert werden. Die im CMS auftretenden Datenraten liegen in der Größenordnung einiger Hundert Terabyte/s. Die FPGAs empfangen die Sensordaten und gleichen sie ab, übernehmen das Tracking und die Clusterbildung, außerdem die Objekt-Identifizierung per Machine-Learning und die Triggerfunktionen. Anschließend werden die Event-Daten formatiert und ausgegeben.
Das CERN-Team nutzt neuronale Netzwerke vom Perzeptron-Typ mit einer begrenzten Zahl von Layern, um die Anforderungen der Trigger - Echtzeit-Performance mit 100-Nanosekunden - zu erfüllen. Zusätzlich zur AI-Inferenz erledigen die FPGAs auch die Kommunikation mit dem Sensor, die Formatierung der Daten und die erforderliche Vorfilterung der ankommenden rohen Sensordaten vor der Inferenz-getriebenen Triggerung. Damit beschleunigen sie die gesamte Detektor-Applikation.
Teamleiter Tran umreißt die Vorteile des hls4ml-Projekts: “In unserer täglichen Arbeit erlaubt es uns den einfachen Einsatz des Machine Learning auf allen Ebenen des Experiments mit dem Trigger. Vorher mussten wir über eine sehr spezifische Applikation nachdenken und hart an der Entwicklung des Modells und der Firmware arbeiten, entweder in VHDL oder Verilog. Jetzt können wir viel umfassender darüber nachdenken, wie wir das Experiment weiter verbessern können. Das gilt für die Aggregation der Treffer auf der unteren Ebene in einem Kalorimeter bis zur höchsten Ebene mit der Optimierung einer bestimmten Topologie für das volle Event. Es erlaubt uns den schnelleren Einsatz und den Einsatz von Machine Learning über das ganze Experiment hinweg.”
Kann die Adoption der Machine-Learning Techniken durch das CERN-Team mehr Experten in das Feld der Hochenergie-Physik locken? Die Antwort von Philip Harris: “Bisher war das immer der Fall. Sogar bei der Entdeckung des Higgs-Bosons war bereits eine ganze Reihe von Machine-Learning Techniken involviert. Die Menschen kommen gern in unser Forschungsfeld, weil sie auf dem neuesten Stand des Machine Learning arbeiten können. Und auch, weil sie es hier mit sehr großkalibrigen Rechenproblemen zu tun haben. Wir konstatieren großes Interesse. Die Forscher begeistern sich für den Einsatz vieler dieser Verfahren.”