Federated Learning: Einer für alle und alle für einen
Es gibt viele öffentliche Einrichtungen, die die gleiche Art von Daten in ähnlichen Prozessen verarbeiten, z.B. Versicherungen, Finanz- oder Bürgerämter. Viele dieser Prozesse könnten durch KI unterstützt werden, doch dazu werden große Datenmengen benötigt. Es würde sich also anbieten, die Daten von ähnlichen Einrichtungen in einen Topf zu werfen und darauf ein einheitliches KI-Modell zu trainieren, welches dann von allen Einrichtungen verwendet werden kann.
Dies stößt aber meistens auf sicherheitstechnische und datenschutzrechtliche Hürden. Die Daten müssten gesichert übertragen und gespeichert werden. Eine technische Herausforderung. Aber allein die Weitergabe von personenbezogenen Daten birgt rechtliche Herausforderungen aufgrund der DSGVO. Grundsätzlich ist eine Zusammenarbeit unter den typischen Gesichtspunkten des maschinellen Lernens und der künstlichen Intelligenz also schwierig. Also wird lieber nicht zusammengearbeitet.
Es gibt jedoch einen Ausweg! Mit den sensiblen Rohdaten trainiert jede Einrichtung ein eigenes KI-Modell, welches auf den Daten generelle Zusammenhänge lernt. Diese gelernten Regeln, quasi die Erfahrungen des KI-Modells, können wir problemlos austauschen, da diese keine sensiblen Informationen mehr enthalten. Dieses Konzept nennt sich Föderales Lernen (engl. Federated Learning).
Stellen Sie sich vor, Sie sind dafür zuständig, Anträge zu bewilligen. Nun kommt Ihnen eines Tages ein ungewöhnlicher Antrag unter, bei dem Sie zunächst etwas recherchieren müssen, wie Sie damit umgehen. Die Erfahrung, die Sie dadurch sammeln, hilft Ihnen bei der Bearbeitung ähnlicher Fälle. Ihre Kolleg:innen wissen davon aber nichts; sie haben aus Ihren Erfahrungen nichts gelernt. Es sei denn, Sie tauschen sich aus. Sie berichten von den wichtigsten Eigenschaften des Falls, welche Informationen man für die Bearbeitung braucht und welche Schritte nötig waren. Dabei spielt es keine Rolle, wie die antragsstellende Person hieß, wann sie geboren wurde, etc. All das müssen Sie beim Erfahrungsaustausch auch nicht mitteilen. Ihre Kolleg:innen haben trotzdem verstanden, wie sie in einem solchen Fall vorgehen müssen. Jeder hat etwas gelernt.
Übertragen wir diese Vorgehensweise auf KI-Modelle. Alle Einrichtungen bekommen eine Kopie des gleichen grundlegenden, noch nicht trainierten, KI-Modells zur Verfügung. Jede Einrichtung trainiert dieses KI-Modell auf den eigenen Daten, wodurch es datenspezifische Regeln und Zusammenhänge lernt. Wichtig: Das Training geschieht in der Einrichtung selbst, sodass die sensiblen Daten die Einrichtung niemals verlassen! Jedes Modell lernt hier für sich, wie zunächst Sie und Ihre Kolleg:innen für sich die Fälle bearbeiten und dabei Erfahrungen sammeln. Der Austausch zwischen Ihnen und Ihren Kolleg:innen wird bei KI-Modellen durch den Austausch von Parametern umgesetzt. Die Parameter, die den gelernten Zustand des Modells kodieren, enthalten in der Regel keine konkreten Daten mehr, sondern repräsentieren die Regeln und Zusammenhänge, die nötig waren, um die Aufgabe auf den eigenen Daten zu lösen. Jedes Modell hat durch die verschiedenen Daten etwas andere Parameter, da in unterschiedlichen Datensätzen auch unterschiedliche Schwerpunkte und Sonderfälle existieren.
Nun werden die Parameter der verschiedenen Modelle zwischen den Einrichtungen ausgetauscht und jeweils kombiniert. Es entsteht wieder ein gleiches Modell über die Einrichtungen hinweg, nun jedoch mit dem Erfahrungsschatz aus allen Einrichtungen. Statt der sensiblen Trainingsdaten wurden also nur noch Parameter ausgetauscht, welche keine personenbezogenen Daten mehr beinhalten. Federated Learning führt dazu, dass personenbezogene Daten die Einrichtung niemals verlassen, was eine datenschutzrechtliche Entlastung zur Folge hat. Dennoch profitiert jede Einrichtung von den Daten anderer Einrichtungen.
Dieses Vorgehen ist in vielen Fällen sinnvoll. Neben öffentlichen Einrichtungen wird die Technik in medizinischen Produkten eingesetzt, sodass KI-Modelle auch ohne Weitergabe von sensiblen Gesundheitsdaten trainiert werden können. So trägt jede Nutzerin und jeder Nutzer des Produkts dazu bei, das KI-Modell zu verbessern, und profitiert am Ende genau so davon. Im Finanzwesen können Banken ihre Betrugserkennungssysteme untereinander teilen, ohne sensible Kundendaten weiterzugeben. Menschen können bei wissenschaftlichen Studien teilnehmen, ohne ihre sensiblen Daten preiszugeben. Am Ende profitieren alle davon, dass KI-Modelle besser werden. Die rechtlichen Herausforderungen einer Zusammenarbeit verschiedener Einrichtungen können mit der richtigen Herangehensweise gelöst werden. Man muss nur wissen, wie.