Trainingsdaten für die KI

Share on linkedin

Welchen Stellenwert Trainingsdaten für die KI haben

In unserem Blogpost über Lernverfahren von Künstlicher Intelligenz hatten wir auch über überwachtes und teilüberwachtes Lernen gesprochen. Bei diesen Lernverfahren benötigt das KI-System Trainingsdaten, die Menschen vorbereitet und mit Zielvariablen versehen haben, also mit Informationen zu dem, was das System darauf erkennen soll. Soll es lernen, Katze und Hund zu unterscheiden, muss es mit Katzen- und Hundebildern gefüttert werden, die zuvor den Kategorien „Katze“ beziehungsweise „Hund“ zugeordnet worden sind. Auf Grundlage dieser Zuordnung ermittelt das System die typischen Merkmale oder Kenngrößen, die Katzen und Hunde unterscheiden. Diese wendet es dann auf nicht zugeordnete Bilder an. Trainings- oder Beispieldaten sind also die von Menschen vorbereiteten Daten, auf die das jeweilige KI-System die Parameter für seine Aufgabe aufbaut. 

Ohne Menschen geht es nicht

Weil wir wissen wollen, was die Hunde- und Katzen-KI mit den Trainingsdaten gelernt hat, füttern wir sie mit sogenannten Validierungsdaten, Katzen- und Hundebilder aus bisher nicht verwendeten Trainingsdaten. Das Ergebnis: Die KI hat Katzen den Hunden zugeordnet und Hunde den Katzen. Jetzt muss der Mensch ran und überlegen, warum dieser Fehler passiert ist. Er findet heraus: Die falsch zugeordneten Katzen befinden sich auf einer Wiese, und die richtig zugeordneten Hunde ebenfalls. Die KI hat gar nicht die Tiere und deren Merkmale zur Unterscheidung hergenommen, sondern den jeweiligen Bildhintergrund. In einem anderen Fall hat KI für die Unterscheidung falsche oder zu wenige Merkmale der Tiere herangezogen und deshalb die Kurzhaardackel als Katzen gekennzeichnet und die Langhaarkatzen als Hunde. Wieder Arbeit für die Menschen. Von wegen KI lernt von alleine.

Gute und schlechte Trainingsdaten

Wenn die KI falsch gelernt hat, liegt das in der Regel an den Trainingsdaten. Möglicherweise waren es zu wenige Daten, so dass die KI die Wiese zu stark gewichtet und sie deshalb als Merkmal etabliert hat. Falsches Lernen kann auch davon herrühren, dass das Verhältnis von Langhaar- und Kurzhaartieren in den Trainingsdaten nicht mit der Realität übereinstimmt. Weiterhin wichtig für die Qualität von Trainingsdaten ist ihre Aktualität. Zeigen sie überproportional viele weiße Hunde mit schwarzen Tupfen, weil die Bilder aus der Zeit stammen, als sie gehäuft auftraten, könnte die KI am Ende nur Dalmatiner als Hunde erkennen. Wenn sich unter den Trainingsdaten Bilder befinden, die mit Hunden und Katzen nichts zu tun haben, kann die KI gar nicht zu Schlussfolgerungen kommen, die für die Erkennung von Hunden und Katzen relevant sind. Zeigen die Trainingsdaten zu wenige Varianten, können seltenere Katzen- und Hunderassen durchs Raster fallen und nicht zugeordnet werden. Kurz gesagt: Von der Qualität der Trainingsdaten hängen die Algorithmen ab, die die KI für ihre Entscheidungen nutzt.

Training allein reicht nicht

Sobald wir die Ebene der Hunde- und Katzenbilder verlassen, wird schnell klar, dass die Zusammenstellung von Trainingsdaten eine höchst verantwortungsvolle Aufgabe ist. Denn die daran aufgebauten Entscheidungskriterien können Auswirkungen auf Menschen haben: beispielsweise zu Diskriminierung führen (bei Apple Card wurden Frauen bei der Kreditvergabe benachteiligt) und im Extremfall sogar tödlich enden (ein Unfall 2019 in Florida, bei dem ein Tesla mit Autopilot in einen LKW-Anhänger gerast ist, den die KI nicht als Fahrzeug erkannt hat). Um das zu verhindern, müssen Entwickler und Entwicklerinnen analysieren, kontrollieren, Parameter einsetzen und ändern.

Das Training einer KI ist eine langwierige Aufgabe. Mit dem Go! ist sie nicht zu Ende, auch nicht bei Verwendung der besten Trainingsdaten. Moden ändern sich – Labradoodle statt Mops –, gesellschaftliche Faktoren – Beispiel Apple Card –, rechtliche Bestimmungen. Im Lauf der Zeit fällt auf, dass beim Anlernen der KI entscheidungsrelevante Sachverhalte außer Acht gelassen, andere zu hoch oder zu gering bewertet wurden. Nur eine fortlaufende Überwachung und die Anpassung durch menschliche Intelligenz an die Veränderungen in unserer Welt verhindert, dass eine KI Fehler auf der Ebene der Trainingsdaten zu Vorurteilen oder gar tödlichen Fallen zementiert.