Gesichtserkennung: Kritik macht Algorithmen genauer, nicht nur für weiße Männer

Zu Testzwecken hielt MIT-Forscherin Joy Buolamwini ihr eigenes Gescht in die Kamera – und wurde von vielen Systemen erst erkannt, als sie sich eine weiße Maske aufsetzte. Alle Rechte vorbehalten Gender Shades / Joy Buolamwini Joy Buolamwini ist spätestens seit ihrem Ted-Talk eine Art Superstar des Kampfes gegen diskriminierende Algorithmen. Buolamwini ist nicht nur Aktivistin , sondern vor allem Wissenschaftlerin am renommierten MIT in Boston. Dort erforscht sie, wie die Gesichtserkennungssoftware, die Microsoft, IBM und andere Hersteller verkaufen, daran scheitern, die Gesichter von Frauen und Menschen mit dunkler Haut zu erkennen und zu klassifizieren.

Im vergangenen Jahr hat Buolamwini in einem Forschungsprojekt eindrucksvoll gezeigt, dass die Produkte von Microsoft, IBM und dem chinesischen Unternehmen Face++ wesentlich schlechter darin sind, das Geschlecht einer Person zu bestimmen, wenn es sich um Frauen handelt, vor allem Frauen mit dunkler Haut. Jetzt hat sie ein Paper nachgelegt , das sich mit den Auswirkungen ihrer Kritik beschäftigt, also der Frage: Was hat es eigentlich gebracht?

Es ist die Synthese von Aktivismus und Forschung, das zu Buolamwinis Markenzeichen geworden ist. Denn Buolamwini forscht nicht als Selbstzweck. Sie interessiert sich vor allem für den „real world impact“ ihrer Qualitätskontrolle, wie sie im Paper schreibt. Und nicht zuletzt geht es auch um die Abwägung des Risikos: Wer zur Fehlerquote von Algorithmen forscht, verletzt damit oft die Nutzungsbedingungen der Hersteller und riskiert Klagen und Strafen.

Gegen den Error Gap: IBM & Co schneiden besser ab

Die Ergebnisse machen Hoffnung. Keiner hat Buolamwini verklagt. Im Gegenteil. Wie sie schreibt, haben alle drei untersuchten Hersteller auf die unabhängige Kritik positiv reagiert. Binnen weniger Monate haben sie ihre Systeme überarbeitet und die Fehlerquote bei der Klassifikation von Frauen und vor allem Frauen mit dunkler Haut – Buolamwinis Härte-Test – wesentlich reduziert. Als Maßstab verwendet Buolamwini den sogenannten „Error gap“, also den Abstand zwischen der Gruppe, für die die besten Vorhersagen erzielt wurden (in der Regel weiße Männer) und der Gruppe, bei der die Systeme am übelsten abschnitten (Frauen mit dunkler Haut). Dieser Abstand sank bei IBM von rund 35 auf 16 Prozent, im Fall von Microsoft von etwa 20 auf beachtliche 1,5 Prozent und bei Face++ von rund 33 auf 3 Prozent.

Zum Vergleich hat Buolamwini zwei weitere Firmen hinzugezogen, die sie in ihrer ursprünglichen Qualitätskontrolle nicht untersucht hat: Amazon, das mit Rekognition ein eigenes Produkt zur Gesichtserkennung anbietet und in den USA an Polizeien verkauft , sowie das junge US-Start-up Kairos . Beide schneiden bei Buolamwinis Test wesentlich schlechter ab als die von ihr zuvor kritisierten Hersteller, mit Fehlerquoten von mehr als 20 Prozent in der Zuordnung von Frauen mit dunkler Haut. Allerdings stehen sie damit immer noch besser da als IBM, Microsoft und Face++ vor ihrer nützlichen Kritik, betont das Paper.

Vorschlag: Koordinierte Offenlegung von Diskriminierung

Noch interessanter als diese Ergebnisse ist womöglich Buolamwinis Vorgehen und die Überlegungen, die sie dazu anstellt. Sie vergleicht die Kritik an diskriminierenden Algorithmen mit den Prozessen in der IT-Sicherheit. Dort gibt es klar definierte Standards dafür , wie Sicherheitslücken und Schwachstellen aufgedeckt und kommuniziert werden: Erst die Firma benachrichtigen, mit einer Frist, um Lücken zu schließen, dann die Öffentlichkeit. Analog, plädiert Buolamwini, müsse es auch in Hinblick auf Diskriminierung ein Verfahren geben, Firmen koordiniert auf solche Fehler hinzuweisen – denn auch dies sei ein Bedrohung, in diesem Fall für die Würde der Nutzer*innen und ihre faire Behandlung. Sie schlägt eine „Koordinierte Offenlegung von Verzerrung“ für Algorithmen vor, die sie in ihrer Untersuchung gleich selbst anwendet. Bevor sie ihre Erkenntnisse Anfang 2018 in einem Beitrag in der New York Times öffentlich machte , schickte sie diese an die jeweiligen Firmen und gab ihnen die Möglichkeit zu reagieren.

Schiefe Wahrnehmung und automatisierte Unsichtbarkeit

Algorithmen zur Gesichtserkennung werden mit Hilfe von Datenbanken trainiert, in denen Tausende von Gesichtern gesammelt werden. Anhand dieser Daten „lernen“ die Algorithmen, was ein Gesicht ist und welche wiederkehrenden Merkmale es ausmachen. Weil diese Datenbanken allerdings die Vielfalt der Menschen dieser Erde nicht widerspiegeln, erkennt die Software weiße Gesichter oft besser als dunkelhäutige und Männer besser als Frauen.

Welche Konsequenzen diese schiefe Wahrnehmung haben kann, stellen die Firmen meist erst fest, wenn sie die Erkenntnisse quasi frei Haus von jenen geliefert bekommen, die darunter leiden. So entdeckte der Softwareentwickler Jacky Alciné im Jahr 2015 in seiner Foto-Sammlung ein Album mit dem Titel „Gorillas“, das Googles Gesichtserkennungs-Algorithmus automatisch für ihn erstellt hatte. Darin ein Foto von ihm und seiner ebenfalls schwarzen Freundin . Zwei Jahre später hatte Google es immer noch nicht geschafft, das Problem und behalf sich stattdessen damit, Primaten aus dem Lexikon der Suchbegriffe zu tilgen, eine Verlegenheitslösung .

Das ist nur ein Beispiel dafür, wie Menschen im Alltag von schlecht funktionierenden Systemen diskriminiert werden. Denn algorithmische Gesichtserkennung wird inzwischen nicht nur von Google und Apple benutzt, um unsere Fotos zu sortieren. Sie wird auch von der Polizei oder als Sicherheitsmaßnahme auf Flughäfen und Großveranstaltungen eingesetzt. Welche Folgen das hat, beschreiben etwa Frederike Kaltheuner, Autorin des Buches „Datengerechtigkeit“: „In der Praxis bedeutet dies, dass jeder, der nicht weiß und männlich ist, viel eher verwechselt wird oder gänzlich unerkannt bleibt. In sensiblen Kontexten wie der Strafverfolgung kann dies Menschen in Verbrechen verwickeln, die sie nie begangen haben. Selbst in scheinbar alltäglichen Umgebungen – von internationalen Sportveranstaltungen bis zu Musikkonzerten – verschiebt ein automatisiertes Nichterkennen die Beweislast auf die Nichterkannten, da sie es nun sind, die sich ausweisen und rechtfertigen müssen. Sie müssen beweisen, dass sie wirklich diejenigen sind, die sie tatsächlich sind – und nicht jene, für die das System sie hält.“

Eine zentrale Frage, die sich aus diesen Erfahrungen ergibt, erwähnt auch Buolamwini am Rande: Produkte müssen allen möglichen Qualitätsmaßstäben genügen. Warum ist es gesetzlich überhaupt möglich, solche Software auf die Öffentlichkeit loszulassen, bevor sie für verschiedene demografische Gruppen getestet wurde? Die EU ist gerade dabei, solche Regeln zu erarbeiten. Vor dem Hintergrund sollten Firmen wohl dankbar dafür sein, dass Forscherinnen wie Buolamwini die Qualitätskontrollen durchführen, die sie wohl vergessen hatten.

Hilf mit! Mit Deiner finanziellen Hilfe unterstützt Du unabhängigen Journalismus.


Erstellt am:7. Februar 2019