Het grote onderwerp rond Artificial Intelligence in 2019 is de kans op bias, oftewel vooringenomenheid. Het idee dat computers en data-analyse objectief zijn, kan inmiddels naar de prullenbak. Algemeen bekend is dat dergelijke data-analyses vrijwel altijd enige vorm van scheve voorstelling of vooringenomenheid bevatten.
Door Arnoud Engelfriet
Maar waar zit hem dat nu precies in? En vooral: wat kunnen we eraan doen? Een recent onderzoek van MIT laat een paar mooie onderliggende redenen zien.
Artificial Intelligence of machine learning is een nieuwe manier om conclusies uit data te trekken. Geavanceerde wiskundige algoritmes zoeken naar verbanden of correlaties tussen verschillende data-elementen, zoals producten die vaak samen gekocht worden of eigenschappen die succesvolle sollicitanten onderscheiden van de minder gewenste. De algemene stelregel daarbij is dan natuurlijk dat zo’n analyse net zo goed is als haar data. Maar als er zo veel data (we hebben het immers over Big Data, en geen Excelsheet) gebruikt wordt, waarom is die uitkomst dan vaak niet goed?
Het belangrijkste om te beseffen is dat het niet per se aan de data ligt. In de meeste gevallen sluipt bias al in eerdere fases het systeem in. Neem de succesvolle sollicitant. Wie bepaalt welke sollicitanten al dan niet succesvol zijn? Op welke factoren werd daarbij gelet? Welke cv’s komen in aanmerking voor analyse? Vaak komt men niet verder dan een intuïtieve analyse: deze mensen herinner ik me als goed, en deze cv’s zijn afgewezen dus die waren niet goed. Met zo’n slechte voorselectie zal de AI het echt niet beter doen.
Recent kwam in het nieuws hoe ecommercegigant Amazon met Artificial Intelligence haar sollicitanten liet onderzoeken, en daarbij vrouwen eerder afwees dan mannen. Dit wilde men oplossen door het geslacht van de sollicitant weg te laten. Voor mensen zou dit een logische keuze zijn: wij kijken niet naar geslacht, dus die informatie laten we weg. Voor een computer is geslacht an sich geen betekenisvolle factor. Alle data wordt bekeken en uit alle data wordt geconcludeerd wat wel of niet wijst op ‘succesvol’. In het geval van Amazon ging het vervolgens mis, omdat de computer ook indirect het geslacht kon identificeren: mannen vermeldden nooit een lidmaatschap van de ‘Women’s soccer league’, om maar wat te noemen.
Een al wat ouder voorbeeld is hoe het Amerikaanse leger software wilde trainen om Amerikaanse van Russische tanks te onderscheiden. Men zocht foto’s van alle modellen van beide landen bij elkaar, en liet het systeem daar een paar dagen op kauwen.
Het resultaat viel tegen om een onverwachte reden: bij goed weer waren alle tanks Amerikaans, bij slecht weer allemaal Russisch. Nader onderzoek liet zien dat de fout zat in de selectie van foto’s: de eigen tanks waren netjes op de paradeplaats gefotografeerd bij mooi weer, maar de Russische tanks konden alleen van afstand en onopvallend worden gefotografeerd. Het systeem had daarmee geleerd goed van slecht weer te onderscheiden.
Dergelijke vormen van bias zijn voor mensen heel moeilijk te herkennen. In de praktijk kom je er ook niet zo snel achter, omdat je meestal slechts met één geval te maken krijgt. Neem die tank: in de praktijk zou een Amerikaanse verkenningseenheid rondrijden in mogelijk vijandig gebied, en dat zou ze onopvallend en waarschijnlijk niet bij heel mooi weer doen. De kans op een Russische tank is op die locatie groot, en de voorspelling van het systeem zou dan ook als correct worden ervaren, ook al was het eigenlijk een weersvoorspelling. Pas bij heel veel foute uitkomsten zou deze bias opgevallen zijn.
Dat betekent dus: testen, testen en nog eens testen. Dit gebeurt meestal automatisch met een vooraf gekozen testdataset, die wordt samengesteld als 20% van de verzamelde data. Dat helpt dan niet: daar zit immers dezelfde fout in als in de dataset waarmee het systeem gebouwd wordt. Fouten komen alleen aan het licht door te testen met echt nieuwe data, en die is lastig te krijgen. En zeker zolang het systeem het gewoon lijkt te doen, is er ook nog eens weinig prikkel om daadwerkelijk die data te verkrijgen en met de hand te evalueren.
Het MIT-artikel noemt overigens nog een andere reden: de neiging van softwareontwikkelaars om generieke systemen te maken. Gooi er andere data in, en je fraude-detectiesysteem kan ineens ook gevaarlijke types aan de deur herkennen, of managementpotentieel identificeren bij werknemers. Dat klinkt leuk, maar dergelijke evaluaties zijn gebaseerd op verschillende risico-afwegingen en verschillende definities van wat eerlijk of succesvol of frauduleus is. Dat kun je niet in één systeem vangen.