Technologische innovatie dringt langs allerlei wegen onze rechtspraak binnen, ook als het soms mislukt om dat zelf te organiseren. Een half jaar terug schreef ik al over zogenoemde deepfakes, die in strafzaken redelijke twijfel zouden kunnen zaaien. Daar beïnvloedt een nieuwerwets fenomeen de aloude whodunnit-vraag. Maar ook in de fase van eventuele straftoemeting komen vernuftige snufjes om de hoek kijken.
Door Niek van de Pasch
Zeker van buitenaf lijkt die rechterlijke functie misschien nog wel het minst grijpbaar. Strafrechters hebben weliswaar enig houvast aan landelijke (en recent ook specifiek Amsterdamse) oriëntatiepunten, maar die tabellen presenteren zichzelf nadrukkelijk slechts als ‘beginpunt van denken’. In het vervolgtraject moeten rechters belangrijke kenmerken definiëren, hun onderlinge gewicht bepalen én – nu komt het – de aldus omlijnde zaak spiegelen aan vergelijkbare gevallen.
Dat is in zeker opzicht een oefening in patroonherkenning. Nu is bestraffing uiteraard geen wiskundige exercitie. Zelfs de fraaist uitgeschreven vonnissen zullen de verhouding tussen meewogen factoren nooit numeriek kwantificeren. Toch is een zorgvuldig gemotiveerde uitspraak wel degelijk geschikt voor systematische analyse. De rechtspraakbrede dataverzameling is inmiddels echter dusdanig groot, dat serieuze inzichten eigenlijk alleen beschikbaar komen via algoritmische ontleding.
Natuurlijk genereert een computer ook dan niet ‘het’ antwoord. Dat zou sowieso een onredelijke toelatingseis zijn. Het gaat er alleen om of die noviteit per saldo waarde toevoegt aan de huidige methode. Hoe zou het zijn om een virtuele assistent – noem het ding StrafMaat – op tafel te zetten in de raadkamer? Besteden rechters daarmee hun voornaamste verantwoordelijkheid uit aan een onnavolgbaar systeem? Of kunnen zij profiteren van een zinvollere denkhulp dan de actuele query’s?
Rechters bepalen in dat scenario nog steeds zelf hoe zij hun zoekvraag formuleren. Daarbij kiezen zij eigenhandig waar het zwaartepunt van de zaak volgens hen ligt. Uiteindelijk genereert het programma een lijst, grafiek, cijfer of wat dan ook. Vaak blijft voor gebruikers echter verborgen wat daartussen nou gebeurt. Het is dan nog lastiger om de output op waarde te schatten en daar kritisch op te reflecteren. Bij zoiets precairs als geïnstitutionaliseerde leedtoevoeging is dat vanzelfsprekend onacceptabel. Daarom zou het uitermate zinvol zijn als duidelijk wordt op welk deel van de invoer een rekenmodule precies aanslaat.
Begin deze maand verscheen een wetenschappelijke publicatie die nieuw licht werpt op deze materie. Onderzoekers van de Universiteit van Maryland presenteerden hun bevindingen in het tijdschrift ‘Transactions of the Association for Computational Linguistics’. Zij compileerden een set van ruim duizend vragen die mensen simpel vinden, maar die state-of-the-art ‘slimme algoritmes’ ontmaskeren als onbeholpen machientjes.
Zoals tegenwoordig gebruikelijk is, waren er overigens wel gewoon weer algoritmes nodig om die softwarematige kwetsbaarheden überhaupt bloot te leggen. De wetenschappers ontwikkelden een interface die onthult hoe een computer ‘denkt’. Bij interactie met een woord uit de input licht dat onderdeel op, zodat zichtbaar wordt hoe het systeem tot een antwoord komt. De ‘human-in-the-loop’ kan zijn vraag daarop aanpassen, om de zwaktes in die redeneertrant uit te buiten. Een voorbeeld kan dat wellicht verhelderen.
Eerst klopt iemand in: ‘De Haydn Variaties van welke componist waren geïnspireerd door Karl Ferdinand Pohl?’ De computer komt op het (juiste) antwoord ‘Johannes Brahms’ en de software toont aan dat dit via de woorden ‘Ferdinand Pohl’ loopt. Zodra die naam wordt vervangen door ‘de archivaris van de Weense Muziekvereniging’ moest de computer het antwoord schuldig blijven, terwijl het voor menselijke tegenstanders nog steeds een eitje is. In deze vragenrondes versloegen zelfs de zwakste mensenteams steevast de sterkste computersystemen.
Al haast een decennium geleden versloeg IBM’s supercomputer Watson de schier onklopbare quizkampioen Ken Jennings in het tv-programma Jeopardy. Die triomf werd toen onthaald als een mijlpaal voor taalbegrip. Dat spelletje doet namelijk een beroep op ons ‘gevoel’ voor nuance, ironie en woordspeling. Sinds die hoogtijdag heeft de kunstmatige intelligentie zich bovendien stormachtig ontwikkeld. Toch lopen algoritmes nog steeds hopeloos vast op puzzels die voor mensen onthutsend makkelijk zijn.
Volgens de onderzoeksgroep is dit de eerste studie die ‘denkprocessen’ van computers visualiseert en vervolgens aanboort om zogenaamd intelligente systemen kinderlijk eenvoudig te bedotten. De hoofdauteur van het artikel schetst de huidige stand van de techniek dan ook als volgt: “Mensen kunnen beter generaliseren en zien diepere verbindingen. Computers moeten leren om door de bomen het bos te zien.”
Een ontnuchterende en alarmerende boodschap ineen.