Chatbots van OpenAI, Google en Meta zijn zeer gevoelig voor ‘hallucinaties’ bij het beantwoorden van juridische vragen, zo bericht Bloomberg Law op basis van onderzoek van Stanford University. Driekwart van de antwoorden vertoonde errors.
De onderzoekers uit de Verenigde Staten ontdekten dat de large language models minstens 75 procent van de tijd hallucineren bij het beantwoorden van vragen over rechterlijke uitspraken.
Voor het onderzoek testten zij antwoorden op meer dan tweehonderdduizend legal questions, gesteld aan ChatGPT 3.5 (OpenAI), PaLM 2 (Google) en Llame 2 (Meta). Let wel: dit zijn taalmodellen voor algemeen gebruik, die dus niet specifiek zijn gebouwd voor juridische doeleinden.
Toegang tot het recht
Volgens het artikel van Bloomberg Law heeft generative AI de hoop gewekt dat technologie kan helpen met de toegang tot het recht – eveneens een vaststelling van legal tech-specialist Richard Susskind.
In het stuk worden daarbij bevindingen gedeeld van de Amerikaanse NGO Legal Service Corporation. Zo zouden mensen in de VS met een laag inkomen onvoldoende of geen juridische bijstand krijgen bij 92 procent van hun civielrechtelijke problemen.
De errors in AI-antwoorden – die kortom wijdverbreid zijn – kunnen echter roet in het eten gooien. Mogelijk presteert kunstmatige intelligentie specifiek voor juridisch gebruik beter, maar het bouwen van zulke tools op basis van algemene taalmodellen kan nog steeds leiden tot accuracy problems. Dat stelt Daniel Ho, hoogleraar recht aan Stanford.
Volgens Ho moet veel voorzichtiger worden omgegaan met dit soort modellen en moeten advocaten of juristen ingeschakeld worden om te toetsen of de juridische info correct is, die chatbots genereren.
Willekeurig gokken
De Stanford-onderzoekers vroegen de tools onder meer om aan te geven of twee verschillende rechtszaken een soortgelijke uitkomst hadden. Wat bleek? De taalmodellen presteerden niet beter dan iemand die ‘willekeurig gokt’, meldt Bloomberg Law.
Ook toonde de studie aan dat meer fouten worden gemaakt rondom jurisprudentie van ‘lagere’ districtsrechtbanken – waar AI mogelijk vaker wordt ingezet door pro se litigants (mensen die zichzelf verdedigen in de rechtszaal) – dan bij zaken van het Amerikaanse Hooggerechtshof.
Dit laatste komt mogelijk omdat uitspraken van het Hooggerechtshof vaker worden geciteerd, waardoor ze meer voorkomen in de trainingsdata van modellen. Verder wees het onderzoek onder andere uit dat hallucinaties regelmatiger voorkomen bij zeer recente zaken of juist erg oude Supreme Court cases.
Wat betreft prompts menen de onderzoekers dat ChatGPT en PaLM de waarheid ervan minder snel in twijfel trekken – problematisch voor niet-juristen die juridische vragen stellen -, terwijl Llama ‘meer waarschijnlijk twijfelt aan de premisse’. Laatstgenoemde tool wijst nochtans weer eerder het bestaan van een daadwerkelijke zaak van de hand.
Tegen Bloomberg Law weigerde een woordvoerder van Google commentaar te geven op het onderzoek, maar gaf wel aan dat het bedrijf blijft werken aan het hallucineren van de bots en daarnaast vanaf de start transparant is geweest over dit soort beperkingen. Een antwoord van OpenAI en Meta bleef tot dusver uit tegenover het medium.