In haar eerste column schrijft oprichter van Uncover Ingrid van de Pol-Mensing dat de nauwkeurigheid van AI-modellen in raptempo beter wordt. Het zal niet lang meer duren voordat advocaten werk uitbesteden aan AI.
Toen ik nog fiscaal advocaat was, zat ik regelmatig met tien man een uur te discussiëren over hoe een bepaalde zinsnede te interpreteren. ‘Wat nou als de komma hier had gestaan en niet daar?’ Muggenziften, noemen mensen dat. Advocaten niet. Voor advocaten is nauwkeurigheid van groot belang.
Generatieve AI is zonder twijfel de krachtigste technologie die in de juridische sector is toegepast sinds de komst van digitale hulpmiddelen. Maar, zoals met iedere innovatie, is er een uitdaging. Specifiek voor de juridische sector is dat nauwkeurigheid.
De nauwkeurigheid van de AI modellen houdt één op één verband met vertrouwen. Immers, aan het einde van de juridische productielijn staat een cliënt die zijn acties baseert op wat een advocaat hem heeft geadviseerd.
Vorige week op Lexpo werd weer eens herhaald dat advocaten ‘mensen zijn die precies willen weten hoe het zit’. Daar kan ik me helemaal in vinden, dus hieronder zal ik zo nauwkeurig mogelijk uiteenzetten waar we het eigenlijk over hebben als we praten over de ‘nauwkeurigheid’ van een AI-model. Wat meten we?
Recall en precisie
Recall meet het vermogen van een AI-model om alle relevante gevallen binnen een dataset te identificeren. Bijvoorbeeld: je hebt een dataset met 25 contracten en 25 e-mails. Als het AI-model alle 25 contracten in de bucket ‘contracten’ heeft geplaatst, is de recall 100%.
Precisie meet de nauwkeurigheid van de positieve voorspellingen die het AI-model heeft gemaakt. Als bijvoorbeeld in diezelfde dataset de bucket “contracten” 40 documenten bevat, waarvan 25 contracten maar ook 15 e-mails, dan is de precisie 60% (15/25).
Het verbeteren van recall kan dus resulteren in een verlaging van precisie omdat het AI-model meer uitgebreid probeert alle positieve gevallen te vinden, waardoor het ook meer fout-positieven genereert. Dus bijvoorbeeld hoe breder de criteria om een document als ‘e-mail’ te classificeren, hoe meer documenten in die bucket terecht zullen komen. Alle e-mails komen dan in de bucket ‘e-mail’ maar het risico wordt groter dat er ook meer documenten die geen ‘e-mails’ zijn in de bucket ‘e-mail’ terechtkomen. De kunst is om een evenwicht te vinden dat past bij de specifieke behoeften van de toepassing.
Hallucinatie
Hallucinatie verwijst naar situaties waarin AI-modellen informatie genereren die niet ondersteund wordt door hun trainingsdata of door de werkelijkheid. Dit fenomeen doet zich voor wanneer een AI-model foutieve of compleet onware uitspraken produceert alsof ze feitelijk zijn.
Er zijn verschillende redenen waarom hallucinaties kunnen optreden:
- Onvoldoende training: het AI-model is niet getraind is met voldoende of gevarieerde data;
- Bias in de trainingsdata: de data waarmee het model is getraind bevat biases of onjuistheden; en
- Complexiteit van taal: Taal kan ambigu zijn. AI-modellen kunnen moeite hebben met het correct interpreteren van complexe, subtiele nuances en context.
Het is niet zo dat hallucinatie ‘nu eenmaal bestaat’. Om hallucinaties in AI-modellen te verminderen, kunnen zowel in de AI-modellen zelf, als in de software die gebruikmaakt van de AI-modellen, verschillende verbeteringen worden toegepast.
- Verbeterde trainingsprotocollen: het gebruik van grotere, meer representatieve en betrouwbaar geannoteerde datasets kan helpen hallucinatie te verminderen;
- Robuustere model architecturen: ontwikkelen van modellen die beter kunnen omgaan met onzekerheden en variabiliteit in taal;
- Post-verwerkingstechnieken: toepassen van technieken na de initiële output generatie om fouten te corrigeren voordat de gebruiker de informatie ziet; en
- Gebruikersfeedback: het opnemen van gebruikersfeedback in het trainingsproces kan helpen de modellen te finetunen en te corrigeren waar nodig.
Consistentie
Consistentie verwijst naar het vermogen van AI om stabiele uitkomsten te produceren die in lijn zijn met context of voorgaande outputs. Naarmate de omvang van de toepassing groeit, kan het moeilijker worden om overal consistentie te waarborgen. Neem bijvoorbeeld een samenvatting van een document met 100 pagina’s. Als je een AI-model twee keer vraagt dit document samen te vatten, krijg je niet twee exact dezelfde samenvattingen. Neemt niet weg dat beide samenvattingen juist kunnen zijn. Wel zo fijn als ze zo veel mogelijk dezelfde “juiste” belangrijke informatie bevatten.
Voorbeelden van strategieën om consistentie in de taalmodellen zelf en de toepassingen ervan te verbeteren.
- Context management: implementatie van technieken die de AI modellen helpen om een beter begrip en geheugen van de context te behouden over meerdere interacties; en
- Model architectuur: gebruik maken van model architecturen die lange afhankelijkheden binnen de data kunnen onthouden.
Hockeystick
Hopelijk begrijp je na het lezen van dit artikel precies hoe nauwkeurigheid van AI modellen wordt gemeten. Het geluk dat advocaten hebben wanneer het aankomt op de nauwkeurigheid van de AI-modellen is dat er dagelijks duizenden slimme ontwikkelaars in een concurrerende markt bezig zijn om de AI-modellen en toepassingen daarvan, te verbeteren door onder andere de nauwkeurigheid op de hierboven omschreven manieren te verbeteren. De ‘leer curve’ zoals advocaten dat zo mooi noemen, is bizar stijl. Met deze wetenschap in het achterhoofd durf je het misschien wel aan om de eerste simpele klusjes uit te besteden aan AI.