Ik blog geregeld over de moeilijkheden die je ondervindt als je probeert legal tech (met name Artificial Intelligence) uit te rollen in een advocatenkantoor. De cultuur is vaak een groot ding; als men niet wil veranderen, dan gebeurt het natuurlijk niet.
Maar specifiek bij AI is er nog een groot probleem, en dat is hoe er wordt aangekeken tegen de risico’s die ontstaan bij de inzet van zo’n tool. Namelijk: die AI moet perfect zijn. En dat is best raar.
AI is nog altijd vooral een marketingterm. De strekking of belofte is dat de computer denkt als een mens, wat dus nooit het geval is. Onderzeeboten kunnen niet zwemmen en een computer kan niet denken. Maar ze kunnen wel heel goed doen alsof. Ik gebruik de term dus toch maar voor alle systemen die die belofte doen. Meestal zullen ze onder de motorkap werken met machine learning of neurale netwerken, maar dat doet er eigenlijk niet toe.
Het probleem met die belofte is dat mensen verwachten dat zij wordt waargemaakt. En dat is lastig, want een computersysteem kan geen 100% perfectie bieden. Mensen ook niet, maar bij mensen weten we vaak ongeveer wat voor sóórt fouten ze gaan maken. Een stagiair (om bij de blogtitel te blijven, wat ik zelden doe) heeft basiskennis, maar kan vaak niet de diepte in. Een partner weet ongeveer alles, maar berijdt wel stokpaardjes en kan traag van reactie zijn of dingen wegwuiven als triviaal, terwijl ze dat voor de klant niet zijn. De medewerker daar tussenin heeft het heel druk en kan doorschieten in toepassen wat hij het recentst heeft geleerd. Dat soort dingen.
Een AI-tool maakt ook fouten, maar dan van een heel ander kaliber. Die classificeert een tekst verkeerd en klaagt dan dat de tekst ‘Partijen komen overeen dat…’ geen goede garantie over beschikbaarheid is. Of hij komt met hele rare output, omdat er ergens iets misging in de conversie (NDA Lynn kan bijvoorbeeld pdf-bestanden niet altijd goed lezen). Dat is niet goed, maar omdat het zulke niet-menselijke fouten zijn terwijl de AI wel menselijk lijkt, komt dat disproportioneel raar over.
Uncanny valley
In de psychologie doet dit denken aan het fenomeen van de uncanny valley, het griezelgebied tussen robots-die-duidelijk-robots-zijn en robots-die-echte-mensen-simuleren. Onze hersenen kunnen niet goed omgaan met een robot die er heel menselijk uitziet maar zich ineens niet als mens gedraagt. Dat is veel erger dan een robot-robot die dezelfde fout maakt.
Ik herinner me van lang geleden een spraakherkenning-interface met een butler. Die werkte best goed, maar de fouten werden als zeer storend ervaren. Toen verving men de butler door een puppy en de subjectieve kwaliteitsbeleving schoot omhoog. Waarom? Puppies mogen fouten maken, dat is zelfs schattig. Maar een butler, dat is een domeinexpert dus die mag geen fouten maken.
Een juridische AI wordt volgens mij ook op die manier benaderd. Dat is een computer, getraind in dit domein, dús een domeinexpert. Hij moet dus hetzelfde presteren als een senior partner. Fouten, zeker rare fouten ingegeven door Unicode-problemen, zijn dan onvergeeflijk.
Soort fouten vs. grote risico’s
En dat is best raar, want vervolgens gaat die AI standaardwerk doen zoals NDA’s reviewen, standaardcontracten nalopen of einddata extraheren uit een serie documenten omdat men due diligence in het kader van een bedrijfsovername wil doen. Dat is typisch werk waar je een stagiair op inzet en geen partner. Terecht, want het is niet heel moeilijk, maar wel veel. En het soort fouten dat daarbij te maken is, is redelijk te overzien en moet geen al te grote risico’s opleveren.
Paradoxaal genoeg heeft een AI-dienst dus meer kans om geadopteerd te worden in een organisatie wanneer die zich niet als een AI presenteert. Niemand heeft de verwachting dat de grammaticachecker als een mens presteert, of dat Google je vraag net zo goed begrijpt als een bibliothecaris. Dat is gewoon een interface waar een output uit komt, en daarmee kun jij weer verder.