deep learning
IT

Waarom een computer geen talenknobbel heeft

Ze figureren in ongeveer elke sciencefictionfilm ooit gemaakt: computers en robots die perfect met mensen kunnen converseren en gesproken taal foutloos kunnen interpreteren. Wanneer zal dit ooit werkelijkheid worden en waarom is foutloze taaltechnologie zo moeilijk te realiseren?

Bij Nalantis kennen ze de uitdagingen rond het bouwen van taaltechnologie maar al te goed. Het Antwerpse bedrijf werkt al jaren aan tools waarmee computers menselijke taal kunnen verwerken en dat zowel uit geschreven documenten als uit audio- en videobestanden. “Een van de belangrijkste hinderpalen daarbij is dat het voor een computer heel lastig is om ‘betekenissen’ aan woorden te geven”, zegt Chief Technology Officer Jan Van Sas. “Een computer ontbeert een representatie van onze wereld. De connectie met onze omgeving die bij mensen in onze hersenen is opgeslagen, heeft een computer niet.” 

Er zijn verwoede pogingen bezig met AI-technieken als deep learning en technologieën als vector spacing om computers die analogieën te laten herkennen, maar dat staat nog altijd mijlenver weg van de manier waarop ons brein werkt. Wetenschappers hebben eigenlijk nog niet de juiste vorm gevonden om die wiskundige koppeling te maken, aldus Van Sas. 

Het is dus vooral de semantiek of ‘betekenisleer’ die voor AI-systemen lastig onder de knie te krijgen is. Het volstaat immers niet om de betekenis van een woord af te leiden uit een soort woordenboek, je moet het woord ook bekijken in zijn context. Of anders gezegd: er moet tekstbegrip zijn. Van Sas geeft een voorbeeld: “Als jij me zegt dat je ‘op een bank zit’, dan is de kans groot dat ik uit ons gesprek kan afleiden dat jij aan het uitrusten bent op een houten constructie. En niet dat je je bovenop een financiële instelling bevindt (lacht). Voor een AI-systeem is zoiets echter absoluut niet triviaal. En dan hebben we het nog niet eens gehad over de manier waarop je iets zegt. Ook dat kan weer een compleet nieuwe laag van betekenis meegeven die een computer niet herkent.” 

De oneindigheid van taal

Dat AI-systemen het zo lastig hebben met taal, context en betekenis komt omdat ze veelal gebaseerd zijn op big data, deep learning en machine learning. Ze verwerken dus al bestaande data (bijvoorbeeld miljoenen webpagina’s) om slimmer te worden en te ‘leren’. Vaak kunnen die systemen dat zelfs doen met ongestructureerde data, zonder enige menselijke tussenkomst. Dat is wat men ‘unsupervised learning’ noemt. Taal is echter een soort ‘oneindig’ object. Ook al zijn AI-systemen steengoed in op wiskunde gebaseerde handelingen, zoals het herkennen en reproduceren van bestaande patronen, daarmee zijn ze nog niet veel verder in het geven van betekenis aan woorden. “De zwakte van deep learning is dat het geen expliciet begrip heeft van wat er in een gesprek gebeurt”, legt Van Sas uit. “Deep learning is een soort statistisch spel, met kansberekeningen en drempels, maar het kan niet exact benoemen wat er precies gezegd wordt of waaraan wordt gerefereerd.” 

Al wil dat niet zeggen dat deep learning helemaal waardeloos is in taaltechnologie, benadrukt Van Sas. “Absoluut niet, wij gebruiken het ook als we het zinvol vinden. Zo is deep learning bijvoorbeeld vrij goed in het voorspellen van welk woord er komt, als je zin al vrij ver gevorderd is. Als je een zin hebt met vijf woorden, zal een deep learning-systeem redelijk goed kunnen inschatten wat het zesde woord is. Maar tegelijk is dat ook zijn tekortkoming. Soms komen er biljoenen parameters zien bij dat soort voorspellingen, de modellen worden dan gewoonweg té complex.” 

De zwakte van deep learning is dat het geen expliciet begrip heeft van wat er in een gesprek gebeurt.

NLP/NLU

En dat is waarom de toekomst van taaltechnologie hybride is, meent Van Sas. Door enkel te wedden op deep learning als AI-techniek zullen we er niet komen. Dit moet men aanvullen met andere technieken, zoals NLP/NLU of Natural Language Processing en Natural Language Understanding. Het idee daarbij is om natuurlijke taal op te splitsen in kleinere en beter hanteerbare delen en daar speciale algoritmes op los te laten die deze delen analyseren. Op die manier kunnen dan onderlinge verbanden, afhankelijkheden en context tussen de verschillende delen geïdentificeerd worden. Natuurlijke taal wordt dus verwerkt en omgezet in een soort gestandaardiseerde structuur. In die structuur kan dan tekstbegrip gevonden worden door inhouden af te leiden, context te zoeken en inzichten te genereren. Of met andere woorden: men doet aan betekenisextractie. 

“Vergelijk het met hoe een mens taal leert”, zegt Van Sas. “Wij hoeven ook niet het halve internet te lezen om uitstekend via taal te kunnen communiceren. We krijgen een beperkt aanbod en denken daarover na en bouwen zo een taalsysteem in ons hoofd op, via semantische analyse en generatie. Dat is dus helemaal anders dan hoe deep learning-systemen het aanpakken.” 

Van Sas maakt de vergelijking met de theorieën van de bekende psycholoog Daniel Kahneman. “Ken je zijn boek Thinking, Fast and Slow? Daarin legt hij uit dat er in ons brein eigenlijk twee concurrerende systemen zijn. Het ‘Fast’-model leert zaken heel snel en intuïtief aan, vooral dingen die we als mens nodig hebben om te overleven. Maar aan de andere kant komt kennis ook tot stand in een ‘Slow’-model, waarin we alles rationeel en beredeneerd overdenken. Taaltechnologie is gelijkaardig. Deels zullen we moeten steunen op statistische oplossingen, maar deels ook op beredeneerde oplossingen.”

deep learning

Niches

Nalantis zelf brengt dit in de praktijk met een eigen engine die het ontwikkelde en die SAGE werd gedoopt. “SAGE staat voor Semantic Analysis and Generation Engine”, vertelt Van Sas. “Het is een hybride systeem dat NLP-technieken en deep learning-modellen combineert. Het breekt zinnen op in paragrafen en woorden en bekijkt de syntaxis. Daaruit volgt een semantische analyse, we proberen dus te begrijpen wat een bepaalde tekst betekent. Het werk aan SAGE is al meer dan tien jaar geleden begonnen. Een eerste versie is in Java gebouwd, een tweede incarnatie hebben we helemaal opnieuw geprogrammeerd in Python, de standaardtaal die men nu voor AI-toepassingen inzet.” 

De taaltechnologie van SAGE zet men op dit moment al voor enkele zeer specifieke niches in, zegt Van Sas. “Onze innovaties gebruikt men bijvoorbeeld om opnames van gemeenteraden om te zetten naar begrijpbare data over wat daar beslist is. Die data kan men dan raadplegen door gemeentemedewerkers en burgers die vragen hebben over bepaalde beslissingen: wie heeft die bepaalde vergunning gekregen? Wanneer werd die afgeleverd? Zo helpen we mee aan openbaarheid van bestuur. De stad Gent is al met die technologie aan de slag gegaan.”

Voor de FOD Financiën werkte Nalantis een proof of concept uit dat mee helpt bepalen welke belastingzondaars voor de rechtbank gebracht moeten worden. “Welke parameters maken dat het zin heeft om iemand te vervolgen en welke slaagkans heeft dat dan? We deden daarvoor een taalanalyse van alle processen, de argumenten van de advocaten en de uitspraken. Bepaalde woorden zoals ‘zelfstandige’, ‘auto’ of ‘onkosten’ stuurden de aanbevelingen voor de ambtenaren in een bepaalde richting.”

Een ander belangrijk werkterrein van Nalantis is human resources. “SAGE kan volautomatisch de cv’s die een bedrijf binnenkrijgt koppelen aan de vacatures die het heeft openstaan”, zegt Van Sas. “Het herkent welke ervaring een bepaalde kandidaat heeft, waar hij voordien heeft gewerkt en welke studies hij heeft gedaan. Het systeem kent ook alle job-beschrijvingen en kan dus de meest geschikte kandidaten voorstellen voor een bepaalde baan. Je kunt je wel voorstellen dat zo’n eerste selectie enorm veel tijd en rompslomp kan besparen op de HR-departementen van bedrijven.” 

Geen zwarte doos 

Tot slot: een zeer belangrijk gegeven in de manier waarop Nalantis te werk gaat, is de ‘no black box’-aanpak. Wat is dat precies? “Bij heel veel deep learning-modellen weten we eigenlijk niet goed wat er achter de schermen gebeurt”, zegt Van Sas. “Het is als een zwarte, gesloten doos. Het algoritme gebruikt miljoenen datapunten als input, maakt correlaties tussen specifieke datakenmerken en genereert zo een bepaalde output. Het is een grotendeels zelfsturend proces en het is heel vaak moeilijk te interpreteren voor zowel de datawetenschappers als de programmeurs en de eindgebruikers. We kennen wel de algoritmes die men gebruikt, maar exact welke samenloop van statistieken zich heeft afgespeeld, is niet meer traceerbaar.” 

En dat is een probleem. Want het brengt bijvoorbeeld ‘bias’ mee of vooringenomenheid. Bias zijn fouten in de output van AI-systemen omdat men het algoritme voedde met bevooroordeelde aannames. Stel dat je als AI-specialist gevraagd wordt om een systeem te ontwerpen dat foto’s kan zoeken op basis van een zoekwoord. We leven vandaag in een wereld waar 90 procent van de CEO’s blanke mannen zijn. Ontwerp je dan je systeem zodat men deze realiteit weerspiegelt? En waarbij dus enkel blanke mannen getoond worden wanneer iemand ‘CEO’ intikt? Of maak je een zoekmachine die een meer evenwichtige mix laat zien, ook al is dat niet de mix die vandaag de realiteit is? 

“Voor dat soort problemen willen wij tegengewicht bieden”, zegt Van Sas. “Nalantis werkt nooit volgens het black box-principe. Wij zijn altijd in staat om de interne ‘regels’ van het systeem te laten aanpassen door onze linguïsten. Alles wat het systeem doet, is uit te leggen en op te volgen. We kunnen dus altijd onder de motorkap duiken en weten waar we moeten zoeken als we iets willen veranderen.”

25.08.2022
door Frederic Petitjean

In samenwerking met

Nalantis werd in 2010 mede opgericht door CEO Frank Aernout en business development director Stephen Lernout. De focus van het bedrijf ligt op AI-for language software en applicaties, doorheen alle domeinen en momenteel met specifieke toepassingen in hr, smart cities, legal en autonomous vehicles. Nalantis heeft een vijftiental medewerkers in dienst en telt onder meer de VDAB, KBC, Microsoft, Proximus, PwC en Agoria onder zijn klanten. De producten worden niet alleen in België verkocht, wereldwijd wordt gewerkt met agenturen en Nalantis heeft klanten in onder meer Brazilië, Nederland, Spanje, Libanon, …

Ontdek meer

Vorig artikel
Volgend artikel