Kan AI zichzelf trainen

Kan kunstmatige intelligentie eigen leertrajecten ontwerpen en uitvoeren

Het idee van een kunstmatige intelligentie die, eenmaal gecreëerd, haar eigen evolutie ter hand neemt en zichzelf steeds slimmer maakt, behoort tot het hart van zowel wetenschappelijke ambitie als sciencefiction. Het roept een visioen op van een recursieve explosie van intelligentie, waarbij menselijke ingenieurs niet langer de bottleneck zijn. Deze vraag raakt aan de fundamenten van hoe moderne AI werkt, wat haar limieten zijn en wat de toekomst mogelijk in petto heeft.

Om dit te kunnen beantwoorden, is een cruciaal onderscheid nodig. De meeste hedendaagse AI, met name grote taalmodellen en beeldgeneratoren, zijn het resultaat van supervised learning en zelfsupervisie. Ze worden getraind op immense, door mensen gecreëerde datasets. Het systeem kan zichzelf niet 'trainen' in de zin dat het geheel nieuwe, externe kennis genereert of zijn eigen fundamentele architectuur herzint. Het kan alleen patronen herkennen en reproduceren binnen de data die het heeft gekregen.

Het concept van zelfverbeterende AI gaat een stap verder. Het impliceert een systeem dat zijn eigen prestaties kan evalueren, zijn fouten kan identificeren, zijn trainingsdata of algoritmes kan aanpassen, en deze cyclus kan herhalen zonder menselijke tussenkomst. Dit is niet slechts een kwestie van meer data verwerken; het vereist een vorm van meta-leren – het vermogen om het eigen leerproces te leren en te optimaliseren. De uitdagingen hierbij zijn immens, variërend van het voorkomen van catastrofale conceptdrift tot het garanderen van doelalignering.

De zoektocht naar AI die zichzelf kan trainen is daarom niet binair. Het is een graduele weg van toenemende autonomie, van systemen die hun hyperparameters kunnen finetunen naar systemen die mogelijk nieuwe leerparadigma's kunnen ontdekken. Het antwoord op de vraag ligt in dit spanningsveld tussen de huidige, krachtige maar fundamenteel afhankelijke modellen en de theoretische toekomst van recursieve zelfverbetering.

Hoe werkt zelfsupervisie zonder menselijke data?

Zelfsupervisie is een leermethode waarbij een AI-systeem zijn eigen leerdoelen (labels) genereert uit ongelabelde, ruwe data. Het kernprincipe is het voorspellen van een verborgen deel van de input vanuit een geobserveerd deel. Dit creëert een krachtige, zelfvoorzienende trainingslus zonder menselijke tussenkomst.

Een cruciaal mechanisme is contrastief leren. Het systeem neemt een datapunt (zoals een zin of een afbeelding) en maakt er twee geaugmenteerde versies van (bijvoorbeeld door woorden te maskeren of een afbeelding bij te snijden). Deze worden een positief paar. De AI leert om de representaties van deze twee vervormingen naar elkaar toe te trekken, terwijl het die van andere, willekeurige datapunten uit elkaar duwt. Zo ontdekt het systeem intrinsieke gelijkenissen en verschillen.

Een andere veelgebruikte techniek is generatieve reconstructie. Hierbij wordt een deel van de invoer willekeurig verwijderd of gecorrumpeerd, en moet het model het ontbrekende deel voorspellen. Door bijvoorbeeld een deel van een tekst te maskeren, leert een taalmodel de onderliggende semantiek en syntaxis om de gaten accuraat in te vullen. Het leert dus de structuur van de data door zijn eigen fouten te corrigeren.

De gegenereerde taken zijn pretext tasks (voorwendseltaken). Het uiteindelijke doel is niet het perfect reconstrueren van gemaskeerde woorden, maar het verwerven van een rijke, algemene interne representatie van de wereld. Deze verworven kennis kan vervolgens worden overgedragen (transfer learning) naar uiteenlopende, specifieke taken zoals classificatie of vraagbeantwoording, vaak met minimale aanvullende fine-tuning.

Dit proces maakt de AI tot zijn eigen leraar. De structuur en redundantie in de data zelf vormen de enige benodigde supervisie. Door patronen te exploiteren in miljarden zinnen of afbeeldingen, bouwt het systeem een steeds nauwkeuriger model van de werkelijkheid op, geheel aangedreven door zijn eigen voorspellingsdrang.

Wat zijn de praktische grenzen van automatische data-generatie?

Automatische data-generatie, bijvoorbeeld door generatieve AI-modellen, lijkt een oneindige bron van trainingsmateriaal. De praktische grenzen zijn echter fundamenteel en beperkend.

Het kernprobleem is conceptuele verwatering en mode-collaps. Modellen die uitsluitend op gegenereerde data worden getraind, ontwikkelen een steeds nauwere en vervormde perceptie van de werkelijkheid. Subtiele variaties en uitschieters verdwijnen, waardoor het systeem alleen nog maar leert zijn eigen, steeds beperktere output na te bootsen. De kwaliteit en diversiteit van de data nemen onvermijdelijk af met elke iteratie.

Een tweede grens is het ontbreken van echte, nieuwe kennis. Een generator kan alleen synthetiseren wat al in zijn trainingsdata zat. Het kan geen nieuwe feiten, actuele gebeurtenissen of werkelijk innovatieve concepten creëren. Een AI die zichzelf traint, blijft dus gevangen in het verleden van zijn initiële dataset en kan zijn begrip van de wereld niet fundamenteel verbreden.

Bovendien accumuleren en versterken fouten en biases zichzelf. Een onnauwkeurigheid of vooroordeel in de eerste generatie model wordt opgenomen in de gegenereerde data, en wordt in de volgende trainingsronde als "waarheid" behandeld. Dit leidt tot een exponentieel toenemende vertekening, waardoor het systeem onbetrouwbaar en onbruikbaar wordt.

Ten slotte is er een praktische limiet in rekenkracht en kosten. Het continu genereren van enorme hoeveelheden data van hoge kwaliteit en het daarop trainen van steeds complexere modellen is extreem duur. De wet van afnemende meeropbrengst treedt hard op: de incrementele verbetering wordt steeds kleiner, terwijl de rekening explodeert.

Concluderend is automatische data-generatie een nuttig hulpmiddel voor aanvulling en augmentatie, maar kan geen vervanging zijn voor continue voeding met nieuwe, gecureerde, echte werelddata. Zonder deze externe ankerpunten stort het systeem in op zichzelf.

Kan een model zijn eigen fouten detecteren en verbeteren?

De kern van zelfverbetering ligt in het vermogen om fouten te herkennen. Een getraind AI-model kan, binnen strikte grenzen, bepaalde soorten fouten in zijn eigen output detecteren. Dit gebeurt niet door begrip, maar door het toepassen van aanvullende, vaak eenvoudigere, modellen of logische regels die zijn ontworpen om inconsistenties, onwaarschijnlijkheden of afwijkingen van geleerde patronen op te sporen.

Een concrete methode is zelfcontrole via een verificatiemodel. Een hoofdmodel genereert een antwoord, bijvoorbeeld een codefragment. Een tweede, speciaal getraind model analyseert vervolgens die output op zoek naar syntaxisfouten, logische tegenstrijdigheden of afwijkingen van programmeerconventies. De feedback van dit verificatiemodel kan worden gebruikt om de output te corrigeren.

Een andere benadering is het gebruik van reinforcement learning from human feedback (RLHF) en zijn opvolgers. Hierbij wordt een beloningsmodel getraind om menselijke voorkeuren te voorspellen. Het hoofdmodel genereert meerdere antwoorden, het beloningsmodel scoort ze, en het hoofdmodel leert vervolgens om output te genereren die een hoge score krijgt. Dit is een indirecte vorm van zelfverbetering: het model leert zijn fouten (laag scorende output) te vermijden.

Echte, autonome zelfcorrectie blijft echter een grote uitdaging. Het fundamentele probleem is dat een model zijn eigen denkfouten of kennislacunes vaak niet kan identificeren als deze buiten zijn getrainde distributie vallen. Als een model denkt dat "Parijs de hoofdstad van Italië is", heeft het geen interne referentie om dat als fout te markeren. Verbetering vereist externe feedback: nieuwe data, menselijke interventie of interactie met een omgeving die duidelijke succes- en faalsignalen geeft.

Concluderend kan een model met de juiste architectuur en ondersteunende systemen specifieke, voorspelbare fouten opsporen en corrigeren. Maar het vermogen tot fundamentele zelfkritiek en het herstellen van diepere conceptuele misvattingen zonder externe input blijft een onopgelost onderzoeksgebied en een belangrijke grens voor volledige zelf-training.

Veelgestelde vragen:

Kan een AI-systeem, zoals een neuraal netwerk, zijn eigen trainingsdata genereren?

Dit is een kernvraag in het onderzoek naar zelfverbeterende AI. Het korte antwoord is: gedeeltelijk, maar met duidelijke grenzen. Een techniek die dit probeert is 'zelfsupervisie'. Hierbij wordt een groot deel van de data kunstmatig gemaskeerd of verstoord, waarna het systeem de ontbrekende delen moet voorspellen. Zo kan een taalmodel worden getraind om ontbrekende woorden in een zin in te vullen, gebruikmakend van de miljarden zinnen waaruit het oorspronkelijk is opgebouwd. Het model genereert dus niet geheel nieuwe data, maar leert patronen uit bestaande data om voorspellingen te doen over andere delen van diezelfde data. Een fundamenteel probleem blijft dat het systeem geen nieuwe kennis of correcte informatie kan creëren die niet al impliciet in zijn bestaande trainingsdata aanwezig was. Zonder een externe controle op feitelijkheid of kwaliteit kan dit leiden tot een degeneratie van de prestaties, waarbij fouten zich versterken.

Wat wordt bedoeld met 'recursieve zelfverbetering' en is dat nu al mogelijk?

Recursieve zelfverbetering is een theoretisch concept waarbij een AI niet alleen zijn taken uitvoert, maar ook zijn eigen algoritmes of architectuur aanpast om efficiënter en slimmer te worden, in een zich herhalende cyclus. Op dit moment bestaat dit in de praktijk niet in zijn volle, algemene vorm. Wat wel bestaat zijn meer beperkte vormen. Zo kunnen sommige systemen hun hyperparameters (instellingen voor het leerproces) automatisch optimaliseren via technieken als AutoML. Ook zijn er systemen die nieuwe trainingsvoorbeelden kunnen selecteren of genereren voor een volgende trainingsronde. Echter, deze processen staan onder strikt toezicht van menselijke ingenieurs en zijn beperkt tot zeer specifieke domeinen. De algemene angst of hoop voor een 'superintelligentie' die zichzelf eindeloos en onbeheersbaar verbetert, behoort tot het domein van de speculatie en sciencefiction. De huidige systemen missen het zelfbewustzijn, het begrip van de wereld en het vermogen om hun eigen fundamentele doelstellingen te herdefiniëren die hiervoor nodig zijn.

Hoe zorgen onderzoekers dat een AI die zichzelf traint niet 'ontspoort'?

Dit is een praktische uitdaging waar veel aandacht naartoe gaat. Er zijn enkele belangrijke methoden. Ten eerste wordt het leerproces bijna altijd begeleid door een vaste, door mensen gedefinieerde doelstelling (de 'loss function'). Het systeem optimaliseert alleen voor dat ene doel. Ten tweede wordt gebruikgemaakt van validatiesets: een aparte dataset die niet tijdens de training wordt gebruikt, maar om periodiek te testen of het systeem nog goed presteert op nieuwe, onzichtbare data. Als de prestatie daarop daalt, ondanks verbetering op de trainingsdata, is dat een signaal van overfitting en wordt het proces gestopt of aangepast. Een derde methode is het gebruik van 'reinforcement learning from human feedback' (RLHF), waarbij menselijke beoordelaars de uitkomsten van het AI-model beoordelen. Het model leert dan niet alleen van data, maar ook van deze menselijke voorkeuren, waardoor het beter op één lijn blijft met wat wij nuttig en correct vinden. Zonder deze veiligheidsmaatregelen zou een zichzelf trainend systeem snel nutteloze of schadelijke patronen kunnen gaan herhalen.

EINDHOVEN
International Swimming league