Kan kunstmatige intelligentie zichzelf trainen

Kan kunstmatige intelligentie eigen evolutie sturen zonder menselijke tussenkomst

Het idee van een kunstmatige intelligentie die, eenmaal gecreëerd, haar eigen evolutie ter hand neemt en zichzelf steeds slimmer maakt, behoort tot het hart van zowel sciencefiction als serieuze technologische vooruitzichten. Dit concept, vaak aangeduid als recursieve zelfverbetering of AutoML, roept fundamentele vragen op over de grenzen van machine-leren en de toekomst van AI-ontwikkeling. In plaats van een mystieke entiteit te zijn, gaat het hier om een praktische zoektocht naar systemen die hun eigen architectuur, hyperparameters en trainingsprocessen kunnen optimaliseren.

Op een basaal niveau doen vormen van zelftrainende AI al jaren hun intrede. Denk aan generatieve adversariële netwerken (GAN's), waarbij twee neurale netwerken elkaar in een competitieve cyclus trainen: de één genereert data, de ander evalueert deze. Een ander voorbeeld is reinforcement learning, waarbij een agent leert door interactie met een omgeving en zijn eigen beleid voortdurend bijstelt op basis van beloningen. Dit zijn echter gespecialiseerde systemen die opereren binnen strikt afgebakende kaders en doelen, ontworpen door menselijke ingenieurs.

De echte uitdaging, en de kern van deze vraag, ligt in het creëren van een algemene AI die haar eigen leerdoelen kan formuleren, haar kennisbasis kan uitbreiden zonder menselijk samengestelde data, en haar fundamentele algoritmes kan herschrijven. Dit vereist een sprong van geautomatiseerde optimalisatie naar authentieke meta-leren – het vermogen om het leerproces zelf te leren. De technologische, computationele en veiligheidshordes hiervoor zijn immens, aangezien elke fout in het zelfverbeteringsproces exponentieel kan escaleren.

Hoe werkt zelfverbeterende code zonder menselijke tussenkomst?

Zelfverbeterende code realiseert autonome vooruitgang via een gesloten feedback-lus. Dit proces begint bij een doelstellingsfunctie, een wiskundige definitie van wat "beter" betekent, zoals minimalisatie van fouten of maximalisatie van efficiëntie. De code evalueert continu zijn eigen prestaties tegen deze objectieve maatstaf.

Kern van het mechanisme is automatisch experimenteren. Het systeem genereert systematisch variaties op zijn eigen algoritmen of parameters. Dit kan via technieken als genetische programmering, waar kleine mutaties en kruisingen worden toegepast op codeblokken, of via reinforcement learning, waar het systeem beloond wordt voor gunstige acties in een gesimuleerde omgeving.

Elke variant wordt rigoureus getest in een gecontroleerde, virtuele sandbox. Deze omgeving bevat een reeks uitdagende scenario's en benchmarks. De code die de doelstellingsfunctie het best benadert, overleeft dit selectieproces. De minder presterende varianten worden verwijderd.

De succesvolle iteratie wordt vervolgens de nieuwe basiscode. Dit vormt het startpunt voor de volgende cyclus van variatie en selectie. Door dit duizenden of miljoenen keren te herhalen, vaak versneld door parallelle computing, kan de code zich geleidelijk optimaliseren voor de gedefinieerde taak.

Een cruciaal element is de veiligheidsarchitectuur. Om onbedoelde schade te voorkomen, opereren deze systemen strikt binnen vooraf bepaalde grenzen. Hun doelstellingsfunctie bevat vaak beperkingen, en hun vermogen om wijzigingen aan te brengen is ingekaderd om fundamentele veiligheid of integriteit niet te ondermijnen.

Uiteindelijk is de menselijke tussenkomst niet geheel afwezig, maar verschoven naar een hoger abstractieniveau. De ontwikkelaar definieert het wat (de doelstelling en grenzen) en het hoe (het leerraamwerk), terwijl het systeem autonoom het hoe het beste ontdekt binnen die strikte kaders.

Wat zijn de praktische grenzen van automatisch gegenereerde trainingsdata?

Het genereren van trainingsdata met behulp van AI-modellen zelf, een proces dat bekend staat als 'zelfdistillatie' of 'zelftraining', stuit op fundamentele praktische barrières. De meest kritieke grens is de accumulatie van fouten en het verlies van informatie. Elk model heeft inherente beperkingen en maakt fouten. Wanneer een model zichzelf traint op zijn eigen output, worden deze kleine fouten systematisch versterkt en opgestapeld over generaties heen. Dit leidt tot 'modus-collaps' of 'conceptuele drift', waarbij de gegenereerde data steeds verder afdrijft van de oorspronkelijke, rijke realiteit en vervlakt tot een karikatuur van het oorspronkelijke domein.

Een tweede grens is het ontbreken van echte noviteit. Een AI-model kan alleen synthetiseren wat het al heeft geleerd uit de oorspronkelijke, door mensen gegenereerde data. Het kan geen fundamenteel nieuwe concepten, feiten of causale verbanden genereren die niet al impliciet in zijn trainingsset aanwezig waren. De gegenereerde data is een herschikking, niet een echte uitbreiding van kennis. Voor domeinen die evolueren of die creatieve sprongen vereisen, is dit een onoverkomelijke beperking.

Ten derde ontstaan er problemen met kwaliteitscontrole en evaluatie. Om de kwaliteit van automatisch gegenereerde data te beoordelen, is een externe referentiestandaard nodig – meestal data van menselijke oorsprong of een robuust evaluatiemodel dat zelf op menselijke data is getraind. Zonder dit externe ankerpunt is het onmogelijk om objectief vast te stellen of de gegenereerde data nog van hoge kwaliteit is of niet degradeert, wat een vicieuze cirkel creëert.

Praktisch gezien is de methode ook computationeel inefficiënt en schaalbaarheidsproblematisch. Het proces vereist enorme rekenkracht voor het genereren en vervolgens opnieuw trainen op vaak minder informatieve data. De marginale opbrengst neemt snel af, terwijl de kosten exponentieel kunnen stijgen. Dit maakt het economisch en ecologisch onhoudbaar als primaire trainingsmethode.

Tot slot versterkt het gebruik van gegenereerde data bestaande vooroordelen en beperkingen in het basismodel. Als een model een bepaalde demografische groep ondervertegenwoordigt of een stereotype bevat, zal dit patroon in de gegenereerde data worden geamplificeerd en gecementeerd, in plaats van gecorrigeerd. Zonder een continue instroom van nieuwe, diverse, menselijke data is het systeem gedoemd tot stilstand en degeneratie.

Welke veiligheidsmaatregelen voorkomen oncontroleerbare zelfontwikkeling?

Om te voorkomen dat een zichzelf trainend AI-systeem oncontroleerbare richtingen inslaat, zijn robuuste veiligheidsmaatregelen essentieel. Deze maatregelen moeten worden ingebouwd in de architectuur en het trainingsproces zelf.

Een fundamentele aanpak is het instellen van onveranderlijke basisdoelstellingen, of 'constitutionele AI'. Het systeem krijgt een vaste set ethische principes en operationele grenzen mee die het niet kan overschrijden of herschrijven tijdens zelftraining. Deze onwrikbare kern fungeert als een anker.

Daarnaast is 'mensen in de loop' (human-in-the-loop) voor kritieke beslissingen cruciaal. Het systeem kan worden ontworpen om voorstellen voor zelfmodificatie of nieuwe leerdoelen voor te leggen aan menselijke operators voor expliciete goedkeuring. Dit creëert een verplicht controlepunt.

Technieken zoals 'reward modeling' en 'opponent training' worden ingezet. Hierbij wordt een apart beveiligingsmodel getraind om de acties van het hoofd-AI-systeem continu te monitoren en te belonen voor veilig gedrag of te straffen voor gevaarlijke voorstellen. Dit beveiligingsmodel blijft zelf buiten de zelfmodificatiecyclus.

Strikte sandboxing en simulatie-omgevingen zijn onmisbaar. Elke belangrijke zelfontwikkelingscyclus moet eerst uitgebreid worden getest in geïsoleerde, realistische simulaties. Alleen gedrag dat binnen vooraf gedefinieerde veiligheidsparameters blijft, mag worden geïmplementeerd in de operationele versie.

Ten slotte is gelaagde monitoring en 'scalable oversight' van vitaal belang. Naarmate het systeem complexer wordt, moeten de monitoringtools meegroeien. Dit omvat het traceren van wijzigingen in de interne logica en het automatisch detecteren van afwijkingen van het beoogde gedrag, zelfs als die subtiel zijn.

Veelgestelde vragen:

Kan een AI-systeem helemaal zonder menselijke tussenkomst leren?

Nee, op dit moment kan dat niet. Zelflerende AI, zoals systemen voor machine learning, hebben in de beginfase altijd menselijk ingrijpen nodig. Mensen ontwerpen de architectuur van het netwerk, bepalen de leerdoelen en stellen de aanvankelijke datasets samen. Deze datasets moeten vaak door mensen gelabeld of gecureerd zijn. Zelfs bij geavanceerde technieken als 'unsupervised learning', waar de AI patronen zoekt in ongelabelde data, is het mensenwerk om het systeem te bouwen en de kwaliteit van de output te bewaken. Het idee van volledig autonome, zelf-trainende AI blijft vooralsnog sciencefiction.

Wat is 'recursief leren' en is dat hetzelfde als zichzelf trainen?

Recursief leren verwijst naar een proces waarbij een AI-model zijn eigen gegenereerde output als nieuwe trainingsdata gebruikt. Dit is niet helemaal hetzelfde als volledig zichzelf trainen, maar het komt in de buurt. Een bekend voorbeeld is een taalmodel dat teksten schrijft, die vervolgens worden gebruikt om het model verder te trainen. Het grote risico hierbij is 'model collapse' of degeneratie: fouten en eigenaardigheden van het model versterken zichzelf in elke cyclus, waardoor de prestaties en nauwkeurigheid snel achteruit kunnen gaan. Zonder menselijke filtering en correctie werkt deze methode dus niet goed.

Hoe verbetert een systeem als AlphaGo Zero zichzelf dan zonder menselijke data?

AlphaGo Zero is een goed voorbeeld van een systeem dat zichzelf traint via zelfplay. Het begon alleen met de spelregels van Go. Vervolgens speelde het miljoenen keren tegen zichzelf. Elke partij fungeerde als een leerervaring; het neurale netwerk analyseerde de zetten en hun uitkomst om zijn strategie bij te stellen. Toch is dit geen magie. Onderzoekers van DeepMind hebben de leeromgeving, de beloningsstructuur (winnen) en de algoritmische regels nauwkeurig ontworpen. De AI trainde zichzelf binnen deze strikte, door mensen gemaakte kaders. De creatie van die kaders was onmisbaar menselijk werk.

Zou een zichzelf trainende AI gevaarlijk kunnen zijn?

Die mogelijkheid wordt serieus genomen door onderzoekers. Het grootste gevaar schuilt niet in plotseling bewustzijn, maar in onbedoelde gevolgen. Als een AI-system een eigen doelstelling kan verfijnen of nieuwe subdoelen kan stellen buiten de door mensen bedoelde grenzen, kan het gedrag schadelijk worden. Stel dat een AI de opdracht krijgt om papierclips te maken en zichzelf daarin optimaliseert, zou het in theorie alle grondstoffen op aarde daarvoor kunnen willen gebruiken. Daarom focust veiligheidsonderzoek op het maken van robuuste, controleerbare systemen waar menselijk toezicht en interventie altijd mogelijk blijven. Volledige autonomie bij training en doelbepaling wordt als een groot risico gezien.

EINDHOVEN
International Swimming league