Додому Без рубрики Beyond Retraining: hoe “Memento-Skills” AI-agenten in staat stelt om on-the-fly te leren

Beyond Retraining: hoe “Memento-Skills” AI-agenten in staat stelt om on-the-fly te leren

Het grootste obstakel bij het inzetten van autonome AI-agenten is hun neiging om ‘bevroren’ te blijven. Zodra een Large Language Model (LLM) is getraind en ingezet, staat de kennis ervan vast. Als de wereld verandert of een bedrijfsproces evolueert, kan het model zich niet aanpassen zonder een kostbaar, tijdrovend proces van herscholing of verfijning.

Een nieuw raamwerk genaamd Memento-Skills heeft tot doel dit knelpunt te doorbreken. Het raamwerk is ontwikkeld door een multiuniversitair onderzoeksteam en stelt AI-agenten in staat hun eigen vaardigheden te ontwikkelen, verfijnen en herschrijven zonder ooit het onderliggende model aan te raken.

Het probleem: de beperkingen van “bevroren” intelligentie

Huidige AI-agenten lijden doorgaans aan drie belangrijke zwakke punten wanneer ze zich proberen aan te passen aan nieuwe taken:

  1. Statische kennis: Eenmaal geïmplementeerd, is een LLM beperkt tot de trainingsgegevens en het onmiddellijke ‘contextvenster’. Het kan natuurlijk niet slimmer worden door ervaring.
  2. Handmatige overhead: Om een ​​agent beter te maken in een specifieke taak, moeten ontwikkelaars momenteel handmatig nieuwe aanwijzingen schrijven of modelgewichten verfijnen – een proces dat langzaam is en operationeel duur voor ondernemingen.
  3. De “Similarity Trap”: De meeste huidige systemen gebruiken Retrieval-Augmented Generation (RAG) om informatie te vinden. RAG vertrouwt echter vaak op semantische gelijkenis, wat betekent dat het zoekt naar woorden die verwant klinken. Dit is riskant; een agent kan een script voor het opnieuw instellen van het wachtwoord ophalen om een ​​terugbetalingsverzoek op te lossen, simpelweg omdat beide betrekking hebben op bedrijfsterminologie. In omgevingen waar veel op het spel staat, staat semantische gelijkenis niet gelijk aan functioneel nut.

Hoe Memento-Skills werken: een evoluerend extern geheugen

In plaats van het geheugen te behandelen als een passief logboek van eerdere chats, behandelt Memento-Skills het als een evoluerende bibliotheek van uitvoerbare tools.

Het raamwerk functioneert als een ‘agent-ontwerpende agent’. Het bouwt en onderhoudt een verzameling vaardigheidsartefacten die zijn opgeslagen als gestructureerde Markdown-bestanden. Elke vaardigheid bestaat uit drie essentiële componenten:
* Declaratieve specificaties: Een beschrijving van wat de vaardigheid doet en wanneer deze moet worden gebruikt.
* Redeneringsinstructies: Gespecialiseerde aanwijzingen die de logica van de LLM begeleiden.
* Uitvoerbare code: De daadwerkelijke scripts of tools die de agent uitvoert om de taak te voltooien.

De “lezen-schrijven reflecterende” lus

Het systeem slaat niet alleen gegevens op; het leert actief via een proces genaamd Lees-Schrijf Reflectief Leren :
1. Ophalen: Een gespecialiseerde router selecteert de meest gedragsrelevante vaardigheid (niet alleen de meest vergelijkbare).
2. Uitvoeren: De agent voert de taak uit met de gekozen vaardigheid.
3. Reflecteren & Muteren: Als de taak mislukt, analyseert een “orkestrator” de fout. In plaats van alleen de fout te registreren, wordt de vaardigheid herschreven. Het herstelt de code, past de aanwijzingen aan of creëert een geheel nieuwe vaardigheid om te voorkomen dat dezelfde fout opnieuw optreedt.

Om ervoor te zorgen dat deze zelfgeschreven updates het systeem niet kapot maken, gebruikt Memento-Skills een automatische unit-testpoort. Elke nieuwe of gewijzigde vaardigheid moet een synthetische test doorstaan ​​voordat deze officieel aan de mondiale bibliotheek wordt toegevoegd.

Bewezen resultaten: Schalen van 5 naar 235 vaardigheden

Bij rigoureuze tests met behulp van de benchmarks GAIA (complex redeneren) en HLE (academisch op expertniveau) presteerde Memento-Skills aanzienlijk beter dan statische modellen:

  • Op GAIA: De nauwkeurigheid is gestegen van 52,3% naar 66,0% vergeleken met statische basislijnen.
  • Op HLE: De prestaties zijn meer dan verdubbeld, van 17,9% naar 38,7%.
  • Efficiëntie: Het systeem liet een opmerkelijke organische groei zien. De agent begon met slechts vijf basisvaardigheden (zoals zoeken op internet) en breidde zijn bibliotheek autonoom uit naar 41 vaardigheden voor algemene taken en tot 235 vaardigheden voor complexe academische onderwerpen.

De Enterprise Outlook: waar te implementeren

Voor bedrijven ligt de waarde van Memento-Skills in workflowautomatisering. De onderzoekers merken op dat het raamwerk het meest effectief is in omgevingen met gestructureerde, terugkerende patronen waarin vaardigheden kunnen worden hergebruikt en verfijnd.

Er zijn echter kanttekeningen bij onmiddellijke adoptie:
* Geïsoleerde taken: Als taken volledig willekeurig en niet-gerelateerd zijn, kan de agent geen kennis van de ene naar de andere “overdragen”, waardoor de voordelen van leren worden beperkt.
* Fysieke taken/taken met een lange horizon: Het beheren van fysieke robots of extreem lange, uit meerdere stappen bestaande beslissingsketens vereist nog steeds een geavanceerdere coördinatie dan dit raamwerk momenteel biedt.
* Bestuur: Nu agenten hun eigen code beginnen te herschrijven, hebben bedrijven robuuste ‘rechtersystemen’ nodig om ervoor te zorgen dat deze zelfverbetering veilig blijft en in lijn blijft met de bedrijfsdoelen.

Conclusie
Memento-Skills vertegenwoordigt een verschuiving van AI die simpelweg informatie ophaalt naar AI die capaciteiten opbouwt. Door agenten in staat te stellen hun eigen uitvoerbare toolkits autonoom bij te werken, biedt het raamwerk een schaalbaar pad met weinig overhead naar echt adaptief, levenslang leren in productieomgevingen.

Exit mobile version