AI-svärmar är på väg!

Jan Ström2 november 202472

Utvecklare använder redan flera stora språkmodeller (LLM) och andra generativa AI-baserade verktyg för att skapa automatiseringsverktyg. Och snart kommer verktygen att kunna använda varandra.

En ny utveckling inom AI-”svärmar” fungerar som en väckarklocka för alla som är involverade i cybersäkerhet, automatisering och faktiskt IT i allmänhet. Börjar man sedan i nästa steg se självproducerande digital AI-agenter och kanske även muterande, så kan det här skapa stor huvudvärk för världen.

Vad är OpenAI Svarm?

OpenAI lanserade ett experimentellt ramverk förra månaden som heter Swarm. Det är ett ”lättviktigt” system för utveckling av agentiska AI-svärmar, som är nätverk av autonoma AI-agenter som kan arbeta tillsammans för att hantera komplexa uppgifter utan mänsklig inblandning, enligt OpenAI.

Swarm är inte en produkt. Det är ett experimentellt verktyg för att koordinera eller orkestrera nätverk av AI-agenter. Ramverket är öppen källkod under MIT-licensen (vilket gör det möjligt för Python-utvecklare att använda, modifiera och distribuera programvaran med minimala begränsningar, finns på Github).

OM Swarm

Det primära målet med Swarm är att visa upp de överlämnings- och rutinmönster. Det är inte tänkt som ett fristående bibliotek utan är i första hand avsett för utbildningsändamål.

Swarm är inte helt unikt. Andra befintliga system kan användas för orkestrering av flera agenter, vilket närmar sig funktionen hos agentiska AI-svärmar. Även om de inte uttryckligen är utformade för svärmning kan de användas för att få AI-agenter att interagera med varandra i varierande grad. Dessa inkluderar: Microsoft AutoGen, CrewAI, LangChain, LangGraph, MetaGPT, AutoGPT och Haystack.

Även om Swarm kan vara utformat för enkelhet och relativ användarvänlighet, är alla dessa andra verktyg mer robusta, pålitliga, stödda och redo för bästa sändningstid.

OpenAI lanserade tydligen Swarm för att utforska metoder för att förbättra agentsamarbetet genom ”rutiner” och ”överlämningar”. I det här fallet är ”rutiner” fördefinierade uppsättningar instruktioner som vägleder handläggare genom uppgifter eller arbetsflöden. De fungerar som recept för agenter att följa, vilket ger kontroll och förutsägbarhet till system med flera agenter. ”Överlämningar” gör det möjligt för en agent att delegera ett jobb till ett annat baserat på den aktuella kontexten. Om agenten till exempel kräver något specifikt som bättre kan hanteras av en agent som är specialiserad på den uppgiften, kan den delegera den. Den ”överlämningen” ger historiken för uppgiften till den nya handläggaren, så att den har ett sammanhang under vilket den kan fortsätta.

En egenskap hos Swarm är att den är tillståndslös, så agenter kommer inte ihåg något från tidigare interaktioner. Det förenklande elementet begränsar också verktyget till enklare uppgifter. (Utvecklare kan dock skapa lösningar som aktiverar minne mellan agentinteraktioner.)

Även om Swarm inte är avsett för faktisk produktion (och OpenAI kommer inte att behålla det framöver), är det faktum att det sysslar med konceptet en indikation på att agentsvärmar så småningom kan bli vanliga.

Det pekar också på en trend där agent swarm-tekniken blir alltmer användbar och, i brist på en bättre term, demokratiserad.

Rätt verktyg för jobbet?

Ett sätt att se på agentisk AI-svärmningsteknik är att det är nästa kraftfulla fas i utvecklingen av generativ AI (genAI). Faktum är att Swarm bygger på OpenAI:s Chat Completions API, som använder LLM:er som GPT-4.

API:et är utformat för att underlätta interaktiva ”konversationer” med AI-modeller. Det gör det möjligt för utvecklare att skapa chatbots, interaktiva agenter och andra applikationer som kan delta i konversationer på naturligt språk.

Idag skapar utvecklare vad man kan kalla engångsverktyg för AI som utför en specifik uppgift. Agentic AI skulle göra det möjligt för utvecklare att skapa ett stort antal sådana verktyg som specialiserar sig på olika specifika uppgifter, och sedan göra det möjligt för varje verktyg att dra in alla andra i tjänst om agenten bestämmer att uppgiften skulle hanteras bättre av den andra typen av verktyg.

Dessa verktygstyper kan vara:

1. RAG (Retrieval-Augmented Generation): Förbättra textgenereringen med relevant hämtad information. I grund och botten skulle dessa agenter få i uppdrag att ”googla det” och återvända till den aktuella uppgiften med den hittade informationen.
2. NL2SQL: Konvertera frågor på naturligt språk till SQL-kommandon.
3. Textgenerering: Skapa olika former av skriftligt innehåll.
4. Kodgenerering: Producera kod baserat på beskrivningar på naturligt språk.
5. Dataanalys: Bearbetning och tolkning av stora datamängder.
6. Bildgenerering: Skapa bilder från textuppmaningar.
7. Talsyntes: Konvertera text till talat ljud.
8. Språköversättning: Översättning mellan olika språk.
9. Sammanfattning: Kondensera långformat innehåll till kortfattade sammanfattningar.
10. Dialoghantering: Hantera konversationer med flera turer i chatbots.

Istället för att användaren gör val, öppnar nya verktyg och i huvudsak fungerar som guide och lim för komplexa AI-baserade uppgifter, skulle agenterna göra allt detta autonomt.

Lättanvända svärmar av AI-agenter – vad kan gå fel?

Det är uppenbart att agentiska AI-svärmar på allvar kan öka företagets produktivitet och avlasta sysslor från människor, vilket gör det möjligt för dem att fokusera på ansvar på högre nivå.

Riskerna är också uppenbara. Ta till exempel säkerhet.

För närvarande, så vitt vi vet, använder inga nationalstater eller statssponsrade hackare agentiska AI-svärmar. Men den dagen kommer säkert.

Fientliga nationalstater använder LLM:er i allmänhet, och till och med ChatGPT i synnerhet, för skadlig rekognoscering och forskning, skript och kodning, social ingenjörskonst och phishing-innehåll, språköversättning och undvikande av upptäckt.

För närvarande gör människor som arbetar för dessa nationalstater individuell hackning och använder LLM:er som en del av deras kunskapsverktyg, manuellt snabbmanipulerade chatbots och använder sedan de returnerade resultaten i sina intrångsförsök.

I en agentisk AI-svärm i framtiden kommer statligt sponsrade hackare att kunna skapa individuella specialiserade AI-agenter för att utföra var och en av dessa uppgifter, och göra det möjligt för agenterna att kalla in de andra agenterna efter behov. Genom att ta bort ”flaskhalsen” hos en mänsklig operatör kan skadlig hackning ske i stor skala med blixtrande hastighet.

Det är rimligt att anta i detta tidiga skede att det mest effektiva försvaret mot agentiska AI-svärmattacker kommer att vara agentiska AI-svärmförsvar.

Ett annat orosmoment är risken för överkomplexitet. Agent AI inklusive agentic AI-svärmningsteknik, fungerar autonomt för att uppnå mål. Den kan vara ”kreativ” eller, mer exakt, oförutsägbar i hur den uppnår mål som den har fått av utvecklarna som skapar den och användarna som distribuerar den. Eftersom den är autonom kanske människor inte vet vad den gör eller hur den gör det. Och det är möjligt att tappa koll på vad agentsvärmar gör, eller till och med att de fortfarande är i drift.

Enskilda anställda kan automatisera sitt eget arbete med hjälp av agentiska AI-svärmar som de övervakar nära – agenter som kan fortsätta att köras efter att arbetarna lämnar företaget (eller blir påkörda av en buss).

Pessimistiska (eller realistiska) prognosmakare fruktar att agentiska AI-svärmar till och med kan påskynda förlusten av arbetstillfällen eftersom de kommer att vara så kapabla att fungera som människor gör.

Precis som med andra nya, kraftfulla utvecklingar inom AI-teknik är agentiska AI-svärmar fulla av löften och faror.

Det som är viktigt att veta om OpenAI:s Swarm är att det representerar ett steg för att förenkla och demokratisera svärmande agenter. Det innebär förmodligen en exponentiell tillväxt inom en snar framtid i antalet svärmande agenter i drift, och en ökning av förväntningarna på att teknikproffs kommer att använda agentiska AI-agenter för alla typer av automatisering.