KUNSKAP

Robotar får sitt ”ChatGPT”

2

Nvidia presenterade en ny plattform på CES som heter Cosmos. Det är en utvecklingsplattform för World Foundation Model (WFM) som är utformad för att främja och påskynda fysisk AI för robotar och självkörande fordon (som faktiskt också är robotar).

Förstå digitala tvillingar och fysisk AI^
Konceptet ”Physical AI” innebär att man skapar komplexa virtuella miljöer som simulerar verklig fysik, där digitala kopior av robotar och system kan lära sig och optimera sin prestanda.

För fabriksrobotar, till exempel, skulle en Omniverse-kund skapa en ”digital tvilling” av fabriken i ett virtuellt verklighetsutrymme. Varje detalj på fabriksgolvet skulle replikeras, med avstånden mellan objekten exakt desamma som i den verkliga, fysiska fabriken. IoT-sensorer (Internet of Things) i den verkliga fabriken matar in data i tvillingen och håller den i ett identiskt tillstånd.

Avgörande är att den virtuella tvillingen i Omniverse är programmatiskt utrustad med fysik – gravitation, tröghet, friktion och andra fysiska egenskaper som tillämpas på allt som händer i tvillingen. Företag kan designa, simulera, driva och underhålla sina fabriker virtuellt genom tvillingar. Och de kan träna robotar och robotsystem i Omniverse.

Det nyligen tillkännagivna Cosmos fungerar tillsammans med – och förstärker dramatiskt – förmågan till Omniverse-robotträning genom att skapa och använda World Foundation Models (WFM).

Vad i hela världen är ”World Foundation Models”?

Om du inte är bekant med frasen ”World Foundation Models” är det logiskt, eftersom det är ganska nytt och troligen myntat av Nvidia. Den förenar de befintliga (men också nya) koncepten ”världsmodeller” (AI-system som skapar interna representationer av sin miljö för att simulera och förutsäga komplexa scenarier) och ”grundläggande modeller” (AI-system som tränats på stora datamängder som kan anpassas för ett brett spektrum av uppgifter).

Enligt Nvidia är WFM ett enkelt sätt att generera enorma mängder fotorealistiska, fysikbaserade artificiella data för att träna befintliga modeller eller bygga anpassade modeller. Robotutvecklare kan lägga till sina egna data, till exempel videor som spelats in i deras egen fabrik, och sedan låta Cosmos multiplicera och utöka det grundläggande scenariot med tusentals fler, vilket ger robotprogrammering möjlighet att välja de korrekta eller bästa rörelserna för den aktuella uppgiften.

Cosmos-plattformen innehåller generativa WFM:er, avancerade tokeniserare, skyddsräcken och en accelererad pipeline för videobearbetning. Utvecklare kan använda Nvidias Omniverse för att skapa geospatialt korrekta scenarier som tar hänsyn till fysikens lagar. Sedan kan de mata ut dessa scenarier i Cosmos och skapa fotorealistiska videor som ger data för feedback om robotförstärkningsinlärning.

Återigen, ett bra sätt att förstå detta är att jämföra det med den LLM-baserade ChatGPT.

”I stället för att läsa avancerat material är det mycket snabbare och mer engagerande att låta NotebookLM:s funktion ”Ljudöversikter” skapa en verklighetstrogen podcast som du kan lyssna på. Det kommer att skapa en ”studieguide”, en FAQ, en ”briefingguide” och en tidslinje, vilket gör att du snabbt kan titta på tätt innehåll från flera vinklar, perspektiv och nivåer. Du kan börja med att be chatboten att förklara det för dig som om du är en sjätteklassare, sedan en gymnasieelev, sedan en student och så vidare tills du behärskar materialet.”

I det här scenariot ”tränar” du din hjärna genom att ta en befintlig datauppsättning och be chattroboten att ge dig samma data skivad, tärnad och omformaterad på åtta eller fler sätt.

Detta är också hur WFM fungerar, i stora drag. Utvecklaren tar befintliga träningsdata och matar in dem i Cosmos, vilket skapar fler träningsscenarier som är lika användbara som den ursprungliga uppsättningen. De kan förvandla 30 scenarier till 30 000, som roboten använder som om faktisk trial-and-error-inlärning hade ägt rum.

Cosmos utdata ser ut som verkliga träningsdata, men det kan snabbt träna robotar i tusentals scenarier.

Robotics ChatGPT-ögonblick

Nvidia antyder att Cosmos kommer att inleda ett ”ChatGPT-ögonblick” för robotik. Företaget menar att, precis som den grundläggande tekniken för neurala nätverk fanns i många år, möjliggjorde Googles Transformer-modell radikalt accelererad träning som ledde till LLM-chatbots som ChatGPT.

I den mer välbekanta LLM-världen har vi kommit att förstå förhållandet mellan storleken på de datauppsättningar som används för att träna dessa modeller och hastigheten på den träningen och deras resulterande prestanda och noggrannhet.

Elon Musk påpekade nyligen att AI-företag har uttömt mänskligt genererad data för att träna AI-modeller. ”Vi har nu uttömt i princip den kumulativa summan av mänsklig kunskap … inom AI-träning”, sa han.

Data för att träna robotar är också begränsade – men av en annan anledning. Träningsdata i den verkliga fysiska världen är helt enkelt långsamt och dyrt. Till skillnad från mänskligt genererad text, som redan har skett i stor skala under århundraden, måste robotträningsdata genereras från grunden.

På samma sätt kan robotar och självkörande bilar i princip ”lära sig” hur de ska göra sitt jobb och navigera i komplex och okänd terräng. Cosmos (i samarbete med Omniverse) bör dramatiskt öka mängden träning som kan äga rum på mycket kortare tid.

Körsäkerhet


Idén att testa autonoma fordon med enorma mängder fysikmedvetna data är en stor förbättring jämfört med hur självkörande bilar och lastbilar historiskt sett har tränats – vilket är att de kör runt i den verkliga världen med en säkerhetsförare.

Att köra i den verkliga världen med en person som backup är tidskrävande, dyrt och ibland farligt – särskilt när man tänker på att autonoma fordon måste tränas för att reagera på farliga situationer.

Att använda Cosmos för att träna autonoma fordon skulle innebära att ett stort antal simulerade scenarier snabbt skapas. Föreställ dig till exempel simuleringen av alla typer av djur som kan tänkas korsa en väg – björnar, kära, hundar, katter, ödlor, etc. – i tiotusentals olika väder- och ljusförhållanden. I slutet av all denna träning skulle bilens digitala tvilling i Omniverse kunna känna igen och navigera scenarier med djur på vägen oavsett djur, väder eller tid på dygnet. Den inlärningen skulle sedan överföras till tusentals riktiga bilar, som också skulle veta hur man navigerar i dessa situationer (utan att några djur skadas).

Om Nvidia har rätt, och vi har kommit fram till ett ”ChatGPT-ögonblick” för robotik, bör takten i robotteknikens framsteg börja accelerera, vilket leder till stora effektivitetsvinster och integrering av autonoma fordon på allmänna vägar globalt för många företag (inte bara Waymo i några städer).

En fascinerande aspekt av den nya generativa AI-värld som vi lever i är att förutsägelser är meningslösa. Ingen vet hur allt detta kommer att utvecklas.

Och detta verkar stämma med förutsägelser om hur lång tid det kommer att ta för allt att bli extremt robotiskt. Allt kommer förmodligen att hända mycket snabbare än någon tror.

Lämna kommentar

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *

Relaterade Inlägg

KUNSKAP

Sverige är med på kartan för kvantdatorer

Hur kallt måste det vara för att en kvantdator ska fungera? Svaret...

KUNSKAP

Trött på Sverige – säg upp medlemskapet!

I en marknad som väldigt mycket jobb kan utföras på distans och...

KUNSKAP

Sverige ”trycker” digitala pengar febrilt

De flesta förstår att trycks det nya sedlar som släpps ut i...

KUNSKAP

Schweiz tidigare finansminister varnar för storleken på UBS

UBS kan ses som för stort för Schweiz efter dess övertagande av...