När den kinesiske kvanthedgefondgrundaren Liang Wenfeng började forska om AI tog han 10 000 Nvidia-chip och satte ihop ett team av unga, ambitiösa talanger. Två år senare exploderade DeepSeek på scenen.
Den 20 januari släppte DeepSeek, ett relativt okänt AI-forskningslaboratorium från Kina, en modell med öppen källkod som snabbt har blivit en snackis i Silicon Valley.
Faktum är att när det gäller många viktiga mätvärden – kapacitet, kostnad, öppenhet – ger DeepSeek västerländska AI-jättar en chans att få valuta för pengarna.
DeepSeeks framgång pekar på ett oavsiktligt resultat av det kalla kriget mellan USA och Kina. USA:s exportkontroller har kraftigt begränsat kinesiska teknikföretags förmåga att konkurrera med AI på västerländskt sätt – det vill säga att skala upp i oändlighet genom att köpa fler chip och träna under en längre tid. Som ett resultat har de flesta kinesiska företag fokuserat på nedströmsapplikationer snarare än att bygga sina egna modeller. Men med sin senaste version bevisar DeepSeek att det finns ett annat sätt att vinna: genom att förnya den grundläggande strukturen för AI-modeller och använda begränsade resurser mer effektivt.
Till skillnad från många kinesiska AI-företag som är starkt beroende av tillgång till avancerad hårdvara, har DeepSeek fokuserat på att maximera mjukvarudriven resursoptimering”, förklarar Marina Zhang, docent vid University of Technology Sydney, som studerar kinesiska innovationer. ”DeepSeek har anammat metoder med öppen källkod, samlat samlad expertis och främjat kollaborativ innovation. Detta tillvägagångssätt mildrar inte bara resursbegränsningar utan påskyndar också utvecklingen av banbrytande teknologier, vilket skiljer DeepSeek från mer isolerade konkurrenter.”
En stjärnhedgefond i Kina står bakom
Även inom den kinesiska AI-industrin är DeepSeek en okonventionell aktör. Det började som Fire-Flyer, en forskningsgren inom djupinlärning av High-Flyer, en av Kinas bäst presterande kvantitativa hedgefonder. Hedgefonden grundades 2015 och blev snabbt framträdande i Kina och blev den första kvanthedgefonden som samlade in över 100 miljarder RMB (cirka 15 miljarder dollar). (Sedan 2021 har siffran sjunkit till cirka 8 miljarder dollar, även om High-Flyer fortfarande är en av de viktigaste kvanthedgefonderna i landet.)
I åratal hade High-Flyer lagrat GPU:er och byggt Fire-Flyer-superdatorer för att analysera finansiella data. Sedan, 2023, bestämde sig Liang, som har en magisterexamen i datavetenskap, för att hälla fondens resurser i ett nytt företag som heter DeepSeek som skulle bygga sina egna banbrytande modeller – och förhoppningsvis utveckla artificiell generell intelligens. Det var som om Jane Street hade bestämt sig för att bli en AI-startup och bränna sina pengar på vetenskaplig forskning.
Djärv vision. Men på något sätt fungerade det. ”DeepSeek representerar en ny generation kinesiska teknikföretag som prioriterar långsiktiga tekniska framsteg framför snabb kommersialisering”, säger Zhang.
Liang berättade att beslutet drevs av vetenskaplig nyfikenhet snarare än en önskan att göra vinst. ”Jag skulle inte kunna hitta en kommersiell anledning [för att grunda DeepSeek] även om du ber mig att göra det”, förklarade han. ”För att det inte är värt det kommersiellt. Grundvetenskaplig forskning har en mycket låg avkastning på investeringar. När OpenAI:s tidiga investerare gav dem pengar tänkte de säkert inte på hur mycket avkastning de skulle få. Snarare var det så att de verkligen ville göra det här. I dag är DeepSeek ett av de enda ledande AI-företagen i Kina som inte är beroende av finansiering från teknikjättar som Baidu, Alibaba eller ByteDance.
En ung grupp genier som är ivriga att visa vad de går för
Enligt Liang, när han satte ihop DeepSeeks forskargrupp, letade han inte efter erfarna ingenjörer för att bygga en konsumentinriktad produkt. I stället fokuserade han på doktorander från Kinas främsta universitet, inklusive Peking University och Tsinghua University, som var ivriga att visa vad de gick för. Många hade publicerats i topptidskrifter och vunnit priser på internationella akademiska konferenser, men saknade branscherfarenhet, enligt den kinesiska teknikpublikationen QBitAI.
”Våra tekniska kärnpositioner fylls mestadels av personer som tog examen i år eller under de senaste ett eller två åren”, sa Liang till 36Kr 2023. Anställningsstrategin bidrog till att skapa en samarbetsinriktad företagskultur där människor var fria att använda gott om datorresurser för att genomföra oortodoxa forskningsprojekt. Det är ett helt annat sätt att arbeta än etablerade internetföretag i Kina, där teamen ofta konkurrerar om resurser. (Ett färskt exempel: ByteDance anklagade en före detta praktikant – en prestigefylld akademisk pristagare – för att sabotera sina kollegors arbete för att samla på sig mer datorresurser för sitt team.)
Liang sa att studenter kan passa bättre för forskning med höga investeringar och låg vinst. ”De flesta människor, när de är unga, kan ägna sig helt åt en mission utan utilitaristiska överväganden”, förklarade han. Hans pitch till potentiella anställda är att DeepSeek skapades för att ”lösa de svåraste frågorna i världen”.
Det faktum att dessa unga forskare nästan uteslutande är utbildade i Kina bidrar till deras drivkraft, säger experter. ”Den här yngre generationen förkroppsligar också en känsla av patriotism, särskilt när de navigerar genom USA:s restriktioner och flaskhalsar inom kritisk hård- och mjukvaruteknik”, förklarar Zhang. ”Deras beslutsamhet att övervinna dessa hinder återspeglar inte bara personliga ambitioner utan också ett bredare engagemang för att främja Kinas position som en global innovationsledare.”
Innovation född ur en kris
I oktober 2022 började den amerikanska regeringen införa exportkontroller som kraftigt begränsade kinesiska AI-företag från att få tillgång till banbrytande chip som Nvidias H100. Flytten innebar ett problem för DeepSeek. Företaget hade börjat med ett lager på 10 000 H100, men det behövdes mer för att konkurrera med företag som OpenAI och Meta. ”Problemet vi står inför har aldrig varit finansieringen, utan exportkontrollen av avancerade chips”, sa Liang till 36Kr i en andra intervju 2024.
DeepSeek var tvungna att komma på effektivare metoder för att träna sina modeller. ”De optimerade sin modellarkitektur med hjälp av ett batteri av tekniska knep – anpassade kommunikationsscheman mellan kretsar, minskning av storleken på fält för att spara minne och innovativ användning av metoden med en blandning av modeller”, säger Wendy Chang, en mjukvaruingenjör som blivit policyanalytiker vid Mercator Institute for China Studies. ”Många av dessa tillvägagångssätt är inte nya idéer, men att kombinera dem framgångsrikt för att skapa en banbrytande modell är en anmärkningsvärd bedrift.”
DeepSeek har också gjort betydande framsteg när det gäller Multi-head Latent Attention (MLA) och Mixture-of-Experts, två tekniska konstruktioner som gör DeepSeek-modeller mer kostnadseffektiva genom att kräva färre datorresurser för att träna. Faktum är att DeepSeeks senaste modell är så effektiv att den krävde en tiondel av datorkraften jämfört med Metas jämförbara Llama 3.1-modell för att träna, enligt forskningsinstitutet Epoch AI.
DeepSeeks vilja att dela dessa innovationer med allmänheten har gett det betydande goodwill inom det globala AI-forskarsamhället. För många kinesiska AI-företag är utveckling av modeller med öppen källkod det enda sättet att komma ikapp sina västerländska motsvarigheter, eftersom det lockar fler användare och bidragsgivare, vilket i sin tur hjälper modellerna att växa. – De har nu visat att banbrytande modeller kan byggas med mindre, men fortfarande mycket, pengar och att de nuvarande normerna för modellbyggande lämnar gott om utrymme för optimering, säger Chang. ”Vi kommer säkert att se många fler försök i den här riktningen framöver.”
Nyheten kan innebära problem för USA:s nuvarande exportkontroller som fokuserar på att skapa flaskhalsar i datorresurserna. – Befintliga uppskattningar av hur mycket AI-datorkraft Kina har, och vad de kan uppnå med den, kan komma att kullkastas, säger Chang.
Lämna kommentar