Ny AI-modell som riktar sig mot rivalen DeepSeek, Kinas hetaste start-up

katarina Olsson30 januari 202534

Alibaba Group Holding släppte på onsdagen en uppgraderad version av sin Qwen-modell för artificiell intelligens (AI), som de sa ”överträffade helt” i vissa benchmarktester DeepSeek-V3, den stora språkmodellen (LLM) som lanserades i december av Kinas hetaste start-up.

I ett uttalande som publicerades på WeChat sa e-handelsjättens cloud computing- och AI-arm Alibaba Cloud att dess nya Qwen 2.5-Max-modell också överträffade OpenAI:s GPT-4o och Meta Platforms Llama-3.1-405B i LLM-prestandajämförelseplattformarna Arena-Hard och LiveBench. Alibaba äger South China Morning Post.

Benchmarkprestandan för Qwen 2.5-Max, en del av Alibabas Tongyi Qianwen LLM-familj, var i nivå med Anthropics Claude-3.5-Sonnet-modell, enligt Alibaba Cloud. LLM:er är den teknik som ligger till grund för generativa AI-tjänster som ChatGPT.

Har du frågor om de största ämnena och trenderna från hela världen? Få svaren med SCMP Knowledge, vår nya plattform med kurerat innehåll med förklaringar, vanliga frågor, analyser och infografik från vårt prisbelönta team.

Alibabas multimodala modell erbjuds i olika storlekar, från 3 miljarder till 72 miljarder parametrar, och inkluderar både bas- och instruktionsinställda versioner. Flaggskeppsmodellen, Qwen2.5-VL-72B-Instruct, är nu tillgänglig via Qwen Chat-plattformen, medan hela Qwen2.5-VL-serien är tillgänglig på öppen källkodsplattformen Hugging Face och Alibabas egen öppen källkodscommunity Model Scope.

Parameter är en maskininlärningsterm för variabler som finns i ett AI-system under träning, vilket hjälper till att fastställa hur dataprompter ger önskade utdata. Öppen källkod ger allmänheten tillgång till ett programs källkod, vilket gör det möjligt för tredjepartsutvecklare att ändra eller dela dess design, fixa trasiga länkar eller skala upp dess kapacitet.

Aktierna i Alibaba steg med nästan 3 procent i New York under den senaste handeln, vilket förlängde tisdagens uppgång på 6,7 procent, medan transaktionerna i Hongkong stoppades under det kinesiska nyåret.

Qwen 2.5-Max starka prestanda, enligt Alibaba Cloud, visar att expansionen av dataskala och modellparametrar effektivt kan förbättra intelligensen hos en AI-modell.

Hangzhou-baserade Alibaba Cloud sa att Qwen 2.5-Max var förtränad på mer än 20 biljoner tokens. Modellen är tillgänglig för utvecklare och företag att komma åt på sin webbplats.

Den nya LLM-versionen återspeglar Alibabas förmåga att stjäla en del av DeepSeeks åska vid en tidpunkt då start-up fångade världens uppmärksamhet för att bygga två avancerade nya AI-modeller, DeepSeek-V3 och DeepSeek-R1, till en bråkdel av kostnaden och datorkraften som stora teknikföretag vanligtvis kräver för LLM-projekt.

Alibabas överraskande AI-modellsläpp under ormens år kommer också efter att DeepSeeks grundare och verkställande direktör Liang Wenfeng tydligen blev Kinas nya ansikte för AI när han deltog i ett möte som den kinesiska premiärministern Li Qiang var värd för i Peking denna månad.

DeepSeeks V3-modell, som släpptes den 26 december, tränades på cirka två månader till en kostnad av 5,58 miljoner dollar med betydligt färre datorresurser, och sades också ha överträffat LLM:er från större teknikföretag i benchmarktester.

Det nystartade företaget släppte senare den 20 januari sin R1-modell med öppen källkod, som de hävdar är i nivå med prestandan hos OpenAI:s o1-modell, vid en tidpunkt då kinesiska teknikföretag kämpade för att släppa konkurrenskraftiga resonemangsmodeller.

TikTok-ägaren ByteDance, en annan ledande AI-aktör i Kina, uppdaterade också sin AI-modell två dagar efter att DeepSeek lanserade sin R1-modell.