Avec DeepSeek, la chine veut faire de l’ombre à ChatGPT

DeepSeek est une entreprise chinoise spécialisée dans le développement de modèles d’intelligence artificielle (IA) de type Large Language Models (LLM). Fondée en 2023 à Hangzhou, elle est soutenue par le fonds High-Flyer Capital Management. 

Promoovoir

Le modèle le plus récent de DeepSeek, nommé DeepSeek-V3, a été lancé en décembre 2024. Ce modèle open source se distingue par ses 671 milliards de paramètres et ses performances comparables, voire supérieures, à celles de modèles propriétaires tels que GPT-4o d’OpenAI ou Claude 3.5 Sonnet d’Anthropic. 

Just Geek

DeepSeek-V3 utilise une architecture innovante appelée « mixture-of-experts » (MoE), qui n’active qu’une fraction de ses paramètres pour chaque token, optimisant ainsi l’utilisation des ressources tout en maintenant des performances élevées. Cette approche permet une génération de texte rapide, atteignant jusqu’à 60 tokens par seconde, soit trois fois plus rapide que la version précédente, DeepSeek-V2. 

Datascientest

En plus de sa puissance, DeepSeek-V3 est reconnu pour son efficacité économique. Son entraînement a coûté environ 5,5 millions de dollars, une somme nettement inférieure aux investissements généralement nécessaires pour des modèles de cette envergure. 

Datascientest

Les performances de DeepSeek-V3 sont particulièrement remarquables dans des domaines tels que les mathématiques avancées, le codage et la compréhension linguistique. Par exemple, il a obtenu un score de 90,2 % sur le benchmark MATH-500, surpassant d’autres modèles de premier plan. 

Just Geek

En rendant ses modèles open source, DeepSeek favorise la collaboration et l’innovation au sein de la communauté mondiale de l’IA, permettant aux développeurs et chercheurs d’adapter et d’améliorer le modèle selon leurs besoins spécifiques. 

Datascientest

Sources

Soyez le premier à commenter

Poster un Commentaire

Votre adresse de messagerie ne sera pas publiée.


*