DeepSeek est une entreprise chinoise spécialisée dans le développement de modèles d’intelligence artificielle (IA) de type Large Language Models (LLM). Fondée en 2023 à Hangzhou, elle est soutenue par le fonds High-Flyer Capital Management.
Le modèle le plus récent de DeepSeek, nommé DeepSeek-V3, a été lancé en décembre 2024. Ce modèle open source se distingue par ses 671 milliards de paramètres et ses performances comparables, voire supérieures, à celles de modèles propriétaires tels que GPT-4o d’OpenAI ou Claude 3.5 Sonnet d’Anthropic.
DeepSeek-V3 utilise une architecture innovante appelée « mixture-of-experts » (MoE), qui n’active qu’une fraction de ses paramètres pour chaque token, optimisant ainsi l’utilisation des ressources tout en maintenant des performances élevées. Cette approche permet une génération de texte rapide, atteignant jusqu’à 60 tokens par seconde, soit trois fois plus rapide que la version précédente, DeepSeek-V2.
En plus de sa puissance, DeepSeek-V3 est reconnu pour son efficacité économique. Son entraînement a coûté environ 5,5 millions de dollars, une somme nettement inférieure aux investissements généralement nécessaires pour des modèles de cette envergure.
Les performances de DeepSeek-V3 sont particulièrement remarquables dans des domaines tels que les mathématiques avancées, le codage et la compréhension linguistique. Par exemple, il a obtenu un score de 90,2 % sur le benchmark MATH-500, surpassant d’autres modèles de premier plan.
En rendant ses modèles open source, DeepSeek favorise la collaboration et l’innovation au sein de la communauté mondiale de l’IA, permettant aux développeurs et chercheurs d’adapter et d’améliorer le modèle selon leurs besoins spécifiques.
Sources
Poster un Commentaire