Spread the love

Le géant du e-commerce s’y met aussi et lance son propre modèle d’IA.

0 𝕏

Alibaba lâche Qwen2.5-Max, plus performant que ChatGPT et DeepSeek ?

© Alejandro Luengo / Pexels 𝕏

Après la start-up DeepSeek qui a secoué le monde entier et le secteur boursier avec son modèle DeepSeek R1, c’est au tour d’Alibaba Cloud ; filiale du groupe Alibaba ; de proposer son propre chatbot. Baptisé Qwen2.5-Max, il fait partie des modèles MoE (Mixture-of-Experts). Ce sont des architectures de réseaux neuronaux qui combinent plusieurs sous-modèles « experts » spécialisés pour traiter différentes parties des données d’entrée.

Cela lui permet de revendiquer une certaine efficacité, notamment en traitement du langage naturel et l’a propulsé au premier plan des performances sur plusieurs benchmarks reconnus.

Qwen2.5-Max : l’IA chinoise qui rivalise avec OpenAI et Anthropic

Entraîné sur plus de 20.000 milliards de tokens, Qwen2.5-Max a ensuite connu une phase de « raffinage ». Un processus qui implique d’entraîner davantage le modèle sur un ensemble de données plus spécifique et de plus petite taille, afin d’améliorer ses performances pour une tâche particulière. Celle-ci a combiné apprentissage supervisé (SFT) et apprentissage par renforcement basé sur les retours humains (RLHF).

Pendant la phase de SFT, on donne au modèle des exemples pour qu’il apprenne les bases, et lors du RLHF, on l’a « coaché » en lui donnant des retours humains pour qu’il affine ses compétences.

Les évaluations comparatives placent Qwen2.5-Max en position très favorable face aux modèles de référence du secteur (voir ci-dessous). Sur MMLU-Pro, qui évalue les connaissances de niveau universitaire, le modèle rivalise avec GPT-4o (OpenAI) et Claude-3.5-Sonnet (Anthropic). Plus impressionnant encore, il surpasse DeepSeek V3 sur plusieurs métriques clés : Arena-Hard pour l’alignement avec les préférences humaines, LiveBench pour les capacités générales, et LiveCodeBench pour les compétences en programmation.

À noter que ce dernier n’est pas en open source, comme l’est DeepSeek R1 et qu’Alibaba Cloud n’a pas mesuré son modèle à ce dernier.

Alibaba lâche Qwen2.5-Max, plus performant que ChatGPT et DeepSeek ?

200% Deposit Bonus up to €3,000 180% First Deposit Bonus up to $20,000

Qwen2.5-Max surpasse ses concurrents sur Arena-Hard et LiveBench. © Qwen

Deux versions distinctes du modèle sont disponibles : une version fondamentale et une version « instruct » optimisée pour les applications conversationnelles et la programmation. Il est possible d’y accéder soit par l’écosystème cloud d’Alibaba, où il est référencé sous l’identifiant « qwen-max-2025-01-25 », via Qwen Chat (il vous sera demandé de vous inscrire pour l’utiliser) ou par son interface de programmation, plutôt destinée aux développeurs. Il est compatible avec l’API d’OpenAI, un gros plus pour les entreprises souhaitant l’intégrer à leur architecture.

À l’usage, que donne-t-il pour un usager lambda ? Nous l’avons essayé une (courte) demi-heure, voilà ce qu’il en ressort : Qwen2.5-Max est, en effet, assez efficace, répond aux questions sans erreurs, et reste assez réactif. Il n’a aucun problème à effectuer des calculs complexes, n’a aucun problème pour générer/corriger du code informatique ou raisonner sur divers sujets. Fait intéressant, répondre à des questions épineuses concernant la politique gouvernementale chinoise est dans ses cordes, contrairement à DeepSeek R1.

Alibaba lâche Qwen2.5-Max, plus performant que ChatGPT et DeepSeek ?

Un résumé plutôt neutre de la situation des Ouïghours en Chine. © Capture d’écran / Qwen Chat

Le seul gros défaut que nous avons pu relever est sa capacité à générer des images. Ses concurrents comme DALL-E 3, Stable Diffusion ou Midjourney gardent encore une bonne longueur d’avance. Après plusieurs essais ; sur lesquels le modèle a mouliné relativement longtemps ; la plus belle image que nous avons pu lui tirer est celle située ci-dessous. La marge de progression est encore immense, et le rendu est vraiment moyen.

Alibaba lâche Qwen2.5-Max, plus performant que ChatGPT et DeepSeek ?

Le résultat se passe de commentaire. © Capture d’écran / Qwen Chat

Le but d’Alibaba Cloud, comme elle l’explique sur son blog, est de « rendre nos modèles plus intelligents et capables de raisonner comme des humains, voire mieux, grâce à un apprentissage par renforcement à grande échelle. Nous voulons qu’ils explorent des domaines de connaissances encore inconnus ». Qwen2.5-Max devrait donc encore progresser dans les prochains mois.

  • Alibaba a lancé Qwen2.5-Max, un modèle d’IA avancé basé sur une architecture MoE, doté de performances optimales en traitement du langage et programmation.
  • Le modèle dépasse ses principaux concurrents sur plusieurs benchmarks, mais reste en retrait pour la génération d’images.
  • Il est gratuit et accessible via le cloud, API ou directement via le site Qwen Chat.

[ ]

Teilor Stone

By Teilor Stone

Teilor Stone has been a reporter on the news desk since 2013. Before that she wrote about young adolescence and family dynamics for Styles and was the legal affairs correspondent for the Metro desk. Before joining Thesaxon , Teilor Stone worked as a staff writer at the Village Voice and a freelancer for Newsday, The Wall Street Journal, GQ and Mirabella. To get in touch, contact me through my teilor@nizhtimes.com 1-800-268-7116