Zetamind HTML · Proxima Models

Benchmark fiabilité des modèles

Classement opérationnel du plus fiable au moins fiable pour usage assistant / rédaction / raisonnement / code. Source catalogue : console.proxima.green/models, récupérée avec Firecrawl + extraction des logos depuis les assets de la console.

Mistral AIMistral AI
AlibabaAlibaba
Open AIOpen AI
MetaMeta
GoogleGoogle
OpenAIOpenAI
BAAIBAAI
NVIDIANVIDIA
Stability AI

Classement LLM utilisables en production

Score = fiabilité présumée de livraison client : capacité, contexte, fraîcheur, support outils/reasoning, spécialisation, coût de l’erreur. Ce n’est pas un benchmark d’évaluation live : à confirmer par tests Proxima sur prompts métiers.

#1
Mistral AIMistral AI

Mistral Medium 3.5 128B

mistral-medium-3.5-128b

94/100Choix premium

Le plus sûr pour réponses métier longues : dense 128B, 128K contexte, outils, modèle le plus récent du catalogue.

Params
128B
Contexte
128K
Prix
1.50€ in / 7.50€ out
Outils · Managed · On-Prem
#2
AlibabaAlibaba

Qwen3.5 397B A17B

Qwen3.5-397B-A17B

91/100Raisonnement lourd

Très fort potentiel raisonnement : MoE 397B / 17B actifs, 128K contexte, outils. Moins “prévisible” qu’un dense premium.

Params
397B A17B
Contexte
128K
Prix
0.60€ / 3.60€
Reasoning · Outils
#3
Open AIOpen AI

GPT-OSS 120B

gpt-oss-120b

87/100Open source robuste

Gros modèle dense avec reasoning. Très bon socle entreprise, mais contexte limité à 32K vs 128K chez Mistral/Qwen.

Params
120B
Contexte
32K
Prix
0.08€ / 0.40€
Reasoning
#4
MetaMeta

Meta Llama 3.3 70B Instruct

Meta-Llama-3_3-70B-Instruct

84/100Stable/mature

Famille éprouvée, dense 70B, 128K, outils. Moins frais côté connaissance, mais fiable et prévisible.

Params
70B
Contexte
128K
Prix
0.67€ / 0.67€
Outils
#5
AlibabaAlibaba

Qwen3 32B

Qwen3-32B

81/100Meilleur coût/fiabilité

Très bon compromis : reasoning + outils + 128K à coût bas. Moins puissant que les gros modèles pour arbitrages sensibles.

Params
32B
Contexte
128K
Prix
0.08€ / 0.23€
Reasoning · Outils
#6
GoogleGoogle

Gemma 4 26B A4B IT

gemma-4-26b-a4b-it

77/100Instruction compact

Récent, 128K, MoE compact. Bon candidat volume, moins armé que Qwen/Mistral pour raisonnement lourd.

Params
26B
Contexte
128K
Prix
0.25€ / 0.50€
Open Source
#7
Mistral AIMistral AI

Mistral Small 3.2

Mistral-Small-3.2-24B-Instruct-2506

75/100Multimodal solide

Très utile si image+texte. Pour pur texte critique, Medium 3.5 reste devant.

Params
24B
Contexte
128K
Prix
0.09€ / 0.28€
Vision · Outils
#8
AlibabaAlibaba

Qwen3 Coder 30B A3B

Qwen3-Coder-30B-A3B-Instruct

74/100Code spécialisé

Bon pour génération/analyse de code. Moins fiable comme assistant généraliste car spécialisé.

Params
30B A3B
Contexte
128K
Prix
0.06€ / 0.22€
Code · Outils
#9
AlibabaAlibaba

Qwen2.5 VL 72B Instruct

Qwen2.5-VL-72B-Instruct

72/100Vision documents

Solide pour compréhension image/documents. Moins récent que les modèles texte 2026.

Params
72B
Contexte
128K
Prix
0.91€ / 0.91€
Vision
#10
Open AIOpen AI

GPT-OSS 20B

gpt-oss-20b

68/100Économique

Reasoning à bas coût, mais taille plus faible et 32K de contexte. À réserver aux tâches simples.

Params
20B
Contexte
32K
Prix
0.04€ / 0.15€
Reasoning
#11
Mistral AIMistral AI

Mistral Nemo Instruct

Mistral-Nemo-Instruct-2407

63/100Legacy utile

Long contexte 128K et multilingue, mais génération 2024 / 12B : moins fiable sur tâches complexes.

Params
12B
Contexte
128K
Prix
0.13€ / 0.13€
Open Source
#12
AlibabaAlibaba

Qwen3.5 9B

Qwen3.5-9B

61/100Volume rapide

Récent et 128K, mais 9B : fiable pour extraction/réécriture, pas pour décision sensible.

Params
9B
Contexte
128K
Prix
0.10€ / 0.15€
Compact
#13
Mistral AIMistral AI

Mistral 7B Instruct v0.3

Mistral-7B-Instruct-v0.3

54/100Minimum viable

Rapide et peu cher, mais ancien/compact/32K. À éviter pour production client exigeante.

Params
7B
Contexte
32K
Prix
0.10€ / 0.10€
Compact

Lecture business

On ne vend pas “le modèle le plus puissant”. On vend le bon routage : premium pour décisions, compact pour volume, spécialisé pour code/vision/audio.

Par défaut client

  • Mistral Medium 3.5 pour livrables sensibles.
  • Qwen3 32B pour extraction, synthèse, volume.
  • Qwen3.5 397B pour raisonnement lourd si coût accepté.

À éviter en critique

  • 7B/9B pour décision métier.
  • Modèles spécialisés hors usage : TTS, STT, embedding, guard.
  • Devstral 2 tant que “Bientôt”.

Architecture de routage

  • Router par risque : faible / moyen / élevé.
  • Escalade automatique vers Medium ou Qwen 397B si incertitude.
  • Journaliser coût, latence, refus, corrections humaines.

Modèles spécialisés — hors classement LLM

Fiables uniquement dans leur couloir. Les mélanger au classement assistant créerait une fausse lecture.

ModèleUsageVerdictParamsContextePrix
AlibabaQwen3 Embedding 8B
EmbeddingTrès bon choix embeddings multilingues haut niveau8B32K0.10€ input
BAAIBGE Multilingual Gemma2
EmbeddingEmbedding multilingue robuste basé Gemma29B8K0.01€ input
BAAIBGE M3
EmbeddingEmbedding léger polyvalent, coût bas568M8K0.01€ input
OpenAIWhisper Large V3
STTPlus précis pour transcription, plus cher1.5B0.00004083€/sec
OpenAIWhisper Large V3 Turbo
STTPlus rapide/moins cher, précision légèrement sacrifiée809M0.00001278€/sec
AlibabaQwen3 Guard Gen 8B
GuardModération principale8B32KFree
AlibabaQwen3 Guard Gen 0.6B
GuardModération ultra légère0.6B32KFree
Stable Diffusion XL Base v1.0
ImageImage generation : non comparable à LLM texte3.5BFree
NVIDIANVR TTS English / Deutsch / Español / Italiano
TTSTTS gratuit : choix par langue, pas benchmark LLMFree
Mistral AIDevstral 2 123B Instruct
CodeÀ surveiller : coming soon, donc non fiable aujourd’hui123B128K
Source & méthode. Données modèles, prix, dates, contexte, fournisseurs et logos : scrape Firecrawl de https://console.proxima.green/models + extraction de /assets/index--xe4ER-v.js. Les logos disponibles ont été récupérés depuis les URLs/assets de la console ou les data-images intégrées. Classement = analyse opérationnelle Zetamind, pas mesure benchmark API live.