Zetamind HTML · Proxima Models

Benchmark fiabilité des modèles

Classement opérationnel du plus fiable au moins fiable pour usage assistant / rédaction / raisonnement / code. Source catalogue : console.proxima.green/models, récupérée avec Firecrawl + extraction des logos depuis les assets de la console.

Mistral AI

Alibaba

Open AI

Classement LLM utilisables en production

Score = fiabilité présumée de livraison client : capacité, contexte, fraîcheur, support outils/reasoning, spécialisation, coût de l’erreur. Ce n’est pas un benchmark d’évaluation live : à confirmer par tests Proxima sur prompts métiers.

Mistral AI

Mistral Medium 3.5 128B

mistral-medium-3.5-128b

94/100Choix premium

Le plus sûr pour réponses métier longues : dense 128B, 128K contexte, outils, modèle le plus récent du catalogue.

Params: 128B
Contexte: 128K
Prix: 1.50€ in / 7.50€ out

Alibaba

Qwen3.5 397B A17B

Qwen3.5-397B-A17B

91/100Raisonnement lourd

Très fort potentiel raisonnement : MoE 397B / 17B actifs, 128K contexte, outils. Moins “prévisible” qu’un dense premium.

Params: 397B A17B
Contexte: 128K
Prix: 0.60€ / 3.60€

Open AI

GPT-OSS 120B

gpt-oss-120b

87/100Open source robuste

Gros modèle dense avec reasoning. Très bon socle entreprise, mais contexte limité à 32K vs 128K chez Mistral/Qwen.

Params: 120B
Contexte: 32K
Prix: 0.08€ / 0.40€

Meta Llama 3.3 70B Instruct

Meta-Llama-3_3-70B-Instruct

84/100Stable/mature

Famille éprouvée, dense 70B, 128K, outils. Moins frais côté connaissance, mais fiable et prévisible.

Params: 70B
Contexte: 128K
Prix: 0.67€ / 0.67€

Alibaba

Qwen3 32B

Qwen3-32B

81/100Meilleur coût/fiabilité

Très bon compromis : reasoning + outils + 128K à coût bas. Moins puissant que les gros modèles pour arbitrages sensibles.

Params: 32B
Contexte: 128K
Prix: 0.08€ / 0.23€

Google

Gemma 4 26B A4B IT

gemma-4-26b-a4b-it

77/100Instruction compact

Récent, 128K, MoE compact. Bon candidat volume, moins armé que Qwen/Mistral pour raisonnement lourd.

Params: 26B
Contexte: 128K
Prix: 0.25€ / 0.50€

Mistral AI

Mistral Small 3.2

Mistral-Small-3.2-24B-Instruct-2506

75/100Multimodal solide

Très utile si image+texte. Pour pur texte critique, Medium 3.5 reste devant.

Params: 24B
Contexte: 128K
Prix: 0.09€ / 0.28€

Alibaba

Qwen3 Coder 30B A3B

Qwen3-Coder-30B-A3B-Instruct

74/100Code spécialisé

Bon pour génération/analyse de code. Moins fiable comme assistant généraliste car spécialisé.

Params: 30B A3B
Contexte: 128K
Prix: 0.06€ / 0.22€

Alibaba

Qwen2.5 VL 72B Instruct

Qwen2.5-VL-72B-Instruct

72/100Vision documents

Solide pour compréhension image/documents. Moins récent que les modèles texte 2026.

Params: 72B
Contexte: 128K
Prix: 0.91€ / 0.91€

#10

Open AI

GPT-OSS 20B

gpt-oss-20b

68/100Économique

Reasoning à bas coût, mais taille plus faible et 32K de contexte. À réserver aux tâches simples.

Params: 20B
Contexte: 32K
Prix: 0.04€ / 0.15€

#11

Mistral AI

Mistral Nemo Instruct

Mistral-Nemo-Instruct-2407

63/100Legacy utile

Long contexte 128K et multilingue, mais génération 2024 / 12B : moins fiable sur tâches complexes.

Params: 12B
Contexte: 128K
Prix: 0.13€ / 0.13€

#12

Alibaba

Qwen3.5 9B

Qwen3.5-9B

61/100Volume rapide

Récent et 128K, mais 9B : fiable pour extraction/réécriture, pas pour décision sensible.

Params: 9B
Contexte: 128K
Prix: 0.10€ / 0.15€

#13

Mistral AI

Mistral 7B Instruct v0.3

Mistral-7B-Instruct-v0.3

54/100Minimum viable

Rapide et peu cher, mais ancien/compact/32K. À éviter pour production client exigeante.

Params: 7B
Contexte: 32K
Prix: 0.10€ / 0.10€

Lecture business

On ne vend pas “le modèle le plus puissant”. On vend le bon routage : premium pour décisions, compact pour volume, spécialisé pour code/vision/audio.

Par défaut client

Mistral Medium 3.5 pour livrables sensibles.
Qwen3 32B pour extraction, synthèse, volume.
Qwen3.5 397B pour raisonnement lourd si coût accepté.

À éviter en critique

7B/9B pour décision métier.
Modèles spécialisés hors usage : TTS, STT, embedding, guard.
Devstral 2 tant que “Bientôt”.

Architecture de routage

Router par risque : faible / moyen / élevé.
Escalade automatique vers Medium ou Qwen 397B si incertitude.
Journaliser coût, latence, refus, corrections humaines.

Modèles spécialisés — hors classement LLM

Fiables uniquement dans leur couloir. Les mélanger au classement assistant créerait une fausse lecture.

Modèle	Usage	Verdict	Params	Contexte	Prix
Qwen3 Embedding 8B	Embedding	Très bon choix embeddings multilingues haut niveau	8B	32K	0.10€ input
BGE Multilingual Gemma2	Embedding	Embedding multilingue robuste basé Gemma2	9B	8K	0.01€ input
BGE M3	Embedding	Embedding léger polyvalent, coût bas	568M	8K	0.01€ input
Whisper Large V3	STT	Plus précis pour transcription, plus cher	1.5B	—	0.00004083€/sec
Whisper Large V3 Turbo	STT	Plus rapide/moins cher, précision légèrement sacrifiée	809M	—	0.00001278€/sec
Qwen3 Guard Gen 8B	Guard	Modération principale	8B	32K	Free
Qwen3 Guard Gen 0.6B	Guard	Modération ultra légère	0.6B	32K	Free
STStable Diffusion XL Base v1.0	Image	Image generation : non comparable à LLM texte	3.5B	—	Free
NVR TTS English / Deutsch / Español / Italiano	TTS	TTS gratuit : choix par langue, pas benchmark LLM	—	—	Free
Devstral 2 123B Instruct	Code	À surveiller : coming soon, donc non fiable aujourd’hui	123B	128K	—

Source & méthode. Données modèles, prix, dates, contexte, fournisseurs et logos : scrape Firecrawl de https://console.proxima.green/models + extraction de /assets/index--xe4ER-v.js. Les logos disponibles ont été récupérés depuis les URLs/assets de la console ou les data-images intégrées. Classement = analyse opérationnelle Zetamind, pas mesure benchmark API live.