AI Models Leaderboard

24 current models ranked by benchmark score. Click a column header to re-sort.

#	Model	Provider					Context	Pricing
1	Grok 3	xAI	93.3	—	97.7	84.6	131K	Freemium
2	o1featured	OpenAI	92.3	—	94.8	78.3	200K	Paid
3	Claude Opus 4.6featured	Anthropic	92.0	94.5	97.1	79.9	200K	Paid
4	Gemini 2.5 Profeatured	Google	91.0	—	97.0	84.0	1M	Paid
5	DeepSeek R1featured	DeepSeek	90.8	—	97.3	71.5	66K	Open
6	Claude Sonnet 4.6featured	Anthropic	90.1	93.5	93.7	70.0	200K	Freemium
7	Claude 3.5 Sonnetfeatured	Anthropic	88.7	93.7	78.3	65.0	200K	Freemium
8	GPT-4ofeatured	OpenAI	88.7	90.2	76.6	53.6	128K	Freemium
9	Llama 3.1 405B	Meta	88.6	—	73.5	—	131K	Open
10	DeepSeek V3	DeepSeek	88.5	91.6	90.2	—	66K	Open
11	Grok 2	xAI	87.5	—	76.1	—	131K	Freemium
12	Llama 3.3 70B	Meta	86.0	—	77.0	—	131K	Open
13	Gemini 1.5 Profeatured	Google	85.9	—	58.5	—	1M	Freemium
14	Mistral Large 2	Mistral AI	84.0	92.0	69.7	—	131K	Paid
15	Claude 3.5 Haiku	Anthropic	83.0	88.0	—	—	200K	Freemium
16	Gemini 2.0 Flash	Google	82.0	—	—	—	1M	Free
17	GPT-4o mini	OpenAI	82.0	87.2	—	—	128K	Freemium
18	Mistral Small 3	Mistral AI	81.0	—	—	—	33K	Open
19	Gemini 1.5 Flash	Google	79.9	—	—	—	1M	Free
20	Command R+	Cohere	75.7	—	—	—	128K	Paid
21	Llama 3.2 11B Vision	Meta	73.0	—	—	—	131K	Open
22	o4-minifeatured	OpenAI	—	—	99.5	81.4	200K	Freemium
23	Codestral	Mistral AI	—	91.1	—	—	33K	Freemium
24	o3-mini	OpenAI	—	—	97.0	79.7	200K	Freemium

Benchmark scores are sourced from official provider publications and independent evaluations. Scores reflect the model version and evaluation methodology at the time of measurement — direct comparisons across providers should be treated as approximate.