【2025年05月】チャットＡＩの数学推論能力をテストしてみた【珍問答集】

ページ内目次

1 前ページまでのあらすじ
2 各ＡＩの総合成績
3 総括および補足
4 次ページの内容

前ページまでのあらすじ

前ページまでで，具体的な質問を用いた
各ＡＩの数学推論能力の検証が終了しました。

以下，各ＡＩの総合成績の発表と
検証の総括を行います。

各ＡＩの総合成績

総合成績の定義

前ページまでで，問１から問５までの質問を
選えりすぐりのＡＩたちに回答してもらい，
それぞれの回答について正確性や説明力を
各問１０点満点で評価してきました。

各ＡＩについて各問の点数を合計すると
５０点満点になるわけですが，
それを２倍して１００点満点とし，
各ＡＩの総合成績とします。ℹ️

総合成績発表

それでは皆様，お待たせしました。
全参加ＡＩ（１５モデル）の総合成績の発表です。

参加ＡＩ名	問１	問２	問３	問４	問５	計	総合成績
Gemini-T	10	9.5	6	9	9.5	44.0	88
MathGPT-T	10	10	2	10	2.5	34.5	69
ChatGPT-T	3	4	10	10	7	34.0	68
Grok-T	9.5	6	5	8	1	29.5	59
DeepSeek-T	10	0.5	5	10	1	26.5	53
Copilot-T	10	2	10	3	1	26.0	52
Perplexity-T	10	1.5	5	9	0	25.5	51
DeepSeek-N	10	7	5	2.5	0.5	25.0	50
Grok-N	9	0.5	8	3	4	24.5	49
Gemini-N	10	2.5	2	3	0.5	18.0	36
MathGPT-N	2	6	5	2.5	0.5	16.0	32
ChatGPT-N	8	0.5	5	1.5	0	15.0	30
Copilot-N	0	1.5	2	5.5	0	9.0	18
Perplexity-N	0	1.5	2	2	1	6.5	13
Claude-N	1	0	1	4	0	6.0	12
平均（高速モデル）	5.00	2.44	3.75	3.00	0.81	15.0	30.0
平均（熟考モデル）	8.93	4.79	6.14	8.43	3.14	31.4	62.9
平均（全体）	6.83	3.53	4.87	5.53	1.90	22.7	45.3

参加ＡＩ名は当サイト独自の呼称です。

上記の参加ＡＩ名は，
当サイトが便宜的に使用している呼称です。
以下の点にご注意ください。ℹ️️

末尾が「-N」となっているＡＩモデルは，熟考機能をオフにしたもの。
末尾が「-T」となっているＡＩモデルは，熟考機能をオンにしたもの。
例えば「Gemini-T」は，一般的に「Gemini」と呼ばれているＡＩの
熟考機能をオンにしたものです。

総括および補足

熟考機能は確かに効果あり

採点結果一覧を概観すると，
熟考機能は確かに効果があると言えそうですね。

総合成績の平均は，
高速モデル (-N) が３０.０点，
熟考モデル (-T) が６２.９点。
高速モデルの総合成績は全て５０点以下。
熟考モデルの総合成績は全て５１点以上。
熟考モデルが上位を占める結果に。
全ての問いで，熟考モデルの平均点が
高速モデルの平均点を上回った。

細かい順位に意味はない

運次第で成績はかなり上下する

総合成績発表直後にこういうことを言うのは
変かもしれませんが，
細かい順位に意味はないと思います。

５問しか調べず，しかも一発勝負ですからね。
統計学的には明らかにサンプル数が少なすぎです。

例えば，上から３番目の成績となった ChatGPT-T ですが，
問１で不覚をとらなければ，もっと好成績だったでしょう。

実際，数日後にもう一度同じ質問をしてみると，
（やはりちょっと苦手そうではありましたが）
８点程度の回答を示してくれました。

問１の「３点」が「８点」に変われば，
総合成績は１０点アップです。
運次第でそれくらいは簡単に
変わってしまう成績だということです。

チャットＡＩの現在地を探ることが趣旨

もともと，この検証の趣旨は，
数学推論能力が優れたＡＩを
見つけることではありません。

よく使われているチャットＡＩの
数学推論能力の現在地を感じていただくために
行った検証です。

もっと踏み込んだことを言うなら，
数学に関してもっともらしいことを言うＡＩを
盲信することの危うさを明らかにするための検証でした。

現時点では，「賢いＡＩもたまには間違える」
というレベルではありませんからね。

この検証で明らかにしたとおり，
人間が間違えないようなことを
ぼろぼろ間違えますから。

数学教育に使えるほどの
正確性を持っているかという観点では，

広く使われているチャットＡＩの
数学推論能力はまだまだ全然である

と考えるのが現状では妥当でしょう。⚠️

難しい問題を解けるＡＩが
簡単な問題で間違えないとは限らない

ＡＩは数学の難問も解けるようになったという評判を
よく目にするようになりました。

しかし，それらのＡＩが簡単な問題で間違えないかどうかは，
疑ってかかるべきでしょう。

この検証でも，比較的難しい問題に対応できたＡＩが，
別の問題で目を疑うようなミスをするケースは
いくつかありました。

例えば，問３や問５で希少な高得点を獲得した ChatGPT-T は，
問１と問２でまさかの不覚をとりました。

また，高速モデル (-N) でありながら
問３や問５で存在感を見せた Grok-N は，
問２では凡ミスを連発し，
問４では人間ならほとんどしないと思われる勘違いを
してしまいました。

問３や問５はそこまで難しい問題ではないため，
難問が解けるＡＩでも簡単な問題を
間違えることがある証拠としては弱いですが，
利用者側がその可能性を警戒する必要はあると思います。

個々のＡＩについて補足

Gemini-T は，確かに頭ひとつ抜けているかも

採点結果の一覧表を見ると，
Gemini-T の総合成績が突出していることが分かります。

これだけ差があると，Gemini-T は他のＡＩより
だいぶ優れているのかと考えてしまいますね。

もちろん，それは早計です。

既に述べた通り，わずか５問の一発勝負，
ちょっとした運で成績が大きく上下するテストですから，
採点結果だけを見て優劣を判断するのは早計です。

ただ，筆者の実感としては，もちろん現時点での話ですが，
Gemini-T の回答精度は他のＡＩより
多少優れている印象があります。

筆者は，正式採用した５問以外の質問も
全モデルに問いかけたりしていました。

それも含めて，Gemini-T からの回答は，
全体的には優れたものが多かったと思います。ℹ️️

とはいえ，ＡＩ特有の難点は持っている

ただ，それでも，Gemini-T なら
数学教育に使えるかと問われると，
やはりまだまだと答えざるをえません。

推論能力が足りないというよりは，
誤った理論・推論を堂々と主張するというＡＩ特有の難点を，
Gemini-T も持っているからです。

これが改善されない限りは，
数学教育に適したＡＩとして推薦することはできません。

逆に，現状と同程度の推論能力であっても，
自説に間違いがある場合はしっかり気づいて
その説を取り下げられるようになったら，
結構頼れそうな印象を持っているのですが。

調査タイミングに恵まれなかったＡＩたち

調査の直後にバージョンアップ

今回の検証においては，
ＡＩからの回答の採取時期は主に５月前半でしたが，
その後まもなくバージョンアップされたＡＩもありました。

バージョンアップにより性能も上がったのだとすれば，
そのＡＩは，当記事の検証においては
不運だったと言えるでしょう。

ここでは，回答の採取が終わってから，
ＡＩチャットの問答画面において
目に見える形でバージョンが上がったＡＩについて，
参考記録として採点した結果を示します。ℹ️

Gemini-N

ＡＩたちから回答を採取したのは2025年 5 月前半でしたが，
同月後半に，Gemini-N として使っていた
「2.0 Flash」が廃止され，「2.5 Flash」が標準になったようです。

もっとも，「2.5 Flash」は少し前から
「2.5 Flash(preview)」として利用可能だったので，
このバージョンに対しても，
前述の採取時期とさほど変わらないタイミングで
問１～問５の質問を行っていました。

採点結果は次の通りです。（※各問１０点満点）

問１	問２	問３	問４	問５	計	総合成績
10	9.5	2	4	6.5	32	64

${}$Gemini-N（2.0 Flash）の総合成績は３６点，
${}$Gemini-T（2.5 Pro(preview)）は８８点でしたから，
その中間の成績ですね。

実に妥当な結果です。

これが Gemini-N として参戦していたら，
高速モデル (-N) の中ではダントツでしたね。

Claude-N

今回は苦戦した Claude-N のバージョンは
「3.7 Sonnet」でしたが，
回答採取時期を過ぎた５月下旬頃，
「Sonnet 4」にバージョンアップされました。⚠️

２週間ほど遅れているので，その分学習が進んで
若干有利になっている可能性も否定できませんが，
参考までに回答を採取し，採点してみました。
（※各問１０点満点）

問１	問２	問３	問４	問５	計	総合成績
7	3	6	3	1	20	40

１２点 → ４０点と，だいぶ良くなっていますね。

高速モデル (-N) の中では平均以上の成績になります。

Claude$\;$には上位モデルがあるらしい

Claude には，「Sonnet」より数学的推論に向いた
「Opus」というモデルがあるようですね。

１日数回でも無料で使える状態なら，
ぜひ「 Claude-T 」としてご参加いただきたかったですが，
実現できず残念でした。

今後，力関係は容易に変動しうる

見ていただいたように，ＡＩは，
バージョンアップ１つで性能が大きく変わるようです。

したがって，今回の検証時点における
チャットＡＩたちの数学推論能力が
上記の表の通りであったとしても，
その力関係は容易に変動しうると言えます。

繰り返しになりますが，この検証の主目的は，
ＡＩ間の能力比較ではありません。

現在広く使われているチャットＡＩの
数学推論能力の現在地を大まかに測定し，
数学教育に使える品質かを評価することです。

この記事のタイトルやタグにも
「徹底比較」のような文言は入れませんでした。

比較が目的ではないからです。

改めて，上記の点にご留意いただければと思います。

次ページの内容

当記事で行ったＡＩの数学推論能力に関する
検証結果を踏まえて，
チャットＡＩが数学教育に使える水準に達するために
越えるべきハードルについて考え，
数学教育用ＡＩの今後を占います。