【2025年05月】チャットAIの数学推論能力をテストしてみた【珍問答集】

前ページまでのあらすじ

前ページまでで,具体的な質問を用いた
各AIの数学推論能力の検証が終了しました。

以下,各AIの総合成績の発表と
検証の総括を行います。

各AIの総合成績

総合成績の定義

前ページまでで,問1から問5までの質問を
りすぐりのAIたちに回答してもらい,
それぞれの回答について正確性や説明力を
各問10点満点で評価してきました。

各AIについて各問の点数を合計すると
50点満点になるわけですが,
それを2倍して100点満点とし,
各AIの総合成績とします。ℹ️

総合成績発表

それでは皆様,お待たせしました。
全参加AI(15モデル)の総合成績の発表です。

参加AI名問1問2問3問4問5総合
成績
Gemini-T109.5699.544.088
MathGPT-T10102102.534.569
ChatGPT-T341010734.068
Grok-T9.5658129.559
DeepSeek-T100.5510126.553
Copilot-T102103126.052
Perplexity-T101.559025.551
DeepSeek-N10752.50.525.050
Grok-N90.583424.549
Gemini-N102.5230.518.036
MathGPT-N2652.50.516.032
ChatGPT-N80.551.5015.030
Copilot-N01.525.509.018
Perplexity-N01.52216.513
Claude-N101406.012
平均(高速モデル)5.002.443.753.000.8115.030.0
平均(熟考モデル)8.934.796.148.433.1431.462.9
平均(全体)6.833.534.875.531.9022.745.3
参加AI名は当サイト独自の呼称です。

上記の参加AI名は,
当サイトが便宜的に使用している呼称です。
以下の点にご注意ください。ℹ️️

  • 末尾が「-N」となっているAIモデルは,熟考機能をオフにしたもの。
  • 末尾が「-T」となっているAIモデルは,熟考機能をオンにしたもの。
  • 例えば「Gemini-T」は,一般的に「Gemini」と呼ばれているAIの
    熟考機能をオンにしたものです。

総括および補足

熟考機能は確かに効果あり

採点結果一覧を概観すると,
熟考機能は確かに効果があると言えそうですね。

  • 総合成績の平均は,
    高速モデル (-N) が30.0点,
    熟考モデル (-T) が62.9点。
  • 高速モデルの総合成績は全て50点以下。
    熟考モデルの総合成績は全て51点以上。
    熟考モデルが上位を占める結果に。
  • 全ての問いで,熟考モデルの平均点が
    高速モデルの平均点を上回った。

細かい順位に意味はない

運次第で成績はかなり上下する

総合成績発表直後にこういうことを言うのは
変かもしれませんが,
細かい順位に意味はないと思います。

5問しか調べず,しかも一発勝負ですからね。
統計学的には明らかにサンプル数が少なすぎです。

例えば,上から3番目の成績となった ChatGPT-T ですが,
問1で不覚をとらなければ,もっと好成績だったでしょう。

実際,数日後にもう一度同じ質問をしてみると,
(やはりちょっと苦手そうではありましたが)
8点程度の回答を示してくれました。

問1の「3点」が「8点」に変われば,
総合成績は10点アップです。
運次第でそれくらいは簡単に
変わってしまう成績だということです。

チャットAIの現在地を探ることが趣旨

もともと,この検証の趣旨は,
数学推論能力が優れたAIを
見つけることではありません。

よく使われているチャットAIの
数学推論能力の現在地を感じていただくために
行った検証です。

もっと踏み込んだことを言うなら,
数学に関してもっともらしいことを言うAIを
盲信することの危うさを明らかにするための検証でした。

現時点では,「賢いAIもたまには間違える」
というレベルではありませんからね。

この検証で明らかにしたとおり,
人間が間違えないようなことを
ぼろぼろ間違えますから。

数学教育に使えるほどの
正確性を持っているかという観点では,

広く使われているチャットAIの
数学推論能力はまだまだ全然である

と考えるのが現状では妥当でしょう。⚠️

難しい問題を解けるAIが
簡単な問題で間違えないとは限らない

AIは数学の難問も解けるようになったという評判を
よく目にするようになりました。

しかし,それらのAIが簡単な問題で間違えないかどうかは,
疑ってかかるべきでしょう。

この検証でも,比較的難しい問題に対応できたAIが,
別の問題で目を疑うようなミスをするケースは
いくつかありました。

例えば,問3や問5で希少な高得点を獲得した ChatGPT-T は,
問1と問2でまさかの不覚をとりました。

また,高速モデル (-N) でありながら
問3や問5で存在感を見せた Grok-N は,
問2では凡ミスを連発し,
問4では人間ならほとんどしないと思われる勘違いを
してしまいました。

問3や問5はそこまで難しい問題ではないため,
難問が解けるAIでも簡単な問題を
間違えることがある証拠としては弱いですが,
利用者側がその可能性を警戒する必要はあると思います。

個々のAIについて補足

Gemini-T は,確かに頭ひとつ抜けているかも

採点結果の一覧表を見ると,
Gemini-T の総合成績が突出していることが分かります。

これだけ差があると,Gemini-T は他のAIより
だいぶ優れているのかと考えてしまいますね。

もちろん,それは早計です。

既に述べた通り,わずか5問の一発勝負,
ちょっとした運で成績が大きく上下するテストですから,
採点結果だけを見て優劣を判断するのは早計です。

ただ,筆者の実感としては,もちろん現時点での話ですが,
Gemini-T の回答精度は他のAIより
多少優れている印象があります。

筆者は,正式採用した5問以外の質問も
全モデルに問いかけたりしていました。

それも含めて,Gemini-T からの回答は,
全体的には優れたものが多かったと思います。ℹ️️

とはいえ,AI特有の難点は持っている

ただ,それでも,Gemini-T なら
数学教育に使えるかと問われると,
やはりまだまだと答えざるをえません。

推論能力が足りないというよりは,
誤った理論・推論を堂々と主張するというAI特有の難点を,
Gemini-T も持っているからです。

これが改善されない限りは,
数学教育に適したAIとして推薦することはできません。

逆に,現状と同程度の推論能力であっても,
自説に間違いがある場合はしっかり気づいて
その説を取り下げられるようになったら,
結構頼れそうな印象を持っているのですが。

調査タイミングに恵まれなかったAIたち

調査の直後にバージョンアップ

今回の検証においては,
AIからの回答の採取時期は主に5月前半でしたが,
その後まもなくバージョンアップされたAIもありました。

バージョンアップにより性能も上がったのだとすれば,
そのAIは,当記事の検証においては
不運だったと言えるでしょう。

ここでは,回答の採取が終わってから,
AIチャットの問答画面において
目に見える形でバージョンが上がったAIについて,
参考記録として採点した結果を示します。ℹ️

Gemini-N

AIたちから回答を採取したのは2025年 5 月前半でしたが,
同月後半に,Gemini-N として使っていた
「2.0 Flash」が廃止され,「2.5 Flash」が標準になったようです。

もっとも,「2.5 Flash」は少し前から
「2.5 Flash(preview)」として利用可能だったので,
このバージョンに対しても,
前述の採取時期とさほど変わらないタイミングで
問1~問5の質問を行っていました。

採点結果は次の通りです。(※各問10点満点)

問1問2問3問4問5総合成績
109.5246.53264

${}$Gemini-N(2.0 Flash)の総合成績は36点,
${}$Gemini-T(2.5 Pro(preview))は88点でしたから,
その中間の成績ですね。

実に妥当な結果です。

これが Gemini-N として参戦していたら,
高速モデル (-N) の中ではダントツでしたね。

Claude-N

今回は苦戦した Claude-N のバージョンは
「3.7 Sonnet」でしたが,
回答採取時期を過ぎた5月下旬頃,
「Sonnet 4」にバージョンアップされました。⚠️

2週間ほど遅れているので,その分学習が進んで
若干有利になっている可能性も否定できませんが,
参考までに回答を採取し,採点してみました。
(※各問10点満点)

問1問2問3問4問5総合成績
736312040

12点 → 40点と,だいぶ良くなっていますね。

高速モデル (-N) の中では平均以上の成績になります。

Claude$\;$には上位モデルがあるらしい
Claude には,「Sonnet」より数学的推論に向いた
「Opus」というモデルがあるようですね。

1日数回でも無料で使える状態なら,
ぜひ「 Claude-T 」としてご参加いただきたかったですが,
実現できず残念でした。

今後,力関係は容易に変動しうる

見ていただいたように,AIは,
バージョンアップ1つで性能が大きく変わるようです。

したがって,今回の検証時点における
チャットAIたちの数学推論能力が
上記の表の通りであったとしても,
その力関係は容易に変動しうると言えます。

繰り返しになりますが,この検証の主目的は,
AI間の能力比較ではありません。

現在広く使われているチャットAIの
数学推論能力の現在地を大まかに測定し,
数学教育に使える品質かを評価することです。

この記事のタイトルやタグにも
「徹底比較」のような文言は入れませんでした。

比較が目的ではないからです。

改めて,上記の点にご留意いただければと思います。

次ページの内容

当記事で行ったAIの数学推論能力に関する
検証結果を踏まえて,
チャットAIが数学教育に使える水準に達するために
越えるべきハードルについて考え,
数学教育用AIの今後を占います。

PAGE TOP