前ページまでのあらすじ
前ページまでで,具体的な質問を用いた
各AIの数学推論能力の検証が終了しました。
以下,各AIの総合成績の発表と
検証の総括を行います。
各AIの総合成績
総合成績の定義
前ページまでで,問1から問5までの質問を
選りすぐりのAIたちに回答してもらい,
それぞれの回答について正確性や説明力を
各問10点満点で評価してきました。
各AIについて各問の点数を合計すると
50点満点になるわけですが,
それを2倍して100点満点とし,
各AIの総合成績とします。
総合成績発表
それでは皆様,お待たせしました。
全参加AI(15モデル)の総合成績の発表です。
参加AI名 | 問1 | 問2 | 問3 | 問4 | 問5 | 計 | 総合 成績 |
---|---|---|---|---|---|---|---|
Gemini-T | 10 | 9.5 | 6 | 9 | 9.5 | 44.0 | 88 |
MathGPT-T | 10 | 10 | 2 | 10 | 2.5 | 34.5 | 69 |
ChatGPT-T | 3 | 4 | 10 | 10 | 7 | 34.0 | 68 |
Grok-T | 9.5 | 6 | 5 | 8 | 1 | 29.5 | 59 |
DeepSeek-T | 10 | 0.5 | 5 | 10 | 1 | 26.5 | 53 |
Copilot-T | 10 | 2 | 10 | 3 | 1 | 26.0 | 52 |
Perplexity-T | 10 | 1.5 | 5 | 9 | 0 | 25.5 | 51 |
DeepSeek-N | 10 | 7 | 5 | 2.5 | 0.5 | 25.0 | 50 |
Grok-N | 9 | 0.5 | 8 | 3 | 4 | 24.5 | 49 |
Gemini-N | 10 | 2.5 | 2 | 3 | 0.5 | 18.0 | 36 |
MathGPT-N | 2 | 6 | 5 | 2.5 | 0.5 | 16.0 | 32 |
ChatGPT-N | 8 | 0.5 | 5 | 1.5 | 0 | 15.0 | 30 |
Copilot-N | 0 | 1.5 | 2 | 5.5 | 0 | 9.0 | 18 |
Perplexity-N | 0 | 1.5 | 2 | 2 | 1 | 6.5 | 13 |
Claude-N | 1 | 0 | 1 | 4 | 0 | 6.0 | 12 |
平均(高速モデル) | 5.00 | 2.44 | 3.75 | 3.00 | 0.81 | 15.0 | 30.0 |
平均(熟考モデル) | 8.93 | 4.79 | 6.14 | 8.43 | 3.14 | 31.4 | 62.9 |
平均(全体) | 6.83 | 3.53 | 4.87 | 5.53 | 1.90 | 22.7 | 45.3 |
総括および補足
熟考機能は確かに効果あり
採点結果一覧を概観すると,
熟考機能は確かに効果があると言えそうですね。
- 総合成績の平均は,
高速モデル (-N) が30.0点,
熟考モデル (-T) が62.9点。 - 高速モデルの総合成績は全て50点以下。
熟考モデルの総合成績は全て51点以上。
熟考モデルが上位を占める結果に。 - 全ての問いで,熟考モデルの平均点が
高速モデルの平均点を上回った。
細かい順位に意味はない
運次第で成績はかなり上下する
総合成績発表直後にこういうことを言うのは
変かもしれませんが,
細かい順位に意味はないと思います。
5問しか調べず,しかも一発勝負ですからね。
統計学的には明らかにサンプル数が少なすぎです。
例えば,上から3番目の成績となった ChatGPT-T ですが,
問1で不覚をとらなければ,もっと好成績だったでしょう。
実際,数日後にもう一度同じ質問をしてみると,
(やはりちょっと苦手そうではありましたが)
8点程度の回答を示してくれました。
問1の「3点」が「8点」に変われば,
総合成績は10点アップです。
運次第でそれくらいは簡単に
変わってしまう成績だということです。
チャットAIの現在地を探ることが趣旨
もともと,この検証の趣旨は,
数学推論能力が優れたAIを
見つけることではありません。
よく使われているチャットAIの
数学推論能力の現在地を感じていただくために
行った検証です。
もっと踏み込んだことを言うなら,
数学に関してもっともらしいことを言うAIを
盲信することの危うさを明らかにするための検証でした。
現時点では,「賢いAIもたまには間違える」
というレベルではありませんからね。
この検証で明らかにしたとおり,
人間が間違えないようなことを
ぼろぼろ間違えますから。
数学教育に使えるほどの
正確性を持っているかという観点では,
と考えるのが現状では妥当でしょう。
難しい問題を解けるAIが
簡単な問題で間違えないとは限らない
AIは数学の難問も解けるようになったという評判を
よく目にするようになりました。
しかし,それらのAIが簡単な問題で間違えないかどうかは,
疑ってかかるべきでしょう。
この検証でも,比較的難しい問題に対応できたAIが,
別の問題で目を疑うようなミスをするケースは
いくつかありました。
例えば,問3や問5で希少な高得点を獲得した ChatGPT-T は,
問1と問2でまさかの不覚をとりました。
また,高速モデル (-N) でありながら
問3や問5で存在感を見せた Grok-N は,
問2では凡ミスを連発し,
問4では人間ならほとんどしないと思われる勘違いを
してしまいました。
問3や問5はそこまで難しい問題ではないため,
難問が解けるAIでも簡単な問題を
間違えることがある証拠としては弱いですが,
利用者側がその可能性を警戒する必要はあると思います。
個々のAIについて補足
Gemini-T は,確かに頭ひとつ抜けているかも
採点結果の一覧表を見ると,
Gemini-T の総合成績が突出していることが分かります。
これだけ差があると,Gemini-T は他のAIより
だいぶ優れているのかと考えてしまいますね。
もちろん,それは早計です。
既に述べた通り,わずか5問の一発勝負,
ちょっとした運で成績が大きく上下するテストですから,
採点結果だけを見て優劣を判断するのは早計です。
ただ,筆者の実感としては,もちろん現時点での話ですが,
Gemini-T の回答精度は他のAIより
多少優れている印象があります。
筆者は,正式採用した5問以外の質問も
全モデルに問いかけたりしていました。
それも含めて,Gemini-T からの回答は,
全体的には優れたものが多かったと思います。
とはいえ,AI特有の難点は持っている
ただ,それでも,Gemini-T なら
数学教育に使えるかと問われると,
やはりまだまだと答えざるをえません。
推論能力が足りないというよりは,
誤った理論・推論を堂々と主張するというAI特有の難点を,
Gemini-T も持っているからです。
これが改善されない限りは,
数学教育に適したAIとして推薦することはできません。
逆に,現状と同程度の推論能力であっても,
自説に間違いがある場合はしっかり気づいて
その説を取り下げられるようになったら,
結構頼れそうな印象を持っているのですが。
調査タイミングに恵まれなかったAIたち
調査の直後にバージョンアップ
今回の検証においては,
AIからの回答の採取時期は主に5月前半でしたが,
その後まもなくバージョンアップされたAIもありました。
バージョンアップにより性能も上がったのだとすれば,
そのAIは,当記事の検証においては
不運だったと言えるでしょう。
ここでは,回答の採取が終わってから,
AIチャットの問答画面において
目に見える形でバージョンが上がったAIについて,
参考記録として採点した結果を示します。
Gemini-N
AIたちから回答を採取したのは2025年 5 月前半でしたが,
同月後半に,Gemini-N として使っていた
「2.0 Flash」が廃止され,「2.5 Flash」が標準になったようです。
もっとも,「2.5 Flash」は少し前から
「2.5 Flash(preview)」として利用可能だったので,
このバージョンに対しても,
前述の採取時期とさほど変わらないタイミングで
問1~問5の質問を行っていました。
採点結果は次の通りです。(※各問10点満点)
問1 問2 問3 問4 問5 計 総合成績 10 9.5 2 4 6.5 32 64
${}$Gemini-N(2.0 Flash)の総合成績は36点,
${}$Gemini-T(2.5 Pro(preview))は88点でしたから,
その中間の成績ですね。
実に妥当な結果です。
これが Gemini-N として参戦していたら,
高速モデル (-N) の中ではダントツでしたね。
Claude-N
今回は苦戦した Claude-N のバージョンは
「3.7 Sonnet」でしたが,
回答採取時期を過ぎた5月下旬頃,
「Sonnet 4」にバージョンアップされました。
2週間ほど遅れているので,その分学習が進んで
若干有利になっている可能性も否定できませんが,
参考までに回答を採取し,採点してみました。
(※各問10点満点)
問1 問2 問3 問4 問5 計 総合成績 7 3 6 3 1 20 40
12点 → 40点と,だいぶ良くなっていますね。
高速モデル (-N) の中では平均以上の成績になります。
今後,力関係は容易に変動しうる
見ていただいたように,AIは,
バージョンアップ1つで性能が大きく変わるようです。
したがって,今回の検証時点における
チャットAIたちの数学推論能力が
上記の表の通りであったとしても,
その力関係は容易に変動しうると言えます。
繰り返しになりますが,この検証の主目的は,
AI間の能力比較ではありません。
現在広く使われているチャットAIの
数学推論能力の現在地を大まかに測定し,
数学教育に使える品質かを評価することです。
この記事のタイトルやタグにも
「徹底比較」のような文言は入れませんでした。
比較が目的ではないからです。
改めて,上記の点にご留意いただければと思います。
次ページの内容
当記事で行ったAIの数学推論能力に関する
検証結果を踏まえて,
チャットAIが数学教育に使える水準に達するために
越えるべきハードルについて考え,
数学教育用AIの今後を占います。