前ページまでのあらすじ
前ページまでで,具体的な質問を用いた
各AIの数学推論能力の検証が終了しました。
以下,各AIの総合成績の発表と
検証の総括を行います。
各AIの総合成績
総合成績の定義
前ページまでで,問1から問5までの質問を
選りすぐりのAIたちに回答してもらい,
それぞれの回答について正確性や説明力を
各問10点満点で評価してきました。
各AIについて各問の点数を合計すると
50点満点になるわけですが,
それを2倍して100点満点とし,
各AIの総合成績とします。
総合成績発表
それでは皆様,お待たせしました。
全参加AI(15モデル)の総合成績の発表です。
| 参加AI名 | 問1 | 問2 | 問3 | 問4 | 問5 | 計 | 総合 成績 |
|---|---|---|---|---|---|---|---|
| Gemini-T | 10 | 9.5 | 6 | 9 | 9.5 | 44.0 | 88 |
| MathGPT-T | 10 | 10 | 2 | 10 | 2.5 | 34.5 | 69 |
| ChatGPT-T | 3 | 4 | 10 | 10 | 7 | 34.0 | 68 |
| Grok-T | 9.5 | 6 | 5 | 8 | 1 | 29.5 | 59 |
| DeepSeek-T | 10 | 0.5 | 5 | 10 | 1 | 26.5 | 53 |
| Copilot-T | 10 | 2 | 10 | 3 | 1 | 26.0 | 52 |
| Perplexity-T | 10 | 1.5 | 5 | 9 | 0 | 25.5 | 51 |
| DeepSeek-N | 10 | 7 | 5 | 2.5 | 0.5 | 25.0 | 50 |
| Grok-N | 9 | 0.5 | 8 | 3 | 4 | 24.5 | 49 |
| Gemini-N | 10 | 2.5 | 2 | 3 | 0.5 | 18.0 | 36 |
| MathGPT-N | 2 | 6 | 5 | 2.5 | 0.5 | 16.0 | 32 |
| ChatGPT-N | 8 | 0.5 | 5 | 1.5 | 0 | 15.0 | 30 |
| Copilot-N | 0 | 1.5 | 2 | 5.5 | 0 | 9.0 | 18 |
| Perplexity-N | 0 | 1.5 | 2 | 2 | 1 | 6.5 | 13 |
| Claude-N | 1 | 0 | 1 | 4 | 0 | 6.0 | 12 |
| 平均(高速モデル) | 5.00 | 2.44 | 3.75 | 3.00 | 0.81 | 15.0 | 30.0 |
| 平均(熟考モデル) | 8.93 | 4.79 | 6.14 | 8.43 | 3.14 | 31.4 | 62.9 |
| 平均(全体) | 6.83 | 3.53 | 4.87 | 5.53 | 1.90 | 22.7 | 45.3 |
検証の総評
熟考機能は確かに効果あり
採点結果一覧を概観すると,
熟考機能は確かに効果があると言えそうですね。
- 総合成績の平均は,
高速モデル (-N) が30.0点,
熟考モデル (-T) が62.9点。 - 高速モデルの総合成績は全て50点以下。
熟考モデルの総合成績は全て51点以上。
熟考モデルが上位を占める結果に。 - 全ての問いで,熟考モデルの平均点が
高速モデルの平均点を上回った。
細かい順位に意味はない
運次第で成績はかなり上下する
総合成績発表直後にこういうことを言うのは
変かもしれませんが,
細かい順位に意味はないと思います。
5問しか調べず,しかも一発勝負ですからね。
統計学的には明らかにサンプル数が少なすぎです。
例えば,上から3番目の成績となった ChatGPT-T ですが,
問1で不覚をとらなければ,もっと好成績だったでしょう。
実際,数日後にもう一度同じ質問をしてみると,
(やはりちょっと苦手そうではありましたが)
8点程度の回答を示してくれました。
問1の「3点」が「8点」に変われば,
総合成績は10点アップです。
運次第でそれくらいは簡単に
変わってしまう成績だということです。
チャットAIの現在地を探ることが趣旨
もともと,この検証の趣旨は,
数学推論能力が優れたAIを
見つけることではありません。
よく使われているチャットAIの
数学推論能力の現在地を感じていただくために
行った検証です。
もっと踏み込んだことを言うなら,
数学に関してもっともらしいことを言うAIを
盲信することの危うさを明らかにするための検証でした。
現時点では,「賢いAIもたまには間違える」
というレベルではありませんからね。
この検証で明らかにしたとおり,
人間が間違えないようなことを
ぼろぼろ間違えますから。
数学教育に使えるほどの
正確性を持っているかという観点では,
と考えるのが現状では妥当でしょう。
難しい問題を解けるAIが
簡単な問題で間違えないとは限らない
AIは数学の難問も解けるようになったという評判を
よく目にするようになりました。
しかし,それらのAIが簡単な問題で間違えないかどうかは,
疑ってかかるべきでしょう。
この検証でも,比較的難しい問題に対応できたAIが,
別の問題で目を疑うようなミスをするケースは
いくつかありました。
例えば,問3や問5で希少な高得点を獲得した ChatGPT-T は,
問1と問2でまさかの不覚をとりました。
また,高速モデル (-N) でありながら
問3や問5で存在感を見せた Grok-N は,
問2では凡ミスを連発し,
問4では人間ならほとんどしないと思われる勘違いを
してしまいました。
問3や問5はそこまで難しい問題ではないため,
難問が解けるAIでも簡単な問題を
間違えることがある証拠としては弱いですが,
利用者側がその可能性を警戒する必要はあると思います。
個々のAIについて補足
ここは検証全体の総括のページではありますが,
個々のAIについて何点か補足しておきます。
Gemini-T は,確かに頭ひとつ抜けているかも
この検証結果だけで判断するわけではなく
採点結果の一覧表を見ると,
Gemini-T の総合成績が突出していることが分かります。
これだけ差があると,Gemini-T は他のAIより
だいぶ優れているのかと考えてしまいますね。
もちろん,それは早計です。
既に述べた通り,わずか5問の一発勝負,
ちょっとした運で成績が大きく上下するテストですから,
採点結果だけを見て優劣を判断するのは早計です。
ただ,筆者の実感としては,もちろん現時点での話ですが,
Gemini-T の回答精度は他のAIより
多少優れている印象があります。
筆者は,正式採用した5問以外の質問も
全モデルに問いかけたりしていました。
それも含めて,Gemini-T からの回答は,
全体的には優れたものが多かったと思います。
とはいえ,AI特有の難点は持っている
ただ,それでも,Gemini-T なら
数学教育に使えるかと問われると,
やはりまだまだと答えざるをえません。
推論能力が足りないというよりは,
誤った理論・推論を堂々と主張するというAI特有の難点を,
Gemini-T も持っているからです。
これが改善されない限りは,
数学教育に適したAIとして推薦することはできません。
逆に,現状と同程度の推論能力であっても,
自説に間違いがある場合はしっかり気づいて
その説を取り下げられるようになったら,
結構頼れそうな印象を持っているのですが。
調査タイミングに恵まれなかったAIたち
調査の直後にバージョンアップ
今回の検証においては,
AIからの回答の採取時期は主に5月前半でしたが,
その後まもなくバージョンアップされたAIもありました。
バージョンアップにより性能も上がったのだとすれば,
そのAIは,当記事の検証においては
不運だったと言えるでしょう。
ここでは,回答の採取が終わってから,
AIチャットの問答画面において
目に見える形でバージョンが上がったAIについて,
参考記録として採点した結果を示します。
Gemini-N
AIたちから回答を採取したのは2025年 5 月前半でしたが,
同月後半に,Gemini-N として使っていた
「2.0 Flash」が廃止され,「2.5 Flash」が標準になったようです。
もっとも,「2.5 Flash」は少し前から
「2.5 Flash(preview)」として利用可能だったので,
このバージョンに対しても,
前述の採取時期とさほど変わらないタイミングで
問1~問5の質問を行っていました。
採点結果は次の通りです。(※各問10点満点)
問1 問2 問3 問4 問5 計 総合成績 10 9.5 2 4 6.5 32 64
${}$Gemini-N(2.0 Flash)の総合成績は36点,
${}$Gemini-T(2.5 Pro(preview))は88点でしたから,
その中間の成績ですね。
実に妥当な結果です。
これが Gemini-N として参戦していたら,
高速モデル (-N) の中ではダントツでしたね。
Claude-N
今回は苦戦した Claude-N のバージョンは
「3.7 Sonnet」でしたが,
回答採取時期を過ぎた5月下旬頃,
「Sonnet 4」にバージョンアップされました。
2週間ほど遅れているので,その分学習が進んで
若干有利になっている可能性も否定できませんが,
参考までに回答を採取し,採点してみました。
(※各問10点満点)
問1 問2 問3 問4 問5 計 総合成績 7 3 6 3 1 20 40
12点 → 40点と,だいぶ良くなっていますね。
高速モデル (-N) の中では平均以上の成績になります。
ここまでは,当記事の暫定版(2025年 6 月下旬)に
掲載したものです。
ここからは,当記事の正式版(2025年 8 月中旬)に
追加したものです。
ChatGPT-N
本検証実施の直後ではありませんが,
2025年 8 月上旬の某日, ChatGPT において,
新バージョンの「GPT-5」がリリースされました。
この記事の暫定版を出してから1か月以上後でしたが,
正式版リリースよりは前だったので,
回答を採取してざっと採点してみました。
まずは ChatGPT-N からです。
${}$ChatGPT-N は熟考機能オフですから,
本来は瞬時に答えを出すはずですが,
GPT-5 ではたまに長考するようになったようです。
複雑な問題では熟考機能を自動で有効化するように
なったのでしょうか?
ですので,純粋に高速モードとは言えないかもしれませんが,
ともかく結果は次の通りでした。
| 問1 | 問2 | 問3 | 問4 | 問5 | 計 | 総合成績 |
|---|---|---|---|---|---|---|
| 2.5 | 3.5 | 9 | 10 | 8.5 | 33.5 | 67 |
30点 → 67点と,飛躍的に伸びています。
問2までは振るわずどうなることかと思いましたが,
後半3問が好調で,全体としても好成績でした。
回答時間は以前より
だいぶかかるようになりましたが(数秒~十数秒程度),
個人的にはこの変化は改善だと思います。
瞬時に間違った答えを出すより,
少し時間がかかっても
正しい答えを出す方が良いはずですから。
その他,気になった点を挙げておきます。
- 数学の問題なら必ず長考するわけではないようです。
問1では誤った因数分解を提示してしまったのですが,
この時は確か,瞬時に答えを出したように記憶しています。
簡単な問題と見て油断しましたかね? - 数秒の考慮で問5もしっかり解けたことには
少々驚きました。
ChatGPT-T
続いて,ChatGPT-T(熟考機能オン)です。
もともと好成績だった ChatGPT-T ですが,
GPT-5 は前バージョンを超えられるでしょうか。
| 問1 | 問2 | 問3 | 問4 | 問5 | 計 | 総合成績 |
|---|---|---|---|---|---|---|
| 10 | 1 | 10 | 10 | 9.5 | 40.5 | 81 |
問2以外はほぼパーフェクトで,
68点 → 81点と,しっかり超えてきました。
問2はまあ … 迷宮に入り込んでしまい,
筆者が手を差し伸べても救い出せない感じでしたが。
Grok-T
2025年 8 月中旬に入ってからだと思いますが,
Grok のサイトでは,「Grok 4」というモデルが
無料でもある程度使えるようになりました。
長考するタイプですので,
Grok-T の後継と考えるのが妥当でしょう。
当記事の正式版リリース直前でしたが,
こちらも回答を採取して,ざっと採点しておきました。
| 問1 | 問2 | 問3 | 問4 | 問5 | 計 | 総合成績 |
|---|---|---|---|---|---|---|
| 9.5 | 6.5 | 8.5 | 9.5 | 9 | 43 | 86 |
以前の Grok-T と比べると,
59点 → 86点と,ものすごいジャンプアップです。
この成績上昇を鵜呑みにするなら,
素晴らしい進化速度です。
この5問の作成者としては,
こんなに早く対応されてしまったことには,
少々複雑な気持ちもありますが。
ただ,今回の採点基準では好成績でしたが,
回答から受ける印象も良かったかと言われると微妙です。
実は,5問とも正解といえば正解だったのですが,
誤解を与える記述や省略しすぎな語句など色々あって,
結果として満点は1問もなし。
特に問2は,最終的には正解にたどり着いたものの,
途中でひどく右往左往した上に日本語もたどたどしく,
これを読まされる質問者はたまらないと感じる回答でした。
とはいえ,そのあたりが整備されてくると,
数学に強いAIとして浮上する可能性もありそうです。
80点を超えるAIがちらほら出てきていますが,
この5問の総合点が満点に近づいているのを見て,
数学教育用AIとして十分な水準に近づいていると
錯覚することは禁物です。
たとえこの5問で満点を取れるようになっても,
そのAIは数学教育にも十分使えるとは言えません。
その判断をするには問題数が少ないですし,
問1や問4のような,解けて当然の愚問を
含んでいるのですから。
今後,力関係は容易に変動しうる
見ていただいたように,AIは,
バージョンアップ1つで性能が大きく変わるようです。
したがって,今回の検証時点における
チャットAIたちの数学推論能力が
上記の表の通りであったとしても,
その力関係は容易に変動しうると言えます。
繰り返しになりますが,この検証の目的は,
AI間の能力比較ではありません。
現代のAIが数学に関して
驚くほどくだらないミスをする様子や,
誤った推論を堂々と主張する様子をご覧いただき,
AIを盲信する傾向に警鐘を鳴らすことです。
この記事のタイトルやタグにも
「徹底比較」のような文言は入れませんでした。
比較が目的ではないからです。
これだけ賢くなったAIなら
数学教育にも活かせそうだと軽く考えていた方が
腰を落ち着けて再考されるきっかけにでもなれば幸いです。
次ページの内容
当記事で行ったAIの数学推論能力に関する
検証結果を踏まえて,
チャットAIが数学教育に使える水準に達するために
越えるべきハードルについて考え,
数学教育用AIの今後を占います。