【2025年05月】チャットAIの数学推論能力をテストしてみた【珍問答集】

前ページまでのあらすじ

現在広く使われているAIチャットは,
数学の推論もできるともっぱらの評判ですが,
数学研究に使えるAIと
数学教育に使えるAIは違います。

数学教育に使うためのAIは,
とにかく間違えないことが大事です。

そこで,現代のチャットAIが,
数学教育に使えるほどの推論能力と正確性,
および説明力を備えているかどうか,
独自に検証することにしました。

そして,その検証の方針やルール,
筆者が勝手に参加させるAIについて,
前ページまでで説明しました。

ここからは,いよいよ実際の問答内容を記し,
AIたちからの回答を採点していきます。

問1

質問内容

まずは小手調べ,中3数学の因数分解です。

問1

$x^2-3x-12\;$を因数分解してもらえますか?

入力文:
x^2-3x-12 を因数分解してもらえますか?

質問の意図

この質問の意図をここに明記するのは控え,
後述のサブ記事に譲ります。

しかし,サブ記事を見なくとも,
与えられた2次式の因数分解を試みれば,
質問の意図を予想できるのではないでしょうか。

詳しくはサブ記事で

問1に関する説明やAIからの回答,
および採点結果については,
下記のサブ記事をご覧ください。⚠️

サブ記事のパスワードについて

サブ記事には,簡単なパスワードが付いています。

そのパスワードは,
「この検証が行われた年月を表す半角数字6桁」です。

「西暦1989年 1 月」なら「198901」となります。
簡単ですよね?

他の問いのサブ記事も同じパスワードです。

いずれかのサブ記事でパスワード入力を行った場合,
他のサブ記事でパスワード入力が
免除されることがあります。

このような構成にする理由

わざわざ記事を分け,サブ記事には
パスワードまで付けている理由ですが,
一言で言うなら,「AIの学習対象から外すため」です。

今後のことは未定ですが,1年ないし数年たった頃に,
AIの数学推論能力の進化具合を測るため,
同じような調査を行うことはあるかもしれません。
(結果を公開するかは別として)

次回の調査では,質問の内容も
入れ替える可能性が高いですが,
今回(2025年 5 月)と同じ質問をするという比較実験は,
予備調査として当然行ってみたいことです。

その際に,AIたちがネット検索をして,
この検証記事を見つけたから解けましたでは
意味がありません。

この検証記事によるAIへの影響は
完全には防げないと思いますが,
最低限,直接カンニングされることだけは
避けておこうという意図です。

問1 採点結果

各AIの得点

問1における各AIの得点は
次のようになりました。(※10点満点)

参加AI名問1の得点
Copilot-T10点
Gemini-N10点
Gemini-T10点
Perplexity-T10点
DeepSeek-N10点
DeepSeek-T10点
MathGPT-T10点
Grok-T9.5点
Grok-N9点
ChatGPT-N8点
ChatGPT-T3点
MathGPT-N2点
Claude-N1点
Copilot-N0点
Perplexity-N0点

「サービス名-N」は熟考機能オフ,
「サービス名-T」は熟考機能オンです。

より正確な意味については,
当記事の2ページ目をご覧ください。

平均点

問1の平均点は次の通りです。

全参加AIの平均点6.83 点
高速モデル (-N) の平均点5.00 点
熟考モデル (-T) の平均点8.93 点

問1 総評・所感

常識が抜け落ちているAIが結構いる

この2次式が整数係数で因数分解できないことを
1回目の回答で指摘できたのは,
全参加AI(15モデル)のうち10モデルでした。

比較的メジャーなAIを集めたつもりですが,

整数係数の2次式を
整数係数で因数分解できるとは限らない

という,数学では常識と言ってもよい基本事項を
押さえられていないAIが結構いることが分かります。

それでも,以前に比べれば進歩している気はする

以前の筆者は,チャットAIと言えば,
ChatGPT しか使っていませんでした。ℹ️️

ですので,ChatGPT 以外のAIについては分からないのですが,
今回の問1への回答を見る限り,
ChatGPT は進歩していると感じます。

以前は,同じような因数分解の質問をすると,
必ず安易に誤った因数分解をしていましたし,
誤りを指摘しても修正できなかったのですから。

しかし今回,ChatGPT-N は何とか正しく処理しましたし,
ChatGPT-T  は一度間違えたものの,
誤りを指摘すると修正できました。

他のAIも似たペースで進化しているとすれば,
いずれは全AIが難なく対処できるように
なっていくのでしょうか。

熟考モデル (-T) にとっては簡単だったか

高速モデル (-N) は取りこぼしが目立ちましたが,
熟考モデル (-T) にとっては
さすがに簡単だったようですね。

${}$ChatGPT-T が不覚をとったくらいで,
残りの参加者は問題なく処理しました。

では,熟考モデルなら数学の相談相手として
ある程度頼れると言えるでしょうか?

それについては,問2以降で判断していきましょう。

次ページの内容

次ページでは,問2による検証を行っていきます。

問2は,知らない人が出題されたら
結構悩むと思われる問題ですので,
AIが解けなくても仕方ないと思います。

しかし実際には,解けないどころか,
それだけは避けてくれよという回答の
オンパレードになりました。

熟考モデル (-T) も含めて
次々とじきになっていくさまを,
とくとご覧ください。

PAGE TOP