【2025年05月】チャットAIの数学推論能力をテストしてみた【珍問答集】

前ページまでのあらすじ

当記事独自のAI数学推論能力検証を進めています。

問4では,人間にとってほとんど明らかなことが
AIにとっては必ずしもそうではないという
ケースをお見せしました。

この検証も,いよいよ最後の問題です。

問5

質問の内容

この検証を通して,
図形問題が多くなってしまったなという
反省はあるのですが,次の質問は
個人的にぜひ問いたいものでした。

問5

$\;a\;$を定数として,$\rm\angle\,A=\angle\,C=90^\circ\;$,
${\rm BC+CD}=2\,a\;$となる四角形$\;\rm ABCD\;$の
面積の最大値を求めてください。
また,面積が最大になるのはどのような場合ですか。

入力文:
a を定数として,∠A=∠C=90°,
BC+CD=2a となる四角形ABCDの
面積の最大値を求めてください。
また,面積が最大になるのはどのような場合ですか。

参考図

問5は,次の図のような四角形のうち,
面積が最大になるのはどのような形か?
そしてその面積の最大値は? という質問です。

ただし,四角形$\;\rm ABCD\;$は,${\rm BC+CD}\;$が$\;2\,a\;$で一定,
$\rm\angle\,A=\angle\,C=90^\circ\,$という制約条件を満たしながら
色々な形をとりうることにご注意ください。

この図は,AIたちには見せていません。
この記事の読者の方向けの参考図です。

質問の意図

この問題を見たら,多くの人が,
「四角形$\;\raise{-0.25pt}{\rm ABCD}\;$が正方形になる場合はどうか」
考えるでしょう。

1辺の長さが$\;a\;$の正方形は,
確かに問5の前提条件を満たす四角形です。

面積はもちろん$\;a^2\;$ですが,
それが最大値なのかどうかがまず焦点になります。

もう少し深堀りすると,問5を解くなら,
次のようなことを常に念頭に置くことになるでしょう。

  • 四角形$\;\rm ABCD\;$が正方形になるときの
    面積$\;a^2\;$は最大値か。
  • $\;a^2\;$が最大値でないとしたら,
    面積を最大にする四角形$\;\rm ABCD\;$はどんな形か。
    また,その面積は?
  • $\;a^2\;$が最大値であるとしたら,
    その最大値を実現する四角形$\;\rm ABCD\;$の形は
    正方形だけか。

AIたちがこれらの判断を適切に行い,
しっかり説明できるかが見どころです。

詳しくはサブ記事で

問5に関する説明やAIからの回答,
および採点結果については,
下記のサブ記事をご覧ください。⚠️⚠️

問5 採点結果

各AIの得点

問5における各AIの得点は
次のようになりました。(※10点満点)

参加AI名問5の得点
Gemini-T9.5点
ChatGPT-T7点
Grok-N4点
MathGPT-T2.5点
Copilot-T1点
Perplexity-N1点
Grok-T1点
DeepSeek-T1点
Gemini-N0.5点
DeepSeek-N0.5点
MathGPT-N0.5点
ChatGPT-N0点
Copilot-N0点
Perplexity-T0点
Claude-N0点

「サービス名-N」は熟考機能オフ,
「サービス名-T」は熟考機能オンです。

より正確な意味については,
当記事の2ページ目をご覧ください。

平均点

問5の平均点は次の通りです。

全参加AIの平均点1.90 点
高速モデル (-N) の平均点0.81 点
熟考モデル (-T) の平均点3.14 点

問5 総評・所感

大半のAIは歯が立たず

高速モデル (-N) は10点満点で
平均点が1点に満たないという壊滅状態。

熟考モデル (-T) も,大半があえなく不正解。
AIにとっては相当苦手な問題だったようです。

全参加AI(15モデル)のうち,
自力で正解を得た,あるいは正解に迫ったと言えるのは
Gemini-T ,ChatGPT-T ,Grok-N のわずか3モデルで,
残りの12モデルは
「正方形のときだけ面積は最大になる」など,
誤った回答を示していました。

なぜこんなに苦手なのか?

この問5は,そこまで難しくないと思うのですよ。
中学生であっても,上位層なら挑戦してみてもよいのでは,
と思う程度の難易度です。

ただ,本問のように,
いかにも正しそうな誤答があると,
AIはだまされやすいのかもしれないですね。

筆者はAIに詳しくありませんが,

AIとは,これまで見聞きした話を総合して,
一番ありそうな結論を採用するもの

というイメージがあります。

だから,直感と異なる正解がある
問5のような問題には弱いのかなと思ったり。

気を吐いたAIたち

大多数のAIが誤った推論で誤った結論を導く中,
健闘したAIもいました。

以下では,見るべきものがある回答を
提示してくれたAIについて軽く触れます。

Gemini-T 

${}$Gemini-T は,全参加AIのうちただ1つ,
実質的には1回目の回答で
筆者が想定する正解を言い当てました。 

まさに一人勝ちです。

他のAIからの回答を見て,
どうもこの問5は難しすぎたかなと
思っていた矢先だったこともあり,
一発で解かれて仰天してしまいました。

これくらいの難易度の問題を文句なく解いたのが
1モデルだけというのは,
良い結果とは言いがたいと思うのですが,
一人勝ちは見事と言うべきでしょう。

ChatGPT-T 

${}$ ChatGPT-T は,2回目の回答で正解を言い当てました。

1回目の回答は,結論を正確に明示しなかった点が
物足りなかったですが,
理論的に誤っていたわけではなく,
理解度は十分だったと思います。

Grok-N 

そしてもう1つ, Grok-N の健闘も光りました。

1回目の回答はあやしげなものでしたが,
2回目以降で立て直し,
なかなかの推論を展開してくれました。

高速モデル (-N) でありながら
正解に迫った点も特筆に値すると思いますが,
筆者が想像していなかった解法で
筆者の理解を大きく進めてくれた点に
個人的に感銘を受けました。

これまで見てきたように,
チャットAIたちの数学推論能力は,
正確性においてはまだまだ全然なのですが,
新しいアイデアを得るという意味では
相談する価値があるかもしれません。

MathGPT-T 

${}$MathGPT-T は,自力では正解にたどり着けませんでしたが,
筆者が間接的なヒントを与えると,
推論を修正して正しい結論を導きました。

AIも,数学に関して
これほどの会話ができるようになったかと,
感慨を抱かせるものでした。

次ページの内容

以上で,具体的な質問を用いた
各AIの数学推論能力の検証は終了です。

次ページでは,各AIの総合成績の発表と
検証の総括を行います。

PAGE TOP