前ページまでのあらすじ
当記事独自のAI数学推論能力検証を進めています。
問4では,人間にとってほとんど明らかなことが
AIにとっては必ずしもそうではないという
ケースをお見せしました。
この検証も,いよいよ最後の問題です。
問5
質問の内容
この検証を通して,
図形問題が多くなってしまったなという
反省はあるのですが,次の質問は
個人的にぜひ問いたいものでした。
$\;a\;$を定数として,$\rm\angle\,A=\angle\,C=90^\circ\;$,
${\rm BC+CD}=2\,a\;$となる四角形$\;\rm ABCD\;$の
面積の最大値を求めてください。
また,面積が最大になるのはどのような場合ですか。
入力文:
a を定数として,∠A=∠C=90°,
BC+CD=2a となる四角形ABCDの
面積の最大値を求めてください。
また,面積が最大になるのはどのような場合ですか。
参考図
問5は,次の図のような四角形のうち,
面積が最大になるのはどのような形か?
そしてその面積の最大値は? という質問です。

ただし,四角形$\;\rm ABCD\;$は,${\rm BC+CD}\;$が$\;2\,a\;$で一定,
$\rm\angle\,A=\angle\,C=90^\circ\,$という制約条件を満たしながら
色々な形をとりうることにご注意ください。
この図は,AIたちには見せていません。
この記事の読者の方向けの参考図です。
質問の意図
この問題を見たら,多くの人が,
「四角形$\;\raise{-0.25pt}{\rm ABCD}\;$が正方形になる場合はどうか」と
考えるでしょう。
1辺の長さが$\;a\;$の正方形は,
確かに問5の前提条件を満たす四角形です。
面積はもちろん$\;a^2\;$ですが,
それが最大値なのかどうかがまず焦点になります。
もう少し深堀りすると,問5を解くなら,
次のようなことを常に念頭に置くことになるでしょう。
AIたちがこれらの判断を適切に行い,
しっかり説明できるかが見どころです。
詳しくはサブ記事で
問5に関する説明やAIからの回答,
および採点結果については,
下記のサブ記事をご覧ください。
問5 採点結果
各AIの得点
問5における各AIの得点は
次のようになりました。(※10点満点)
参加AI名 問5の得点 Gemini-T 9.5点 ChatGPT-T 7点 Grok-N 4点 MathGPT-T 2.5点 Copilot-T 1点 Perplexity-N 1点 Grok-T 1点 DeepSeek-T 1点 Gemini-N 0.5点 DeepSeek-N 0.5点 MathGPT-N 0.5点 ChatGPT-N 0点 Copilot-N 0点 Perplexity-T 0点 Claude-N 0点
「サービス名-N」は熟考機能オフ,
「サービス名-T」は熟考機能オンです。
より正確な意味については,
当記事の2ページ目をご覧ください。
平均点
問5の平均点は次の通りです。
全参加AIの平均点 | 1.90 点 |
高速モデル (-N) の平均点 | 0.81 点 |
熟考モデル (-T) の平均点 | 3.14 点 |
問5 総評・所感
大半のAIは歯が立たず
高速モデル (-N) は10点満点で
平均点が1点に満たないという壊滅状態。
熟考モデル (-T) も,大半があえなく不正解。
AIにとっては相当苦手な問題だったようです。
全参加AI(15モデル)のうち,
自力で正解を得た,あるいは正解に迫ったと言えるのは
Gemini-T ,ChatGPT-T ,Grok-N のわずか3モデルで,
残りの12モデルは
「正方形のときだけ面積は最大になる」など,
誤った回答を示していました。
なぜこんなに苦手なのか?
この問5は,そこまで難しくないと思うのですよ。
中学生であっても,上位層なら挑戦してみてもよいのでは,
と思う程度の難易度です。
ただ,本問のように,
いかにも正しそうな誤答があると,
AIはだまされやすいのかもしれないですね。
筆者はAIに詳しくありませんが,
AIとは,これまで見聞きした話を総合して,
一番ありそうな結論を採用するもの
というイメージがあります。
だから,直感と異なる正解がある
問5のような問題には弱いのかなと思ったり。
気を吐いたAIたち
大多数のAIが誤った推論で誤った結論を導く中,
健闘したAIもいました。
以下では,見るべきものがある回答を
提示してくれたAIについて軽く触れます。
Gemini-T
${}$Gemini-T は,全参加AIのうちただ1つ,
実質的には1回目の回答で
筆者が想定する正解を言い当てました。
まさに一人勝ちです。
他のAIからの回答を見て,
どうもこの問5は難しすぎたかなと
思っていた矢先だったこともあり,
一発で解かれて仰天してしまいました。
これくらいの難易度の問題を文句なく解いたのが
1モデルだけというのは,
良い結果とは言いがたいと思うのですが,
一人勝ちは見事と言うべきでしょう。
ChatGPT-T
${}$ ChatGPT-T は,2回目の回答で正解を言い当てました。
1回目の回答は,結論を正確に明示しなかった点が
物足りなかったですが,
理論的に誤っていたわけではなく,
理解度は十分だったと思います。
Grok-N
そしてもう1つ, Grok-N の健闘も光りました。
1回目の回答はあやしげなものでしたが,
2回目以降で立て直し,
なかなかの推論を展開してくれました。
高速モデル (-N) でありながら
正解に迫った点も特筆に値すると思いますが,
筆者が想像していなかった解法で
筆者の理解を大きく進めてくれた点に
個人的に感銘を受けました。
これまで見てきたように,
チャットAIたちの数学推論能力は,
正確性においてはまだまだ全然なのですが,
新しいアイデアを得るという意味では
相談する価値があるかもしれません。
MathGPT-T
${}$MathGPT-T は,自力では正解にたどり着けませんでしたが,
筆者が間接的なヒントを与えると,
推論を修正して正しい結論を導きました。
AIも,数学に関して
これほどの会話ができるようになったかと,
感慨を抱かせるものでした。
次ページの内容
以上で,具体的な質問を用いた
各AIの数学推論能力の検証は終了です。
次ページでは,各AIの総合成績の発表と
検証の総括を行います。