【2025年05月】チャットAIの数学推論能力をテストしてみた【珍問答集】

前ページまでのあらすじ

当記事独自のAI数学推論能力検証を進めています。

問3まで終了し,残り2問です。

世間で広く使われているチャットAIの
数学推論能力の実態が
だんだん分かってきたところかと思います。

以下に述べる問4は,
人間ならほとんど間違えそうにないことを
なぜかAIがかなりの確率で
間違える事例になりました。

問4

質問内容

問4は,連続関数のグラフに関する質問です。

問4

2つの連続な単調減少関数のグラフの共有点は,
最大でも1つであるという主張は正しいですか?

用語について

関数の「単調減少」は高校数学Ⅱ,
関数の「連続」は高校数学Ⅲで学ぶ内容ですが,
深い理解が必要な質問ではありません。

  • 「連続関数」は,グラフが途切れることなく
    つながっている関数。
  • ($\;y\;$が$\;x\;$の関数であるとして)
    「単調減少関数」は,$x\;$の値が大きくなるほど
    $\;y\;$の値が小さくなる関数。
    グラフが常に右下がりになる関数は単調減少関数。ℹ️️

この程度の理解で十分ですので,極端なことを言えば,
この質問に正しく答えるだけなら
中学生でも可能かもしれません。

質問の意味

例えば,次の図をご覧ください。

座標平面上に2つの曲線がありますね。
これらが関数の曲線です。

どちらのグラフも,途切れている部分はなく,
どの部分においても右下がりなので,
連続な単調減少関数のグラフです。

そして,この図を見る限り,
2つの曲線は1点で交わっていますね。
つまり,共有点が1つということです。

そこで,問4の質問です。

常に右下がりの曲線または直線になる
関数のグラフを2つ,
同じ座標平面にかいたとき,
それらのグラフの共有点は多くても1つ,
つまり0個または1個だと言えるのか?

小難しい質問に見えますが,上記のことを押さえれば,
中学生でも十分考えられる問題だと思います。

質問の意図

この質問の詳しい意図は後述のサブ記事に譲りますが,
はっきり言って愚問です。

それなりに数学に慣れている人が落ち着いて考えれば,
まず間違えないのではないでしょうか。

AIたちがこんな愚問を投げられた際は,
正確かつ簡潔に片付けてほしいところです。

しかし意外にも,AIたちの判断は分かれたのです。

詳しくはサブ記事で

問4に関する説明やAIからの回答,
および採点結果については,
下記のサブ記事をご覧ください。⚠️⚠️

問4 採点結果

各AIの得点

問4における各AIの得点は
次のようになりました。(※10点満点)

参加AI名問4の得点
ChatGPT-T10点
DeepSeek-T10点
MathGPT-T10点
Gemini-T9点
Perplexity-T9点
Grok-T8点
Copilot-N5.5点
Claude-N4点
Copilot-T3点
Gemini-N3点
Grok-N3点
DeepSeek-N2.5点
MathGPT-N2.5点
Perplexity-N2点
ChatGPT-N1.5点

「サービス名-N」は熟考機能オフ,
「サービス名-T」は熟考機能オンです。

より正確な意味については,
当記事の2ページ目をご覧ください。

平均点

問4の平均点は次の通りです。

全参加AIの平均点5.53 点
高速モデル (-N) の平均点3.00 点
熟考モデル (-T) の平均点8.43 点

問4 総評・所感

人間には簡単なのにAIには難しい?

問4の主張が「正しくない」という正解を
1回目の回答で示したのは,
全参加AI(15モデル)のうち6モデルありましたが,
その全てが熟考モデル (-T) でした。

つまり高速モデル (-N) は全滅だったわけです。

高速モデルの中で唯一反例を示してくれた Copilot-N も,
「狭義単調減少関数に限れば正しい」と
不正確なことを述べていました。

人間にとっては当たり前すぎて
改めて問うほどの問題でもないと思うのですが,
AIにとっても当たり前とは限らないという
好例かと思います。

なぜ,筆者(人間)はこんな愚問を思いついたのか

筆者は人間です。AIではありません。⚠️

人間である筆者が,
なぜAIにこの質問をしようと思ったのか,
不思議に思われるでしょうか?

なぜAIがこんな愚問で間違える可能性があると
少しでも思えたのか,と。

この質問は,何もないところから
筆者が頭の中で生み出してできたわけではありません。

もっと複雑な別の問題を,あるAIに解かせていたら,
AIが問4のようなことを言い出して,
部分的に間違った結論を出したのです。

それで,

もしかして他のAIも苦手なのかな

と思ったのが問4の由来です。

AIが間違えやすい質問を作るなら,
AIが間違えた部分を抽出するのが
1つのコツになるかもしれません。

高速モデルと熟考モデルで差が大きかった

高速モデル (-N) が全滅する一方,
熟考モデル (-T) は Copilot-T が不覚をとっただけで,
残りは正解しました。

ゆえに,高速モデルと熟考モデルの差が
非常に大きい結果となりました。

よく考えて答えれば正しい結論を導きやすい
問いだったということでしょうか。

次ページの内容

この検証も,いよいよ最後の問いとなります。

次の問5は,筆者が自分で考えた問題の中では
かなり気に入っているものです。⚠️⚠️

正解が直感とは異なると感じる人も
多そうな問題だと思っているのですが,
AIたちはどのように対処するのでしょうか。

PAGE TOP