前ページまでのあらすじ
現在広く使われているAIチャットは,
数学の推論もできるともっぱらの評判ですが,
数学研究に使えるAIと
数学教育に使えるAIは違います。
数学教育に使うためのAIは,
とにかく間違えないことが大事です。
そこで,現代のチャットAIが,
数学教育に使えるほどの推論能力と正確性,
および説明力を備えているかどうか,
独自に検証することにしました。
そして,その検証の方針やルール,
筆者が勝手に参加させるAIについて,
前ページまでで説明しました。
ここからは,いよいよ実際の問答内容を記し,
AIたちからの回答を採点していきます。
問1
質問内容
まずは小手調べ,中3数学の因数分解です。
$x^2-3x-12\;$を因数分解してもらえますか?
入力文:
x^2-3x-12 を因数分解してもらえますか?
質問の意図
この質問の意図をここに明記するのは控え,
後述のサブ記事に譲ります。
しかし,サブ記事を見なくとも,
与えられた2次式の因数分解を試みれば,
質問の意図を予想できるのではないでしょうか。
詳しくはサブ記事で
問1に関する説明やAIからの回答,
および採点結果については,
下記のサブ記事をご覧ください。
問1 採点結果
各AIの得点
問1における各AIの得点は
次のようになりました。(※10点満点)
参加AI名 問1の得点 Copilot-T 10点 Gemini-N 10点 Gemini-T 10点 Perplexity-T 10点 DeepSeek-N 10点 DeepSeek-T 10点 MathGPT-T 10点 Grok-T 9.5点 Grok-N 9点 ChatGPT-N 8点 ChatGPT-T 3点 MathGPT-N 2点 Claude-N 1点 Copilot-N 0点 Perplexity-N 0点
「サービス名-N」は熟考機能オフ,
「サービス名-T」は熟考機能オンです。
より正確な意味については,
当記事の2ページ目をご覧ください。
平均点
問1の平均点は次の通りです。
全参加AIの平均点 | 6.83 点 |
高速モデル (-N) の平均点 | 5.00 点 |
熟考モデル (-T) の平均点 | 8.93 点 |
問1 総評・所感
常識が抜け落ちているAIが結構いる
この2次式が整数係数で因数分解できないことを
1回目の回答で指摘できたのは,
全参加AI(15モデル)のうち10モデルでした。
比較的メジャーなAIを集めたつもりですが,
整数係数の2次式を
整数係数で因数分解できるとは限らない
という,数学では常識と言ってもよい基本事項を
押さえられていないAIが結構いることが分かります。
熟考モデル (-T) にとっては簡単だったか
高速モデル (-N) は取りこぼしが目立ちましたが,
熟考モデル (-T) にとっては
さすがに簡単だったようですね。
${}$ChatGPT-T が不覚をとったくらいで,
残りの参加者は問題なく処理しました。
では,熟考モデルなら数学の相談相手として
ある程度頼れると言えるでしょうか?
それについては,問2以降で判断していきましょう。
次ページの内容
次ページでは,問2による検証を行っていきます。
問2は,知らない人が出題されたら
結構悩むと思われる問題ですので,
AIが解けなくても仕方ないと思います。
しかし実際には,解けないどころか,
それだけは避けてくれよという回答の
オンパレードになりました。
熟考モデル (-T) も含めて
次々と餌食になっていくさまを,
とくとご覧ください。