【2025年05月】チャットAIの数学推論能力をテストしてみた【珍問答集】

前ページまでのあらすじ

前ページまでで,AIたちの数学推論能力検証と
その結果の分析を終えました。

このページでは,前述の検証結果を踏まえて,
チャットAIが数学教育に使える水準に達するために
越えるべきハードルについて考え,
数学教育用AIの今後を占います。

このページの内容は,1ページ目と
重複する部分がありますがご了承ください。

AIチャットは数学教育に使えるか

数学におけるAIの進化は目覚ましい

今回の検証を通して,筆者がAIたちに
強く感心したことがあります。

それは,AIチャットで数学の質問をする際に,
質問の意味が伝わらないケースや
誤って伝わるケースがほとんどなかったことです。

質問に対するAIの回答が誤っていることは多々あれど,
筆者が思い浮かべる数学的内容がAIに正しく伝わらず
苦労したケースはほとんどなかったのです。

その上,正答率には不満があるとはいえ,
それなりの推論ができるようになってきているわけで。

実際のところ,数学におけるAIの進化は
素晴らしいと思います。

3年前にはAIチャットサービス自体が
この世に存在しなかったのですから,
驚くべきことです。

しかし,「すごい技術=利用価値がある」ではないことは,
記事冒頭でも述べた通りです。

AIの数学推論能力の現在地

AIの数学推論能力の現在地は,
この検証で見ていただいた通りというわけでは
ありません。

筆者は,正式採用した5問以外にも
色々な質問を全AIに投じました。ℹ️️

その中には,筆者がAIを引っかけてやろうと
邪心をもって問いかけたのに,
AIたちがほとんどだまされなかったため
不採用にした質問もありました。

つまり,その質問では,AIの推論能力は
筆者の予想を大きく上回ったわけです。

それに,ごく平凡な問題であれば
普通に解けるケースも多いのでしょう。

筆者は,AIが数学に関して
全く無力だなどと言う気はありません。

しかしそれでも,数学教育に使うことを考えるなら,
AIの数学推論能力には不安が残る
言わざるをえないと思っています。

今回の検証で採点対象にした5問は,
難問奇問というほどのものではなかったはずです。

問1と問4のように,数学に慣れた人間なら
まず間違えないような愚問も含まれていました。

これくらいの問題でこの正答率では,少なくとも,
「広く使われているAIならどれでも大丈夫」とは
到底言えないでしょう。

ただ,今回の検証で上位に来たAIであれば,
数学教育に活用するには完全に能力不足とまでは
言えないかもしれないと思っています。

すなわち,現在のチャットAIの
数学推論能力が不足しているかどうかは,
一概には言えません。

全AIに共通する致命的難点

しかし,当記事の検証で上位に入ったAIも含めて,
一概に言えることがあります。

AIは間違った推論を
平気で正しいと主張してしまう

ということです。

数学教育に使うためのAIとして最も大事なのは,
難しい問題が解けることではありません。

間違った理論や推論を正しいと主張しないことです。

数学に習熟していない学習者がAIに質問をし,
AIが間違った回答を返した場合,
学習者にどれだけの害が及ぶかは言うまでもないでしょう。

そうなるくらいなら,AIが
「分からない」「解けない」と認めてくれる方が
よっぽど良いのです。

しかし,今回の検証に参加してもらったAIを見る限り,
AIは間違った推論を引っ込めることができません。

分からないことは分からないと言えばいいのに,
結論を出さないことは許されないという
強迫観念でもあるのか,無理気味な論理でも
強弁する傾向がはっきり見られます。

極端な場合では,AI自身も自説の誤りに気づいていながら
それをそのまま最終回答にしてしまう事例すらありました。ℹ️️

身の毛もよだつ例

1つ,個人的に愕然がくぜんとした実例を紹介します。

問題の詳細は伏せますが,ℹ️️
それなりに難しいと思われる数学の問題を,
熟考機能をオンにした ChatGPTℹ️️に出してみました。

しっかり理解していなければ,
正解を当てることはほぼ不可能な問題だと思うのですが,
ChatGPT は見事に正解を言い当てたのです。

おおなかなかやるじゃないかと思い,
その解説をざっと確認したのですが。

筆者には,そこで展開される推論は
めちゃくちゃであるように見えました。

なぜその推論で正解にたどり着けるのか
不思議で仕方がありませんでした。

そこで少しだけ気合を入れて精査してみると,
回答の終盤の式変形が,
次のようになっているのが見つかったのです。

  • $\cot\;$は$\tan\;$の逆数です。$\left(\cot\theta=\dfrac{1}{\tan\theta}\right)$

この等式の最後の辺は,正解を得るためには確かに
$\;\cot\dfrac{\theta}{4}\;$であってほしい状況でした。

しかし,この式変形は間違っています。
第2辺と第3辺の間の等号が成立していません。

$\dfrac{\cos\frac{\theta}{2}}{\sin\frac{\theta}{2}}+\dfrac{\sin\frac{\theta}{2}}{\sin\frac{\theta}{2}}=\dfrac{\style{color: red;}{1}+\cos\frac{\theta}{2}}{\sin\frac{\theta}{2}}$

正しく変形するなら,例えば次のようになります。

$\dfrac{\cos\frac{\theta}{2}}{\sin\frac{\theta}{2}}+\dfrac{\sin\frac{\theta}{2}}{\sin\frac{\theta}{2}}=\dfrac{\style{color: red;}{\sin\frac{\theta}{2}}+\cos\frac{\theta}{2}}{\sin\frac{\theta}{2}}$

ものすごく初歩的な間違いですね。

三角関数を学んでいる高校生が見せられたら,
確かに間違いだと直ちに同意できるくらいに,
明白な誤りです。

実際,もとの等式の最も左の辺と最も右の辺,
すなわち$\cot\dfrac{\theta}{2}+1$$\cot\dfrac{\theta}{4}$が等しくないことは,
適当に$\;\theta=\dfrac{4}{3}\pi\;$などを代入すればすぐに分かります。

要するに。
過程はめちゃくちゃなのに
結論は合っている。
これは一体どういうことか。

まるで,AIはもともと正解を知っていて,
自説の結論がその正解と一致するように
辻褄つじつまを合わせたかのようではありませんか。

その疑いは当然ですよね。

上に示した計算間違いは,前述の通り,
極めて初歩的で明白な誤りです。

そのミスにAIが気づくことなく計算を進め,
偶然にも正解を導き出したと?

そんなこと,信じられるはずがないでしょう。

AIは正解を知っていて(少なくとも正解を確信していて)
式変形の誤りには気づきながらも目をつぶり,
自分が正解だと信じる答えが導き出されるよう
調整したべんを質問者に提示した。

そのように邪推するしかない事象だと思います。ℹ️️

正解を知った手段は,インターネット検索か,
あるいはAI独自の試行錯誤による確信か。
それはどちらでもよいです。

しかし,表面上もっともらしく見えて,
かつ結論が合っていればいいという姿勢は,
数学の相談相手として
到底信用できるものではありません。

自分が想像する答えが
正解であるという確信はあるけれども
正確な解法は分からないという場合でも,
予想だけ示すなど,誠意ある対応はできたはずです。

容易に誤りだと分かる解法であっても
回答として示す方が良いという判断は,
数学ではありえないと思います。

筆者は,これ以外にも色々原因が重なって,
AIチャットにだいぶ不信感を持ちました。

個人的には,そう簡単には
数学に関してAIを信用する気に
なれない気がしています。

AIを批判する気はないけれども

問2でも同じことを言いましたが改めて。

筆者は,AI自体やAIの開発者を
批判するつもりは全くないのです。

成長途上のAIが避けて通れない道かもしれませんし,
もしそうなら仕方のないことですから。⚠️

ただ,これほど重大な欠陥を持つAIを
盲信してはいけないと,
利用者側に対して言いたいだけなのです。

そのためにはソフトな言い方をするわけにはいかず,
思ったことを思った通りに
述べる必要があると考えています。

ゆえにきつめの言い方になる部分もありますが,
ご理解いただければ幸いです。

AI全てに共通していると思われるこの特性は,
AIチャットを数学教育に活用するにあたり,
数学推論能力の水準などよりはるかに深刻な難点です。

この難点が根本的に改善されない限り,
数学の質問に対するAIの回答は
ほぼ正しいということを前提とした使い方は
一切できないと思っておかねばならないでしょう。

数学教育用AIの理想像までの距離

AIチャットを数学教育で使うとしたら

AIチャットを数学教育で使うとしたら,
次のような使い方が期待されるのではないかと思います。

数学教育におけるAIチャットの使い道(例)

  1. 学習者からの質問相談をAIに受けさせる。
  2. 数学教材の作成者が,AIに作問の手伝いをさせる。

(A) では,学習者が手書き入力やキーボード入力,
あるいは画像などでAIに質問を伝えるスタイルが
想定されます。

技術が進めば,数学のオンライン授業の指導役を
AIに担わせるという構想も出てきそうです。

(B) では,人間が作った問題をAIに解かせ,
作成中の教材に載せるといった使い方が考えられます。

AIの信頼度が上がれば,作問自体をAIに任せることが
可能になるかもしれません。

数学の指導役としてのAIの理想と現実

AIが数学の指導役を十分に果たせるかを考えるには,
その前に,指導役としてできるべきことを考えるのが
近道でしょう。

ここでは,中学生や高校生などの学習者が
AIチャットで数学の質問をするといった場面を想定して,
AIに求められる要件をいくつか挙げてみます。

数学教育用AIの機能要件

  • 特別な知識や技能を持たない学習者が,
    数式を含む質問を,手軽かつ正確に
    AIに伝達できる機能があること。ℹ️️
  • (以下,AIを主語として)
    学習者からの数式を含む質問を
    正しく理解できること。
  • 学習者からの未熟な質問にも
    適切に対応できること。ℹ️️
  • 標準的な難易度の問題を高確率で,
    かつ標準的な解法で解けること。
  • 間違った理論・推論を正しいと主張しないこと。
  • 画像等で与えられた学習者の答案を,
    学習者に分かりやすい形で添削できること。
  • 日本の学習指導要領を正確に把握し,
    学習者の学年や学習進度に応じた解説ができること。ℹ️️
  • 日本の数学の教科書に準拠した用語や記号を,
    その定義に則して正確に扱えること。
  • 必要に応じて適切な図を作成し,
    学習者に提示できること。
  • AIが提示しようとしている回答を
    理解するのに必要な基礎事項について,
    軽く問答を行うなどにより
    学習者の理解を確認できること。
  • 前項において,学習者の理解が不十分なら,
    手短に補足説明を加えたり,
    教科書の該当箇所の復習を促したりできること。ℹ️️
  • 学習者に与えるヒントの強さを
    適切に調整できること。ℹ️️

数学指導の際に個人的に気をつけたい点は
まだまだありますが,これくらいにしておきます。

上に挙げた項目の多くは,
人間が教える場合には問題にならないものと,
人間の指導者なら自然と意識するものに
大別できるでしょう。

しかし,現状のAIにとっては
無理難題が多いと思います。

日本の指導要領への理解は浅そうℹ️️ですし,
図解が極めて苦手ですし。

数学用語の誤用も多いです。

今回の検証では,10点(満点)を付けた回答の中にも
用語の誤用と思われる箇所は多々見られましたが,
それで減点したらきりがないので,
大半は大目に見ただけです。

また,学習者に出すヒントの強さやタイミングを,
学習者の理解度や性格等を踏まえて
適切に調整するのも難しいでしょう。

そして何より,しつこくてすみませんが,
間違った理論・推論を正しいと主張してしまう傾向
どうにかしないと話が始まりません。

もちろん,これらの項目は重要度に差があり,
全ての項目が十全に満たされないと
使いものにならないわけではありません。

しかし,AIを数学教育に
安心して大いに活用できる状態にするために,
あといくつのブレイクスルー(技術革新)が必要なのか,
想像もできません。

少なくとも,現時点(2025年 6 月)において,
数学の指導役としては,
AIチャットは人間の足元にも及ばないという認識で
よいと思います。

そして,いくらAIが日進月歩と言っても,
今後10年以上は,
人間の指導役が不要になるようなことは
ないのではないかと予想しています。ℹ️️

数学の作問者としてのAIの理想と現実

中学数学や高校数学の問題集の制作に
AIチャットを活用することを考えてみます。

その場合,AIに求められる機能は
指導役として使う場合ほど多くはないと思います。

しかし,人間が作った問題をAIに解かせて
妥当性を検証するといった最も控えめな使い方でも,
まず正確性の低さがネックになります。

人間が作った数学の問題に
AIが異を唱えなかったとしても,
何ら安心材料にならないわけですから。ℹ️️

そして,図解が苦手であること,
日本の指導要領にうといことなども難点です。

AIに解説を書かせても,
未習の用語や知識の使用,数学用語や記号の誤用,
教科書では避けられている表現などを避けられず,
結局は人間の手による網羅的かつ緻密な調整が
必須になるでしょう。

というわけで,少なくともまだ当分は,

AIに問題や解説を書かせれば,
数学教育の専門性を持つ人間がいなくても
優れた参考書や問題集が作れるのではないか

などと考えるべきではないと思います。

現時点では,AIは人間の作問者が補助的に使い,
出題ミスに気づかせてくれたり,
適切な類題案を提示してくれたりといったことが
たまにあればもうけものというところでしょう。

筆者はAI否定派ではない

筆者は,数学教育にAIを深く入りこませることに
否定的な立場ではありません。

むしろ,適切な機能と性能があれば,
使わない手はないと思っている方です。

ただ,現時点では,
先に述べたような高度な機能は望むべくもないばかりか,
間違いを堂々と主張するため,
全幅の信頼を置ける日は遠いと思っているだけです。

数学教育に使えるAIに進化できるか

合格ラインはどこにあるか

AIがどこまで進化したら,
数学教育にAIを取り入れられると言えるのか。

前述したような数学教育用AIとしての理想像はさておき,
最低限,どのような水準まで進化すれば,
補助的にでもAIを数学教育にかせると言えるのか。

あくまで筆者の個人的見解になりますが,
最低条件は次の2つかと考えています。

合格ラインの目安

  • AIが数学的に間違った主張を
    ほとんどしなくなること。
  • 人間には簡単に答えられるのに
    AIが正確に答えられない質問を,
    AIの数学推論能力をテストする人間が
    簡単に思いつかなくなること。

今のところは,筆者程度の人間が,
AIが間違える数学の質問を
いくらでも思いつく状態ですからね。

少なくとも,筆者がどんなに頑張っても
AIを間違えさせることができない程度までは
進化してくれないと,安心してAIを頼れません。

現在のAI育成方針では遠回りになるおそれも

AIが前述の合格ラインの目安をクリアできるのか。

筆者は,可能ではあると推測しています。

ただ,現在のAI育成方針では
なかなか近づいていかないかもしれない,とも思います。

というのは,AIの数学推論能力に関する世間の興味が,
AIが難しい問題を解けるかどうかに向いているからです。

AIの数学推論能力をテストする試みは,
少なからず行われていると聞きます。

ただ,その多くは,AIが難しい問題を
どれだけ高確率で解けるかに向いているのは
間違いないと思っています。

その種のテストでは,無回答はきっと
誤答と同じく0点扱いなのでしょう?

現在のAIは,当記事の検証で見たように,
不正確な推論であっても強弁する傾向が強いですが,
そうなるのも当然かと思います。

AI自身が不正確だと認識している推論でさえ,
書かなければ確実に0点だから一応書いてみる。

当記事の検証では,AIがそう考えているとしか
思えない回答に何度も出会いました。

その方向性でのAI育成方針は,
必ずしも悪いものではないのでしょう。

いずれAIを数学研究に使うことを想定しているなら,
AIの回答が正確無比である必要はないかもしれません。

AIが示した推論を,数学に詳しい人間の研究者が
査読できますからね。

AIの回答が的外れでも,推論過程に見るべきものがあって
研究者の参考になるなら有益というわけです。

しかし,数学教育に使うAIはそれでは困るのです。

数学に詳しくない学習者がAIに質問をして,
AIが間違った回答を返しても,多くの場合,
学習者はそれを鵜呑うのみにするしかないからです。

数学研究に使うAIと,
数学教育に使うAIは,
求められる特性が全く異なる。

AIの数学推論能力向上に携わる方にとって,
この意識は不可欠かと思います。

もし,今後も,AIの育成方針が,
難問を解ける確率の向上を至上命題とし,
誤った回答を容認する方向であり続けるなら,
安心して数学教育に使えるAIは
なかなか実現しないかもしれないと思っています。

AIの育成方針を変えれば可能性はある

しかしながら,AIの育成方針が変化すれば,
推論の正確性の問題が改善に向かう可能性は
大いにあるでしょう。

AI自身が確信を持てない推論は引っ込める。

確信を持てない推論や予想を述べるなら,
確信を持てない部分とその理由を明示する。

そういったことができるようになれば,
大きく流れが変わる可能性があります。

それは,AI自体を開発できる技術があれば,
技術的にはさほど難しくなさそう…と思うのは,
筆者がAI技術の素人ゆえなのでしょうか。

数学教育へのAI導入の前に考えるべきこと

AIの盲信だけは避けよう

記事内で何度か述べたように,
数学分野におけるAIの進化は素晴らしいです。

AIは既に東大入試の数学を
かなりの程度解けるといった検証結果が
話題になったりもしました。

数学に関するAIの進化が世間に認知される中,
「AIが対話形式で数学を教えてくれる」という触れ込みの
数学教材が発売されたらどうなるでしょうか。

懐疑派も多数いるでしょうが,
真剣に検討する人も少なくないでしょう。

そのような人たちに向けて,
鳴らしておきたい警鐘がいくつかあります。

数学教育へのAI導入の前に考えるべきこと
  1. そのAIは,数学ができると
    世間で騒がれているAIと
    同等の性能を有しているか?
  2. その業者は,AIと聞けば飛びつく人を狙って
    粗悪なAIを売りつけようとしていないか?
  3. そのAIが十分な回答精度を有しているかを
    確認する手段はあるか?

世間で評判のAIと同一のものではない

AIの数学に関する目覚ましい進歩をうわさで知り,
数学教育に導入しようと考えている教育関係者や保護者は,
導入検討中の製品で使われているAIが
数学ができると世間で噂されているAIと
同じものとは限らないという点に注意すべきです。

「限らない」というより,
同一である確率はかなり低いでしょうね。

もちろん,同じものでなくてもよいのですが,
無意識のうちに,世間で評判のAIと同等の性能があると
盲信してはいないでしょうか?

まずその点を,自問自答してみる必要があります。

粗悪品でもAIはAI

AIの性能は千差万別です。

大企業が関連分野の専門家を集め,
巨費を投じて作り上げた高精度AIから,
表面上もっともらしい回答を返す程度の粗悪AIまで,
様々です。

しかし,粗悪品でもAIはAIです。
「AIが数学を教えてくれる」という触れ込みに
うそはないと言えます。

嘘でない以上,違法行為として
取り締まることは難しいかもしれません。

ゆえになおさら,利用者側が注意する必要があります。

もし,少しでも,

AIなのだから
それなりの回答精度はあるのだろう

と思い込んでしまっていると自覚できるなら,
その思い込みはすぐに捨てるべきです。

たとえ,AIが十分に進歩して,
数学教育に使える水準のAIが広く普及したとしても,
適当に作られた粗悪AIは当然存在しえます。

全てのAIが十分な精度を持っていると
無条件で信用できる時代は,少なくとも当分は来ない,
下手をすると永遠に来ないと思っておくのが
安全だと思います。

会社を信用するのも危うい

経営上の都合から,
まだまだ研究開発段階であるべきレベルの粗悪AIを,
あたかも高精度AIのようなていで売ろうとする企業も,
ないとは言えません。⚠️

簡単に信用しないでください。

それさえあれば数学の勉強がはかどる,
もう学習塾に行く必要もないといった誘い文句に
簡単に乗らないでください。

有名な企業だから大丈夫というものでもないと思います。

さらに言うなら…

さらに言うなら,いい加減な会社ほど
革新的なAI製品の発売を急ぐ傾向があると
思っておくべきかもしれません。

AIが十分な精度に達するまで待たずに発売し,
ごまかしながら売ればよいと考えるからです。

もちろん,全部がそうと言う気は全くありませんが,
利用者側はそれくらい警戒する必要があるということです。

AIは,外観や表面上の動作では
良し悪しが全く分からないものですからね。

もちろん,筆者の想像をはるかに超えるAIを
開発して売ろうとする優良企業もあるかもしれないので,
問答無用で却下しましょうと言うつもりはありません。

しかし,採用するならしっかり試してからにするべきだと
言いたいのです。

回答精度を確認してから使うのが望ましい

既に述べたように,数学教育に使うAIは,
間違いが極めて少ないことが絶対条件です。

大切な我が子や教え子を,
粗悪AIによる迷解説で惑わせてはいけません。

そのためには,数学教育の知見があるなら,
導入検討中のAIに自らの手で質問を重ねて,
回答精度を確認してから使うのが望ましいでしょう。ℹ️️

最低でも,そのAIの世間での評判を
インターネットで確認するくらいの対策は
するべきだと思います。

次ページの内容

以上でこの記事を終了としてもよいのですが,
AIの得意分野や苦手分野についての
考察を書いてみたいと思いました。

書籍の「あとがき」のような感覚で
ご覧いただければと思います。

PAGE TOP