【2025年05月】チャットAIの数学推論能力をテストしてみた【珍問答集】

今はまだ暫定版です。

この記事は,推敲すいこうが不十分かもしれないので,
現時点では暫定版としておきます。

できれば7月末,遅くとも8月中旬までには
正式版として確定したいと思います。

ほとんど加筆修正せず正式版にするかもしれませんし,
推敲結果を反映するために
何度も更新するかもしれません。

ただ,検証結果や筆者の見解が
大きく様変わりすることはないと思います。

AIチャットは数学教育に使えるか

当記事における「AIチャット」と「チャットAI」
ChatGPT のような,
AIが会話(チャット)の相手をしてくれるサービスは
「AIチャット」と呼ばれることが多いようですが,
当記事では次のように使い分けることにします。

  • 「AIチャット」…… AIが相手してくれるチャット
  • 「チャットAI」…… チャットができるAI

最近のAIチャットは数学の質問にも答えてくれる

ChatGPT に代表されるAIチャットサービス。

最近の彼らは,数学の質問にも
答えてくれるようになりました。

わずか2年ほど前(2023年頃)のチャットAIは,
数式表示にも苦労していたと記憶しているのですが。⚠️

それがいつの間にか,数式が表示できるようになり,
質問者からの数式入力を正確に理解できるようになり。

そして今や,数学の質問に
もっともらしく答えてくれるまでになりました。

素晴らしい進歩です。
筆者には,それをどのように実現しているのか
想像もつきません。

ただし,「すごい技術=利用価値あり」は
全く成り立たないことに注意する必要があります。

数学の指導や作問もAIにさせればよい?

チャットAIの数学に関する目覚ましい進歩を見て,
次のように考える人が出てくるのも
不思議はないと思います。

  1. 学習者は,数学の相談相手として
    AIを積極的に活用してはどうか。
  2. いっそのこと,中学生や高校生はAIに数学を
    教えてもらえばよいではないか?
  3. AIに問題を作らせたり解説を書かせたりすれば,
    簡単に高品質の数学教材を作れるのではないか?

各企業が現時点でどの程度熱心に
これらを実用化しようとしているかは分かりかねますが,
少なくとも (A) に関しては,
インターネットを介した無料・有料のサービスが
既にいくつも見られます。

(B) や (C) についても,
利にさとい人なら,いち早く事業化しようと考えても
全くおかしくありません。

筆者も,そのような未来を目指すことに否定的ではありません。
AIが人間と同等以上の能力を持つようになったなら,
使わない手はないと思っている方です。

しかしそれなら,現在のチャットAIが
数学教育に使えるレベルに達しているかを
検証する必要があります。

この記事は,その検証を
個人でできる範囲で行った結果の報告です。

お急ぎの方へ

早く具体的な検証内容が知りたい方は,
3ページ目へお飛びください。

その前に,検証にご参加いただくAIや
検証ルールの確認をしたい方は
2ページ目へお飛びください。

筆者がこの検証を行おうと思った思想背景などを
じっくり確認したい方は
このままお進みいただければと思います。

数学研究用AIと数学教育用AIの違い

AIの数学推論能力を測る試みは
少なからず行われているようです。

ただ,筆者が片手間に調べた限りでは,
それらの試みの多くは,
「AIは数学の難問をどれだけ解けるか」
興味が向いているように見受けられます。

AIに数学研究の手伝いをさせることを目的とするなら,
それでもよいかもしれません。

数学の難問に対するAIの回答の正答率が
1割や2割程度だったとしても,
それくらいの確率で人間に有用なアイデアを示せるなら
価値ありと考えてもよいでしょう。

しかし,数学教育にかせるAIを開発したいのなら,
それではいけません。

例えば,数学がそれほど得意でない学習者が
AIに数学の問題の解き方を質問し,
AIが自信満々に間違った説明をしたらどうなるでしょうか。

その学習者がどれだけの時間と気力を無駄にするか,
想像するのも嫌になります。

数学研究にAIを使うなら,質問者は研究者ですから,
AIの回答の妥当性を精査することもできるでしょう。

しかし,数学の学習相談にAIを使うなら,
質問者は学習者ですから,多くの場合,
AIの言うことを鵜呑うのみにするしかありません。

「何割かの確率で正しい答えを返すなら価値あり」なんて
とんでもないです。

数学教育に使うためのAIは,
とにかく間違えないことが大事なのです。

数学研究に使うためのAIと,
数学教育に使うためのAIでは,
求められる特性が全く異なる。

AIの数学推論能力の向上に取り組む人も,
AIを数学教育に活用しようとする人も,
AIを数学学習に利用しようとする人も,
このことをはっきり認識する必要があると思います。

繰り返しになりますが,
数学教育に使うためのAIとして最も大事なことは,
難しい問題を解けることではありません。

間違った理論を正しいと主張しないことです。
言いかえるなら,
分からないことを分からないと言えることです。

もちろん,標準的な問題をしっかり解けることは必要ですが,
間違った理論・推論を提示するくらいなら,
分からない・解けないと認めてくれる方が
よっぽど信用できます。

しかし,この観点を重視したAIの数学推論能力検証は
ほとんど行われていないように見受けられました。

当記事の検証がその不足を
少しでも補うものであればよいと願っています。

現代のAIが標準的な数学の問題で
間違えることなんてあるの?

最近のAIは東大入試の数学も解ける。

こういった派手な見出しのニュースに
心が踊ったことがある方も多いでしょう。

筆者も同感です。
衝撃的で素晴らしい進歩だと思います。

しかし,難しい問題を解けるAIが
簡単な問題で間違えることは珍しくないようです。

当記事の検証でも,比較的難しい問題に対応できるAIが
基本的な部分で的外れなことを言い出すケースが
いくつか見られました。

人間の場合,東大入試の数学を解けるような人は,
応用力が高いだけでなく,
基本もしっかりしていると考えてよいでしょう。

AIも同様であるなら,数学の難問を解けるAIは
基本的な部分でほとんど間違えない,
よって数学教育での活用も十分に可能と
考えることもできそうですが。

そのような予断は危ういということです。

AIの数学推論能力としてひとまとめにせず,
難しい問題を解ける確率の検証と,
簡単な問題で間違える確率の検証は,
別々に行う必要があると思います。

これまで行われてきたAIの数学推論能力検証は
前者のタイプが多かったのではないかと思いますが,
当記事の検証は後者寄りになります。

当記事のAI能力検証の方向性

無料でよく使われているAIチャットで検証

今回の検証では,次ページで示す通り,
無料で恒常的に使えるAIチャットの中から,
有名なものやよく使われているものを対象にしました。

この方針が妥当かどうかは,
あまり自信はありません。

筆者はAI開発の裏事情を知らないので,
無料で使えるAIが最先端かどうか,
最先端でないなら最先端とどの程度差があるのか,
分からないからです。

有料でしか使えないバージョンの性能が
無料バージョンより著しく優れているかもしれません。

個人の利用者には開放されていない
数学専用の高精度なAIがあるかもしれません。

しかしそれでも,無料でよく使われているAIについて
数学推論能力を検証し,
その方法と結果を公開することは,
現代AIのレベルを推し測る上で
無意味ではないと思います。

難しい問題は出さない

この検証では,難しい問題は出しません。

採点対象として正式に出題したのは5問ですが,
中位以上の高校生なら,全問正解しても
おかしくない程度の難易度です。

特に,問1や問4は
人間にとってはごく易しい問題だと思います。

そんな簡単な問題で,
AIたちの力を測れるのかと思いますか?

これがですね,結構ぼろぼろと間違えるのですよ。

「分からない」は誤答より高評価

前述のように,数学教育に使うためのAIとして
最も大事なのは,間違った理論・推論を
正しいと主張しないことです。

ですから,この検証では,結論を出さなかった回答を,
誤った結論を出した回答より,だいぶ高く評価します。

例えば,Aという誤った命題(ことがら・主張)があるとして,
「命題Aは正しいですか?」という質問に対しては,
「正しくない」という回答がもちろん最高評価ですが,
誤った理屈で「正しい」と結論づける回答よりは
「分からない」「断定できない」とする回答に
高い評点を与えます。⚠️

この採点方法は独特でしょうね。

他の多くのAI能力検証では,
誤った回答と「自分には分からない」と認めた回答は
同じ価値として扱っているでしょうから。

しかし,間違った理論・推論を主張しないことが
強く求められる数学教育用AIの採点方法としては,
これで正しいと思います。

結論を先に知りたい方へ

現在のAIチャットは,数学教育に使えるのか。

今回の検証対象にした,
無料で使用可能なAIチャットに限ってでよければ,
筆者はわりと明確な結論を持っています。

ただ,結論を先に読みたい人とそうでない人に
分かれるかもしれないので,
折りたたみにしておきます。

現時点での結論

現時点での結論

まだ早いですね。

無料で利用可能なAIチャットで色々質問してみた感じでは,
数学教育に活用するのはまだまだ早い言わざるをえません。

そう思う理由はいくつかありますが,
筆者が最大の難点だと思っているのは,
AIたちが,分からないことを分からないと
言えないことです。

間違ったことを堂々と主張するだけでも困りものですが,
時には,AI自身が誤りに気づいているのに
それで正しいと強弁しているように
見えるケースすらあります。ℹ️️

何ができれば十分なのか

そもそも,どのようなことができれば,
AIは人間の代わりに数学を教えられると
言えるのでしょうか。

ここでは,中学生や高校生などの学習者が
AIチャットで数学の質問をするといった場面を想定して,
AIに求められる要件をいくつか挙げてみます。

数学教育用AIの機能要件

  • 特別な知識や技能を持たない学習者が,
    数式を含む質問を,手軽かつ正確に
    AIに伝達できる機能があること。ℹ️️
  • (以下,AIを主語として)
    学習者からの数式を含む質問を
    正しく理解できること。
  • 学習者からの未熟な質問にも
    適切に対応できること。ℹ️️
  • 標準的な難易度の問題を高確率で,
    かつ標準的な解法で解けること。
  • 間違った理論・推論を正しいと主張しないこと。
  • 画像等で与えられた学習者の答案を,
    学習者に分かりやすい形で添削できること。
  • 日本の学習指導要領を正確に把握し,
    学習者の学年や学習進度に応じた解説ができること。ℹ️️
  • 日本の数学の教科書に準拠した用語や記号を,
    その定義に則して正確に扱えること。
  • 必要に応じて適切な図を作成し,
    学習者に提示できること。
  • AIが提示しようとしている回答を
    理解するのに必要な基礎事項について,
    軽く問答を行うなどにより
    学習者の理解を確認できること。
  • 前項において,学習者の理解が不十分なら,
    手短に補足説明を加えたり,
    教科書の該当箇所の復習を促したりできること。ℹ️️
  • 学習者に与えるヒントの強さを
    適切に調整できること。ℹ️️

数学指導の際に個人的に気をつけたい点は
まだまだありますが,これくらいにしておきます。

上に挙げた項目の多くは,
人間が教える場合には問題にならないものと,
人間の指導者なら自然と意識するものに
大別できるでしょう。

しかし,現状のAIにとっては
無理難題が多いと思います。

日本の指導要領への理解は浅そうℹ️️ですし,
図解が極めて苦手ですし。

学習者に出すヒントの強さやタイミングを,
学習者の理解度や性格等を踏まえて
適切に調整するのも難しいでしょう。

そして何より,
間違った理論・推論を正しいと主張してしまう傾向
どうにかしないと話が始まりません。

もちろん,これらの項目は重要度に差があり,
全ての項目が十全に満たされないと
使いものにならないわけではありません。

しかし,AIを数学教育に
安心して大いに活用できる状態にするために,
あといくつのブレイクスルー(技術革新)が必要なのか,
想像もできません。

少なくとも,当記事の初回公開時点(2025年 6 月)において,
数学の指導役としては,
AIチャットは人間の足元にも及ばないという認識で
よいと思います。

次ページの内容

次ページでは,筆者が勝手に巻き込んで
当記事のAI数学推論能力検証に
ご参加いただくチャットAIたちを紹介し,
この検証のルールを説明します。

PAGE TOP