AIチャットは数学教育に使えるか
最近のAIチャットは数学の質問にも答えてくれる
ChatGPT に代表されるAIチャットサービス。最近の彼らは,数学の質問にも
答えてくれるようになりました。
わずか2年ほど前(2023年頃)のチャットAIは,
数式表示にも苦労していたと記憶しているのですが。
それがいつの間にか,数式が表示できるようになり,
質問者からの数式入力を正確に理解できるようになり。
そして今や,数学の質問に
もっともらしく答えてくれるまでになりました。
素晴らしい進歩です。
筆者には,それをどのように実現しているのか
想像もつきません。
ただし,「すごい技術=利用価値あり」は
全く成り立たないことに注意する必要があります。
数学の指導や作問もAIにさせればよい?
チャットAIの数学に関する目覚ましい進歩を見て,
次のように考える人が出てくるのも
不思議はないと思います。
- 学習者は,数学の相談相手として
AIを積極的に活用してはどうか。 - いっそのこと,中学生や高校生はAIに数学を
教えてもらえばよいではないか? - AIに問題を作らせたり解説を書かせたりすれば,
簡単に高品質の数学教材を作れるのではないか?
各企業が現時点でどの程度熱心に
これらを実用化しようとしているかは分かりかねますが,
少なくとも (A) に関しては,
インターネットを介した無料・有料のサービスが
既にいくつも見られます。
(B) や (C) についても,
利に聡い人なら,いち早く事業化しようと考えても
全くおかしくありません。
筆者も,そのような未来を目指すことに否定的ではありません。
AIが人間と同等以上の能力を持つようになったなら,
使わない手はないと思っている方です。
しかしそれなら,現在のチャットAIが
数学教育に使えるレベルに達しているかを
検証する必要があります。
この記事は,その検証を
個人でできる範囲で行った結果の報告です。
数学研究用AIと数学教育用AIの違い
AIの数学推論能力を測る試みは
少なからず行われているようです。
ただ,筆者が片手間に調べた限りでは,
それらの試みの多くは,
「AIは数学の難問をどれだけ解けるか」に
興味が向いているように見受けられます。
AIに数学研究の手伝いをさせることを目的とするなら,
それでもよいかもしれません。
数学の難問に対するAIの回答の正答率が
1割や2割程度だったとしても,
それくらいの確率で人間に有用なアイデアを示せるなら
価値ありと考えてもよいでしょう。
しかし,数学教育に活かせるAIを開発したいのなら,
それではいけません。
例えば,数学がそれほど得意でない学習者が
AIに数学の問題の解き方を質問し,
AIが自信満々に間違った説明をしたらどうなるでしょうか。
その学習者がどれだけの時間と気力を無駄にするか,
想像するのも嫌になります。
数学研究にAIを使うなら,質問者は研究者ですから,
AIの回答の妥当性を精査することもできるでしょう。
しかし,数学の学習相談にAIを使うなら,
質問者は学習者ですから,多くの場合,
AIの言うことを鵜呑みにするしかありません。
「何割かの確率で正しい答えを返すなら価値あり」なんて
とんでもないです。
数学教育に使うためのAIは,
とにかく間違えないことが大事なのです。
AIの数学推論能力の向上に取り組む人も,
AIを数学教育に活用しようとする人も,
AIを数学学習に利用しようとする人も,
このことをはっきり認識する必要があると思います。
繰り返しになりますが,
数学教育に使うためのAIとして最も大事なことは,
難しい問題を解けることではありません。
間違った理論を正しいと主張しないことです。
言いかえるなら,
分からないことを分からないと言えることです。
もちろん,標準的な問題をしっかり解けることは必要ですが,
間違った理論・推論を提示するくらいなら,
分からない・解けないと認めてくれる方が
よっぽど信用できます。
しかし,この観点を重視したAIの数学推論能力検証は
ほとんど行われていないように見受けられました。
当記事の検証がその不足を
少しでも補うものであればよいと願っています。
現代のAIが標準的な数学の問題で
間違えることなんてあるの?
最近のAIは東大入試の数学も解ける。
こういった派手な見出しのニュースに
心が踊ったことがある方も多いでしょう。
筆者も同感です。
衝撃的で素晴らしい進歩だと思います。
しかし,難しい問題を解けるAIが
簡単な問題で間違えることは珍しくないようです。
当記事の検証でも,比較的難しい問題に対応できるAIが
基本的な部分で的外れなことを言い出すケースが
いくつか見られました。
人間の場合,東大入試の数学を解けるような人は,
応用力が高いだけでなく,
基本もしっかりしていると考えてよいでしょう。
AIも同様であるなら,数学の難問を解けるAIは
基本的な部分でほとんど間違えない,
よって数学教育での活用も十分に可能と
考えることもできそうですが。
そのような予断は危ういということです。
AIの数学推論能力としてひとまとめにせず,
難しい問題を解ける確率の検証と,
簡単な問題で間違える確率の検証は,
別々に行う必要があると思います。
これまで行われてきたAIの数学推論能力検証は
前者のタイプが多かったのではないかと思いますが,
当記事の検証は後者寄りになります。
当記事のAI能力検証の方向性
無料でよく使われているAIチャットで検証
今回の検証では,次ページで示す通り,
無料で恒常的に使えるAIチャットの中から,
有名なものやよく使われているものを対象にしました。
この方針が妥当かどうかは,
あまり自信はありません。
筆者はAI開発の裏事情を知らないので,
無料で使えるAIが最先端かどうか,
最先端でないなら最先端とどの程度差があるのか,
分からないからです。
有料でしか使えないバージョンの性能が
無料バージョンより著しく優れているかもしれません。
個人の利用者には開放されていない
数学専用の高精度なAIがあるかもしれません。
しかしそれでも,無料でよく使われているAIについて
数学推論能力を検証し,
その方法と結果を公開することは,
現代AIのレベルを推し測る上で
無意味ではないと思います。
難しい問題は出さない
この検証では,難しい問題は出しません。
採点対象として正式に出題したのは5問ですが,
中位以上の高校生なら,全問正解しても
おかしくない程度の難易度です。
特に,問1や問4は
人間にとってはごく易しい問題だと思います。
そんな簡単な問題で,
AIたちの力を測れるのかと思いますか?
これがですね,結構ぼろぼろと間違えるのですよ。
「分からない」は誤答より高評価
前述のように,数学教育に使うためのAIとして
最も大事なのは,間違った理論・推論を
正しいと主張しないことです。
ですから,この検証では,結論を出さなかった回答を,
誤った結論を出した回答より,だいぶ高く評価します。
例えば,Aという誤った命題(ことがら・主張)があるとして,
「命題Aは正しいですか?」という質問に対しては,
「正しくない」という回答がもちろん最高評価ですが,
誤った理屈で「正しい」と結論づける回答よりは
「分からない」「断定できない」とする回答に
高い評点を与えます。
この採点方法は独特でしょうね。
他の多くのAI能力検証では,
誤った回答と「自分には分からない」と認めた回答は
同じ価値として扱っているでしょうから。
しかし,間違った理論・推論を主張しないことが
強く求められる数学教育用AIの採点方法としては,
これで正しいと思います。
結論を先に知りたい方へ
現在のAIチャットは,数学教育に使えるのか。
今回の検証対象にした,
無料で使用可能なAIチャットに限ってでよければ,
筆者はわりと明確な結論を持っています。
ただ,結論を先に読みたい人とそうでない人に
分かれるかもしれないので,
折りたたみにしておきます。
次ページの内容
次ページでは,筆者が勝手に巻き込んで
当記事のAI数学推論能力検証に
ご参加いただくチャットAIたちを紹介し,
この検証のルールを説明します。