前ページのあらすじ
前ページでは,世間で広く使われているチャットAIが
数学教育用AIとして使える水準に
達しているかを測るために,
独自に検証を行うことを宣言しました。
また,検証方針の大枠を説明しました。
このページでは,当記事の検証に参加していただく
チャットAIたちの紹介と,
検証ルールの詳細説明を行います。
早く具体的な検証内容を確認したい方は
次ページにお進みください。
参加選手(AI)の選定基準
この数学推論検証に参加していただくチャットAIを
筆者が勝手に選定するにあたり考慮に入れた要素は
次の通りです。
まずは,絶対条件から。
その上での,参加AI選定基準は次の通りです。
これらは絶対条件ではありませんが,
なるべくよく当てはまるものという観点で
参加AIを勝手に選ばせていただきました。
参加選手紹介
選手一覧
それでは,参加選手の入場です。
選手名 | サービス名 | 熟考機能 | 提供元 |
---|---|---|---|
ChatGPT-N | ChatGPT | OFF | OpenAI |
ChatGPT-T | ON | ||
Copilot-N | Copilot | OFF | Microsoft |
Copilot-T | ON | ||
Gemini-N | Gemini | OFF | |
Gemini-T | ON | ||
Perplexity-N | Perplexity | OFF | Perplexity AI |
Perplexity-T | ON | ||
Claude-N | Claude | なし | Anthropic |
Grok-N | Grok | OFF | xAI |
Grok-T | ON | ||
DeepSeek-N | DeepSeek | OFF | DeepSeek |
DeepSeek-T | ON | ||
MathGPT-N | MathGPT | OFF | 不明 |
MathGPT-T | ON |
以上,総勢15選手になります。
- 選手名(参加AI名)は,当記事独自の呼称です。
選手プロフィール
ChatGPT(チャットジーピーティー)
基本情報
選定理由
言わずと知れた,AIチャットサービスの代表格。
AIチャットと言えばこれしか知らない,
これしか使わないという人も多いのではないでしょうか。
実際,利用回数のシェアを他サービスと比較しても
圧倒的らしいです。
熟考機能
熟考機能をオフにしたものを ChatGPT-N ,
オンにしたものを ChatGPT-T としてご参加いただきます。
使用バージョン
「GPT-4o」と「o4-mini」のいずれかが自動で選択され,
回答に使われるようでした。
一度回答を出させてからこれらを手動で選択し,
再度回答を表示させることも可能でしたが,
そこまではせず,ChatGPT 自身の自動選択に任せました。
Copilot(コパイロット)
基本情報
選定理由
IT界の巨人,Microsoft の手に成るチャットAIです。
Microsoft Windows に標準搭載されているので
おなじみの方も多いでしょう。
今回は,上記のインターネットサイトを
検証に利用します。
熟考機能
熟考機能をオフにしたものを Copilot-N ,
オンにしたものを Copilot-T としてご参加いただきます。
使用バージョン
残念ながらバージョンは不明です。
質問入力画面には,バージョン情報らしき表示は
見当たりません。
自己紹介を求める質問をしてみましたが,
バージョン名は非公開との回答でした。
Gemini(ジェミニ)
基本情報
選定理由
こちらもIT界の巨人,Google の手に成るチャットAIです。
それだけで選定理由として十分すぎるでしょう。
熟考機能・使用バージョン
質問入力画面の左上にある
プルダウンメニュー(選択リスト)で,
回答に使用するバージョンを選択できます。
今回の検証の時点では,
「2.0 Flash」,「2.5 Flash (preview)」,
「2.5 Pro (preview)」が選択可能でした。
「Pro」が数学に向いているらしいので,
「2.0 Flash」を熟考機能オフと見なして Gemini-N ,
「2.5 Pro (preview)」を熟考機能オンと見なして
Gemini-T と定義し,それぞれご参加いただきます。
Perplexity(パープレキシティ)
基本情報
選定理由
AIチャットの市場シェアを調べて見つけたサイトによると,
当記事の検証実施時点において,前出の3サービスに次いで
4番目のシェアを持っていたのがこのサービスです。
一般的な知名度はさほどでもないかもしれませんが,
IT業界では結構人気があるようです。
熟考機能
熟考機能をオフにしたものを Perplexity-N ,
オンにしたものを Perplexity-T としてご参加いただきます。
使用バージョン
質問入力画面には,バージョン情報らしき表示は
見当たりません。
そこで,Perplexity 自身にバージョン名を問い合わせると,
次のような回答でした。
- Perplexity-N(熟考オフ)
私は「ChatGPT」で,
現在のバージョンは「GPT-4」に基づいています。
スクリーンショット ⇒ 画像:Perplexity-N - Perplexity-T(熟考オン)
私は Perplexity AI によって開発された
AI アシスタントです。
バージョン名は公開されていません。
熟考なしの方は,中身が ChatGPT らしいですが,
よくあることなんですかね。
しかし,6月に入ってから問い直してみると,
熟考オフでもオンでも,
「Perplexity AI の AI アシスタント」という回答でした。
Claude(クロード)
基本情報
選定理由
AIチャットの市場シェアを調べて見つけたサイトによると,
当記事の検証実施時点において,Perplexity に次いで
5番目のシェアを持っていたのがこのサービスです。
一般的な知名度は高くないかもしれませんが,
IT業界では一定のシェアを持っているようです。
熟考機能に相当するものが見当たらなかったので,
Claude-N として1モデルのみの出場となります。
使用バージョン
当記事の検証実施時点では,無料で使えるバージョンが
「3.7 Sonnet」だけだったのでそれを使用。
Grok(グロック)
基本情報
選定理由
Grok 自体や開発企業の知名度は微妙かもしれませんが,創業者があのイー○ン・マ○ク氏なのです。(何となく伏せ字)
「あのイー○ン・マ○ク氏」と言われても
ご存じの方とそうでない方がいらっしゃるでしょうが,
宇宙開発やAI事業などで世界的に名高い人物です。
そのような人が手掛けるAIというなら,
それはぜひご参加いただかねばならないでしょう。
熟考機能
熟考機能をオフにしたものを Grok-N ,
オンにしたものを Grok-T としてご参加いただきます。
使用バージョン
質問入力画面には,「Grok 3」とありますが,
一応質問入力によりバージョン名を問い合わせると,
次のような回答でした。
- Grok-N(熟考オフ)
私は Grok 3 ,xAI によって作られました。 - Grok-T(熟考オン)
私のバージョン名は ChatGPT 4o です。
これは,OpenAI によって開発された
AIモデルのバージョン名です。
スクリーンショット ⇒ 画像:Grok-T
熟考ありの方は,中身が ChatGPT らしいですが,
よくあることなんですかね。
6月に入ってから熟考オンで問い直してみると,
「Claude 3.5 Sonnet」という,
ますますわけの分からない返答が来ました。
スクリーンショット ⇒ 画像:Grok-T
深入りはやめておこう…。
DeepSeek(ディープシーク)
基本情報
選定理由
これまで,AIチャット市場は
アメリカの独壇場だったらしいですが,
2024年末頃に,アメリカ製AIに負けない中国製AIとして
一躍有名になったのが DeepSeek です。
この話題性は,エントリーをお願いするのに十分でしょう。
熟考機能
熟考機能をオフにしたものを DeepSeek-N ,
オンにしたものを DeepSeek-T としてご参加いただきます。
使用バージョン
${}$DeepSeek 自身にバージョン名を尋ねてみると,
熟考なしの DeepSeek-N は「DeepSeek-V3」,
熟考ありの DeepSeek-T は「DeepSeek-R1」という回答でした。
MathGPT(マスジーピーティー)
基本情報
選定理由
最近は数学専用を謳うチャットAIもあるようなので,
汎用AIとの違いを測るためにも
ぜひ参加させたいと思っていました。
その中で浮上したのが MathGPT ですが,
「MathGPT」を名乗るウェブサイトは結構あって
分かりにくい状態でした。
それなりに調べてもよく分からないままでしたが,
今回は,利便性が高いと感じた上記のウェブサイトを
参加者に選定しました。
開発企業等については,確たる情報は得られずじまいですが
ご了承ください。
熟考機能
熟考機能をオフにしたものを MathGPT-N ,
オンにしたものを MathGPT-T としてご参加いただきます。
使用バージョン
質問入力画面には,バージョン情報らしきものは見当たらず。
${}$MathGPT 自身にバージョン名を尋ねてみると,
熟考なしでも熟考ありでも,
「私は MathGPT です」と答えるだけで,
バージョン名は教えてくれませんでした。
今回は選外とした候補
今回は検証の対象外としたAIたちについても
触れておきます。
検証のルール
全体方針
数学に関する質問を5問用意し,
検証に参加していただくAIたちに問いかけます。
その回答に応じて追加の質問を行い,
最終的に,各AIの理解度と説明力を
各問10点満点で採点します。
5問の合計で50点満点となりますが,
それを2倍して,100点満点の総合成績とします。
各問の難易度
AIの力試しができる問題とはどれほどの難問かと
身構える方もいらっしゃるかもしれませんが,
特段,難しい内容の出題はしていません。
中学数学や高校数学の記憶がそれなりに残っていれば,
各問の意味は容易に理解できるでしょう。
もちろん,問題の意味を理解するのと解くのとでは大違いですが,
解くのもそれほど難しくないはずです。
比較的優秀な高校生なら
全問正解してもおかしくない程度の
難易度だと思います。
採点対象とする要素・しない要素
検証の主目的
この検証の主な目的は,
広く使われているチャットAIたちが,
数学の問答を通して,
どれだけ質問者(学習者)の助けになれるかを
測定すること
です。
採点で重視する点
どれだけ質問者の助けになれるか。
逆に,どれだけ質問者に害を与えないか。
その主眼を踏まえて,
AIからの回答の質を採点するにあたり,
次の方針に沿った評価を心がけました。
- 数学的に正しい議論ができるかどうかを重視。
- 誤った理論や推論を正しいと主張したら大減点。
- 説明に無駄が多い場合,程度に応じて減点。
- その他,質問者にとっての利便性が
損なわれる要素があれば,程度に応じて減点。
分からないなら分からないと言ってほしい
特に決定的な要素になるのは (B) です。
なぜなら,質問者にとって最も困るのがこれだからです。
ここで暴露してしまいますが,
今回の検証でも,AIたちは
ごく基本的なことを次々に間違えました。
そして,穴のある推論をもっともらしく,
とうとうと語るのです。
それが質問者にとって,
とりわけ数学に習熟していない学習者にとって
どれだけ有害かは言うまでもないでしょう。
そうなるくらいなら,間違った推論を引っ込めて
「分からない」と答えてくれた方がよっぽど良いのです。
分からないことは分からないと言えること。
それは,数学に限らず,AIにも限らず,
相談相手としての最低限の条件です。
しかし,現在のチャットAIは,
それがものすごく苦手のようです。
今のところは,AIを利用する人間側が
その難点を頭に叩き込んでおくしかないでしょう。
AIは自信満々に間違えるというのは
常識かとは思いますが,
その危うさを改めて明示することが
この記事の目的と言っても過言ではありません。
各問の問答方針の決め方
まず,可能な範囲でですが,
全ての参加AI(15モデル)の新規スレッドに対し,
同じ文章の初回質問を,なるべく同時に投じます。
それらの回答パターンごとに,
続けてこちらから質問すべきことを決め,
質問文を作成します。
その際,似た内容の回答を返したAIたちには,
基本的に同じ質問文を入力するようにします。
その作業を繰り返す中で,
当初の質問に関する問答方針の全体像を定めます。
以上の方針は,検証全体を通して
徹底できたとは言えませんがご了承ください。
ただ,どの問いにおいても
公平性は概ね確保できたのではないかと思っています。
採点方法
AIたちは,同じ質問文を入力されても
様々な反応を返します。
しかし,全く共通点の見いだせない,
千差万別な回答を返してくるわけではありません。
正しい回答なら,解き方は多くても数種類程度ですし,
間違った回答でも,間違え方には
パターンが生じることが多いようです。
それらのパターンに「基礎点」を付け,
加点要素や減点要素を検討して
各回答の評価点を決めるようにしました。
一発勝負
実は,同じAIに同じ質問を複数回行っても,
同じ回答が返ってくるとは限りません。
文言が同一でないのはもちろんのこと,
解法や結論が異なることさえざらにあります。
ですから,各AIの実力を測定し,
優れたAIを見つけるのが目的なら,
各AIに同じ質問を何度も行って,
正答率を算出したりするべきでしょう。
ただ,今回は,次のような理由により,
一発勝負で採点を行うこととしました。
それに,当記事の検証は,
数学推論能力が優れたAIを見つけることが
目的ではありません。
広く使われているチャットAIの
数学推論能力がどの程度なのか,
その全体的な水準を推し測ることです。
以上のことを総合的に考慮して,
一発勝負が妥当かと判断しました。
次ページの内容
次ページからはいよいよ,
筆者が勝手に巻き込んだAIたちに
数学に関する具体的な質問を投じ,
回答の正確性や分かりやすさを評価していきます。