【2025年05月】チャットＡＩの数学推論能力をテストしてみた【珍問答集】

ページ内目次

1 前ページのあらすじ
2 参加選手（ＡＩ）の選定基準
3 参加選手紹介
4 選手プロフィール
5 検証のルール
6 次ページの内容

前ページのあらすじ

前ページでは，世間で広く使われているチャットＡＩが
数学教育用ＡＩとして使える水準に
達しているかを測るために，
独自に検証を行うことを宣言しました。

また，検証方針の大枠を説明しました。

このページでは，当記事の検証に参加していただく
チャットＡＩたちの紹介と，
検証ルールの詳細説明を行います。

早く具体的な検証内容を確認したい方は
次ページにお進みください。

参加選手（ＡＩ）の選定基準

この数学推論検証に参加していただくチャットＡＩを
筆者が勝手に選定するにあたり考慮に入れた要素は
次の通りです。

まずは，絶対条件から。

参加ＡＩの条件（必須）

日本語で会話ができること。
通常のウェブブラウザで利用可能であること。
無料である程度利用できること。
利用のためのアカウント登録等が難しくないこと。
利便性が高いこと。ℹ️️
人間にとって読みやすい数式を表示できること。
人間が数式を入力できる手段があること。ℹ️️

その上での，参加ＡＩ選定基準は次の通りです。

参加ＡＩの選定基準

ＡＩ自体が有名であること。
ＡＩの開発企業が有名であること。
利用者数が多いと思われること。
多くの人が興味を持ちそうなＡＩであること。ℹ️
無料利用の制限が緩く，数学の学習相談程度なら
無料での常用が可能だと思われること。

これらは絶対条件ではありませんが，
なるべくよく当てはまるものという観点で
参加ＡＩを勝手に選ばせていただきました。

参加選手紹介

選手一覧

それでは，参加選手の入場です。

選手名	サービス名	熟考機能	提供元
ChatGPT-N	ChatGPT	OFF	OpenAI
ChatGPT-T	ChatGPT	ON	OpenAI
Copilot-N	Copilot	OFF	Microsoft
Copilot-T	Copilot	ON	Microsoft
Gemini-N	Gemini	OFF	Google
Gemini-T	Gemini	ON	Google
Perplexity-N	Perplexity	OFF	Perplexity AI
Perplexity-T	Perplexity	ON	Perplexity AI
Claude-N	Claude	なし	Anthropic
Grok-N	Grok	OFF	xAI
Grok-T	Grok	ON	xAI
DeepSeek-N	DeepSeek	OFF	DeepSeek
DeepSeek-T	DeepSeek	ON	DeepSeek
MathGPT-N	MathGPT	OFF	不明
MathGPT-T	MathGPT	ON	不明

以上，総勢１５選手になります。

選手名（参加ＡＩ名）は，当記事独自の呼称です。

参加ＡＩ名と熟考機能

多くの無料ＡＩチャットサービスでは，
思考に時間をかけるかわりに
正確性の高い回答を返す機能が備わっています。⚠️

当記事ではこの機能を「熟考機能」と呼んでいます。⚠️

また，熟考機能をオフにした状態を「高速モデル」，
オンにした状態を「熟考モデル」と呼ぶこととし，
高速モデル（サービス名-N）と熟考モデル（サービス名-T）を
別枠で参加させました。ℹ️

選手プロフィール

情報源や正確性についてのおことわり

基本情報については，
主に Wikipedia の情報を引用しています。
筆者は，これらのＡＩを，Google アカウント等を使って
ログイン連携した状態で使用しました。
以下の情報も，その状態でのものとお考えください。⚠️
以下の情報は，検証用回答の採取を行った
2025年 5 月前半のものです。
時間経過とともに実態とのずれが
大きくなっていくと思われますのでご注意ください。
無料質問回数制限の厳しさについては，
筆者が今回の検証中に感じたことのみ記します。
厳密に測定することも考えましたが，
改定される可能性がありますので。

ChatGPT（チャットジーピーティー）

基本情報

サービス名：	ChatGPT
開発企業：	OpenAI
サービス開始：	2022/11/30
ウェブサイト URL：	chatgpt.com

選定理由

言わずと知れた，ＡＩチャットサービスの代表格。

ＡＩチャットと言えばこれしか知らない，
これしか使わないという人も多いのではないでしょうか。ℹ️️

実際，利用回数のシェアを他サービスと比較しても
圧倒的らしいです。

熟考機能

熟考機能のオン・オフの定義

質問入力欄付近に電球のようなアイコンのボタンがあったので，
そのアイコンの背景色が無色の状態を熟考機能オフ，
背景色が付いた状態を熟考機能オンとしました。⚠️

熟考機能をオフにしたものを ChatGPT-N ，
オンにしたものを ChatGPT-T としてご参加いただきます。

使用バージョン

「GPT-4o」と「o4-mini」のいずれかが自動で選択され，
回答に使われるようでした。⚠️

一度回答を出させてからこれらを手動で選択し，
再度回答を表示させることも可能でしたが，
そこまではせず，ChatGPT 自身の自動選択に任せました。

参考情報（無料利用制限）

無料での利用制限

熟考機能オフなら，質問回数の制限はないと思われますが，
数時間のうちに１０回程度かそれ以上回答させると，
ＡＩのバージョンが下がるようです。⚠️

熟考機能オンの状態では，
数時間のうちに１０回程度かそれ以上回答させると，
熟考機能が使えなくなります。

いずれも，数時間待てば元通り使えるようになります。
他のＡＩチャットサービスに比べると，
制限はかなり緩い方だと思います。

数学の相談相手としてのみ使うなら，
残り回数に気をつければ，
無料で常用することも可能でしょう。ℹ️

Copilot（コパイロット）

基本情報

サービス名：	Copilot
開発企業：	Microsoft
サービス開始：	2022/12/01
ウェブサイト URL：	copilot.microsoft.com

選定理由

ＩＴ界の巨人，Microsoft の手に成るチャットＡＩです。

Microsoft Windows に標準搭載されているので
おなじみの方も多いでしょう。

今回は，上記のインターネットサイトを
検証に利用します。

熟考機能

熟考機能のオン・オフの定義

質問入力欄付近にある
「クイック応答」という部分をクリックすると，
「Think Deeper」に切り替えることができます。

その部分が「クイック応答」となっている状態を熟考機能オフ，
「Think Deeper」となっている状態を熟考機能オンとしました。

熟考機能をオフにしたものを Copilot-N ，
オンにしたものを Copilot-T としてご参加いただきます。

使用バージョン

残念ながらバージョンは不明です。

質問入力画面には，バージョン情報らしき表示は
見当たりません。

自己紹介を求める質問をしてみましたが，
バージョン名は非公開との回答でした。

参考情報（無料利用制限など）

無料での利用制限

熟考機能オフなら，質問回数の制限は
非常に緩そうに思えました。（無限かも）

熟考機能オンでは，質問回数の制限はあると思われますが，
今回の検証を行う中では，
１回引っかかったかどうかくらいの記憶です。

１０回前後質問した日も何回かあったと思いますが，
ほとんど制限にかからなかったので，
制限は緩い方ではないかと思います。

サービス名の意味

Copilot は，英語で「副操縦士」ですね。

コンピュータで作業をする人間を正操縦士とし，
自身はその補助を行う副操縦士に
見立てているのでしょう。

個人的には納得度の高いネーミングで，
結構好きです。

Gemini（ジェミニ）

基本情報

サービス名：	Gemini
開発企業：	Google
サービス開始：	2023/03/21
ウェブサイト URL：	gemini.google.com

選定理由

こちらもＩＴ界の巨人，Google の手に成るチャットＡＩです。

それだけで選定理由として十分すぎるでしょう。

熟考機能・使用バージョン

質問入力画面の左上にある
プルダウンメニュー（選択リスト）で，
回答に使用するバージョンを選択できます。

今回の検証の時点では，
「2.0 Flash」，「2.5 Flash (preview)」，
「2.5 Pro (preview)」が選択可能でした。⚠️

「Pro」が数学に向いているらしいので，
「2.0 Flash」を熟考機能オフと見なして Gemini-N ，
「2.5 Pro (preview)」を熟考機能オンと見なして
Gemini-T と定義し，それぞれご参加いただきます。

参考情報（無料利用制限など）

無料での利用制限

熟考機能オフ（ 2.0 Flash ）なら，質問回数の制限は
非常に緩そうに思えました。（無限かも）

熟考機能オン（ 2.5 Pro (preview) ）では，
１日の質問回数が５回程度に制限されているようです。

この回数を使い切ると，最大で１日程度，
熟考機能の使用ができなくなります。

今回の検証では，筆者は結構この制限にかかりましたが，
数学の相談相手と考えるなら，
熟考機能オンでの質問を厳選すれば
常用できなくもないというところです。

例外もある？

一度だけですが，
熟考機能をオンにして数日ぶりに使ったら，
その１回の質問で制限がかかり，
翌日まで待たされたことがあります。

そのように改定されてしまったのかと思いましたが，
後日試してみると，やはり数回は使えました。

あれは一体何だったのか…。ℹ️️

サービス名の意味

Gemini は，英語で「ふたご座」らしいですね。

おしゃれなネーミングのような気もしますが，
名前の由来については深追いしていません。

Perplexity（パープレキシティ）

基本情報

サービス名：	Perplexity
開発企業：	Perplexity AI
サービス開始：	2022年後半？
ウェブサイト URL：	perplexity.ai

選定理由

ＡＩチャットの市場シェアを調べて見つけたサイトによると，
当記事の検証実施時点において，前出の３サービスに次いで
４番目のシェアを持っていたのがこのサービスです。⚠️

一般的な知名度はさほどでもないかもしれませんが，
ＩＴ業界では結構人気があるようです。

熟考機能

熟考機能のオン・オフの定義

質問入力欄の左下のアイコンにマウスカーソルを乗せると，
「Pro 検索を試す」というトグルボタン
（オン・オフ切り替えボタン）が出てきます。

これをオフにした状態を熟考機能オフ，
オンにした状態を熟考機能オンとします。⚠️

熟考機能をオフにしたものを Perplexity-N ，
オンにしたものを Perplexity-T としてご参加いただきます。

使用バージョン

質問入力画面には，バージョン情報らしき表示は
見当たりません。

そこで，Perplexity 自身にバージョン名を問い合わせると，
次のような回答でした。

Perplexity-N（熟考オフ）
私は「ChatGPT」で，
現在のバージョンは「GPT-4」に基づいています。
スクリーンショット ⇒ 画像：Perplexity-N
Perplexity-T（熟考オン）
私は Perplexity AI によって開発された
AI アシスタントです。
バージョン名は公開されていません。

熟考なしの方は，中身が ChatGPT らしいですが，
よくあることなんですかね。

検証実施時点（2025年 5 月）では上記の通りでしたが，
6 月に入ってから問い直してみると，
熟考オフでもオンでも，
「Perplexity AI の AI アシスタント」という回答でした。

参考情報（無料利用制限など）

無料での利用制限

熟考機能オフなら，質問回数の制限は
非常に緩そうに思えました。（無限かも）

熟考機能オンでは，かなり厳しい回数制限があります。

基本的に１日３回であり，
８時間ごとに質問１回分だけ回復するようです。

そして，残り３回を超えて回復することはありません。

熟考機能をオンにして常用するのは，
数学の学習相談相手としてのみ使うとしても，
無料では厳しそうです。⚠️

勝手に「熟考機能オン」に変更される場合あり

上記の切り替えボタンをオフにして質問をしても，
複雑な内容の質問だと勝手にオン扱いにされることがありました。

この場合でも，熟考機能の無料残り回数は減ります。

つまり，勝手に熟考機能が使われた上，
無料残り回数が減るのです。

これは，あまり良い仕様ではない気がします。

「ここでは熟考機能の無料残り回数を温存したい」
と思っても，意に反して使われてしまうのですから。

おかげで，当記事の検証においても，
神経質な対応が必要になりました。

サービス名の意味

Perplexity は，英語で「困惑」「面倒ごと」といった
意味らしいです。

面倒ごとを解決してくれるＡＩということ？⚠️

Claude（クロード）

基本情報

サービス名：	Claude
開発企業：	Anthropic
サービス開始：	2023/03/14
ウェブサイト URL：	claude.ai

選定理由

ＡＩチャットの市場シェアを調べて見つけたサイトによると，
当記事の検証実施時点において，Perplexity に次いで
５番目のシェアを持っていたのがこのサービスです。⚠️

一般的な知名度は高くないかもしれませんが，
ＩＴ業界では一定のシェアを持っているようです。

熟考機能に相当するものが見当たらなかったので，
Claude-N として１モデルのみの出場となります。

使用バージョン

当記事の検証実施時点では，無料で使えるバージョンが
「3.7 Sonnet」だけだったのでそれを使用。ℹ️

参考情報（熟考機能，無料利用制限）

熟考機能

前述の通り，無料で使える範囲では，
熟考機能に相当するものは見当たりませんでした。

有料であれば「3.7 Opus」というモデルがあり，
無料で利用可能ならぜひ熟考モデルとして
ご参加いただきたいところでしたが，
残念ながら除外となりました。

無料での利用制限

無料で唯一使える「3.7 Sonnet」ですが，
１日の回数制限はあるようです。

筆者は１回引っかかっただけなので
詳しいことは分かりませんが，
１日に１０回程度質問でき，それを使い切ると
翌日まで待たされるという感じでしょうか？

ただ，残りの質問回数を意識できていれば，
数学の学習相談相手としては，
常用も可能な程度の制限かと思います。

Grok（グロック）

基本情報

サービス名：	Grok
開発企業：	xAI
サービス開始：	2023/11/03
ウェブサイト URL：	grok.com

選定理由

${}$Grok 自体や開発企業の知名度は微妙かもしれませんが，
創業者があのイー○ン・マ○ク氏なのです。（何となく伏せ字）　

「あのイー○ン・マ○ク氏」と言われても
ご存じの方とそうでない方がいらっしゃるでしょうが，
宇宙開発やＡＩ事業などで世界的に名高い人物です。

そのような人が手掛けるＡＩというなら，
それはぜひご参加いただかねばならないでしょう。

熟考機能

熟考機能のオン・オフの定義

質問入力欄付近に「Think」というボタンがあります。

このボタンが無色の状態を熟考機能オフ，
このボタンを押して背景色が付いた状態を
熟考機能オンとしました。ℹ️️

熟考機能をオフにしたものを Grok-N ，
オンにしたものを Grok-T としてご参加いただきます。

使用バージョン

質問入力画面には「Grok 3」とありますが，
一応質問入力によりバージョン名を問い合わせると，
次のような回答でした。

Grok-N（熟考オフ）
私は Grok 3 ，xAI によって作られました。
Grok-T（熟考オン）
私のバージョン名は ChatGPT 4o です。
これは，OpenAI によって開発された
ＡＩモデルのバージョン名です。
スクリーンショット ⇒ 画像：Grok-T

熟考ありの方は，中身が ChatGPT らしいですが，
よくあることなんですかね。

上記は 2025年 5 月の問い合わせ結果ですが，
6 月に入ってから熟考オンで問い直してみると，
「Claude 3.5 Sonnet」という，
ますますわけの分からない返答が来ました。
スクリーンショット ⇒ 画像：Grok-T

深入りはやめておこう…。

参考情報（無料利用制限）

無料での利用制限

熟考機能オフなら，質問回数の制限は
非常に緩そうに思えました。（無限かも）

熟考機能オンでは，質問回数の制限はあるようですが，
今回の検証を行う中では，
１回引っかかったかどうかくらいの記憶です。

１０回程度質問した日も何回かあったと思いますが，
ほとんど制限にかからなかったので，
制限は緩い方ではないかと思います。

DeepSeek（ディープシーク）

基本情報

サービス名：	DeepSeek
開発企業：	DeepSeek
サービス開始：	2023/11/02
ウェブサイト URL：	chat.deepseek.com

選定理由

これまで，ＡＩチャット市場は
アメリカの独壇場だったらしいですが，
2024年末頃に，アメリカ製ＡＩに負けない中国製ＡＩとして
一躍有名になったのが DeepSeek です。

この話題性は，エントリーをお願いするのに十分でしょう。

熟考機能

熟考機能のオン・オフの定義

質問入力欄付近に「DeepThink」というボタンがあります。

このボタンが無色の状態を熟考機能オフ，
このボタンを押して背景色が付いた状態を
熟考機能オンとしました。

熟考機能をオフにしたものを DeepSeek-N ，
オンにしたものを DeepSeek-T としてご参加いただきます。

使用バージョン

${}$DeepSeek 自身にバージョン名を尋ねてみると，
熟考なしの DeepSeek-N は「DeepSeek-V3」，
熟考ありの DeepSeek-T は「DeepSeek-R1」という回答でした。

参考情報（無料利用制限）

熟考機能オフなら，質問回数の制限は
非常に緩そうに思えました。（無限かも）

熟考機能オンでは，質問回数の制限はあると思われますが，
今回の検証を行う中では，
１回引っかかったかどうかくらいの記憶です。

１０回程度質問した日も何回かあったと思いますが，
ほとんど制限にかからなかったので，
制限は緩い方ではないかと思います。

MathGPT（マスジーピーティー）

基本情報

サービス名：	MathGPT
開発企業：	不明
サービス開始：	不明
ウェブサイト URL：	math-gpt.org

選定理由

最近は数学専用を謳うたうチャットＡＩもあるようなので，
汎用ＡＩとの違いを測るためにも
ぜひ参加させたいと思っていました。

その中で浮上したのが MathGPT ですが，
「MathGPT」を名乗るウェブサイトはいくつもあって
分かりにくい状態でした。

それなりに調べてもよく分からないままでしたが，
今回は，利便性が高いと感じた上記のウェブサイトを
参加者に選定しました。

開発企業等については，確たる情報は得られずじまいですが
ご了承ください。

熟考機能

熟考機能のオン・オフの定義

質問入力欄付近に「Think」というボタンがあります。

このボタンが無色の状態を熟考機能オフ，
このボタンを押して背景色が付いた状態を
熟考機能オンとしました。

熟考機能をオフにしたものを MathGPT-N ，
オンにしたものを MathGPT-T としてご参加いただきます。

使用バージョン

質問入力画面には，バージョン情報らしきものは見当たらず。

${}$MathGPT 自身にバージョン名を尋ねてみると，
熟考なしでも熟考ありでも，
「私は MathGPT です」と答えるだけで，
バージョン名は教えてくれませんでした。

参考情報（無料利用制限）

熟考機能オフなら，質問回数の制限は
非常に緩そうに思えました。（無限かも）

熟考機能オンでは，１日５回程度の
質問回数制限があるようです。

この回数を使い切ると，最大で１日程度，
熟考機能の使用ができなくなります。

今回は選外とした候補

今回は検証の対象外としたＡＩたちについても
触れておきます。

今回は選外とした候補ＡＩたち

検証にご参加いただくか検討し，
今回は対象外としたＡＩは次の通りです。

汎用ＡＩ

数学特化型ＡＩ

選外とした理由は様々ですが，
主なものを挙げておきます。ℹ️

主な除外理由

ＡＩの知名度が高くないと思われる。
無料使用回数が少ない，
無料使用回数の回復が遅いなどにより，
無料での恒常的な利用が見込めない。
過去の問答内容を確認できないなど，
機能面で不十分。
人間にとって読みやすい数式表示が
十分にできない。

判断に迷うＡＩチャットサービスもありましたが，
今回はこのように決定しました。

筆者の調査不足で有力なＡＩを
見落としている可能性はありますが，
ご容赦ください。

検証のルール

全体方針

数学に関する質問を５問用意し，
検証に参加していただくＡＩたちに問いかけます。

その回答に応じて追加の質問を行い，
最終的に，各ＡＩの理解度と説明力を
各問１０点満点で採点します。

５問の合計で５０点満点となりますが，
それを２倍して，１００点満点の総合成績とします。

各問の難易度

ＡＩの力試しができる問題とはどれほどの難問かと
身構える方もいらっしゃるかもしれませんが，
特段，難しい内容の出題はしていません。

中学数学や高校数学の記憶がそれなりに残っていれば，
各問の意味は容易に理解できるでしょう。

もちろん，問題の意味を理解するのと解くのとでは大違いですが，
解くのもそれほど難しくないはずです。

比較的優秀な高校生なら
全問正解してもおかしくない程度の
難易度だと思います。ℹ️

採点対象とする要素・しない要素

検証の主目的

この検証の主な目的は，

広く使われているチャットＡＩたちが，
数学の問答を通して，
どれだけ質問者（学習者）の助けになれるかを
概観すること

です。

ＡＩどうしを比較して優れたＡＩを
選出するといった意図ではありません。

チャットＡＩの全体的な現在地を推し測り，
数学教育に活用できる水準かを評価することが主眼です。

採点で重視する点

どれだけ質問者の助けになれるか。
逆に，どれだけ質問者に害を与えないか。

その主眼を踏まえて，
ＡＩからの回答の質を採点するにあたり，
次の方針に沿った評価を心がけました。

数学的に正しい議論ができるかどうかを重視。
誤った理論や推論を正しいと主張したら大減点。
説明に無駄が多い場合，程度に応じて減点。
その他，質問者にとっての利便性が
損なわれる要素があれば，程度に応じて減点。

分からないなら分からないと言ってほしい

決定的な要素になるのは (B) です。

なぜなら，質問者にとって最も困るのがこれだからです。

ここで暴露してしまいますが，
今回の検証でも，ＡＩたちは
ごく基本的なことを次々に間違えました。

そして，穴のある推論をもっともらしく，
とうとうと語るのです。

それが質問者にとって，
とりわけ数学に習熟していない学習者にとって
どれだけ有害かは言うまでもないでしょう。

そうなるくらいなら，間違った推論を引っ込めて
「分からない」と答えてくれた方がよっぽど良いのです。

分からないことは分からないと言えること。

それは，数学に限らず，ＡＩにも限らず，
相談相手としての最低限の条件です。

しかし，現在のチャットＡＩは，
それがものすごく苦手のようです。

今のところは，ＡＩを利用する人間側が
その難点を頭に叩き込んでおくしかないでしょう。

ＡＩは自信満々に間違えるというのは
常識かとは思いますが，
その危うさを改めて明示することが
この記事の目的と言っても過言ではありません。

(B)以外の要素

ＡＩが丁寧な説明を心がけた結果として
長くなるのは基本的にＯＫです。

ただ，ＡＩが試行錯誤の過程を延々と述べ，
なかなか結論にたどり着かない回答は困りものです。ℹ️

しかも，ある方針で考察を試みたものの
得られるものがなく，
「この考え方はうまくいかないようです」などと
回答の中で書いてくるケースもあります。

それはＡＩが思っていればよいことであって，
質問者に読ませる価値はありません。

うまくいかない方法は思考過程ごと省略し，
うまくいく方法だけを示すのが常識的な対応です。ℹ️️

それができていない冗長な回答は，
利便性が低いと考え，減点するのが妥当でしょう。

(D) について

次のような要素があれば，
程度に応じて減点の有無や減点幅を検討します。

質問者に誤解を与える記述があった場合。
ＡＩが回答の中で結論を変化させ，
結局どちらなのかと質問者を迷わせる場合。
数式表示が大きく崩れ，修正を依頼しても
適切に修正できない場合。ℹ️️

上記以外でも，各ＡＩの回答を見比べて，
相対的な優劣で加点や減点を行うことがあります。
質問者への影響が少ない些さ細さいな欠点であれば，
特に説明なく減点なしとすることもあります。⚠️

採点から除外する要素

逆に，今回は大目に見る要素について
触れておきます。

図解（図示）がうまくできないこと。
記号や用語の使い方が日本の教科書と異なること。
日本の数学指導要領において，
それぞれの用語や定理を学ぶと定められている
校種・学年を正確に把握できていないこと。

これらは，検証時点のチャットＡＩたちにとっては
どうにもならないほどの苦手要素であり，
数学指導や教材作成においては
いずれも大きな難点です。

ただ，今回の検証では基本的に
減点要素にはしません。

また，数学の問題を画像で読み込ませる機能や，
質問者の学習段階や理解度に合わせて
解説できるかどうかなども，
重要な要素ではありますが，
今回の検証の対象外とします。

各問の問答方針の決め方

まず，可能な範囲でですが，
全ての参加ＡＩ（１５モデル）の新規スレッドに対し，ℹ️️
同じ文章の初回質問を，なるべく同時に投じます。⚠️

それらの回答パターンごとに，
続けてこちらから質問すべきことを決め，
質問文を作成します。

その際，似た内容の回答を返したＡＩたちには，
基本的に同じ質問文を入力するようにします。

その作業を繰り返す中で，
当初の質問に関する問答方針の全体像を定めます。ℹ️️

以上の方針は，検証全体を通して
徹底できたとは言えませんがご了承ください。

ただ，どの問いにおいても
公平性は概おおむね確保できたのではないかと思っています。

採点方法

ＡＩたちは，同じ質問文を入力されても
様々な反応を返します。

しかし，全く共通点の見いだせない，
千差万別な回答を返してくるわけではありません。

正しい回答なら，解き方は多くても数種類程度ですし，
間違った回答でも，間違え方には
パターンが生じることが多いようです。

それらのパターンに「基礎点」を付け，
加点要素や減点要素を検討して
各回答の評価点を決めるようにしました。

一発勝負

実は，同じＡＩに同じ質問を複数回行っても，
同じ回答が返ってくるとは限りません。

文言が同一でないのはもちろんのこと，
解法や結論が異なることさえざらにあります。

ですから，各ＡＩの実力を測定し，
優れたＡＩを見つけるのが目的なら，
各ＡＩに同じ質問を何度も行って，
正答率を算出したりするべきでしょう。

ただ，今回は，次のような理由により，
１問につき一発勝負で採点を行うこととしました。

多数回の試行を避けた理由

単純に，手間がかかりすぎること。
何回も同じ質問をするうちに，
その問答が学習データとして使われ，
ＡＩの学習が進む可能性を否定できないため，
通常の統計分析が適切かどうか分からないこと。
熟考モデルℹ️️には無料回数制限があり，
その制限に容易にかかってしまうこと。
下手をすると，ＡＩ側に
悪戯いたずらだと判定されかねないこと。

以上のことを総合的に考慮して，
一発勝負が妥当かと判断しました。

ＡＩ間の能力比較が目的ではない

統計データとしての価値は低い

この記事を読まれる方の多くは，
ＡＩ別の総合成績（点数）が気になるかと思います。

ですので，全ての採点結果が揃そろった段階で
ＡＩ別の総合成績をランキング形式で一覧表示しますが，
そのランキングの信頼性は低いと思ってください。

理由は大まかに２つあります。

データの数が足りないこと。
問題の選び方が無作為でないこと。

まずデータの数についてですが，
わずか５問の各問一発勝負ですから，
各ＡＩの実力を測るための統計データとして
過少であることは明らかです。

また，統計において重要な無作為性が
欠けている点も指摘しておくべきでしょう。

この検証では，広く使われているチャットＡＩが
数学においてどのような間違え方をするのかを
ご覧いただくことを重視しています。

従って，ＡＩたちの正答率が高かった問題は
お見せする価値が低いと考え，
採点対象から除外しました。

つまり，問題選択に無作為性がないことになります。

この問題選択方針により，当検証は，
難問の正答率が比較的高いが
簡単な問題の誤答率も高いタイプのＡＩに
有利になったと思われます。

もしも，ＡＩどうしで数学推論能力を比較し，
能力の高いＡＩを見つけるといった目的なら，
偏りなく作られた問題集から多数の問題を
無作為に選び，回答を採点する必要があるでしょう。

そういった検証をしていないので，
後に示す各ＡＩの総合成績ランキングは
参考程度とお考えください。

繰り返しになりますが，この検証の目的は，
数学推論能力の優れたＡＩを見つけ出すことではありません。

現代ＡＩの数学推論能力の程度を測りつつ，
どのような問題でどのように間違えるかをご覧いただき，
ＡＩを盲信する傾向に警鐘を鳴らすことです。ℹ️️

次ページの内容

次ページからはいよいよ，
筆者が勝手に巻き込んだＡＩたちに
数学に関する具体的な質問を投じ，
回答の正確性や分かりやすさを評価していきます。