ChatGPTとGeminiが東大理三「首席レベル」超え——LifePrompt検証で数学満点連発

目次

何が起きたか

AIプロンプト研究・検証を手がけるLifePromptが、ChatGPT(OpenAI)とGemini(Google)を対象に、東京大学理科三類(医学部)の入試レベルを想定した問題で性能を検証した結果、両モデルが「首席超え」に相当するスコアを記録したことがLedge.aiの報道で明らかになった。特に数学分野では満点が続出したとされる。理科三類は国内最難関の一つとされる入試であり、その首席レベルを上回ったとする今回の結果はAI性能の大きな節目として注目を集めている。

何が未確定か

現時点では以下の点が明らかになっていない。

  • 検証問題の詳細と採点基準:使用した問題セットが実際の過去問なのか、独自作成問題なのか、また採点基準や部分点の扱いが公開されていない。
  • 「首席超え」の定義・比較対象:「首席超え」と判断した根拠となるスコアラインや、比較対象とした実際の受験生データの出所・年度が明示されていない。
  • 再現性・条件の詳細:プロンプトの設計や入力条件(画像読み取りの有無、ツール使用可否など)が非公開であり、第三者が同条件で再現できるかどうかは不明。
  • 他分野(英語・理科・社会)のスコア:数学での満点は報告されているが、他教科の詳細なスコアや総合点の内訳は確認できていない。

影響・判断材料

この結果は、最新の大規模言語モデルが国内トップレベルの理系入試問題に対して高い解答能力を持つ可能性を示す事例として注目に値する。ビジネスパーソンにとっては、以下の点で参考になる。

  • 今すぐ活用を検討できる点:数学・論理推論を伴う業務(データ分析補助、レポート作成、試算モデルの検証など)においてChatGPTやGeminiを活用するコストパフォーマンスは、今回の検証結果と合わせて改めて評価し直す価値がある。
  • 様子見でよい点:今回の検証は単一の研究主体によるものであり、採点基準や問題の詳細が未公開のため、結果の信頼性の最終判断は独立した第三者検証や公式ベンチマーク(例:大学入試センターや学術機関による評価)が出るまで保留することが望ましい。
  • 留意事項:AIが高得点を記録したとしても、実際の医療・法律・工学判断など専門的な責任が伴う業務への直接適用には、依然として人間による確認プロセスが不可欠である。

一次情報(LifePromptの公式サイトおよびOpenAI・Googleの公式発表)での確認を推奨する。

参照元

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

コメント

コメントする

目次