Geminiの性能を宅建問題でGPT-4やClaude2と比較してみた

はじめに
検証内容
評価方法
評価結果
おわりに

はじめに

Googleが12月7日に新しい生成AIであるGeminiを発表しました。発表会の記事によると、「グーグルの新たな生成AI基盤「Gemini」登場　ほぼ全指標でGPT-4しのぐ」とのことですので、12月13日に公開されたGemini APIを使って、宅建試験を解かせてみました。

検証内容

使用した問題は令和4年度の宅地建物取引士資格試験(回答はこちら)を使用しました。宅建試験は四択の50問あり、令和4年度については一問正解なしがあったので、母数は49問となります。当社では建設業界を主要なターゲットとしているため、宅建試験を指標として採用しました。

評価方法

評価は以下のような入力を与え、数字の回答を正解と比較しました。

質問と回答の選択肢を入力として受け取り、選択肢から回答を選択してください。なお、回答は選択肢の番号（例：0）でするものとします。 回答となる数値をint型で返し、他には何も含めないことを厳守してください。

### 入力：
質問：相続に関する次の記述のうち、民法の規定によれば、誤っているものはどれか。
選択肢：0.被相続人の生前においては、相続人は、家庭裁判所の許可を受けることにより、遺留分を放棄することができる。,1.家庭裁判所への相続放棄の申述は、被相続人の生前には行うことができない。,2.相続人が遺留分の放棄について家庭裁判所の許可を受けると、当該相続人は、被相続人の遺産を相続する権利を失う。,3.相続人が被相続人の兄弟姉妹である場合、当該相続人には遺留分がない。

比較対象としてGPT-4のgpt-4-0613と、Anthropicのclaude-v2でも同様の評価を実施しました。いずれもtemperatureは0としています。

評価結果

結果は以下となっています。

モデル	正答数	正答数
GPT-4(gpt-4-0613)	28/49	57.1%
Claude2(claude-v2)	25/49	51.0%
Gemini(gemini-pro-vision)	23/49	46.9%

各モデルとも当てずっぽう(四択問題なので平均すると25%になる)ではなく、それなりにしっかり回答しているが、いずれも合格水準(70%前後)には達していない。
モデル間ではGPT-4やClaude2の方がGeminiより良い性能を出していますが、今回試したGeminiのモデルはProしかなく、GPT-4を凌駕したのはUltraとのことですので、早くUltraモデルを使用できるのが待たれます。
全モデルで正解は11問(22.4%)、逆に不正解も11問(22.4% )で両方合わせると半分近くになります。それ以外は特に何か傾向があるようには見えませんでした。

おわりに

現時点の各モデルは宅建試験で使用する法律のような専門知識をある程度は覚えているようですが、合格に至るほどは覚えていないようです。
実務で使用するには合格水準を超えるレベルを求められるため、やはり特定ドメインの知識に特化したLLMの実現に向けては取り組む必要があり、当社では継続検討していこうと考えています。

HEROZ Tech Blog

日本将棋連盟公認「将棋ウォーズ」や、AIを活用したシステム企画・開発を行う、AI企業HEROZの公式テックブログです。

Geminiの性能を宅建試験でGPT-4やClaude2と比較してみた

はじめに

検証内容

評価方法

評価結果

おわりに