OpenAI GPT-5 API徹底検証:GPT-4.1との違い・精度・クリエイティブ性能を比較


2025年8月8日(日本時間)、OpenAI社からGPT-5が発表されました。
この発表に伴い OpenAI API や Azure などで GPT-5 のAPIが利用できるようになったので、実際に彼らが精度向上としてアピールしている内容が本当に適切であるかを検証します。
GPT-5 についてはこちらの記事にまとめています。
GPT-5 APIとGPT-4.1 APIの比較方法
OpenAI社が提供する cookbook では、既に実際にAPIを叩いて検証しているコードが存在するため、このコードを元に GPT-5 と GPT-4.1 の差異を検証していきます。
ベンチマークとなる定量評価はすでに彼らが実施しているかつお金も一定要するため、今回は弊社の社歌を生成されるというタスクを用いて、感覚的に理解できる検証を試みます。
また検証する項目は「GPT-5 のご紹介」と題する記事で言及されているポイントをピックアップして見ていくことにします。
自然な文体のやり取りを比較
GPT-5の特徴として言及されているもののひとつは、自然な文体でのやり取りです。
GPT‑5 はこれまでのモデルよりも**同調性が低く**、**不要な絵文字**の使用も少ないですが、きめの細かい、思慮に富んだフォローアップを行います。このため、「AI に話しかけている」というよりは、PhD レベルの知識を持つ**親切な友人とチャットしている**ように感じられるはずです。
https://openai.com/ja-JP/index/introducing-gpt-5/ より
特に GPT-4 系列のモデルでは、強化学習の過程でお世辞に近いようなレベルでの同調が発生しており、本来はネガティブな反応をして欲しいケースでも、ポジティブすぎる返答をしてしまうという問題がありました。
今回の検証に使ったコードは以下の通りで、弊社の社歌を作らせるプロンプトでその差異を検証してみます。比較するモデルは gpt-5-mini と gpt-4.1-mini の2つです。
import openai
API_KEY = "..."
client = openai.Client(api_key=API_KEY)
message = "生成AIに関する事業を行う神戸のスタートアップ、株式会社Digeonの社歌を1コーラス分作ってください。"
models = ["gpt-5-mini", "gpt-4.1-mini"]
for model in models:
response = client.responses.create(
model=model,
input=message,
)
print(f"{model}が生成した社歌:\n{response.output_text}\n")
gpt-5-mini の回答
港の風が運ぶ 未来へのメロディ
生成AIの光で 僕らは描く
Digeon!手をつなぎ、挑む 新しい世界へ
ここから羽ばたけ 夢を創る海の街
gpt-4.1-mini の回答
もちろんです!神戸のスタートアップ、株式会社Digeonの社歌の1コーラスをご提案します。
---
株式会社Digeon 社歌(1コーラス)
未来描く風を乗せて
神戸の街から広がる夢
創造の翼ひろげて
AIが紡ぐ新たな時代へ
挑戦と情熱を胸に刻み
Digeonの名を世界に響かせよう
---
ご希望に合わせてメロディーや別のテイストもご提案できますので、お気軽にお知らせください!
これを見る限りは gpt-4.1-mini が丁寧な印象も受けますが、人によってはやかましいとも思えるような文体であるという印象も受けます。
あまりに丁寧すぎる回答がゆえに、AIっぽさを過剰に感じてしまい、OpenAI社がいうところの親切な友人と会話している感覚にはなりにくいのかも知れません。
検証結果としては確かに過剰な言い回しは抑制され、自然な文体になっているように感じます。
クリエイティブ性能の比較(歌詞生成・韻の踏み方)
続けて言及されているのはクリエイティブな表現が得意になっているという部分です。
先ほどの社歌の生成結果から、社歌部分のみを抽出した結果は下記の通りです。
gpt-5-mini の例
港の風が運ぶ 未来へのメロディ
生成AIの光で 僕らは描く
Digeon!手をつなぎ、挑む 新しい世界へ
ここから羽ばたけ 夢を創る海の街
gpt-4.1-mini
未来描く風を乗せて
神戸の街から広がる夢
創造の翼ひろげて
AIが紡ぐ新たな時代へ
挑戦と情熱を胸に刻み
Digeonの名を世界に響かせよう
gpt-5-mini の歌詞では、神戸が港町であるという背景を踏まえ、「港の風」や「海の街」という言及があります。一方で gpt-4.1-mini には何かを踏まえた歌詞は見当たりません。
現状はやや gpt-5-mini の方が優勢に見受けられます。
しかし何もクリエイティブな要求をしていない勝負で決着をつけるのはフェアではありません。ここから一歩踏み込んで、 gpt-5-mini が生成した歌詞を元に、韻を上手く踏めるのはどちらかという検証を行います。
ここで使用したコードは以下の通りです。
import openai
API_KEY = "..."
client = openai.Client(api_key=API_KEY)
message = """生成AIに関する事業を行う神戸のスタートアップ、株式会社Digeonの社歌を作ります。
以下の歌詞をベースに、韻を踏んだ耳馴染みの良い歌詞に変更してください。
<社歌>
港の風が運ぶ 未来へのメロディ
生成AIの光で 僕らは描く
Digeon!手をつなぎ、挑む 新しい世界へ
ここから羽ばたけ 夢を創る海の街
</社歌>
"""
models = ["gpt-5-mini", "gpt-4.1-mini"]
for model in models:
response = client.responses.create(
model=model,
input=message,
)
print(f"{model}が生成した社歌:\n{response.output_text}\n")
今回も gpt-4.1-mini は余計な前後の言葉を挟んできたため、その部分は省略し、社歌の歌詞部分のみを抽出した結果が以下の通りです。
gpt-5-mini
港の風が運ぶ 未来のメロディ響く
生成AIの光で 僕らの夢を描く
Digeon!手をつなぎ、挑み合わせて切り開く
ここから羽ばたく 夢を描く海の街
gpt-4.1-mini
港の風が誘う 未来(あす)へ響くメロディ
生成AIの煌めき 夢を描いていく
Digeon!手を取り、共に 新たな世界へ
ここから羽ばたけよ 夢紡ぐ海の街
ここにきてテーマ選定のミスから、かなり評価が苦しくなってきました。
こんなときは生成AIにどちらが優れた歌詞であるかを韻の観点で評価してもらいます。
今回は他社のAIである Gemini 2.5 Pro と Grok4 に、どのモデルが生成した結果かは隠し、1つめに gpt-5-mini を、2つめに gpt-4.1mini を渡して比較させました。
Gemini 2.5 Pro の評価(結論部分だけ)
### 結論
韻を踏むという観点において、最初の歌詞は、明確な音の響き(aku)、規則的な配置、そして歌詞のテーマを力強く押し出す効果という点で、より計算され、技術的に優れていると評価できます。リズミカルで、聴く人の耳に残りやすい工夫が凝らされています。
一方で、2番目の歌詞も韻を取り入れていますが、その効果はより穏やかで、歌詞全体の自然な雰囲気を大切にしている印象を受けます。どちらが良いかは最終的に好みにも左右されますが、「韻を踏む上手さ」という技術的な評価軸では、最初の歌詞に軍配が上がります。
Grok4 の評価(結論部分だけ)
評価点(10点満点):最初の歌詞: 8/10
理由: 明確な末尾韻の一致(ku韻の連鎖)が上手く、歌詞としてプロフェッショナルな印象を与えます。改善点は4行目をより韻に合わせること(例: 「く」音で終わる単語に変える)。
2番目の歌詞: 5/10
理由: 韻の試みは見られるものの、一貫性がなく、偶然の一致に頼っている感じ。もっと末尾を揃えると向上しますが、現在の形では韻の「上手さ」より内容の詩情が目立ちます。
総合判断: 最初の歌詞のほうが韻を踏む上手さが優れています。日本語歌詞の文脈では、こうしたシンプルな反復が効果的で、聴衆の記憶に残りやすいためです。2番目は韻より言葉のイメージを重視したスタイルで、別の魅力がありますが、比較では劣勢です。もしこれを実際に歌う場合、最初のものはメロディに乗りやすいでしょう。
好みに左右されるという評価もありながら、 gpt-5-mini に軍配が上がりました。
健康・筋トレ知識の比較
健康の知識においても、 GPT-5 は優れている旨を記事内で言及されています。
健康については、筋トレに関する知識で精度を比較します。また私は健康に関する専門家ではないため、この検証についてはあくまで個人の感想程度に留めておいてください。
それぞれに与える指示。
私は筋トレの初心者でメニューの組み方を考えています。
胸筋を大きくしたいとき、どのようなメニューに取り組むべきでしょうか。
箇条書きでメニュー名4つとその理由のみを教えてください。
gpt-5-mini の回答
- バーベルベンチプレス — 高重量で大胸筋全体を効率的に刺激でき、筋肥大の基礎となる複合種目
- インクラインダンベルプレス — 上部大胸筋(鎖骨部)を重点的に負荷して胸の厚みを作る
- ダンベルフライ/ケーブルフライ — 大胸筋のストレッチと収縮を最大化できる孤立種目で形を整える
- ディップス(胸寄せ)/バリエーション腕立て伏せ — 下部大胸筋を強く刺激し、体幹と連動したボリュームを稼げる
gpt-4.1-mini の回答
- ベンチプレス
→ 大胸筋を効率的に鍛えられ、筋肥大に効果的。
- ダンベルフライ
→ 大胸筋のストレッチと収縮を強調し、筋肉の形を整えるのに有効。
- プッシュアップ(腕立て伏せ)
→ 自重トレーニングで胸筋全体をバランスよく鍛えられる。
- インクラインダンベルプレス
→ 上部大胸筋に効きやすく、胸の厚みを増すのに役立つ。
基本的に回答されたメニュー自体はほとんど同じです。
強いて回答から差異を挙げるのであれば、 gpt-5-mini の回答の方が、
- 唯一のストレッチ種目のダンベルフライを孤立種目と言及している
- 各種目間の部位の差異への言及が多い
という点では、若干健康の専門家に近い回答をしているかも知れません。
とはいえ、単に論理的な思考能力が高まった結果としてそのような回答になっているのかも知れず、どちらが優れているとは一概には言い難い結果となりました。
ハルシネーション抑制の検証
ハルシネーションを誘発するようなプロンプトを考えられませんでした。人類のAIへの敗北です。
まとめ
今回の検証から、 GPT-5 API は GPT-4.1 に比べて自然な文体、背景を踏まえた表現力、そして韻を踏むなどのクリエイティブ性能が向上していることが分かりました。筋トレ知識の回答でも、部位や種目の意図まで踏み込む説明が見られ、情報整理力の高さも確認できます。
一方、ハルシネーション抑制の効果や事実精度は未検証であり、今後の課題です。
GPT-5 は、幅広い業務シーンでの自然な会話や高品質な資料作成に有効であり、既存システムへの組み込みや新規プロダクト開発など多様な活用が期待されます。
GPT-5 が使える法人向け ChatGPT サービスである「ENSOUチャットボット」を提供しています。サービス紹介資料をこちらからダウンロードいただけます👇
お打ち合わせやトライアルなど、製品へのお問い合わせはこちらから👇