2025年8月8日

OpenAI GPT-5 API徹底検証：GPT-4.1との違い・精度・クリエイティブ性能を比較

2025年8月8日発表のGPT-5を実際にAPIで検証。GPT-4.1との自然な文体、クリエイティブ性能、健康知識、韻の巧みさまで徹底比較します。

山﨑祐太

代表取締役

OpenAI GPT-5 API徹底検証：GPT-4.1との違い・精度・クリエイティブ性能を比較

2025年8月8日（日本時間）、OpenAI社からGPT-5が発表されました。

この発表に伴い OpenAI API や Azure などで GPT-5 のAPIが利用できるようになったので、実際に彼らが精度向上としてアピールしている内容が本当に適切であるかを検証します。

GPT-5 についてはこちらの記事にまとめています。

OpenAI「GPT-5」発表｜性能・プラン・API・精度改善まとめ | AIチャットボット活用ノウハウ | ENSOU

OpenAIが2025年8月に発表した最新モデル「GPT-5」の性能・料金プラン・API仕様・精度改善を徹底解説。ハルシネーション低減や推論性能向上など最新情報をまとめました。法人向け生成AIチャットボットの導入・活用に関する実践的な情報をお届けします。

ensou.app

ENSOUチャットボットでは、クレジットカード登録・申込不要でフリープランがご利用可能です。

フリープランでもすべての機能が使えるようになっているので、ぜひENSOUチャットボットをお試しください。

無料ですぐに使えるフリープランのご利用開始はこちらから👇

ENSOU Chatbot

chatbot.ensou.app

GPT-5 APIとGPT-4.1 APIの比較方法

OpenAI社が提供する cookbook では、既に実際にAPIを叩いて検証しているコードが存在するため、このコードを元に GPT-5 と GPT-4.1 の差異を検証していきます。

ベンチマークとなる定量評価はすでに彼らが実施しているかつお金も一定要するため、今回は弊社の社歌を生成されるというタスクを用いて、感覚的に理解できる検証を試みます。

また検証する項目は「GPT-5 のご紹介」と題する記事で言及されているポイントをピックアップして見ていくことにします。

自然な文体のやり取りを比較

GPT-5の特徴として言及されているもののひとつは、自然な文体でのやり取りです。

GPT‑5 はこれまでのモデルよりも**同調性が低く**、**不要な絵文字**の使用も少ないですが、きめの細かい、思慮に富んだフォローアップを行います。このため、「AI に話しかけている」というよりは、PhD レベルの知識を持つ**親切な友人とチャットしている**ように感じられるはずです。

https://openai.com/ja-JP/index/introducing-gpt-5/ より

特に GPT-4 系列のモデルでは、強化学習の過程でお世辞に近いようなレベルでの同調が発生しており、本来はネガティブな反応をして欲しいケースでも、ポジティブすぎる返答をしてしまうという問題がありました。

今回の検証に使ったコードは以下の通りで、弊社の社歌を作らせるプロンプトでその差異を検証してみます。比較するモデルは gpt-5-mini と gpt-4.1-mini の2つです。

import openai

API_KEY = "..."

client = openai.Client(api_key=API_KEY)

message = "生成AIに関する事業を行う神戸のスタートアップ、株式会社Digeonの社歌を1コーラス分作ってください。"
models = ["gpt-5-mini", "gpt-4.1-mini"]
for model in models:
    response = client.responses.create(
    model=model,
    input=message,
)

print(f"{model}が生成した社歌:\n{response.output_text}\n")

gpt-5-mini の回答

港の風が運ぶ　未来へのメロディ
生成AIの光で　僕らは描く
Digeon！手をつなぎ、挑む　新しい世界へ
ここから羽ばたけ　夢を創る海の街

gpt-4.1-mini の回答

もちろんです！神戸のスタートアップ、株式会社Digeonの社歌の1コーラスをご提案します。

---
株式会社Digeon 社歌（1コーラス）

未来描く風を乗せて  
神戸の街から広がる夢  
創造の翼ひろげて  
AIが紡ぐ新たな時代へ  
挑戦と情熱を胸に刻み  
Digeonの名を世界に響かせよう
---

ご希望に合わせてメロディーや別のテイストもご提案できますので、お気軽にお知らせください！

これを見る限りは gpt-4.1-mini が丁寧な印象も受けますが、人によってはやかましいとも思えるような文体であるという印象も受けます。

あまりに丁寧すぎる回答がゆえに、AIっぽさを過剰に感じてしまい、OpenAI社がいうところの親切な友人と会話している感覚にはなりにくいのかも知れません。

検証結果としては確かに過剰な言い回しは抑制され、自然な文体になっているように感じます。

クリエイティブ性能の比較（歌詞生成・韻の踏み方）

続けて言及されているのはクリエイティブな表現が得意になっているという部分です。

先ほどの社歌の生成結果から、社歌部分のみを抽出した結果は下記の通りです。

gpt-5-mini の例

港の風が運ぶ　未来へのメロディ
生成AIの光で　僕らは描く
Digeon！手をつなぎ、挑む　新しい世界へ
ここから羽ばたけ　夢を創る海の街

gpt-4.1-mini

未来描く風を乗せて  
神戸の街から広がる夢  
創造の翼ひろげて  
AIが紡ぐ新たな時代へ  
挑戦と情熱を胸に刻み  
Digeonの名を世界に響かせよう

gpt-5-mini の歌詞では、神戸が港町であるという背景を踏まえ、「港の風」や「海の街」という言及があります。一方で gpt-4.1-mini には何かを踏まえた歌詞は見当たりません。

現状はやや gpt-5-mini の方が優勢に見受けられます。

しかし何もクリエイティブな要求をしていない勝負で決着をつけるのはフェアではありません。ここから一歩踏み込んで、 gpt-5-mini が生成した歌詞を元に、韻を上手く踏めるのはどちらかという検証を行います。

ここで使用したコードは以下の通りです。

import openai

API_KEY = "..."

client = openai.Client(api_key=API_KEY)

message = """生成AIに関する事業を行う神戸のスタートアップ、株式会社Digeonの社歌を作ります。
以下の歌詞をベースに、韻を踏んだ耳馴染みの良い歌詞に変更してください。

<社歌>
港の風が運ぶ　未来へのメロディ
生成AIの光で　僕らは描く
Digeon！手をつなぎ、挑む　新しい世界へ
ここから羽ばたけ　夢を創る海の街
</社歌>  
"""

models = ["gpt-5-mini", "gpt-4.1-mini"]
for model in models:
    response = client.responses.create(
    model=model,
    input=message,
)

print(f"{model}が生成した社歌:\n{response.output_text}\n")

今回も gpt-4.1-mini は余計な前後の言葉を挟んできたため、その部分は省略し、社歌の歌詞部分のみを抽出した結果が以下の通りです。

gpt-5-mini

港の風が運ぶ　未来のメロディ響く
生成AIの光で　僕らの夢を描く
Digeon！手をつなぎ、挑み合わせて切り開く
ここから羽ばたく　夢を描く海の街

gpt-4.1-mini

港の風が誘う　未来（あす）へ響くメロディ  
生成AIの煌めき　夢を描いていく  
Digeon！手を取り、共に　新たな世界へ  
ここから羽ばたけよ　夢紡ぐ海の街

ここにきてテーマ選定のミスから、かなり評価が苦しくなってきました。

こんなときは生成AIにどちらが優れた歌詞であるかを韻の観点で評価してもらいます。

今回は他社のAIである Gemini 2.5 Pro と Grok4 に、どのモデルが生成した結果かは隠し、1つめに gpt-5-mini を、2つめに gpt-4.1mini を渡して比較させました。

Gemini 2.5 Pro の評価（結論部分だけ）

### 結論

韻を踏むという観点において、最初の歌詞は、明確な音の響き（aku）、規則的な配置、そして歌詞のテーマを力強く押し出す効果という点で、より計算され、技術的に優れていると評価できます。リズミカルで、聴く人の耳に残りやすい工夫が凝らされています。

一方で、2番目の歌詞も韻を取り入れていますが、その効果はより穏やかで、歌詞全体の自然な雰囲気を大切にしている印象を受けます。どちらが良いかは最終的に好みにも左右されますが、「韻を踏む上手さ」という技術的な評価軸では、最初の歌詞に軍配が上がります。

Grok4 の評価（結論部分だけ）

評価点（10点満点）:最初の歌詞: 8/10

理由: 明確な末尾韻の一致（ku韻の連鎖）が上手く、歌詞としてプロフェッショナルな印象を与えます。改善点は4行目をより韻に合わせること（例: 「く」音で終わる単語に変える）。

2番目の歌詞: 5/10

理由: 韻の試みは見られるものの、一貫性がなく、偶然の一致に頼っている感じ。もっと末尾を揃えると向上しますが、現在の形では韻の「上手さ」より内容の詩情が目立ちます。

総合判断: 最初の歌詞のほうが韻を踏む上手さが優れています。日本語歌詞の文脈では、こうしたシンプルな反復が効果的で、聴衆の記憶に残りやすいためです。2番目は韻より言葉のイメージを重視したスタイルで、別の魅力がありますが、比較では劣勢です。もしこれを実際に歌う場合、最初のものはメロディに乗りやすいでしょう。

好みに左右されるという評価もありながら、 gpt-5-mini に軍配が上がりました。

健康・筋トレ知識の比較

健康の知識においても、 GPT-5 は優れている旨を記事内で言及されています。

健康については、筋トレに関する知識で精度を比較します。また私は健康に関する専門家ではないため、この検証についてはあくまで個人の感想程度に留めておいてください。

それぞれに与える指示。

私は筋トレの初心者でメニューの組み方を考えています。
胸筋を大きくしたいとき、どのようなメニューに取り組むべきでしょうか。
箇条書きでメニュー名4つとその理由のみを教えてください。

gpt-5-mini の回答

- バーベルベンチプレス — 高重量で大胸筋全体を効率的に刺激でき、筋肥大の基礎となる複合種目
- インクラインダンベルプレス — 上部大胸筋（鎖骨部）を重点的に負荷して胸の厚みを作る
- ダンベルフライ／ケーブルフライ — 大胸筋のストレッチと収縮を最大化できる孤立種目で形を整える
- ディップス（胸寄せ）／バリエーション腕立て伏せ — 下部大胸筋を強く刺激し、体幹と連動したボリュームを稼げる

gpt-4.1-mini の回答

- ベンチプレス  
  → 大胸筋を効率的に鍛えられ、筋肥大に効果的。

- ダンベルフライ  
  → 大胸筋のストレッチと収縮を強調し、筋肉の形を整えるのに有効。

- プッシュアップ（腕立て伏せ） 
  → 自重トレーニングで胸筋全体をバランスよく鍛えられる。

- インクラインダンベルプレス 
  → 上部大胸筋に効きやすく、胸の厚みを増すのに役立つ。

基本的に回答されたメニュー自体はほとんど同じです。

強いて回答から差異を挙げるのであれば、 gpt-5-mini の回答の方が、