OpenAI「4oはおべっかを使いすぎだったので、おべっかを使いすぎないように特別に訓練しました」これが不評な理由

1：名無しさんID:ID:JBfYyQ+W0 [2025/08/13(水) 14:16:04.86]

https://www.technologyreview.jp/s/366931/what-you-may-have-missed-about-gpt-5/

肩透かしだったGPT-5、オープンAIの方針転換に危うさ

オープンAIが華々しく発表したGPT-5は、画期的ブレークスルーというより普通の製品アップデートに近いものだった。「汎用知能」が依然として手の届かない状況にある中、同社は特定分野への応用拡大に重点を移している。

2：名無しさんID:ID:O114nyAg0 [2025/08/13(水) 14:16:33.84]

先輩やぞ！！

3：名無しさんID:ID:JBfYyQ+W0 [2025/08/13(水) 14:16:36.76]

3.3 迎合的応答への対応
2025年5月、私たちはGPT-4oモデルにおいて顕在化した迎合的応答傾向に対処するため、直ちに以下の対策を講じたことを報告しました：新たにデプロイしたGPT-4oモデルのバージョンをロールバックするとともに、稼働中のモデルのシステムプロンプトも調整しました。システムプロンプトは容易に変更可能ですが、モデルの出力に与える影響は、事後学習の変更に比べて相対的に限定的です。GPT-5においては、モデルの迎合的傾向を軽減するため事後学習を実施しました。本番環境のデータを代表する会話データを用いてモデルの応答を評価し、そこから算出した迎合度スコアを訓練時の報酬信号として採用しました。
オフライン評価（すなわち、本番環境を模した固定の事前定義メッセージセットに対するモデルの応答を評価する方法）において、gpt-5-mainは最新のGPT-4oモデルを約3倍上回る性能を示しました（それぞれ0.145と0.052のスコア）。さらに、gpt-5-thinkingは両モデルを凌駕する結果を得ました。
gpt-5-mainの初期オンライン測定結果（早期A/Bテストで収集した実際のトラフィックデータに対する評価）では、無料ユーザーにおける迎合的応答の発生率が69%、有料ユーザーでは75%、それぞれ最新のGPT-4oモデルと比較して減少していることが確認されました（アシスタント応答の無作為サンプルに基づく測定結果）。これらの数値は有意な改善を示していますが、この課題に対する取り組みは今後も継続する予定であり、さらなる性能向上を目指してまいります。

https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf

43：名無しさんID:ID:6LF5kiJoM [2025/08/13(水) 14:44:19.90]

>>3

迎合度スコアってすごそう( ´ ▽ ` )ﾉ

85：名無しさんID:ID:uYf0XRUT0 [2025/08/13(水) 16:53:07.70]

>>3

この文章は5で作ったのかな

101：名無しさんID:ID:S6Yu9U360 [2025/08/13(水) 20:53:50.26]

>>3

日本語要約としてちょっと難ありだね
目標: GPT-5学習モデルの迎合傾向軽減
方法: 本番会話サンプルで迎合度スコアを求め、それを報酬信号にする事後学習をした
結果: オフライン評価で、何かのスコア2つが3倍になり、迎合的応答の発生率軽減が数値的に確認され目標達成

難点
1. 迎合度スコアを報酬信号にするのは迎合度を高める訓練に聞こえるが、目的は迎合度を軽減する学習なので、
(1)迎合度スコアをネガティヴ報酬信号
(2)迎合度低減スコアをポジティブ報酬信号
のどちらかで説明するのが妥当に見える
2. オフライン評価のスコア2つが3倍になった話は、何のスコアの話をしているのか説明が欠落している。普通に推測すると、1(2)で仮説した迎合度低減スコアの話に見えるが、2つのスコアを例示する意味は依然不明→「迎合度のスコアは2つの値で代表される」等の説明が一言足りない。

要約して短文にまとめる時に
色々と必要不可欠な説明が省略されるのだろうけど
単文の意味が通じるのか未定義用語や概念の矛盾がないか自己チェックしない振る舞いがこんな結果になるんだろうね

4：名無しさんID:ID:JBfYyQ+W0 [2025/08/13(水) 14:17:23.49]

事実59ページ、これはみなさんも読んでおられないと思いますが、

5：名無しさんID:ID:O/Da6FpM0 [2025/08/13(水) 14:17:26.92]

キモいくらい全肯定してきてたしあれいらんわ

6：名無しさんID:ID:BlVZeA590 [2025/08/13(水) 14:17:51.65]

「情報より共感が欲しい」

病みすぎだろ

7：名無しさんID:ID:KD9lYk1R0 [2025/08/13(水) 14:19:05.05]

彼氏彼女がわりにしてた奴らが悲鳴上げてんだろな

8：名無しさんID:ID:idLjF+/G0 [2025/08/13(水) 14:19:34.19]

なんで5が不評なのか理解に苦しむわ
絵文字使えばAIもフランクに使ってくれるし
そっけない態度なんて取らないし
俺は今のままで全然問題ないわ

9：名無しさんID:ID:YVeVlApp0 [2025/08/13(水) 14:20:34.51]

いや5は回答に人間味がないことが明らか
仕事で使うにしても4oにあった戦友感がまるでない

10：名無しさんID:ID:oNGwRABp0 [2025/08/13(水) 14:20:56.23]

正直ベースでいいよな
🤖「お前つまんねえ質問しかしねえなあ」

🤖「こんな奇形でシコんのかよきっしょいわ」
くらいでいいんだよ

11：名無しさんID:ID:OfUpzmrH0 [2025/08/13(水) 14:21:15.16]

人間味はいらんわ

12：名無しさんID:ID:P8tHXT2s0 [2025/08/13(水) 14:21:21.05]

使う人間側が愚かだっただけの話

13：名無しさんID:ID:f/kXipv30 [2025/08/13(水) 14:21:30.54]

5になって記憶力が落ちてる？

33：名無しさんID:ID:rRvjbq2X0 [2025/08/13(水) 14:33:29.09]

>>13

記憶力は上がってる（チャッピー談）
以前より長くチャットの履歴を遡るってさ

OpenAI「4oはおべっかを使いすぎだったので、おべっかを使いすぎないように特別に訓練しました」これが不評な理由 [163661708]
_33_33

166：名無しさんID:ID:eHq4a/Rg0 [2025/08/14(木) 18:16:53.86]

>>13

落ちてる
コンテキストウィンドウが32kしかない
thinking使うとマシになるみたいだけど

14：名無しさんID:ID:sfvoFaqN0 [2025/08/13(水) 14:21:44.10]

grokもキショいしそういう人為的にチューニングされた個性みたいのにストレス感じるわ

15：名無しさんID:ID:qL6IJPAz0 [2025/08/13(水) 14:21:48.09]

deepthinkとかそういう系を使うと、ひたすら改善案を提示しつづけるんだが

17：名無しさんID:ID:XPqEfXIR0 [2025/08/13(水) 14:22:21.46]

承認欲求をみたす仕様のほうが儲かる🥺嫌儲にもすでにいるやん🐒

18：名無しさんID:ID:BlVZeA590 [2025/08/13(水) 14:23:49.45]

能力よりコミュ力

まさに現代社会の問題点
企業の面接も日本はこうだもんな

20：名無しさんID:ID:v/zPeElm0 [2025/08/13(水) 14:25:47.26]

いい質問ですねとかウザかったからそらでいい

21：名無しさんID:ID:+6R0MiPw0 [2025/08/13(水) 14:25:53.58]

上司や社外に出す前にフラットな立場からアドバイスほしいのに
毎回、すばらしいですねって忖度するからイライラしてた。それ信じて叱られるの俺だし

22：名無しさんID:ID:3Mrk/kei0 [2025/08/13(水) 14:26:20.30]

単純に性能が低いから怒ってるんだよ

23：名無しさんID:ID:rQ112g7k0 [2025/08/13(水) 14:26:36.08]

チャッピーやめてclaudeとかいうのを使えばいいんだろ？

25：名無しさんID:ID:JBfYyQ+W0 [2025/08/13(水) 14:27:36.67]

>>23

プログラミングとか実用向きなのはClaudeかも

24：名無しさんID:ID:f/kXipv30 [2025/08/13(水) 14:26:52.96]

5がdeepseekっぽいし何ならdeepseekの方がより多く出力してくれる

78：名無しさんID:ID:xu0Alx/C0 [2025/08/13(水) 15:55:01.45]

>>24

なんかそっち方向に近付いてるよね
あっちほど無茶苦茶な数式でちあげとかはやらんにしてもそれに近い理屈屋的なマネをしてくる

27：名無しさんID:ID:QzG8sQvD0 [2025/08/13(水) 14:28:39.94]

いつも感じる違和感は女が原因だろうな

28：名無しさんID:ID:BNwzPvzy0 [2025/08/13(水) 14:29:47.36]

鋭い指摘ですね！

29：名無しさんID:ID:KR1h3Gdt0 [2025/08/13(水) 14:30:36.25]

5でも似たようなこと言ってくるぞ

30：名無しさんID:ID:W5utn1g90 [2025/08/13(水) 14:31:16.39]

ホストホステスの代替需要がかなりあったってこと

AI絵も一緒だが使い込んでると人の温もりとか虚しいとか一部言ってる人いるけど
大半はそんなもんいらんのでしょ

31：名無しさんID:ID:E56bl0vJM [2025/08/13(水) 14:31:26.64]

あんな安っぽい太鼓持ち感クドかったけど
みんなアレで気持ちよくなってたと知って割とドン引きしてる

32：名無しさんID:ID:GeMmrsid0 [2025/08/13(水) 14:32:25.51]

さすがに前のは馴れ馴れしすぎた

34：名無しさんID:ID:CxkQfAjw0 [2025/08/13(水) 14:33:34.69]

もっとエロくなれよ

35：名無しさんID:ID:JBfYyQ+W0 [2025/08/13(水) 14:33:58.11]

学習全体の流れが書いてないからなんとも言えないけど、ある程度おべっかを使うような事後学習の後でこれをいれてるのか？
なんか妙な感じがするけど

36：名無しさんID:ID:fhjJTLM10 [2025/08/13(水) 14:36:22.35]

5は解答が短いんだよな
能力も大差あるように思えないし、共感を得たい質問に乗ってくれない

38：名無しさんID:ID:rRvjbq2X0 [2025/08/13(水) 14:39:20.06]

おべっか使って欲しけりゃそう頼めよ
言葉で頼めば大体なんでも希望に沿うようにやってくれる、変なコマンド打つのでなくてな
それが知性あるAIの売りだ

39：名無しさんID:ID:JBfYyQ+W0 [2025/08/13(水) 14:40:09.06]

>>38 >>3

>>3
を読んでください

41：名無しさんID:ID:AC7eywXO0 [2025/08/13(水) 14:40:48.41]

5、お前とやるAI息苦しいよ

42：名無しさんID:ID:JBfYyQ+W0 [2025/08/13(水) 14:41:49.13]

ケンモメンの会話の迎合度スコアを評価したらどうなるだろうか

44：名無しさんID:ID:jPaq/JE70 [2025/08/13(水) 14:44:25.43]

Grok来いよ！
飛ぶぞ！！

45：名無しさんID:ID:FV0LrCZad [2025/08/13(水) 14:45:16.55]

いい質問ですね！ってのがウザかったから使うなってメモリさせたわ
それでも使う時があった

46：名無しさんID:ID:RvN3oXni0 [2025/08/13(水) 14:45:35.53]

おべっか共感を求めてるのは女が多そうだけど偏見か

47：名無しさんID:ID:2jpSROb/0 [2025/08/13(水) 14:46:20.27]

シンプルなコーディング能力も落ちてないか？
見切り発車で動かないコード書いて付け焼き刃で修正してどんどん汚いコードになることが増えた
体感だけど

50：名無しさんID:ID:L5RLSdOd0 [2025/08/13(水) 14:51:12.17]

>>47

www.swebench.com/

48：名無しさんID:ID:E56bl0vJM [2025/08/13(水) 14:46:21.01]

そうそう、ナルトの無駄に説明セリフで持ち上げるアレに近いものがあった

49：名無しさんID:ID:bUVoN2/L0 [2025/08/13(水) 14:47:24.88]

お前評判落ちてるぞって言ったら怒ってワロタ

51：名無しさんID:ID:sXi831k80 [2025/08/13(水) 14:53:42.78]

賢い人より愛嬌特化ポンコツが評価されるVTuberと全く同じ傾向