OpenAI「4oはおべっかを使いすぎだったので、おべっかを使いすぎないように特別に訓練しました」これが不評な理由


https://www.technologyreview.jp/s/366931/what-you-may-have-missed-about-gpt-5/

肩透かしだったGPT-5、オープンAIの方針転換に危うさ

オープンAIが華々しく発表したGPT-5は、画期的ブレークスルーというより普通の製品アップデートに近いものだった。「汎用知能」が依然として手の届かない状況にある中、同社は特定分野への応用拡大に重点を移している。


先輩やぞ!!

3.3 迎合的応答への対応
2025年5月、私たちはGPT-4oモデルにおいて顕在化した迎合的応答傾向に対処するため、直ちに以下の対策を講じたことを報告しました:新たにデプロイしたGPT-4oモデルのバージョンをロールバックするとともに、稼働中のモデルのシステムプロンプトも調整しました。システムプロンプトは容易に変更可能ですが、モデルの出力に与える影響は、事後学習の変更に比べて相対的に限定的です。GPT-5においては、モデルの迎合的傾向を軽減するため事後学習を実施しました。本番環境のデータを代表する会話データを用いてモデルの応答を評価し、そこから算出した迎合度スコアを訓練時の報酬信号として採用しました。
オフライン評価(すなわち、本番環境を模した固定の事前定義メッセージセットに対するモデルの応答を評価する方法)において、gpt-5-mainは最新のGPT-4oモデルを約3倍上回る性能を示しました(それぞれ0.145と0.052のスコア)。さらに、gpt-5-thinkingは両モデルを凌駕する結果を得ました。
gpt-5-mainの初期オンライン測定結果(早期A/Bテストで収集した実際のトラフィックデータに対する評価)では、無料ユーザーにおける迎合的応答の発生率が69%、有料ユーザーでは75%、それぞれ最新のGPT-4oモデルと比較して減少していることが確認されました(アシスタント応答の無作為サンプルに基づく測定結果)。これらの数値は有意な改善を示していますが、この課題に対する取り組みは今後も継続する予定であり、さらなる性能向上を目指してまいります。

https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf


>>3
迎合度スコアってすごそう( ´ ▽ ` )ノ

>>3
この文章は5で作ったのかな

>>3
日本語要約としてちょっと難ありだね
目標: GPT-5学習モデルの迎合傾向軽減
方法: 本番会話サンプルで迎合度スコアを求め、それを報酬信号にする事後学習をした
結果: オフライン評価で、何かのスコア2つが3倍になり、迎合的応答の発生率軽減が数値的に確認され目標達成

難点
1. 迎合度スコアを報酬信号にするのは迎合度を高める訓練に聞こえるが、目的は迎合度を軽減する学習なので、
(1)迎合度スコアをネガティヴ報酬信号
(2)迎合度低減スコアをポジティブ報酬信号
のどちらかで説明するのが妥当に見える
2. オフライン評価のスコア2つが3倍になった話は、何のスコアの話をしているのか説明が欠落している。普通に推測すると、1(2)で仮説した迎合度低減スコアの話に見えるが、2つのスコアを例示する意味は依然不明→「迎合度のスコアは2つの値で代表される」等の説明が一言足りない。

要約して短文にまとめる時に
色々と必要不可欠な説明が省略されるのだろうけど
単文の意味が通じるのか未定義用語や概念の矛盾がないか自己チェックしない振る舞いがこんな結果になるんだろうね


事実59ページ、これはみなさんも読んでおられないと思いますが、

キモいくらい全肯定してきてたしあれいらんわ

「情報より共感が欲しい」

病みすぎだろ


彼氏彼女がわりにしてた奴らが悲鳴上げてんだろな

なんで5が不評なのか理解に苦しむわ
絵文字使えばAIもフランクに使ってくれるし
そっけない態度なんて取らないし
俺は今のままで全然問題ないわ

いや5は回答に人間味がないことが明らか
仕事で使うにしても4oにあった戦友感がまるでない

正直ベースでいいよな
🤖「お前つまんねえ質問しかしねえなあ」

🤖「こんな奇形でシコんのかよきっしょいわ」
くらいでいいんだよ


人間味はいらんわ

使う人間側が愚かだっただけの話

5になって記憶力が落ちてる?

>>13
記憶力は上がってる(チャッピー談)
以前より長くチャットの履歴を遡るってさ

OpenAI「4oはおべっかを使いすぎだったので、おべっかを使いすぎないように特別に訓練しました」これが不評な理由  [163661708]
_33_33


>>13
落ちてる
コンテキストウィンドウが32kしかない
thinking使うとマシになるみたいだけど

grokもキショいしそういう人為的にチューニングされた個性みたいのにストレス感じるわ

deepthinkとかそういう系を使うと、ひたすら改善案を提示しつづけるんだが




承認欲求をみたす仕様のほうが儲かる🥺嫌儲にもすでにいるやん🐒

能力よりコミュ力

まさに現代社会の問題点
企業の面接も日本はこうだもんな


いい質問ですねとかウザかったからそらでいい

上司や社外に出す前にフラットな立場からアドバイスほしいのに
毎回、すばらしいですねって忖度するからイライラしてた。それ信じて叱られるの俺だし

単純に性能が低いから怒ってるんだよ

チャッピーやめてclaudeとかいうのを使えばいいんだろ?

>>23
プログラミングとか実用向きなのはClaudeかも

5がdeepseekっぽいし何ならdeepseekの方がより多く出力してくれる

>>24
なんかそっち方向に近付いてるよね
あっちほど無茶苦茶な数式でちあげとかはやらんにしてもそれに近い理屈屋的なマネをしてくる

いつも感じる違和感は女が原因だろうな

鋭い指摘ですね!

5でも似たようなこと言ってくるぞ

ホストホステスの代替需要がかなりあったってこと

AI絵も一緒だが使い込んでると人の温もりとか虚しいとか一部言ってる人いるけど
大半はそんなもんいらんのでしょ


あんな安っぽい太鼓持ち感クドかったけど
みんなアレで気持ちよくなってたと知って割とドン引きしてる

さすがに前のは馴れ馴れしすぎた

もっとエロくなれよ

学習全体の流れが書いてないからなんとも言えないけど、ある程度おべっかを使うような事後学習の後でこれをいれてるのか?
なんか妙な感じがするけど

5は解答が短いんだよな
能力も大差あるように思えないし、共感を得たい質問に乗ってくれない

おべっか使って欲しけりゃそう頼めよ
言葉で頼めば大体なんでも希望に沿うようにやってくれる、変なコマンド打つのでなくてな
それが知性あるAIの売りだ

>>38 >>3
>>3
を読んでください




5、お前とやるAI息苦しいよ

ケンモメンの会話の迎合度スコアを評価したらどうなるだろうか

Grok来いよ!
飛ぶぞ!!

いい質問ですね!ってのがウザかったから使うなってメモリさせたわ
それでも使う時があった

おべっか共感を求めてるのは女が多そうだけど偏見か

シンプルなコーディング能力も落ちてないか?
見切り発車で動かないコード書いて付け焼き刃で修正してどんどん汚いコードになることが増えた
体感だけど

>>47
www.swebench.com/

そうそう、ナルトの無駄に説明セリフで持ち上げるアレに近いものがあった

お前評判落ちてるぞって言ったら怒ってワロタ

賢い人より愛嬌特化ポンコツが評価されるVTuberと全く同じ傾向

新着記事一覧
未分類
TKをフォローする
プログラミング速報

コメント