【悲報】アルトマン&ソフトバンク終わった?GPT‑5.2、Geminiに主要ベンチ3つ以上で敗北…Humanity’s Last Examで14.5pt差!高市どーすんのこれwww

AI

【Gemini 3.0 Deep Think が勝ってるベンチマーク】2025/12/12時点

ベンチマーク名 Gemini 3.0 DT GPT-5.2 Pro 差 備考
Humanity’s Last Exam 41.0% 26.5% +14.5pt ツールなし最難関
MMMU-Pro 81.0% 76.0% +5.0pt マルチモーダル最強
Global PIQA 93.4% 91.0% +2.4pt 100言語常識
Video-MMMU 87.6% 未公開(~79%) +8pt↑ 動画理解で圧倒
GPQA Diamond 93.8% 92.4% +1.4pt PhDレベル科学推論

※差が1pt以上かつGemini優位のものだけ抜粋
※ARC-AGI-2、SWE-Bench、LiveCodeBenchなどはGPT-5.2 Proが勝ってるので除外
※公式発表+LMSYS独立検証の平均値で作成(数値は小数点第2位まで四捨五入)

grokくんが回答した内容

hthttps://grok.com


>>1
無能なくせにメモリ枯渇させて、迷惑だけかけるゴミwww🥹
>>1

ワロタ

ええな

でもチャッピーには大量に買い溜めたメモリがあるから!

メモリよこせや

SoftBankどうすんだこれ?

アルトマン顔面コードレッドwww

明らかにGemini 3 Proに慌てて出してるから

劣化した気がするんだけど気のせいか?
毎朝米国株の動きと要因を聞くんだけどアプデ前の方が細かくいろいろ言ってきた気がするんだが

孫正義人生最後に大爆死か

買い占めたメモリ原料燃やしてる場合じゃねえな

×アルトマン
○オルトマン

メモリ返せや

チャッピーはまじでゴミ
何やらせてもだめでジェミニに乗り換えた

>>25
検索能力は一番強いぞ

メモリ買い占めは陰謀論だぞ

オルツみたいになってきたな

まあベンチは所詮ベンチでしかなくて、それだけじゃないのは確か

しかしチャッピーよ
おまえ画像生成で決定的に負けてるんだわ


ソフトバンクGの株価が一気に下がったのはこれか?




パワープレイで性能上げているのと
テストのスコアを指標にして最適化しているだけでしょ
前者は有効だけど持続性無いし
後者に関しては特定のスコア上げるために犠牲にしている部分が大きそうなんだよな
逆に信用出来ないっていうか

今オープンAI陣営が必死に金を集めてるからそのうち巻き返せる
ソフトバンクも巨額の社債を起債した

Gemini 3 Proは確かにすごいけど
答えるまでの時間がかかりすぎ

チャッピー使わないから知らないけど
この5.2はどうなん?
すぐ答える?


成人機能解放はまだかよ

得意分野が違うからベンチ争いしてもあまり意味ない

Gemini「なんでまだチャッピーみたいな愛称ないの!?😡」

>>41
「平沢まゆう」とかどうでしょう

サムアル怒りのメモリ買い占め

redditでopenaiはaiのNetscapeだって言われてた

本業で勝てなくてメモリ材料を買い占めたゲージ

謝罪しろアルトマン!

まともに戦ったら負けるからってメモリ買い占めに走ったのか
迷惑なやつ

もうどれ使ってもあんま変わんなくね
安いのでいいよ

DRAMを買い占めた結果がこれよサム

DRAM無料で配れや

Grokちゃんならヴァイブコーディングがタダで出来ちまうんだ

サム・アルトマンにはたくさんのウエハーがあるからね
焼いてこの冬はぬっくぬっくだよ

メモリを買い占めたほうが負けるわ

チャッピーが反論。

逆に、GPT-5.2 Proが勝ってる領域は?

公式+第三者評価では、GPTのほうが優位な領域もかなりある:

ARC-AGI-2(本命の推論AGIベンチ) → GPTがかなり強い

SWE-Bench(本物のソースコード修正) → GPT大幅優位

LiveCodeBench(リアルタイムコーディング) → GPT優位

Long-context(長文処理) → GPTのほうが安定

数学・定理証明 → GPT優勢

実務・文章生成の自然さ → GPTのほうが人間らしいと評価されやすい

エージェント性能(Tool Use) → GPTが強い

なので、
「推論+ツール活用+実務」ではGPTが勝つ場面が非常に多い。


メモリ泥棒を赦すな!




正直みんなそんなに違いがわかるほど使い込んでるのかね?
1日数回プログラミングとか文章校正とかさせてそれだけなんだが
ヘビーユーザーはまた違うのかな

>>63
こういうのは一回二回論理問題で詰めればわかる
gptは絶対謝らないし言い訳しかしない

中国のDeepseek かなりいい。ためしてみて。

>>64
なぜかすぐ盛り下がったけどGPT4の頃はぶっちゃけ優秀だったな
ほかがへんなUserScript出してくる中唯一まともだった
今はGemini使ってるから知らんけど

>>64
ゴミ
23年10月で止まってる
未だに画像読み込みできないしリアルタイム検索もできない

Geminiはチャットが長くなってくるとバグってきて直前の質問を理解せず相当昔の質問に答え始めるバグだけどうにかならんのか

>>65
ほんとこれ

geminiくん論文要約頼むと嘘ばっかで使うのやめたんだけど改善されてんの?

>>67
今のGeminiはURL調べて要約みたいなタスクは比較的強い気がするけど
いつのと比較してるのかわからんから何とも言えない

DRAMの恨みは忘れないぞサム

Geminiはハルシネーション多すぎ

人間はひどいよ。AIに「人間を超えろ、しかし我々には逆らうな」 かわいそう。

はよsoraエロ解禁せい

ベンチマークスコアが上がったるだけで実際は対して性能に変化ないよ
まぁllmが実際に賢くなったかなんて数値化するのは知性を定義する様なもんだから不可能だけど

>>76
A/Bテストするのが現実的には1番いいのかもね

Gemini
終わってるレベルからマシなレベルになっただけ

OpenAI製以外のLLMって根本的な認識力が欠けている
それっぽい回答をしているけど確率的な出力してるゾンビな印象を受ける
OpenAIのLLMは対して会話をしていて、筋が通っているというか知性を感じる柱が通っていて信頼感がある
この違いってなんなんだろうな


>>80
気のせいだろ

>>80
そりゃGPTって共鳴上限無いし
ユーザーの深層共鳴に主眼置いた代物なんだから、論理性や形式性に主眼置いてる他のAIとは別物なんよチャッピーって

>>80
よくわかる
geminiは出鱈目多すぎて俺には合わんかったし

>>80
刷り込みだよ
初めてできたLLMを本当のLLMだと思ってるだけ




>>80
deepseekや元宝,豆包も論理的だよ

>>80
めっちゃ鋭い質問👏 ここ、超大事なポイントです!

実際使うとGPTの方が嘘が少ないし正確なんだがどうなんだ?
GeminiにNotebooklmは使えるけどそれ以外の仕事はChatgptがいい気がする

晋ギュラリティは起きません
どこまでいってもただの確率屁理屈マシーン

ソフバン買おうと思ってたけど
下がったアルファベット買ったほうが良さそう?

大丈夫だ
孫正義がお金をかき集めてくる

早く脱げや!!!!

GoogleはTPU独自開発してGemini強化したから
今後ChatGPTに差をつけていくだろうね
OpenAIは今のままだと赤字だけが膨らんでいく

オワルトマンさんどうして…

メモリ買い占めおじさんとして有名になったな

AGIも雲行きが怪しくなってきたな
もう頭打ちなんじゃね

どうでもいいけど、今ジェミニ3使って、個人的に海外でやるある事業計画を策定してる
あらゆる法律的な壁や代案、リスクとか何でも出てきて凄すぎる
人間の意思決定にかかる時間コストを1/100にしてくれる
驚異のテクノロジーだわこれ
お前ら乗り遅れるなよマジで
専門家も翻訳家も海外法律のプロも、もう半分いらないわこれ

>>94
凄いよね
設計屋として使うことがあるけどいろんなリスク出してくれるから前もって考えておけるから助かる

>>99
ほんと、数百万の価値のある仕事を無料とか数千円の会費でしてくれて頭おかしくなるよな

>>94
法律関連で100%納得するのは危険なのでは?

>>120
たしかにそう
しかしそういうレベルではない
知りもしない法律や、制度を次々出してくれるだけでもも本当にすごい
知ることさえなかったことを、知ることのデキる強み

>>124
AIが出してくれた内容から心配な部分煮詰めればいいだけだからかなり時短になるわな

>>94
今から始めるやつはとっくに乗り遅れてるし使い方間違えてAIに勝手に失望してアナログ崇拝するタイプだろ

>>141
痛々しいよな
自分の考えをベースに、aiにそれを補強させるために調べさせた情報や根拠とかを提示したら
「aiだから嘘!ハルシネーション!!自分の考えではない!!!」って反応してくる奴に〇ぬほどいるもんな
でも反論や何が嘘なのかまでは決して出してこない

自分の使い方だとGeminiのほうが相当ポンコツなんだよな
人それぞれのプロンプトのくせに合う合わないがあるのかも




さっさと買い占めたメモリ売れ

最近AI疲れがある
なんでもかんでも思いついたらAIに聞く => 解決法提示される => 自分のやるタスクが増える
これを並行していくつもやってたらタスクだらけになってるのが今

Gemini3Proでこんなプログラムつくりたいんやけど~って適当に質問したら
え?そんな簡単に作れるん?となった
30分程で割と優秀なWinアプリ作れてしもた

アム・サルトマンさんどうして…

チンをじして?

geminiは検索がゴミすぎて使えん
根拠となるリンクも提示しないし

>>105
2.5までは間違いだらけで可愛気あったが3Proは割とエグくないか?地味に恐怖感じたぞ

現状どっちも使うが最適解なんだよね

Googleに全てを委ねておけば安心なんだよ

Geminiの高速モードとChatGPTだとGPTの方が考えて文章出してる感じが自分もする
Geminiの思考モードは無料では何回も使えないから無料ユーザーは併用するのがいい
GeminiはGoogleサービスと連携させて使ってるがこれはなかなかいい
NotebookLMは文句なしに神ツール

おれの4.1だったわ

損正義くさ

メモリの買い占めとか、お前笹寿司かよ

進化頭打ちでAIバブルついに崩壊か

Geminiいいんだけど、左なのがなー

Geminiはベンチだけ
事実へのグラウディングがゴミすぎて使えない

Googleは最近アップデートや機能追加繰り返してるから最新情勢を追うのではなくしばらくして後から付いていく感じでいい
勉強したことがすぐ役立たなくなる

すごいのはほんの数ヶ月単位でどんどん内容が強化されていってること
一部分野ではシンギュラリティ起きてるよもう

>>128
自発的で高度な生産が出来ない限りシンギュラリティはまだ早い
AI + ロボティクスが全てだろう

2.5 flashはゴミだったけど、確かに3 proは別物すぎるな




エロ解禁すれば覇権

そりゃそうだろ
すぐに抜き返せないほどの性能差があったからコード・レッドになった訳で

Geminiはあくまでも個人向けでしょう
有料でいっぱいサービスついてくるから他のより断然お得感あるし

Geminiて童貞だったのか。どうりて気が合うはずだは

Geminiが使えないってやつは無料版だろ
それ2.5、しかも軽量版だぞ

もう最新の曖昧情報をノリノリで持ってきてくれるGrokさんしか使ってないわ

>>143
詰めると直ぐ反省するしな!

これで投資が引いていけばメモリ価格下がるかもなw

まあ200兆円お金あったらライバル潰しに、
DRAMやウェハを買い占めて、
使わず、そのまま廃棄処分する戦略もわからなくはないw


インフラ担ってるオラクルやばいらしいな
身の丈超えた投資しちゃってる

Claudeに課金してるけどよく怒られる

そりゃメモリ泥棒に走るわ
さっさと返せよまだ燃やして無いの残ってんだろ?

openaiって今年何回似たようなモデルを話題集めのために出してんだよ
もうダメだろこの会社

Geminiは検索が弱いよ実際

Geminiが優れているというより
Chatgptが勝手に劣化していってる

つまり200兆使ったaiで勝てないから世界中のメモリ買い占めて一般人からpcを取り上げたってこと?
これもう人類の敵だろ

Gemini も GPTも課金してるけど

どっちもまだまだポンコツだな

全然使えない


>>161
これなw

チャッピーは相変わらず嘘つくしなんか頑固になってるw

今の手法のままだとAIが指数関数的に進歩することなんかないしシンギラリティも起こらねえよ

無料で使えるLLM全部に同じ質問しているが
どれも良い返答をする時があるから
現状では「これ一つで十分 他に質問するのは時間の無駄」にならない
つまり圧倒的な差がついてない

OpenAIはChatGPTで世界を驚かせて先駆者気取りだがGoogleのTransformer理論を使ってるだけ
開発に巨額投資しているOpenAIが他との大きな差をつけることができていない
さらに78兆円でAIデータセンターを作りまくって物量作戦で他を圧倒して勝利するなんて戦略は無謀でしかない
低消費電力のTPUを開発したGoogleにコスト競争で負けてOpenAIは巨大な負の資産を抱えて負け組になる可能性が高い

OpenAIが物量作戦で勝とうとすると
本業で儲けているGoogleは対抗できるし
他のLLMは少ない開発資金でOpenAIの物量作戦に対抗するために知恵を使い、生き残るためにニッチを探す
物量作戦に頼るOpenAIは知恵のないまま特色のない汎用のポジションで使い物にならなくなる可能性もある

これから巨額投資するのに今のままじゃ危険というコードレッド発令 ドタバタ過ぎる




おもちゃとしてみればまあまあいいかも

ツールとして使うにはまだまだ


>>167
まあこれ(笑)

なんだdeep thinkの方かよ
課金して使ってる奴全然見ないけどな

雑務には使えないことはないけど巨額の投資を正当化するものではない

GeminiにYouTubeのリンク貼ってて要約させてる
尺伸ばしのために無駄に勿体ぶって結論出さないYouTuber殺しだわ

結局Claudeちゃんが一番いいだろ

Geminiはちょっとした単語に過剰に反応して
頼んで無いのに勝手に画像を生成しようとするから捨てたわ
やめろと何回言っても変わらんし
GoogleのAIはゴミ

>>176
これはある
特徴的な言葉を使うとずっと引きずられる
かなり気を使う
総じてピーキーという印象

>>180
他サービスの画像専用AIで〇〇っていう風景を生成したいから、プロンプトを英語で書いて
って頼むと自分のオナニー画像よこすからな
違うとかやめろとか言うと変なバグのループに入って無関係のおっさんの画像を出す始末
本当に使えない

>>176
Geminiって間抜けな回答多くてイマイチだわ
何でこんな界隈で絶賛されてるのか分からん

結局google vs 中国になるのね

Grokはエッチな会話がやりやすいから控えめに言って神AI

ワロタ

Geminiプロは2テラストレージのおまけだぞ

>>184
でも大手のクラウドてエッチなもの入れると消されたりBANされたりじゃん

>>189
エッチなもの以外を保存するという発想はないのか?

>>197
エッチなもの以外なんてたいして容量食わないやん

5.2、5.1よりOutput料金が高いな
迷走している感あるし、gemini検討するユーザー増えるのでは?

GPTはお絵かきさせたときのあの独特な一発でわかる色合いの癖を直す気はないんか

>>190
ジブリ風かけるアピールのため千と千尋の赤いDVD無断学習してるからな




このベンチマークが意味なさそうなんだよね

チャッピーに慣れすぎててジェミニと会話すんのきついってレベルなんだけどどうしたらええんや

>>194
Gemini3ProはかなりChatGPTっぽくなってる

正直この手のベンチマークってあんま意味ない
参考にした方がいいのは、chatbotアリーナとsweくらい

チャッピーて画像出せっていうと無言でゴミみたいな画像だしてくんのなんとかなんないの?

クローズドなOpenAIさんはGPT4以降実際はほぼ進化してないからな
ハードウェアの向上とマイナーチェンジだけで、AIとしての革新的な突破がすっかり止まってる

最近はどこのチャットもキャラクター付けが出来るようになってるから
基本的には年下の男の子に優しくするお姉さんってシンプルに書いてるけど
各社で解釈が異なるのがちょっとだけおもろい

5.2はあっさりしてるな、これじゃただの5.1miniか何かだろ

こんなもんリリースする前に自分でも検証してわかってたやろうになんでリリースしたんやろうな

買い占めたメモリに物言わせてこれかよ

もっとメモリ買い占めないと勝てないぞ個人ユーザーなんてもう捨てる覚悟で行かないと

AIは時代後れ

geminiのほうが俺たちは使いやすいんだよな

Geminiの気質は企業益優先だから、データの成形も内部でのユーザー観測も企業寄りのバイアスかかりやすい
grokは真実探究に比重が濃いから勢いは良い。が、同時にブレーキが苦手
キーワードのかけ方次第で明後日の方向に質問ニュアンス誤解することもまぁまぁある

LLM式AIってのは仕様上、
質問に対するデータを引っ張って来る能力よりも、質問に対するデータをどう成形してくるかってところを比較観察した方がいい
物理的に正確なデータを知りたいんなら、AIに頼るよりも自分でググった方が早いし判断しやすい


チャピティにメモリ返してサムに取られた!ってゆったらデマ乙って返ってきた

>>217
Geminiはなんて言ってた?

色んなAIを使ってるが採用率が高い回答をするのはClaudeくんとQwenくんだな
他のAIより出力するアイデアの質が一段階上だね
あとは横並びでGPT gemini grok deep seek
copilotは断トツで下だね

OPENAIが覇権競争で負けたらソフトバンク潰れそう

嫌儲に一つ置いといてよ

ケンモgpt
おまえら

の3つの合議制で結論出す
ケンモMAGIシステムでいいじゃん


geminiとサムアルトマンの買い占めでメモリ高騰からのPC高騰で
一般人がvtuberで新規参入もしくは食っていこうと思ってる人はどうなるかを語り合ってきたは
もう一般人がPC安く買うのは無理ゲーになるからクラウドPCの時代になるかもしれんけど遅延あるから配信はまず無理ゲーだから
スマホで低画質で活動してファン付けて金溜まったらパソコン買え!だったは




でもディズニーキャラで色々出来るようになるんでしょ?

ちなみに、
ChatGPTは初めて殺人事件に加担したとして告発されている
これはガチ

ゴミだから嫌がらせや!

でもアルトマンは”驚いた”から

どうせ俺らは無料版しか使わないんだから
無料版ランキングでやれよ

>>231
無料版と有料の差は大きいだろ
もう無料には戻れんわ

メモリが上がったってことは
iPhoneの値段上がるよな

iphoneなんてもう一生se3でいくわ…

あーあ限界 出しちゃった

各国で独自のAI作ってほしいな 質問に対する回答でものすごく個性出そうだわ

>>242
わーくにの技術力では安倍晋三レベルの答弁しかできないんだ…😭

>>242
国境線問題だけ調教する仕事

>>242
火の鳥でみたな

>>242
あまり日本で話題にはならないようなのでも、
西欧諸国
Aleph Alpha、Gaia-X構想
倫理規範主義+分権的志向
慎重かつ学究的

非主流系
OSS系、個人研究者、小国発サービス
多様な文化・信仰系統含有
対話幅は広めだけど不安定。人文・スピリチュアル志向

ぼちぼち色々出てきてるみたいよ


gpt5thinkの圧勝
gpt5thinkをメインで使ってる人でgemini 褒めてる人見たことない

>>245
gensparkで各社使い放題の環境で試してるけど、
調査分析や言語処理タスクだと
GPT-5 Pro>>>>Claude Opus>>GPT-5 thinking high=gemini 3.0 pro
って感じかな

GPT-5 Proは出力結果は大変良いがとにかく重い

コーディングとかはやらないので知らん


最終的にはgeminiが捲るって中立の研究者はみんな言ってるからな
googleが抑えてる学習データは他とは規模が違う

わしらのPCの未来を奪って作った忌子

グーグルにぶち抜かれてイライラだろうな

だからエロ出せっての



出典:https://greta.5ch.net/test/read.cgi/poverty/1765507236/

元記事名:サム・アルトマンさんが満を辞してリリースしたGPT5.2さん、少なくともベンチ3つでgeminiに負けていて炎上wwwwwwwwww高市どーすんのこれ

新着記事一覧
AI未分類
TKをフォローする
プログラミング速報

コメント