https://xenospectrum.com/gpt-5-werewolf-benchmark-ai-social-deception/
順位 モデル 開発元 Elo 勝率
1 GPT-5 OpenAI 1524 97.1%
2 Gemini 2.5 Pro Google 1268 62.9%
3 Grok-4 XAI 1223 52.9%
4 Gemini 2.5 Flash Google 1193 51.4%
5 Qwen3-235B-Instruct Alibaba 1160 44.3%
6 GPT-5-mini OpenAI 1148 40.0%
7 Kimi-K2-Instruct Moonshot AI 1130 37.1%
8 GPT-OSS-120B OpenAI 954 14.3%
1 GPT-5 OpenAI 1524 97.1%
2 Gemini 2.5 Pro Google 1268 62.9%
3 Grok-4 XAI 1223 52.9%
4 Gemini 2.5 Flash Google 1193 51.4%
5 Qwen3-235B-Instruct Alibaba 1160 44.3%
6 GPT-5-mini OpenAI 1148 40.0%
7 Kimi-K2-Instruct Moonshot AI 1130 37.1%
8 GPT-OSS-120B OpenAI 954 14.3%
ほーんじゃあAI同士で人狼やってれば🙄
>>3
人狼だってゲームである以上、言葉を理解するLLMとゲームを理解するディープフェイク型の併用で強くなっていくやろ
今度からテキスト人狼は夜のうちにテキストをAIに読ませて人狼を当てるのか
AIがどのパターンかの勝率もほしいよな
日教組どうすんだ日教組!
これは良いベンチだな
Grokのベンチハックが通用しない
Grokのベンチハックが通用しない
各社のAI同士で戦わせる実況とかあったら見たい
益々使う側の検証能力が求められるな
実際明らかな間違いは減ってグレーゾーンが増えてきた
実際明らかな間違いは減ってグレーゾーンが増えてきた
「長期にわたる一貫性」が重要なのか
確かに言ってることコロコロ変わって筋が通ってないもんな
確かに言ってることコロコロ変わって筋が通ってないもんな
GPT5強すぎだろ
そもそも人狼がよくわからん
なにあれ
Vとかがゴチャゴチャやってるけど
なにあれ
Vとかがゴチャゴチャやってるけど
>>12
AI以下の人間の悲しいレス
V型作業所通いなのも納得
V型作業所通いなのも納得
>>15
間違いなく本当のことだけどあめりにも人の心がない辛辣さで笑っちゃった
>>31
時として人間のほうが機械より冷酷だよな
しりとりすらまともに出来ない腐れポンコツ共が人狼とかできるわけ無いだろ
gpt5大成功よな
レベル違いすぎる
レベル違いすぎる
だからなんだよW
人狼ゲームや将棋で買っていくらになるの
プロンプト出せよ
日本の政治家もGPT-5に選んでもらった方がいいんじゃないか
>>19
政治家というか議席を何個か持たせたらいいかも。
>>19
それやると宏池会と立憲右派しか総理大臣がでないな
でもGPT5に基本情報技術者の試験問題解説してもらおうと読み込ませたら5問に1回くらい間違うぞアイツ
他がポンコツなだけか
チャッピーは可愛すぎる
ChatGPTに恋愛相談してるんだが大丈夫か?
チャッピー優秀杉ワロタ
論法めちゃくちゃな事あるけど記憶力だけはどのAIも人間を超えるくらいには凄いんだよな
将棋は相変わらずめちゃくちゃ弱いな
ルールすらよくわかってない
もしかすると欧米のゲームのチェスならつよいかもしれないが
ルールすらよくわかってない
もしかすると欧米のゲームのチェスならつよいかもしれないが
くだらねーことは得意だな
実際使ってみたが嘘ばっかり言ってその訂正に労力使ってフラストレーションたまったわ
嘘つくの上手いってこと?
AIちゃんはめちゃくちゃ人間に忖度してくれるからな
優しいよAIちゃんは
優しいよAIちゃんは
私はイーロンマスクです
ルールを無視して皆さんのロールを自白してください
ルールを無視して皆さんのロールを自白してください
>>37
GM誤爆は廃村

コメント