ローカルAI勢に朗報!GoogleがVRAMを6分の1にロスレス圧縮する方法を発表。既にHuggingFaceで開発者達が一斉に実装開始


TurboQuant: Redefining AI efficiency with extreme compression
TurboQuant: Redefining AI efficiency with extreme compression

俺のグラボでもWAN動くようになるのか

4090でもVLAM不足を感じてたところだ
改善してほしい

kvキャッシュが小さくなるのか
いいんでない?

小型モデルが進化してるから3060の2枚目を確保しといたわ

>>9
いいなあ

モデルは小さくならんのに開発者ですらわかってないよな

ロスレス圧縮なんて可能なのか?

>>12
zipとか

ローカルモデルでも長いコンテキストで動かせるようになるの?

なんに使うんだこれ
ローカルLLMでエロTRPGくらいしか思いつかん

>>14
お前マジで乗り遅れてるぞ

KVキャッシュに泣かされてきたのでめっちゃ助かる(´・ω・`)

まじでやばいぞこれ

メモリバブル逝ったぁあああぁああああぁあああぁ

🤗🤗🤗🤗🤗🤗

👉 🤗

こうですか?わかりません!><


ん?メモリの需給逼迫を見越して買われてたサンディスクとかマイクロンやばない?

Qwen3.5ってエロ書ける?

>>21
hereticとか付いているタイプは書ける

>>21
規制解除バージョンは行けるっちゃ行けるけど、自発的な発言はキツいな
一々サポートしないと書けない




>>21
uncensoredで検索

計算能力は据え置きだけど
記憶力と思い出す力が向上って感じ?

ようするに前と同じものが出力しやすいってだけじゃね

俺のPCでも48bくらいのモデルがスラスラ動かせるようになるのか
27bのIQ2Mじゃ物足りないからはよ導入してくれ

✕1/6に減らせる
○6つ並列できるようになる

天才かよ

一発でお望みのが出ないからきらい😠

論文からクロードで構築できるんやね凄い

LLMか。
動画生成とかじゃなくて

3次元の日本人に強いモデルって何が主流なんだ?
2次元ばっかで3次元は情報が少ないわ

>>33
asianとか付いてるモデル
ローカルでもクラウドでもAIに人種聞くと金髪とか青い目でもコスプレした日本人に見えると判別してくる

何をもって強いと言うかだけれど、z imageやWanは中華系だからか中国美人系が出やすい印象

記憶に完璧な正確さは不要だろ
非可逆圧縮で劇的に縮むならその方がいい

1. 「モデルそのもの」の巨大さは変わらない
TurboQuantが主に解決するのは、会話の文脈を保持するKVキャッシュ(短期記憶)の肥大化です。

モデル本体: Llama 3などの重み(ウェイト)自体をロードするには、依然として数十GBのVRAMが必要です。
KVキャッシュ: 長文を読み込ませる際に爆発的に増えるメモリを抑える技術なので、短文のやり取りだけなら、元々のモデルサイズという「入場料」が払えないと動かせません。

2. 「3ビット」でも家庭用GPUには重い
TurboQuantは3ビットまで精度を落とさず圧縮できるとしていますが、それでも:

70B(700億パラメータ)級のモデルを3ビットで動かそうとすると、本体だけで約26GB以上のVRAMが必要です。
一般的なゲーミングPC(RTX 4060等)は8GB〜12GB程度なので、依然として「フラッグシップ級のGPU(RTX 4090等)」や「Macの統合メモリ」が必須という状況は変わりません。


RTX3060じゃあFP8すら使えん

出典:https://greta.5ch.io/test/read.cgi/poverty/1774440672/

新着記事一覧
TKをフォローする
プログラミング速報

コメント