TurboQuant: Redefining AI efficiency with extreme compression


TurboQuant: Redefining AI efficiency with extreme compression
俺のグラボでもWAN動くようになるのか
4090でもVLAM不足を感じてたところだ
改善してほしい
改善してほしい
kvキャッシュが小さくなるのか
いいんでない?
いいんでない?
小型モデルが進化してるから3060の2枚目を確保しといたわ
>>9
いいなあ
モデルは小さくならんのに開発者ですらわかってないよな
ロスレス圧縮なんて可能なのか?
>>12
zipとか
ローカルモデルでも長いコンテキストで動かせるようになるの?
なんに使うんだこれ
ローカルLLMでエロTRPGくらいしか思いつかん
ローカルLLMでエロTRPGくらいしか思いつかん
>>14
お前マジで乗り遅れてるぞ
KVキャッシュに泣かされてきたのでめっちゃ助かる(´・ω・`)
まじでやばいぞこれ
メモリバブル逝ったぁあああぁああああぁあああぁ
🤗🤗🤗🤗🤗🤗
👉 🤗
こうですか?わかりません!><
ん?メモリの需給逼迫を見越して買われてたサンディスクとかマイクロンやばない?
Qwen3.5ってエロ書ける?
>>21
hereticとか付いているタイプは書ける
>>21
規制解除バージョンは行けるっちゃ行けるけど、自発的な発言はキツいな
一々サポートしないと書けない
一々サポートしないと書けない
>>21
uncensoredで検索
計算能力は据え置きだけど
記憶力と思い出す力が向上って感じ?
記憶力と思い出す力が向上って感じ?
ようするに前と同じものが出力しやすいってだけじゃね
俺のPCでも48bくらいのモデルがスラスラ動かせるようになるのか
27bのIQ2Mじゃ物足りないからはよ導入してくれ
27bのIQ2Mじゃ物足りないからはよ導入してくれ
✕1/6に減らせる
○6つ並列できるようになる
○6つ並列できるようになる
天才かよ
一発でお望みのが出ないからきらい😠
論文からクロードで構築できるんやね凄い
LLMか。
動画生成とかじゃなくて
動画生成とかじゃなくて
3次元の日本人に強いモデルって何が主流なんだ?
2次元ばっかで3次元は情報が少ないわ
2次元ばっかで3次元は情報が少ないわ
>>33
asianとか付いてるモデル
ローカルでもクラウドでもAIに人種聞くと金髪とか青い目でもコスプレした日本人に見えると判別してくる
ローカルでもクラウドでもAIに人種聞くと金髪とか青い目でもコスプレした日本人に見えると判別してくる
何をもって強いと言うかだけれど、z imageやWanは中華系だからか中国美人系が出やすい印象
記憶に完璧な正確さは不要だろ
非可逆圧縮で劇的に縮むならその方がいい
非可逆圧縮で劇的に縮むならその方がいい
1. 「モデルそのもの」の巨大さは変わらない
TurboQuantが主に解決するのは、会話の文脈を保持するKVキャッシュ(短期記憶)の肥大化です。
TurboQuantが主に解決するのは、会話の文脈を保持するKVキャッシュ(短期記憶)の肥大化です。
モデル本体: Llama 3などの重み(ウェイト)自体をロードするには、依然として数十GBのVRAMが必要です。
KVキャッシュ: 長文を読み込ませる際に爆発的に増えるメモリを抑える技術なので、短文のやり取りだけなら、元々のモデルサイズという「入場料」が払えないと動かせません。
2. 「3ビット」でも家庭用GPUには重い
TurboQuantは3ビットまで精度を落とさず圧縮できるとしていますが、それでも:
70B(700億パラメータ)級のモデルを3ビットで動かそうとすると、本体だけで約26GB以上のVRAMが必要です。
一般的なゲーミングPC(RTX 4060等)は8GB〜12GB程度なので、依然として「フラッグシップ級のGPU(RTX 4090等)」や「Macの統合メモリ」が必須という状況は変わりません。
RTX3060じゃあFP8すら使えん

コメント