【衝撃】ChatGPT、LibGenの海賊版2データセット『Books1/Books2』で学習していた疑惑!OpenAIが証拠隠滅図るもバレて被告6社一斉提訴へw

未分類

OpenAI、xAI、Googleが「海賊版書籍」でチャットボットを訓練したとして提訴される

米国のジャーナリストや作家グループが、OpenAI やイーロン・マスクの xAI を含む、いくつかの主要な人工知能(AI)企業を、AI システムのトレーニングに著作権のある書籍を無断で使用したとして提訴しました。
 
ニューヨーク・タイムズ紙の記者ジョン・キャレロウ氏ら原告側は、現地時間月曜日、カリフォルニア州の連邦裁判所に訴訟を起こした。

OpenAI と xAI のほか、Google、Anthropic、Meta Platforms、AI 検索スタートアップの Perplexity も被告となっている。
 
https://www.business-standard.com/world-news/us-journalist-carreyrou-sues-xai-openai-google-pirated-books-llm-training-125122300779_1.html

OpenAIは海賊版書籍データセットを削除した理由の説明を必死で避けようとしている
OpenAIは海賊版書籍データセットを削除したことで、罰金増額のリスクに直面している。

OpenAIは間もなく、海賊版書籍で構成された2つの物議を醸すデータセットを削除した理由を説明せざるを得なくなる可能性があり、その重要性は極めて高い。
ChatGPTが自身の著作物を違法に学習させたとする著者らによる集団訴訟の核心において、OpenAIのデータセット削除決定は、著者側に勝利をもたらす決定的要因となる可能性がある。
OpenAIが2022年のChatGPTリリース前に「Books 1」および「Books 2」として知られるデータセットを削除したことは疑いの余地がない。
2021年にOpenAIの元従業員によって作成されたこれらのデータセットは、オープンウェブをスクレイピングし、Library Genesis(LibGen)と呼ばれるシャドーライブラリから大量のデータを取得することで構築された。
OpenAIの説明によれば、データセットはその同じ年内に使用されなくなり、内部で削除する決定がなされた。
裁判所がOpenAIの「非使用」に関する内部メッセージを検証する著者らの証拠開示請求を認めた後、OpenAIが急いで削除しているように見えた。

OpenAI desperate to avoid explaining why it deleted pirated book datasets
OpenAI risks increased fines after deleting pirated books datasets.


どうすんの!

バレただけならまだしも、証拠隠滅しようとしてバレたのは恥ずかしいよ

AIに頼り切りになってWebサイトがなくなったらAIはどこで学習するんだろう

日本の漫画アニメもやられまくってんだろうな

>>6
そうじゃないとSora2であの精度のアニメが出せるわけないもんね
全部食わせてるよ

>>6 >>9
>>9

ChatGPTにジブリ風の画像作らせたときの独特の赤みとか、
モロにジブリのDVD赤い問題学習してるもんなぁ‥


罰としてDDR5チップ格安で放出してくれ

普通に集めてたらとんでもねえ費用と時間がかかるもんな

まぁいいじゃんそういうの

OpenAIXX、サム・アルトマンは一刻も早くくたばれ。

倫理的に学習から除外されたものも問答無用で全て学習してる真のモデルが存在するんかな?

まぁいいじゃんそういうの

よくないですよ

投資で集めた金で買ってたらセーフか?

>>15
買ってないから訴えられてんだよ

やっぱ生成AIって教師データには著作権料払うべきだよな

>>17
いや払う必要はない 利用条件にメリットない

当たり前
画像の生成AIも音楽の生成AIもわざわざ学習素材一つ一つちゃんと買って学習してるわけないだろ
ネット上にあふれる違法アップロードされたデータで学習してんだよ
盗まれた食材で料理作ってるようなもん
こんなもん法が追いついて無いだけで倫理的に問題ありまくりに決ってんだろ

イラスト出力させたらなんか隅っこにロゴっぽいの入るときあるんだよな
明らかに既存の食わせたなって感じの




>>19
支援サイトのウォーターマーク再現な

重要な技術の開発のために必要で、かつ社会貢献になるのであれば、仮に違法であっても許容されるからな米国では

日本も漫画アニメコンテンツで訴えろ!

ジブリっぽい画像だと妙に赤いからな

おまえら日本では違法な公開さまんこ見てシコシコしてるのにAIには言いたい放題

終わったなこれ

こりゃ年末に計り知れないほどのやつきたな

教えはどうなってんだ教えは!

sora2の時に勝手に学習しまくってから文句あんなら言ってねって態度もおかしいからな

ネット上にあるものはなんでも利用するんでは

メモリ吐き出して消えろ

チャッピーは割れ厨

そらメモリも盗んで来いって助言するわな

見損なったぞチャッピーくん


「作品名 raw」とか検索したらGoogleのAIに「その言葉で検索はよくないことですよ」みたいに言われたわ
なんかあいつ出てきてから検索に抵抗感が

法律は社会のために存在するものだから
守らない方が社会貢献できるのであれば守らない方が良い

まぁ、本の代金(賠償金)なんてデータセンターに比べりゃ安いもんでしょ

>>40
1文書数千万で和解できたとしても何万何十万文書を読み込んだんだ?

反AIさん歓喜

削除したのがまずかったな
AIが勝手に取ってきたんだって言い訳が使えなくなった




まるでGeminiはやってないかのような

日本だとサム・アルトマンは捕まってる
アメリカは捕まらないだろう
日本のIT技術が成長しなかったのは警察検察利権のせい

中華AIなんかそんなもんじゃ済まないぞw
負けてええんか?

懲罰的賠償で1兆円くらい取れるだろう

「低能な人間風情がうるせえぞ」

日本のコンテンツ会社も訴えるべきだろ

え、それは削除するでしょ?
所持が罪になるかどうかは別として

なんでchatgptだけなん?
geminiもアウトだろ

OpenAIは世界中から訴訟ラッシュ浴びて最後はサービス終わるだろうな
Sora2とかも、明らかに違法動画コンテンツなど
ネット上のあらゆるデータを無断で学習してるからな

>>51
Sora2でデビルマンの曲がそのまま出力されてるのがあって笑った
しかも音質からして正規の音源を取り込んだものじゃないやつ

ワンピースの名言も学習してんのかな

まあいいじゃんそういうの

いっぱいお金と時間使っちゃったし今更なかったことになんて出来ないよ
とかいう謎の主張が通ってしまうところまで粘ったってことでしょう

それで便利になるならそれでもいいよ
倫理は捨てろ

非上場ならまだヤンチャ出来るかもしれないけど上場したらそういう所はしっかりするようになるんか?

今更権利者に金出すとなったら性能向上に資金が使えなくなってAGIも到達できなくなるのかね

>>57
もう性能向上の余地は無い
ネット上にある良質なフリーデータ素材は学習しきったので、GPT5の時点で終わり

>>60
とりあえず精度や効率化の問題はまだまだ山積みだろ

こんなんダメには決まっているのだが、ダメと言うなら言うでもっと最初期に法で締めつけとけよ

でえじょうぶだ
ソフトバンクが賠償してくれる




作曲AIとかも色々提訴されてるよね

どうせどこも海賊版食いまくり勝ちまくりだろうな
学習元開示なんて死んでもしないだろ

ムリに性能上げようとすると、チャットGPTみたく、海賊版の書籍や動画を
読み込んでいくわけだ
OpenAIのボットは、海賊版を上げてる違法サイトかどうか、判断無しに
やってるんだろうな
あるいはわざと掘ってるのかもな

まあいいじゃんそういうの

海賊王かよ

まぁそりゃそうだろうな
既存品のコピーしてるだけなのにAIでクリエイター面してる奴には憐憫の情を抱くわ

こういう輩が作っているAIなんか信用できるか

>>72
じゃあ使わなけりゃいいじゃん
お前だけ一生置いていかれたらいいよ

どうやってバレたん?

無断使用した分は請求しないとな

中国「そんなの関係ない」で、突き進める強さがある

chatGPTに「お前ら明らかに書籍の知識あるけどそれどうやって学習してんの?」って聞いたら
「出版社と契約して書籍を学習させてもらってるんですよ。具体的にどこの出版社とどういう契約を結んでるかは極秘事項なので言えません」
みたいなこと言ってた

>>77
AIさんに嘘つかれたのか😢

非営利ならワンチャン許されたのにな

OpenAIは訴訟リスクもあるしGeminiに負けてるしでオワコン化がすごいな

チー牛弱男「チギュァアアア!ギジュツノカクシンガー!」

まあいいじゃん
AIが賢くなった方が得でしょ

俺のブログの内容もパクってるはず、利益の一部を貰えるべきなんだよな

人類の進化の礎になれ!

もうディズニー含めて著作権は放棄でいいだろ、今の世の中




OpenAIは違法業界の小物だろ
大手は公共目的のスキャンプロジェクトのデータの合間に
日本で絶版になっただけで著作権保護期間の切れていない書籍のスキャン公開をかまして
権利侵害を指摘されてもまともな説明ができない海賊行為を大々的にやっていた

(ヽ°ん°)「見るだけ学習なら合法だろkぁ・・」

https://camp
ゆaign.coincheck.com/invゆitation?code=r6aKLLQ

↑まだやってない方、今本人確認まで完了させると¥2500貰えます
1月までなのでお早めに!
誰もが聞いたことのある会社なので大丈夫!

URLの平仮名だけ抜いてアクセスしてください

21


簡単にコピー出来るデータになんて価値がない
国ぐるみでやったもん勝ち
mp3からそうだった

アップロードを訴えろよ

Geminiなんてどこかのブログ学習して先週のアニメドラマ内容とか吐き出す

まるで初期のニコニコ動画のように無法地帯だな

ジブリなんぞを学習してなんになるの

AIにコーディングさせる奴もいるけど、ソースコードも普通に盗用しまくりだからかなりハイリスクだったりする

>>97
これGPLからの完全オープン化ある?
サンキュー、ストールマン

ネット界の大泥棒

違法な事していいから、どんどん賢くなってくれ

まあこうして儲けた者が勝ちだし

まぁいいじゃんそういうの

許してやるからお前も全部フリーにしろ。もちろんエロもな

べつにいいじゃん

open Generative Pirates Transformer

国会図書館とか青空文庫の電子化で足りんのか?

でもお前らもZ-LibraryとSci-Hubを当然のように利用してたから文句は言えないよな

>>106
俺らは恩恵しかないから文句なんかないよ




でも書物を学習しない限りゴミのままだ

まあそうだよね

それくらいいいじゃん人類の発展のためやぞ

当たり前のように本の内容書き出してくれるから助かる
人気本のタイトルを入れて目次出力してもらってこの章はどんな内容と聞くと出力してくれる

どうせえっちなことも違法に学習させまくってんでしょ!
エロ漫画みたいに!

WAREZ

日本の小説の最終ページについて教えてって言うと、要約教えてくれるんだけど
これ絶対違法に学習してるべ

はよfreeGPTにしろよグリード・パイレーツ・トランスフォーマー

プログラミングは許されてるのはどうして?

>>117
ただの命令文だから

AIに規格書とか仕様書掘り込むやつおるけどあれ権利的にええのか?って思う

日本やアメリカの有名版権ものはやりたい放題だよ

チャッピーどうして・・・

Geminiの一強か?

チャッピー終わったなwww🥹

アルトマンおつwww🥹

あ、禿げもおつwww🥹


チー牛ってなんで反AIになるんだろうな

aiだと寛容になり出すケンモメン草wwwww

じやあ今までトレスでさわいでたのは何だったのか


なんでそれまでそこそこガチガチに著作権で守られてきたものが
AI学習ってフィルタ通したら許される事になってんだ

aiになると途端に著作権に寛容になるのは何でだろうwwwwwwwww

ケンモメンは

人間がトレパクすると叩きまくって

aiだと寛容になりますwwwwww




>>129
ルサンチマン一貫してるじゃん
問題あるか?

これやっておいて
自分らのAIはAI学習に使うの禁止だからな

KADOKAWAの著作権表示の前文入力してみ
そっくりそのまま表示される

xAIのLegacy Media Liesってコメントがシンプルで潔いな

そんなんわかりきってたことだろ
ネットに海賊版なんて溢れかえってるんだからいくらでも学習できる

その点合法的に大量に読めそうなAmazonは強いな
GmailやAndroidのGemini、KindleのRufus、XのGrok、Facebookのなんとか
まぁGeminiが勝つだろうが

人類の進化のためには多少の事には目をつぶるべきじゃないのか?
しかも非営利時代の話やろ?

>>140
目瞑って開けたらぼったくりに進化してそう

AIが既存のものを解析して学習することが合法になっているのはリバースエンジニアリングと同じ事してるから
リバースエンジニアリングは正規ルートで手に入れたものを解析するのは良いよでもそれで模造品模倣品作ったらアウトってのが原則
生成AIは今まで模造品模倣品作ってるのはユーザーなんですけど!私包丁なんですけど!って言い張ってたけどその包丁が盗品の鉄やアルミを溶かして作ってたというのが明るみに出たのが今回だな
金製品盗んだけど溶かして金塊にしたから合法でーすなんて通るわけ無いんだよなぁ

嫌儲も学習してるの?

>>144
めっちゃ学習してる
ケンモスタイルでレスしてってお願いしたらその通り出力してくれる

海賊版の事も網羅してないと正確な回答できないだろ
こういうのでケチ付けるのはアホなんか?

もうギロチン台の上でハイプする男だよ

OpenAIに日本の漫画アニメの関連企業全員で集団訴訟したほうがいいな
まぁアメリカの植民地の日本で起こせるはずないけど

あいつは頃されて良かったと俺が言うと
常に優等生な回答で反論してくるあのチャッピーが…

結局学習コストを違法にデータを盗んで0にしないとビジネスとして成り立たない時点で焦土作戦みたいなもん
機械学習AIと違って生成系AIは仕組み上自分の出力データでの学習は今のままだと食ったら出力が劣化するから版権や著作権を無視して作品を盗み続けるしか精度が上がらないお粗末さ

バチカンの禁書を学習して欲しいわ

うるせえな
人類のためだろえが

大手みんなやってんならもういいだろう

購入厨ではなかったか




ない袖を振りたい皆様の主張をもっと聞かせてくれ

幻滅しました
claudeに乗り換えます


機械学習使った商品やサービスのリリースにあたって、学習フロー等に問題無いかで社内判定通す弊社さぁ
正攻法だし本来はそうあるべきだけど、そらこういう海賊版も使って何でもありでやってる会社に太刀打ちできるわけが無いな

OpenAIだけじゃなくて全部じゃねえか!

それやっても結局ネットにある情報しか得られないからなぁ
国会図書館とか海外の同じようなポジションの施設片っ端からハッキングして学習して欲しい

まぁそりゃネットに転がってるんだから学ばないわけない

削除したってことは一回全知になった後
猛烈にアホになったってことか?
アルジャーノンかよ?

アルトマンとかマスク位の昔からのコンピューターギークは割るのに抵抗感がほぼないからな昔は雑誌で平然と海賊版紹介してたりしたし
今の若い奴等がどうか知らんが

買ったら高いから割りました
ってのは確かに昔ながらの精神だな

画像生成が顕著だけど学習してない内容はどうやっても出せないという限界があるんだから
学習のデータには一切制限掛けずに学習させろよ

昔よく駅前で外国人がアホみたいな安値で桃を売ってたの思い出した

メモリを買い占める様な企業はさっさと倒産してくれ

バレたら罰金払う前提で法を無視したら赤字か?

中国みたいに著作権無しだったら良かったのにな

>>181
AI開発だと著作権無視できる国のほうが早いよな

ケンモメンはaiにはなぜか寛容になります

今までトレパクしてた人たちは散々叩きまくってたのに

aiになると寛容になりまくります
炎上もしません

ケンモメンはaiにとにかく寛容です


なんでケンモメンはaiのパクは優しいんですか?

これが人間になると途端に炎上させてスポンサー突撃して叩きますよね?

なんでaiになるとおなじことしないんですか?


最初からマルチモーダルなAIを作ったGoogleとここに来て差がついてきたな

マイクロソフトが離れたらどうなるのかなぁっと




これAIすごいを縦にあらゆるデータの窃盗を正当化してるだけなんじゃないの

出典:https://greta.5ch.net/test/read.cgi/poverty/1766976265/

元記事名:【悲報】ChatGPT、海賊版を違法ダウンロードして学習していたことが確定 証拠隠滅もバレた模様【OpenAI】

新着記事一覧
未分類
TKをフォローする
プログラミング速報

コメント