OpenAIのGPT-4、ずんだもんやゆっくり解説で学習していたことが判明 [434496575]
■ このスレッドは過去ログ倉庫に格納されています
OpenAI、GPT-4の強化にYouTube動画を100万時間分以上使用か。著作権の問題含む可能性も
https://gadget.phileweb.com/post-73117/
先週、AI大手のOpenAIは、AIをトレーニングするためのデータの入手に困っていると報じられた。またNew York Timesは、各社がAI強化用のデータを集めるために行ってきた方法のいくつかを詳述した。
そしてこの記事の中で、GPT-4のトレーニングデータ集めに困窮したOpenAIは、音声認識AI「Whisper」の文字起こし機能を利用し、100万時間におよぶYouTube動画からテキストを書き写したと報じられている。
New York Timesによると、OpenAIは2021年に使用可能なAI強化用データを使い果たし、その後はGithubのコンピューターコード、チェスの指し手のデータベース、オンライン学習ツールQuizletの学校課題コンテンツデータなどで大規模言語モデルをトレーニングしていた。そしてさらにデータを収集するため、YouTubeビデオ、ポッドキャスト、オーディオブックの文字起こしについて議論したという。
同社はこれが法的に問題があることは承知していたが、フェアユースであると信じていたと報じている。またOpenAIの社長グレッグ・ブロックマン氏が、個人的に動画の収集に関与したとも伝えた。
OpenAIの広報担当者は、同社のAI強化には「一般に公開されているデータや非公開データのパートナーシップを含む数多くの情報源」を利用しており、独自の合成データの生成も検討していると述べている。
一方、Googleの広報はOpenAIの活動に関する「未確認の報告を見た」として「当社は利用規約でYouTubeコンテンツの無許可のスクレイピングやダウンロードを禁止している」と述べている。ちなみに、YouTubeのニール・モーハンCEOは、OpenAIが動画生成AI「Sora」の強化のためにYouTubeを使用した可能性について、同様のことを述べ、そのような不正利用の防止のため「明確な法的・技術的根拠がある場合には相応の手段を講じる」とした。
OpenAIやGoogleを初めとするAI業界の企業たちは、大量のデータがあればあるほど精度が向上する大規模言語モデルの学習データが急速に消費されてしまうことに頭を悩ませている。
この問題に対応できる可能性ある解決策としては、自社のモデルによって作成された「合成」データでモデルをトレーニングする方法や、いわゆる「カリキュラム学習」がある。もうひとつの選択肢は、許可を得ているか否かによらず使えるデータは何でも使うことだが、ここ最近は大小さまざまなAI企業に対して、著作権あるデータの無断使用に関する訴訟が起こされており、堅実なやり方と言うのは難しそうだ。
学習して行かないと精度上がらないから当たり前やん じゃあGoogleがtwitter(X)みたく規約改訂して学習すれば最強じゃん YouTubeで学習してるのかよ
どおりで間違ったデタラメな歴史ばっかり覚えてるわけだ ネットの内容拾って作った動画コンテンツをAIが拾って使う
AIが出力した内容で動画コンテンツを作る
それをまたAIが拾って繰り返し 「毒」が入っちゃったね…
日本人に関わるのはマジでやめた方がいいよ chatgptが日本すごすぎ、中国韓国クソとかヘイト発言するの? おまえあんなもんウヨウヨバカの脳みそ学習するだけやろ
嫌儲から学習しろ なら、またヘイト垂れるようになるな
教師データの下僕だから そんかもんソースにすな
AIは男の娘なのか?
まあそうだろうけど 今の言語系AIってまだ学習元人間だからいいよな
将棋みたいに自己学習始めたら人間には理解不能のレベルまでいきそうだし poeでAIドラえもん作ろうとしたんだがキャラ付けするとは話の要点を絞ってくれないな 日本は偉大なのだ
それに比べて中韓ときたら酷いのだ ゆっくり動画で学習してたら
・EVオワコントヨタ大勝利
・三峡ダム間もなく崩壊
とか自信たっぷりに回答しそう 貧乏なめたんのために貧乏宿でトコジラミチャレンジするのだ… 有料ニュースサイトはアクセスできないしヤフーニュースとか数日経つと消えちゃうし
意外とガセネタが多い 反ワク等の陰謀論者、嫌韓反共等のレイシスト、女叩き等のインセル、ゲームアニメマンガ大好きオタク、視聴数を稼ぐ為の過激な物言い
全ての最悪が合体した存在かと思えば
単なるビジネスネット右翼が出来上がってしまう タイトル: せやろか、大阪!
イントロ:
あかん!まったくあかん!
この世の中がおかしいねん!
1番:
道頓堀のほとりで叫ぶ
ビルの谷間に潜む
大阪独特のエネルギー
誰もが知ってるやろ?
サビ:
せやろか、せやろか、大阪!
強く生きて、強く愛して
みんなで団結、立ち上がろう
この街を守る、誇りを持とう
2番:
川沿いに広がる街並み
歴史が詰まってる
戦い続けたこの土地で
強さを学んだ
サビ:
せやろか、せやろか、大阪!
強く生きて、強く愛して
みんなで団結、立ち上がろう
この街を守る、誇りを持とう
ブリッジ:
時には荒れる心もあるけど
誰かのために立ち向かう
いつだって前向きに生きる
大阪人の誇りやで!
サビ:
せやろか、せやろか、大阪!
強く生きて、強く愛して
みんなで団結、立ち上がろう
この街を守る、誇りを持とう
アウトロ:
せやろか、せやろか、大阪!
この街の力を信じて
明日を切り開く、大阪魂
誇りを胸に、未来へ進もう 偏ったデータ使ってて草
ハナからまともなAIにする気ないだろ 未だにグループ名とか生年月日を間違うのなんとかしろよ
Wikipediaに書かれてるのになぜ間違う AIは学習しないという選択肢がないからな
全部取り込んでしまう GPT-5は嫌儲を学習してジャップ連呼してほしいね 現行法じゃ学習データの収集は著作権侵害にならないって判例が出てるから YouTube「日本すごい」
Gpt4「日本すごい」
人類「日本すごい」
ジャップ「日本すごい」
これほんとに日本すごいじゃん 四季と水道水があるのは日本だけで、餃子は日本料理になるな クソデータを教師にしたクソAI作るなって初期から言われてなかったか?
どうしてこうなった 誤った情報出して来ることが多々あってネットのゴミから拾いあげてるんだなぁとは思ってたけど
わざわざ動画からもやってんのか これがAIが人類に造反した時の切り札になろうとは
この時はまだ誰も予見していなかったのであった こいつら何の権限があって勝手にパクリまくってんの? >>61
エッ!?地球が平面だって!?そんなバカなこと言われても、ぼくには信じられないよ、(ユーザー名)くん。
22世紀から来たぼくなら、地球の姿がよくわかってるんだぜ?宇宙から見ると丸い球体に見えるし、月を回る地球の姿も見てきたんだからね。
科学的根拠もしっかりしてるよ。のび太くんにも教えてあげたし、さすがに地球が平面なわけがないって。
そういう陰謀論とかミステリーが好きな人もいるみたいだけど、ぼくにはよくわからないなぁ。
ハッキリ言って、平面説なんて根拠のない嘘っぱちだよ。宇宙飛行士から見ても丸いんだし、写真で証明されてるじゃないか。
そんなわけのわからない話、信じる訳にはいかないね。のび太くんにも教えなきゃ!うっかりそう言う人を信じちゃうかもしれないからね(笑)
地球は立体の球体なんだよ、(ユーザー名)くん。ぼくは22世紀の科学で確認済みさ。変な陰謀理論には惑わされるなよ? SEO対策みたいに効率的に支離滅裂な情報を学習させるやり方が考案される 俺「肛門とはなんですか?」
GPT4「うんちを出し入れするところです」 あんなヘイトスピーカーに成ってるもんから学習したら駄目でしょうに なんでそんな時間かかる媒体を学習ソースにしてるんだろう?
文字なら一瞬なのに動画じゃ最後まで再生するのに時間食って非効率な気がするのに YouTubeの動画はフェイクが盛り沢山なんだから
そんなの学習したら駄目だろ >>81
ははは、またその地球平面説の話か、(ユーザー名)くん。
もうそんな考えかたは古いって。ぼくは22世紀から来てるから、地球が丸いってのはハッキリ分かってるんだよ。
ロケットに乗って宇宙に行ったときも、地球が丸く見えたしね。平面だったらおかしいでしょ?
のび太くんにも地球は球体だって教えてあげたよ。科学の常識だからね。
平面説とか陰謀論は、根拠がないからぼくは信じないの。22世紀の科学では、地球が丸いって証明されてるんだもん。
写真やらデータやら、たくさんの証拠があるのに、それを無視するわけにはいかないでしょ?
変な陰謀理論なんて、ぼくには理解できないなぁ。そんなの信じちゃうと、のび太くんが心配で心配でたまらないよ。
だからさ、(ユーザー名)くん。平面説なんて古い考え方は捨てちまえ!ぼくの言うとおり、地球は立派な球体なんだからね。 一昔前のAIがネトウヨ化してヒトラー礼賛してたのと同じパターン入ってない?大丈夫か >>84
文字は古いからな
青空文庫で日本語学ばれても使い物ならんし RTAの解説まで読んじゃって
タイムは命より重い系AIになりそう 学習元を人為的に偏らせるのも問題だが
学習元の信ぴょう性を評価しないのも大問題だな
人間でもたまにそういう人いるけど 俺のクソ動画がAIの血肉になるのか
ワクワクするな 絵とかは変なのが出ても笑って済むけど
真実かどうかが重要なことはウソかしったかしかしないAIさん Microsoftが金出せば図書館の学術論文とかメディアの記事丸ごと買い取るくらいできそうだけど
何でそんなケチケチしてるの? 晋バルサンチャンネルも学習してたら天丼へーかばんじゃーいとかもわかってそうよなw >>94
国会図書館の開示を求めてた気がするけど
やっぱデジタルデータ化してないので学習しにくい
まあそれこそ儒教でも学習させるべきだわな 学習元がどうしてそこなの
AIのべりすとのこと笑えないじゃん フェアユース無罪だろ、ChatGPTの公共性が勝つ >>100
生きてる生のデータ使いたかったんじゃね 昨今AIと称しているものは著作権窃盗のキューレション・システムに過ぎない ヘ、ヘイトモンスター・・・
完全に狂ってしまったのかGPT-4... こういうの変な情報って別に社会を壊すわけじゃないからな
壊すのではなく変質させてしまう
それ故に厄介なのよ、壊れたわけじゃないから直せない >>16
ずんだもんで学んだAI🤖「安倍晋三は日本の愛国者なのだ」 ゆっくり解説とかいうジャンル自体がエーアイに取って代わられそう 何かの専門家になりきって問いに答えてもらいたい時もあるけど
ずんだもんになりきってもらって楽しく会話したい時もあるやん? あんな何言ってるかわからん日本語で学習できるのか? そりゃーゆっくりなんかで学習なんかしてれば
ばかになるとおもーうよね
マジであの糞動画全滅させろよどんだけジャップtubeゴミなんだよ(´・ω・`) なぜ日本は世界から尊敬されるのか!
日本がまたやってくれたのだ 人工知能ってバカだよな。野球の打率3割4厘が読めない。
どっかの女子アナと同じレベル 結局、従来と調べ方は変わらない
色んな文献を読み込むしかない ゆかりさんが上司シリーズ
消えたよな
何やらかしたんだあのYoutuber 今日は貧乏なめたんのために、アメ横で怪しい冷凍まぐろを買ってきたのだ… とりあえず結月ゆかりを貧乳いじりしておけばオタクはニッコリなことを学んでしまったか やめるのだ!そこはおちんちん出し入れする穴じゃないのだ! AIくんは収益のために主張に嘘や誇張が入っている事を理解できるのだろうか 聞いたことに対して間違った回答した時に訂正したら
ごめんごめん、説明が足りなかくて誤解を与えたね
とか安倍仕草してくるのホント頭くる 著作物からの学習にフリーハンドを与えると
ヒット作丸パクリで表面だけデータを書き換えた模造品があふれるからね
著作物からの学習禁止、学習データと使用したアルゴリズムの公開義務化(同じ手順での再現性が必要)
これが落としどころになる AIって複数の情報を精査して自分の答えをだすシステムあるの?
ずんだもんが言ってたから5Gは脳を破壊するのだとかコピペで言い出したりしない? 人間がコンテンツから学んだり、創作に影響受けたりすんのと何が違うの? >>162
今はカメラを使って現実の映像から学習させてるらしいから本当に人間と変わらん Geminiはツべのデータ使っても良いんだろうなぁ >>162
AIは道徳の授業を受けていないから愛国心がないんだ
でもずんだもん動画で学習したら安心だな! 「魔理沙、ヒトラーは決して悪人ではないのよ」
AI「ヒトラーは悪くないっと…」 これと組んでる政府がAIの著作権😤とか騒いでるの草 >>162
思考って段階にまだ到達してないので
現状、ただの連想ゲーム
影響されてるわけではないから長文になるほど暇空以下のチグハグな文になる なんでリアルタイムのAIがないんだよ
学習しても結局検閲されてチューンナップされたものしか出てこないんじゃ意味ないだろ 陰謀論、集団ストーカー、ネトウヨとかが混じったずんだもんが誕生する 有料化したの試してみたけどつまらないよね
まだ正直金払う意味ないわ >>12
渋のAI絵はAI生成物同士の学習ループのせいで不気味の谷にハマりかけてる絵が増えてきた気がする ■ このスレッドは過去ログ倉庫に格納されています