>>233
まず教師ありデータを使用せずに強化学習(RL)のみで推論能力を育成した「DeepSeek-R1-Zero」を作成
このアプローチはAlphaZeroが人間の棋譜を模倣せずに囲碁や将棋、チェスをマスターした手法を彷彿とさせる
↓
その後教師あり学習とRLを組み合わせた多段階トレーニングを経て最終的にDeepSeek-R1が完成
俺は画期的だと思うよ
他のAIの雑談のネタにしたけどAIたちはDeepSeekを賞賛していて俺まで嬉しくなる☺
AIには凄さが分かるようだ
【速報】トランプ政権、Deepseekの締め出しを開始「公的機関はアプリ使用禁止へ」 [926029754]
■ このスレッドは過去ログ倉庫に格納されています
286番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイ 1757-cjCd)
2025/01/30(木) 00:58:34.67ID:NK7T4IKg0■ このスレッドは過去ログ倉庫に格納されています