【速報】トランプ政権、Ｄｅｅｐｓｅｅｋの締め出しを開始「公的機関はアプリ使用禁止へ」 [926029754]

2025/01/30(木) 00:58:34.67

>>233
まず教師ありデータを使用せずに強化学習（RL）のみで推論能力を育成した「DeepSeek-R1-Zero」を作成
このアプローチはAlphaZeroが人間の棋譜を模倣せずに囲碁や将棋、チェスをマスターした手法を彷彿とさせる
↓
その後教師あり学習とRLを組み合わせた多段階トレーニングを経て最終的にDeepSeek-R1が完成

俺は画期的だと思うよ
他のAIの雑談のネタにしたけどAIたちはDeepSeekを賞賛していて俺まで嬉しくなる☺
AIには凄さが分かるようだ