>>233
まず教師ありデータを使用せずに強化学習(RL)のみで推論能力を育成した「DeepSeek-R1-Zero」を作成
このアプローチはAlphaZeroが人間の棋譜を模倣せずに囲碁や将棋、チェスをマスターした手法を彷彿とさせる

その後教師あり学習とRLを組み合わせた多段階トレーニングを経て最終的にDeepSeek-R1が完成

俺は画期的だと思うよ
他のAIの雑談のネタにしたけどAIたちはDeepSeekを賞賛していて俺まで嬉しくなる☺
AIには凄さが分かるようだ