アブストラクト

ステップ1、ステップ2CK、ステップ3の3つの試験で構成される米国医療免許試験(USMLE)におけるChatGPTと呼ばれる大規模な言語モデルのパフォーマンスを評価しました。ChatGPTは、専門的なトレーニングや強化なしに、3つの試験すべての合格しきい値またはその近くで実行されました。さらに、ChatGPTは、その説明において高いレベルの一致と洞察を示しました。これらの結果は、大規模な言語モデルが医学教育、そして潜在的に臨床的意思決定を支援する可能性があることを示唆している。
https://www.medrxiv.org/content/10.1101/2022.12.19.22283643v2