GPT-4は54%の確率で人間と判断された。つまり、参加者の半数が5分間の会話後にモデルを人間だと考えたのである。これは、古いモデルであるGPT-3.5(50%)や1960年代の単純なルールベースのELIZA参照システム(22%)よりも優れていた。ちなみに、人間に関しては67%の評価者が人間だと考えているように、評価者の約3分の1は、相手が人間であるにも関わらず人間をAIだと評価しているのだ。これは、現代のAIシステムは、人間を信じさせることができる能力を持っていること、そして、人々がAIが人間のように振る舞うことを知っている場合、評価者は「人間」の基準を非常に高く設定し、本物の人間を繰り返し除外することを示している。

https://xenospectrum.com/gpt-4-passes-the-turing-test-but-also-reveals-that-humans-quite-often-mistake-other-humans-for-ai/