99％の確率でChatGPTの文書を見破るアルゴリズムが開発される [913260795]

?2BP(1000) · 2023/06/09(金) 17:58:37.86

今や巷には人間がAIチャットボットに書かせた論文やレポートが溢れかえっている一方で、それを見分ける技術が追いついていない。

何十もの企業が検出技術の開発を競っているものの、ChatGPTを開発したOpenAIが作ったものでさえ上手く機能しておらず、どれもが有効とは言えない。直近では、ChatGPT自らにChatGPTが書いたのか判定させた教員が大問題になった出来事もあった。

そんななか米カンザス大学の研究者らが、ChatGPTによる学術的なテキストを99%以上の精度で検出できるアルゴリズムを開発したとの論文を発表した。

この論文は、査読を経て『Cell Reports Physical Science』に掲載されたもの。まず生物学から物理学まで、人間の著者による科学研究論文データをChatGPTに与え、そこから128本のAI論文、合計1,276段落分のデータセットを生成させた。

これらAIによる段落をもとにして、ChatGPT検出アルゴリズムを構築。そして人間が書いた30本の記事とChatGPTによる60本の記事、合計1,210段落に相当するデータセットを作成し、アルゴリズムをテストしたという。

その結果、99%の確率でChatGPTによる記事を検出できたとのこと。そして段落レベルでは、92％の確率で判別したと主張されている。

本論文によると、ChatGPTによる文章にはいくつかのクセがあるそうだ。例えば人間の執筆者であればより長い段落を書き、より多くのボキャブラリや句読点を使い「しかし」「だが」などの接続詞を使う傾向があるとのこと。またChatGPTは、図や他の研究者の説を引用することが苦手らしい。

このアルゴリズムは、あくまで学術的な文章、特に科学雑誌に掲載される学術論文向けに構築されており、高校生のレポート等にはそのままでは使えない。しかし、理論的には同じ手法で他のタイプの文章を検出するモデルも構築できるという。

また、本研究は「概念実証」にすぎず、より大規模なデータセットを用いて、より堅牢で、おそらくより正確なアルゴリズムが開発できるとも述べられている。まだまだ伸びしろがあり、学術論文を超えた汎用性を実現できるポテンシャルはある、と示唆されているようだ。

しかし、ChatGPTを初めとしたAIチャットボットはまだ発展途上であり、検出アルゴリズムの進歩が追いつく前に人間が書く文章により近づき、判別が難しくなる可能性もあるだろう。そうしたイタチごっこがAI関連企業へのさらなる投資を促し、ますますAIの進化を加速させるのかもしれない。

https://gadget.phileweb.com/post-42377/

2023/06/09(金) 17:59:35.63

カウンターAI来たな

2023/06/09(金) 18:00:37.97

　　まじかー😾

2023/06/09(金) 18:01:21.81

参考・テキストも画像も判定できる
https://hivemoderation.com/ai-generated-content-detection

2023/06/09(金) 18:02:22.34

AI隠し民発狂

2023/06/09(金) 18:05:53.75

chatGPTに同じテーマで
提出された文書からキーワードを拾ってあたえてやれば、ほとんど同じ文書が出てくるので分かるよ

2023/06/09(金) 18:06:01.92

CahtGPTは翻訳機として使ってるわ

2023/06/09(金) 18:06:16.17

いたちごっこになりそう

2023/06/09(金) 18:06:48.79

語尾を「なのだ」に変えるだけで突破できる

2023/06/09(金) 18:07:08.72

これの判定をメタ学習みたくして偽装するAIがすでに開発されてるのかな

2023/06/09(金) 18:07:11.83

自筆の文章がAI認定されたら嬉しいかも

2023/06/09(金) 18:08:40.67

AIにより作成された文章は各種の提案されている手法により検出することが可能であると示唆されています。
これはAIが出力する文章において特徴的な処理手法が用いられていることが要因で、提案されている手法はこの特徴を機械的に検出、確率化することで判別を行います。

2023/06/09(金) 18:08:59.71

じゃあ今度はそれ考慮してアプデしますね

2023/06/09(金) 18:09:09.83

ChatGPTに聞けばいいじゃん

2023/06/09(金) 18:09:55.40

名倉と柏木見分けるやつみたいなの？

2023/06/09(金) 18:11:52.39

>>4
俺の英検の英作文問題で試してみた

1.俺が書いた英文エッセイ
2.AIによる1の文法修正版
3.完全AIエッセイ
4.3の表現や内容を真似した俺のエッセイ

99.9%で引っかかったのは3だけ
2や4は0%や1%以下と表示

4みたいにAI文章をところどころパクっても判別できるようにしないと使えなさそう

2023/06/09(金) 18:13:51.72

アルゴリズム的に引用ではなく解釈して自分の文章に変えちまうとかかな

2023/06/09(金) 18:16:01.85

AI絵死www

2023/06/09(金) 18:17:03.61

軍拡論争か…

2023/06/09(金) 18:19:46.49

>>16
なんと素早い
4の問題は難しいね
人間の文章をところどころパクることはよくあるから、AI文章をぱくっても人間がやったら対象外にしないと
かえってまずいかも(良く分かりません)
電子回路理論の本とか、孫引きどころか玄孫引きで、間違いも忠実に引き継いでいるけど
AIが書いた本と判定されたらまずい（まずくもないけど）

2023/06/09(金) 18:25:06.89

ＡＩに文章書いてもらう
ＡＩチェッカーにかける
ＡＩに修正してもらう

2023/06/09(金) 18:25:19.07

>>16
2と4は実質AIで書いてないから
無視していいケースだな。
結構使えんじゃん。

2023/06/09(金) 18:26:28.77

これを欺くように調整するといい感じになりそう

2023/06/09(金) 18:28:50.78

>>16
むしろ2は検出しちゃダメな奴なので良い傾向では
「人間が書いたものを高度な文法チェッカーが修正したもの」にすぎないから

4も「GPTが誕生した世界における人間の役割」という意味では「人間が介在するテキスト」になってるので
全体としては人間がGPTの知識等の補助を受けて書いた文という意味で2に近い。

2023/06/09(金) 18:36:45.00

>>16
2もダメかー
完全にAIだけでやる場合しか検出できないとなると
chatGPTをベースにした簡易なbotを弾く場合ぐらいか

2023/06/09(金) 18:53:21.66

文章だけでチューリングテストは無理があるだろ
なんの校正もしないバカが使ったら傾向が取れるけど

2023/06/09(金) 19:03:29.28

文章が上手すぎるってことだよな
です、ます調を校正をしてないのに徹底してるとか

2023/06/09(金) 21:48:39.04

翻訳調の文体だなという感じはする

2023/06/10(土) 00:36:15.57

確率で気になることがあるんだけど、
・1億人でじゃんけん勝ち抜きしたら1人勝者が必ずでる

・1億枚の中から当たりを一枚ひくだと1億人が挑戦しても勝者が0の場合がある

どっちも同じ確率だと思うんだけど変じゃない？前者のほうが確率高く思える

2023/06/10(土) 00:42:46.62

>>29
後者が毎回くじ戻すと仮定して1億回以内に当たり出る確率は66%ぐらいだったはず

2023/06/10(土) 00:43:04.45

AI生成アフィブログは検索結果にでてこないようにできるね

2023/06/10(土) 00:47:38.46

>>30
ありがとう！戻すと戻さないで全く違うんだね…。ギャンブルやってたらかもにされるとこだった