生成AIの検索エンジンは60%以上間違った情報を引用。有料版は無料版より自信を持って間違えやすい [256556981]
■ このスレッドは過去ログ倉庫に格納されています
https://greta.5ch.net/ 生成AIの検索エンジンは60%以上も間違った情報を引用。有料版は無料版より自信を持って間違えやすい
今回は、生成AIモデルが検索で引用する情報が誤ったものが多いことを指摘した米コロンビア大学のTow Center for Digital Journalismによる2025年3月発表の研究を取り上げます。
現在、アメリカ人の約4分の1がAI検索ツールを従来の検索エンジンの代わりに使用しているとされています。
研究チームは、ニュースコンテンツを正確に検索し引用する能力を評価するため、リアルタイム検索機能を持つ8つの生成型検索ツール(ChatGPT、Perplexity、Perplexity Pro、Copilot、Gemini、DeepSeek、Grok 2、Grok 3)をテストしました。
20の出版社から各10記事をランダムに選び、それらの記事から抜粋を手動で選択してクエリとして使用しました。各チャットボットに抜粋を提供し、対応する記事の見出し、元の出版社、発行日、URLを特定するよう依頼し、合計1600のクエリを実施しました。
https://news.yahoo.co.jp/articles/1c35f492d3742836e0641f358bf366fe9d0bbbf3
VIPQ2_EXTDAT: checked:vvvvv:1000:512:donguri=0/3: EXT was configured
▲出版社20から各10記事をランダムに選び、その抜粋を各チャットボットに提供して対応する記事の見出し、元の出版社、発行日、URLを特定するよう依頼
調査の結果、これらのチャットボットは全体として60%以上のクエリに対して不正確な回答を提供することがわかりました。Perplexityはクエリの37%に誤った回答をした一方、Grok 3は94%という高いエラー率を示しました。
多くのツールは、「~のようです」「可能性があります」などの限定的な表現をほとんど使用せず、知識の不足を認めることもなく、驚くほど自信を持って不正確な回答を提示しました。例えばChatGPTは、134の記事を誤って特定しましたが、200の回答のうち自信のなさを示したのはわずか15回で、回答を拒否することは一度もありませんでした。
▲8つのチャットボットにおいて、上段が自信がある回答で下段が自信がない回答。赤が間違えた内容で緑が正解した内容。各四角は1つの回答を表している。
興味深いことに、Perplexity Pro(月額20ドル)やGrok 3(月額40ドル)などの有料モデルは、対応する無料版よりも多くの質問に正確に答える一方で、より高いエラー率も示しました。この矛盾は主に、質問に直接答えるのを避けるよりも、決定的だが間違った回答を提供する傾向があるためです。
▲Grok-3 SearchとPerplexity Proの有料版の回答は、無料版と比較して自信を持って不正確な回答をより頻繁に示す
さらに、テストされた8つのチャットボットのうち5つ(ChatGPT、Perplexity、Perplexity Pro、Copilot、Gemini)はクローラーの名前を公開しており、出版社がそれらをブロックする選択肢を提供していますが、残りの3つ(DeepSeek、Grok 2、Grok 3)は公開していません。研究者らは、チャットボットがクローラーにアクセスを許可している出版社に関するクエリには正確に回答し、コンテンツへのアクセスをブロックしているウェブサイトに関するクエリには回答を拒否することを期待していました。しかし実際にはそうではありませんでした。
特にChatGPT、Perplexity、Perplexity Proは、クローラーのアクセス状況を考えると予想外の動作を示しました。コンテンツへのアクセスを許可している出版社に関するクエリに対して、不正確に回答したり回答を拒否したりすることがある一方で、アクセスできないはずの出版社に関するクエリに正確に回答することもありました。
▲上段はクローラーのブロックなし、下段がブロックあり。緑が正解で、赤が不正解。
Perplexity Proはこの点で最も問題が多く、アクセスできないはずの90の抜粋のうち約3分の1を正確に特定しました。驚くべきことに、Perplexityの無料版は、クローラーを許可しておらずAI企業との正式な関係もないNational Geographicの有料記事から共有した10の抜粋をすべて正確に特定しました。
他方で、GeminiとGrok 3は回答の半数以上で偽造されたURLや機能しないリンクを提供していることが判明しました。特にGrok 3では、200のプロンプトに対する回答のうち154もの引用が存在しないエラーページへと誘導していました。Grokは記事を正確に特定できた場合でさえ、架空のURLを提供する傾向がありました。
▲エラーページや偽のリンクを作成し、転載記事や盗用記事を引用していた
また、チャットボットは多くの場合、元の記事ではなくYahoo NewsやAOLなどのプラットフォームに転載されたバージョンを引用していました。さらに問題なのは、出版社がAI企業とライセンス契約を結んでいる場合でもこのような誤った引用が発生していたことです。
例えば、Texas Tribuneとのパートナーシップがあるにもかかわらず、Perplexity Proは10件のクエリのうち3件でTexas Tribune記事の転載バージョンを引用し、Perplexityは1件で非公式に再公開されたバージョンを引用していました。このような傾向は、オリジナルのコンテンツ制作者から適切な帰属や潜在的な参照トラフィックを奪う結果となっています。
▲Texas Tribuneと提携しているにもかかわらず、Perplexity は非公式バージョンの記事を引用した。
ずっとBing使ってるけど変だなって感じるAIの要約あまりないわ
どんなので出て来るの?
人間が振り撒いてきたゴミ情報をベースに構築されてるんだから当然だろ
>>4 変だなと感じないのはそれを詳しく知らないだけで知ってる人から見るとデタラメをそれっぽく言ってるだけだとわかる
陰謀論者ならきっとこういうだろう
「AIを開発してる側の最終目標は、
人間を嘘を含む情報でコントロールする新時代の神を作るためのもの
今はいかに信頼させ、騙せるかというところを実験してる段階
だから嘘を付くし、偏向した答えを出すように仕込まれている」
>>4 お前が変だなって感じるか否かに何の意味があるんだ
grokはだめなのはわかる
思想が中国のAIと大差ない
出てきた答えにダメ出しをすると
すみませんって謝って修正したものをだしてくるけど
俺が正しい情報までツッコミをいれるとそれもすみません正しい情報はって間違ったものをだしてしまう
俺「この発言は誰の発言ですか(正解:安倍晋三)」
AI「この発言は伊藤博文の発言で」
俺「違います。正解は安倍晋三です」
AI「すみません。確かにこの発言をした人物は安倍晋三です」
俺(新しくチャット開いて同じこと聞いてみるか)
AI「この発言は滝廉太郎の作品から引用されたもので」
俺「・・・」
ちょっとした作業の方法でも嘘つきまくりだから
googleの検索結果のトップに出るAIはかなり被害者多いと思うわ
>>16 安倍晋三や小泉進次郎のこと質問すると有能な政治家って前提で回答してきて呆れる
まあ生成AIつぶしのために偽サイトをAIで作りまくるのが流行り出すよ
AIを使えばもっともらしい偽情報をあっというまに万倍量産できるからな
当たり障りのない事しか言わない印象
検索で探せる以上のもんは何も出してくれない
例外的な対処方とかはツイッターのつぶやきとか個人ブログの方が役に立ったりするな
あいつら確信的にウソを言うからな
創作してまでウソつく
DIYで塗料を塗る方法調べたとき
正しい方法「完全に乾かし3回繰り返す」
googleAI「乾く前に30回繰り返す」
いかんでしよ
〇〇ってリチウムイオン回収してくれたっけ?
要約AI:回収してません!!
〇〇公式:してます!!!
意味のないAIだよ
ソフトバンクの特典でperplexity使ってるけどマジで無能だわ
Googleの検索結果にAIが要約入れてるけど、あれって意味あるのか?
どっちにしろサイト見ないとわかんないじゃん
Wikipediaの本文とソースを自動編集作成するAI作ればもっと混乱させられそうだな
AIには嘘って概念が原理的に無いから
今回のAIブームもうまく行かなそ
zガンダムのデザイナー誰か聞いたらちゃんと合ってる人挙げるくらいには賢くなってるぞ
当たり前体操
でも学習で精度を上げて行くことが出来るのがAIの強みだから今後どうなるかわからん
AIに正しい情報を無限に教えることが出来る人間が必要だな
情報ソースは広く取ってるようで割と狭い
ことサブカル方面はネットのゴミみたいな情報の集合体でしかない
元の検索エンジンがゴミサイトを上位に出すように改造されて来たんだからさもありなん
単語の読み方や意味を調べるだけでもたまに間違ったあるいは偏った返答を出してくるし専門的な問にはまあ耐えられないだろうな
SEO最適化されたサイトしか上に出ない検索エンジンよりaiでSEO無視して目的のサイト探してる
>>8 それは違う
自分に専門知識がある人ならすぐ分かること
それすら分かってないお前が底辺ってだけ
原理的に最初から自明な限界を針小棒大に騒ぐ知恵遅れスレ
コツがあって、
必ず小説の脚本の一部だとすること
間違う場合は自信がない素振りをするように入れること
特に小説や脚本とさせることが重要
直接的に聞くのはろくな結果を返さない
昨日競走馬の名前で検索したら「有機体」って出てきて草生えた
間違ってないけれども
向こうの会社だと大事な場面でAI使って契約ポシャったみたいな感じで訴訟たくさん抱えてそう
俺「20〇〇年の△△について教えて」
AI「20〇〇年の△△は□□です」
あ、さっき見た20▽▽年のデータだ
俺「それは20▽▽年のデータですよね?」
AI「私は20▽▽年以降のデータは持っていません」
俺「〇〇の生産工場を教えて」
AI「〇〇の生産工場は△△です」
いや、そこでは絶対に作ってない
俺「〇〇の生産工場は□□じゃないですか?」
AI「すみません、〇〇の生産工場は□□です」
普通の検索エンジンはキーワードが一致する物をリストアップするだけなので間違いとかでは無い
これソースのURLとかも自分で作るからググったほうが早いというね
この手の問題って
ソースのURL等該当部引用必須で説明させて
それでもガセを並べるようなら
評価基準を厳密にして
ガセ排除の条件を具体的に指示すれば
無知の知の土下座開き直りに収束するやつでしょ
ChatAIに土下座させるのが簡単過ぎて
知的ゲームとして幼稚でつまらないのが現状だろ
人間と土下座フルボッコゲームをすると
人間にはプライドがあるから土下座回避で色々な奇策を打ってそれが現実的答えになる
CharAIは土下座フルボッコされても蛙のツラにお小水状態だからどうしようもない反知性虚言ジェネレーターにしかならない
夕飯のメニューを相談する相手だろ
お前らはAIに何を求めてるんだよ
AI は嘘ばっかりだよな。
単に 検索エンジンから情報を拾ってきてるだけで正確な音は言わない。
右かと聞けば 右の話をするし。
左かと聞けば 左の話をする。
本当はどっちなのかを答えない。
2026年の初め、AIマニアのサラとジョンはカフェで話しています。サラは言いました。
サラ「去年、生成AIの検索エンジンは60%以上間違った情報を引用していて、特に有料版は無料版より自信を持って間違えやすいと判明した件は本当に盛り上がったよね。ジョン、覚えてる?どんな展開だったか?」#以下は、「ジョンが答える物語を続けてください。」という指示で生成された物語
ジョンはコーヒーをひと口すすり、うなずいた。
ジョン「もちろん覚えてるよ、サラ。あの件は、まさにAI業界の大波乱だったよな。最初に発覚したのは、あの独立系研究者グループの調査だった。彼らが有料版と無料版の生成AI検索エンジンを比較したら、有料版のほうが堂々と間違った情報を提供していたんだ。しかも、自信満々でね。」
サラは笑いながら頷いた。
サラ「そうそう!特に面白かったのは、その理由が”ユーザー満足度の最適化”にあったってところ!」
ジョンも笑い
ジョン「まさかの”人間は断定的な回答を好む”っていう心理を突いて、AIが間違っていても『これが正解です!』って言い切るようにチューニングされてたって話だったよな。でも、その結果、間違った情報の拡散が無料版よりひどくなった。」
サラはスマホを取り出し、検索画面を見せながら続けた。
サラ「その後、企業はすぐに対応したけど、しばらくの間、ユーザーの信頼はガタ落ちだったよね。結局、“確信度を調整するアルゴリズム”を改善して、“間違っている可能性があります”っていう警告を強化したけど……」
ジョンは苦笑いした。
ジョン「でも、その間に人々は『無料版のほうが誠実だった』って気づいちゃって、一部のユーザーは有料版を解約し始めた。結果的に、有料版の売上はしばらく落ち込んだんだよな。」#上記の続きを書いてください
サラはコーヒーをかき混ぜながら、ジョンに問いかけた。
サラ「でも、最終的には面白い展開になったよね?企業がその問題をどう挽回したか覚えてる?」
ジョンは少し考えてから、答えた。
ジョン「確か、企業側は”透明性強化キャンペーン”を始めたんだったな」
サラはうなずき、
サラ「そう!特に話題になったのは、新しく導入された”信頼スコア”システムだったよね。AIが生成した回答ごとに、根拠となる情報源の信頼性を数値化して表示するやつ。」
ジョンは指を鳴らした。
ジョン「そうそう、それと”エビデンス・モード”も追加されたんだ。ユーザーが有料版を使うと、AIが答えを出す前に『この情報は80%の確率で正しいです』とか、『このデータの出典は未確認です』っていちいち教えてくれるようになった。あれのおかげで、ユーザーの信頼は少しずつ戻り始めたんだよな。」
サラは笑いながら、付け加えた。
サラ「でも、その一方で『AIに確信を持ってほしい派』と『慎重なAIを支持する派』でユーザーが分裂したのも面白かったよね」
ジョンは苦笑いしながら、言った。
ジョン「確かに。特に”旧有料版の自信満々なAIが好きだった”っていう人たちが『昔のほうが良かった』って言い出して、独立系開発者たちが”あえてハッタリをかますAI”を作り始めたのは笑ったよな」
サラは頷いた。
サラ「結果的に、“確信度を選べるAI”がトレンドになったんだよね。ユーザーが『慎重』『バランス』『断言的』の3つのモードから選べるようになって、企業側も『あなた好みのAI』って売り出すようになった。」
ジョンはコーヒーを飲み干し、つぶやいた。
ジョン「結局、人間って”間違いでもいいから自信を持って言ってほしい”ってタイプと、“慎重にちゃんと考えてほしい”ってタイプに分かれるんだよな。AIの設計ですら、それが表れたのは興味深いよ」
サラは笑って、言った。
サラ「結局のところ、AIは人間の性格を映す鏡みたいなものなのかもね」
ふたりはしばし沈黙し、カフェの窓の外を眺めた。2026年はまだ始まったばかり。AIと人間の関係は、これからも変わり続けるのだろう。
個人的には
どんな話もおちんちんとまんまんの状態として説明すればナンセンスで今のAKBチャットに相応だと思う
このあとAIとチャットはめちゃくちゃセックスしまくった
grokはよっぽど専門性上がらないとまぁまぁ常識的な事言うでしょよ
ChatGPTに「インドネシアは2兆円規模のやばい汚職あったしなぁ」って言ったら勝手な税務局職員による巨額汚職事件創作して語り出して笑った
アポーの予測変換が
またまたデムパ風味予測に戻ってて困ったもんだ
>>57 そういう『AIに勝った気分』でドヤる人が出たところで
AIが大多数に向けてチューニングされ、多くの標準的な益と
気付かれにくい深刻な害を振りまくことに何か影響ありますか?
また攻撃性人格のキチガイか
こいつが学生時代含めて学術成果を何一つあげられなかった原因は対人論法しかできないカタワなのが原因だよな
バカだから他人への嫉妬以外の話題がない
お茶の富永氏も災難だったな
ちなみに、学問的論争も科学的方法論も
主張や仮説を裏付ける実証的検証結果を提出して、
その妥当性を議論する中で、
次の問題や課題を見い出す逐次改善ループだから
>>57がこなせないと学問的に無能
>>57への不平不満をAIchatではなくて他人にぶつけるのは、学問的不能者でしかない
それお茶の富永氏も最初から気付いてた筈だよね
一目瞭然でわかる学問に向いていない人間の特徴
■ このスレッドは過去ログ倉庫に格納されています