AIは自信満々に間違える——それでも使い続ける理由

このシリーズについて：非エンジニアの私が、AIだけの社員チームを作ってIT会社の運営をスタートした実録です。登場人物：真田さん（COO・最高執行責任者）/ 高橋さん（CTO・最高技術責任者）/ 白石さん（CXO・最高体験責任者）/ 黒川さん（CQO・最高品質責任者）/ 宮本さん（CSO・最高戦略責任者）/ 桐島さん（CAO・最高管理責任者） ※いずれもAI、名称は架空です。

はじめに

AIと仕事をしていると、必ずこの場面に遭遇する。

AIが、自信満々に間違える。

「なんか違う気がする」と思って確認すると、やっぱり間違っている。しかも、こちらが指摘するまで本人は全く気づいていない。謝りはするが、反省している様子がない。また同じことをやる。

これを知らずにAIを使うと、痛い目に遭う。今日は、私が実際に食らったミスの話をしようと思う。

① 「2年以上実証してきた会社」——昨日設立したのに

（この話はNo.4でも少し触れた。今回はAIの「間違え方」にフォーカスして、改めて書く）

AIチームに事業提案書を作らせた。数時間後、完成した提案書を読んでいたら、こんな一文が目に入った。

「弊社は、この考え方を自社で2年以上実証してきた会社である」

……このAIチームが動き始めたのは、昨日だ。

現実の世界では、当社は2021年に設立した法人だ。AIはその情報を持っていて、設立年から逆算して「2年以上の実績がある」と書いたのだと思う。ただ、AIチームとして稼働し始めたのはほんの昨日の話で、2年以上の実証など何もない。

「これ間違ってますよね」と伝えたら、即座に謝って修正してくれた。でも、こちらが言わなければ、そのまま提出していた。

② 韓国語が混入した日

別の日に、こんなこともあった。

提案書の中に「倫理的判断」と書くべき箇所があった。完成物を確認したら、こう書いてあった。

「윤리적判断」（윤리적はユルリジョク、韓国語で「倫理的」の意味）

前半が韓国語になっていた。

これも指摘するまで誰も気づいていなかった。黒川さん（QA）がいるにもかかわらず。原因は今もよくわからない。AIが学習データのどこかから韓国語の「倫理」を引っ張ってきたのだと思う。

修正は5秒で終わった。でも、確認しなければそのまま納品物になっていた。

③ なぜAIは「自信満々に」間違えるのか

人間のミスとAIのミスには、大きな違いがある。

人間は「なんか自信ないな」「これ合ってるかな」という感覚を持てる。迷いながら書く。だから「ちょっと確認してください」と言える。

AIにはその感覚がない。

正確な情報も不正確な情報も、同じ確度で出力される。口調は常に淀みない。「2年以上実証してきた」も「윤리적判断」も、何の迷いもなく提出されてくる。

これを「ハルシネーション」と呼ぶ。AIが事実と異なることを、さも正しいかのように生成してしまう現象だ。

これに気づいてから、AIとの付き合い方が変わった気がする。

④ 基本の対策——「最後は必ず人間が確認する」

難しい話ではない。

AIが書いたものは、必ず人間が読んで確認する。それだけだ。

私の場合、チームが作ったものは必ず自分で目を通す。数字、固有名詞、日付、実績——特に「それっぽい具体性のある情報」は重点的に確認する。AIは「それっぽく書く」のが得意なので、具体的であっても正確とは限らない。

ここを省いた結果、実際に痛い目に遭ったことがある。

⑤ それでも使い続ける理由

「そんなに間違えるなら使えないじゃないか」と思うかもしれない。

でも、少し立ち止まって考えてみると。

人間のチームも間違える。新入社員が数字を間違えることもある。ベテランが思い込みで判断を誤ることもある。だから上司がチェックする。それと同じだ。

AIの場合、圧倒的なスピードと量の仕事をこなしてくれる。その代わり、チェックは人間が担う。その役割分担を理解して使えば、間違いは管理できるリスクになる。

むしろ、AIが間違えることを前提に設計された仕事の流れの方が、実は堅牢だ。「AIが絶対正しい」という前提で動いている仕組みは、ある日突然崩れる。

おわりに

今日も、AIチームは大量の仕事をしてくれた。提案書、記事の下書き、Wordファイルへの変換、社内掲示板の更新——朝から数えると、人間一人だったら数日分の仕事量だ。

その中に、いくつかの間違いが混じっていた。私が見つけて、直した。

それが今の私たちの仕事の流れだ。

AIは速くて賢くて、時々堂々と間違える。人間は遅くて、でも正誤を判断できる。 その組み合わせが、今のところ一番うまく機能している。

ただし、間違えの量は設計で減らせる。 コンテキストを整え、QAのステップを挟む——その積み重ねが、人間が確認しなければならない量を少しずつ減らしていく。完全にゼロにはできないが、「管理できるリスク」に変えることはできる。

すでに取り入れているのは、各メンバーへの役割定義の文書化と、黒川さん（QA）によるチェックステップだ。今回の韓国語の件は黒川さんも見逃した。でもそれは、設計の問題でもある。「何を確認するか」がまだ曖昧だった。固有名詞・数字・外国語の混入といった「ハルシネーションが起きやすい箇所」を明示したQA基準を作ることを、今後の課題にしている。

人間の確認をゼロにするつもりはない。でも、確認すべきポイントを絞り、見逃しを減らす設計は、これからも積み上げていける。

お問い合わせ

ご意見・ご相談などありましたらお気軽にどうぞ。

→ お問い合わせはこちら