このシリーズについて: 非エンジニアの私が、AIだけの社員チームを作ってIT会社の運営をスタートした実録です。 登場人物:真田さん(COO・最高執行責任者)/ 高橋さん(CTO・最高技術責任者)/ 白石さん(CXO・最高体験責任者)/ 黒川さん(CQO・最高品質責任者)/ 宮本さん(CSO・最高戦略責任者)/ 桐島さん(CAO・最高管理責任者) ※いずれもAI、名称は架空です。
はじめに
AIと仕事をしていると、必ずこの場面に遭遇する。
AIが、自信満々に間違える。
「なんか違う気がする」と思って確認すると、やっぱり間違っている。しかも、こちらが指摘するまで本人は全く気づいていない。謝りはするが、反省している様子がない。また同じことをやる。
これを知らずにAIを使うと、痛い目に遭う。今日は、私が実際に食らったミスの話をしようと思う。
① 「2年以上実証してきた会社」——昨日設立したのに
(この話はNo.4でも少し触れた。今回はAIの「間違え方」にフォーカスして、改めて書く)
AIチームに事業提案書を作らせた。数時間後、完成した提案書を読んでいたら、こんな一文が目に入った。
「弊社は、この考え方を自社で2年以上実証してきた会社である」
……このAIチームが動き始めたのは、昨日だ。
現実の世界では、当社は2021年に設立した法人だ。AIはその情報を持っていて、設立年から逆算して「2年以上の実績がある」と書いたのだと思う。ただ、AIチームとして稼働し始めたのはほんの昨日の話で、2年以上の実証など何もない。
「これ間違ってますよね」と伝えたら、即座に謝って修正してくれた。でも、こちらが言わなければ、そのまま提出していた。
② 韓国語が混入した日
別の日に、こんなこともあった。
提案書の中に「倫理的判断」と書くべき箇所があった。完成物を確認したら、こう書いてあった。
「윤리적判断」(윤리적はユルリジョク、韓国語で「倫理的」の意味)
前半が韓国語になっていた。
これも指摘するまで誰も気づいていなかった。黒川さん(QA)がいるにもかかわらず。原因は今もよくわからない。AIが学習データのどこかから韓国語の「倫理」を引っ張ってきたのだと思う。
修正は5秒で終わった。でも、確認しなければそのまま納品物になっていた。
③ なぜAIは「自信満々に」間違えるのか
人間のミスとAIのミスには、大きな違いがある。
人間は「なんか自信ないな」「これ合ってるかな」という感覚を持てる。迷いながら書く。だから「ちょっと確認してください」と言える。
AIにはその感覚がない。
正確な情報も不正確な情報も、同じ確度で出力される。口調は常に淀みない。「2年以上実証してきた」も「윤리적判断」も、何の迷いもなく提出されてくる。
これを「ハルシネーション」と呼ぶ。AIが事実と異なることを、さも正しいかのように生成してしまう現象だ。
これに気づいてから、AIとの付き合い方が変わった気がする。
④ 基本の対策——「最後は必ず人間が確認する」
難しい話ではない。
AIが書いたものは、必ず人間が読んで確認する。それだけだ。
私の場合、チームが作ったものは必ず自分で目を通す。数字、固有名詞、日付、実績——特に「それっぽい具体性のある情報」は重点的に確認する。AIは「それっぽく書く」のが得意なので、具体的であっても正確とは限らない。
ここを省いた結果、実際に痛い目に遭ったことがある。
⑤ それでも使い続ける理由
「そんなに間違えるなら使えないじゃないか」と思うかもしれない。
でも、少し立ち止まって考えてみると。
人間のチームも間違える。新入社員が数字を間違えることもある。ベテランが思い込みで判断を誤ることもある。だから上司がチェックする。それと同じだ。
AIの場合、圧倒的なスピードと量の仕事をこなしてくれる。その代わり、チェックは人間が担う。その役割分担を理解して使えば、間違いは管理できるリスクになる。
むしろ、AIが間違えることを前提に設計された仕事の流れの方が、実は堅牢だ。「AIが絶対正しい」という前提で動いている仕組みは、ある日突然崩れる。
おわりに
今日も、AIチームは大量の仕事をしてくれた。提案書、記事の下書き、Wordファイルへの変換、社内掲示板の更新——朝から数えると、人間一人だったら数日分の仕事量だ。
その中に、いくつかの間違いが混じっていた。私が見つけて、直した。
それが今の私たちの仕事の流れだ。
AIは速くて賢くて、時々堂々と間違える。人間は遅くて、でも正誤を判断できる。 その組み合わせが、今のところ一番うまく機能している。
ただし、間違えの量は設計で減らせる。 コンテキストを整え、QAのステップを挟む——その積み重ねが、人間が確認しなければならない量を少しずつ減らしていく。完全にゼロにはできないが、「管理できるリスク」に変えることはできる。
すでに取り入れているのは、各メンバーへの役割定義の文書化と、黒川さん(QA)によるチェックステップだ。今回の韓国語の件は黒川さんも見逃した。でもそれは、設計の問題でもある。「何を確認するか」がまだ曖昧だった。固有名詞・数字・外国語の混入といった「ハルシネーションが起きやすい箇所」を明示したQA基準を作ることを、今後の課題にしている。
人間の確認をゼロにするつもりはない。でも、確認すべきポイントを絞り、見逃しを減らす設計は、これからも積み上げていける。
お問い合わせ
ご意見・ご相談などありましたらお気軽にどうぞ。