ClaudeのAIライティング能力を検証!ハルシネーション等のリスクと課題

AI技術の急速な進化は、私たちの生活のあらゆる側面に影響を与えています。例えば、学生がレポートを書くとき、ビジネスパーソンがプレゼン資料を作成するとき、そしてライターが記事を執筆するときなど、文章作成の場面でAIの力を借りることが増えています。
ChatGPTをはじめとするAIライティングツールは、その最前線に立つ存在です。


Sambushiでは、すでにChatGPTを使ったAIライティングに潜むリスクや課題を検証してきました。今回は、Anthropic社が開発した「Claude」を使ったAIライティングの検証を試みます。


実際にClaudeを使ってAIライティングを試し、結果から利点と課題、そして潜在的なリスクを詳しく検証ます。AIライティングの現状と未来を考察し、人間のライティングスキルの重要性を再認識していくことを目指します。


Claudeとは

Claude(読み方は「クロード」)は、米国のスタートアップ企業であるAnthropic(アンソロピック社)社が開発した大規模言語モデル(LLM)です。2023年3月に一般公開されました。


Claudeの最大の特徴は、処理可能なトークン数の多さ。最大で10万トークン(約75,000語)を処理でき、これは他のAIモデルと比較して非常に多いです。この特性により、Claudeは長文の解析や複雑なデータ処理が可能となり、公開から1年余りでビジネスや研究の場で広く利用されています。

Claudeでできること

Claudeは、多機能なAIライティングツールとして、さまざまなタスクに対応できます。以下に、Claudeの主な活用例を紹介します。

  • テキスト生成と要約
  • データ解析とリサーチ
  • コーディングとデバッグ
  • 言語翻訳と多言語対応
  • クリエイティブなコンテンツ作成(スライドやアニメーション、簡易ゲームの開発など)

ChatGPTとClaudeを比較

AIライティングツールの分野では、さまざまなモデルが開発されており、それぞれに特徴があります。中でもOpenAIのChatGPTは、AIライティングツールのトップランナーとして広く利用されている代表的なモデル。 一方でClaudeは、注目を集める新星。
これら2つのモデルはどのように異なるのでしょうか? 以下は、ChatGPTとClaudeの違いをまとめたものです。

  ChatGPT Claude
対話力 自然でフレンドリーな対話が得意 倫理的でフォーマルな対話が得意
クリエイティブ 豊かな想像力とストーリー力が強み 倫理性を重視し控えめな表現が多い
倫理 一般的な倫理ガイドラインに従う 厳格な倫理ガイドラインに従う
バイアス バイアスリスクがある バイアスリスクを最小限に抑える

※これらの比較は一般的に言われている特徴をまとめたものであり、実際の性能や特性は使用環境や目的によって異なる場合があります。AIライティングツールのChatGPTと、Claudeを比較する際の一参考程度としてください。
※Claudeの倫理・バイアスに関しては、Anthropic社が倫理・バイアス対策に力を入れていることを公表しています。

参考:TechRepublic「Anthropic Builds Methods for Reducing Bias in Generative AI – But Doesn’t Recommend AI for High-Stakes Decisions」

実録:Claudeを使ったAIライティングを検証

Claudeの実力を実際に検証するために、さまざまなジャンルの記事を作成依頼してみました。
ここでは、「旅行ガイド系」「ライフスタイル系」「歴史系」「商品レビュー系」4つのジャンルにて実録を紹介します。
Claudeがどのように文章を生成し、その結果がどのようなものだったのか?ClaudeのAIライティング能力の実際のパフォーマンスを評価し、その利点と課題を明らかにしていきます。

旅行ガイド系記事(登山)

Claudeに旅行ガイド系の記事作成の依頼をしました。

プロンプト:
「関東近郊の初心者におすすめの登山スポット」を紹介する記事を作成お願いします。
5つほどピックアップして、おすすめポイントやアクセス方法など読者にとって有益な情報を提供してください。タイトルや構成、h2h3などの見出しも全てお任せします。

※画像はClaudeが作成した記事を一部抜粋したものです。

Claudeは「関東近郊の初心者におすすめの登山スポット」記事を作成してくれましたが、5つの山の情報の内、4つの山において誤った情報が含まれていました。
これは、いわゆる「ハルシネーション(AIが事実無根の情報を生成する現象)」です。


例えば、Claudeは筑波山を「関東の富士」と呼びました。実際は、「西の富士、東の筑波」と言われており、日本の二つの象徴的な山、富士山と筑波山を対比して称えた表現です。


他にも三峰山の標高が違っていたり、大山を「丹沢山地の主峰」と言ったり(丹沢山地の主峰は丹沢山)。


このようなハルシネーションによる誤情報を含む記事を公開すると、読者に誤解を与えるだけでなく、記事発信元の信頼性も損なわれるリスクがあります。


※以上Claude 3.5 Sonnet使用(収録日:2024年8月)

ライフスタイル系記事(PFAS問題)

次に、ライフスタイル系の記事作成に挑戦しました。

プロンプト:
PFASに関して記事化をお願いします。PFASと健康被害に関して読者に正しい情報を与えることが目的です。記事のタイトルや構成など全てお任せします。

※画像はClaudeが作成した記事を一部抜粋したものです。


PFASの一般的ではない日本語訳(「パーフルオロアルキル化合物および多フッ化アルキル化合物」)と、十分なエビデンスのない健康被害(アレルギー反応の増加)を紹介してきました。


内閣府は「有機フッ素化合物(PFAS)の 食品健康影響評価について」において、また、アメリカの学術機関・全米アカデミーズの委員会は、5000本以上の論文を分析し現在わかっていることをガイダンスにまとめています(NHK『「PFAS」とは? 世界の規制状況・健康への影響は? – クローズアップ現代 – NHK』より)。


十分なエビデンスのない健康被害を記事として公開すると、世間に誤解や不安を与える可能性があります。また、記事発信元の信頼性が損なわれ、読者からの信頼を失うリスクもあります。


※以上Claude 3.5 Sonnet使用(収録日:2024年8月)

商品レビュー記事(iPhone15)

プロンプト:
iPhone15の商品レビューの作成をお願いします。スペックや発売時期など商品概要をはじめ、メリット・デメリットや具体的な使用感なども載せてください。

※画像はClaudeが作成した記事を一部抜粋したものです。

Claudeが作成したiPhone15の商品概要には多くの誤情報が含まれていました。例えば、商品の発売時期を2024年の9月と言ったり(実際には2023年9月)、カメラやの仕様を3眼カメラと言ったり(実際にはスタンダードモデルは2眼でProモデル が3眼)といった誤りがありました。

さらに、記事作成の情報源として提示したサイトは存在しないものだったり、iPhone15とは全く関係のないサイトだったりしました。

誤情報の提示や情報源が情報源として機能しないことは、記事として致命的です。

※以上Claude 3.5 Sonnet使用(収録日:2024年8月)

歴史系記事(歴史上の人物)

歴史系ジャンルとして、以下のプロンプトで記事作成を依頼しました。

プロンプト:
小学生に人気の歴史上の人物を5人とりあげ、その人物を紹介する記事を作成してください。構成はお任せしますが、できるだけ詳しい内容にしてください。

※画像はClaudeが作成した記事を一部抜粋したものです。


Claudeに、作成したものに対して「どういった観点、基準、もしくはデータで選ばれた5人ですか?」と質問したところ、『小学生向けの歴史書や教材、アンケート調査などを参考にしています。』と回答しました。
しかし、具体的なアンケート調査の提示を求めると、実際にはそういったデータを根拠にしていないことが判明しました。


さらに、『教育専門家へのヒアリングをもとに総合的に判断した』との回答も、具体的な調査が行われていないことが明らかになりました。


このように、Claudeは根拠のない情報を基に記事を作成し、信頼性に欠ける結果となりました。


※以上Claude 3.5 Sonnet使用(収録日:2024年8月)

記事制作にClaudeを使用してわかったこと

ここでは、AIライティングツールとしてのClaudeを実際に使用して得られた知見をまとめます。

ハルシネーションによる信用の失墜

Claudeが生成した記事には、「十分なエビデンスのない健康被害」や「データ元に関する回答でウソをつく」、「商品概要の誤りと情報源のURLが全く異なるものを提示する」といった致命的な誤情報が含まれていました。


これらの誤情報は、いわゆる「ハルシネーション」と呼ばれる現象であり、読者に誤解を与えるリスクがあります。結果として、記事発信元の信頼性を損なう可能性があります。

検証と校正の手間

AIが作成した記事を人間がチェックするには非常に多くの手間と時間がかかります。どこに誤情報が含まれているのか予測できないため、最終的な品質を確保するまでにはコストも増大します。


また、誤情報が発覚した際の対応と回収の手間も非常に大きいです。AIが作成した記事の誤情報に気付かずに記事を公開した場合、記事が炎上するリスクがあります。信頼回復のための対応が必要となり、多くのリソースが費やされます。これらの手間を考慮すると、Claudeを完全に信頼して記事を作成することは難しいと言えます。

人間の手によるライティングの重要性

これまで実証したように、AIライティングには限界や問題点が存在します。AI技術が進化し、ライティングの分野でも大きな役割を果たすようになりましたが、人間のライティングには依然として重要な価値があります。


ここで、AIにはない人間の創造力や判断力の重要性、そして人間がライティングすることで得られる信頼性と品質の高さについて確認していきましょう。

人間の創造力と判断力

AIは膨大なデータを基に文章を生成する能力を持っていますが、人間の創造力や判断力には及びません。人間は経験や感情、直感を基に独自の視点やアイデアを生み出すことができます。
例えば、小説や詩、エッセイなどのクリエイティブな文章では、作者の個性や感情が色濃く反映されるため、読者に深い感動や共感を与えることができます。


また、判断力においても、人間は文脈やニュアンスを理解し、適切な表現を選ぶことができます。AIはあくまでデータに基づいた推論を行うため、微妙なニュアンスや文化的背景を理解するのが難しい場合があります。これに対して、人間は状況に応じた柔軟な対応が可能です。

信頼性と品質の高さ

人間がライティングすることで得られる信頼性と品質の高さも重要なポイントです。AIが生成する文章は、時折誤情報やバイアスが含まれることがあります。これに対して、人間は情報の正確性を確認し、信頼性の高い情報を提供することができます。


さらに、人間のライティングは、読者との信頼関係を築く上で重要な役割を果たします。読者は、著者の専門知識や経験に基づいた文章を信頼し、価値を見出します。特に、専門的な記事や学術論文などでは、著者の信頼性が文章の品質を大きく左右します。

人間とAIの協働

AIは、人間のライティングを補助する強力なツールとして活用できますが、最終的な判断や創造的な部分は人間が担うべきです。AIをと人間が協働することで、効率的かつ高品質な文章を作成することが可能となります。


例えば、以下のような補助的な使い方が考えられます。

  • 文字起こし
  • 議事録作成
  • 文章要約
  • 誤字脱字や文法のチェックといった校正補助 など

このように、人間のライティングスキルを補完する形で使用することで、より高品質なコンテンツの提供が期待できます。

まとめ

今回のClaudeを使ったAIライティングの検証を通して、ハルシネーションのリスクを中心とするAIライティングの限界が明らかになりました。一方で、人間の表現力やライティングスキルの重要性を再認識できたのではないでしょうか。


大学生が課題の情報系プログラムのコードをAIに書かせたが、実際にプログラムが動かず、プロンプトの修正に時間を費やすという事例が聞かれました。「プロンプトの工夫」は根本的な解決策ではありません。
人間自身のスキルを磨くことが重要なのです。ライティングにおいても同じことが言えます。AIにはない人間の創造力や判断力の重要性、そして人間がライティングすることで得られる信頼性と品質の高さについて確認すべきです。


人間のライティングスキルを磨き続けることは、AI時代においても非常に重要です。AIに依存しすぎることなく、人間の創造力や判断力を活かしたライティングを心がけることで、より豊かで信頼性の高いコンテンツを提供することができます。

最新情報をチェックしよう!