AIは不完全なユーザーの手に渡ります - 済南溶接アシスタント株式会社

npj デジタルメディスン第 5 巻、記事番号: 197 (2022) この記事を引用

6671 アクセス

7 引用

36 オルトメトリック

メトリクスの詳細

人工知能と機械学習 (AI/ML) の使用が医療分野で拡大し続けるにつれ、アルゴリズムのバイアスを軽減してアルゴリズムが公正かつ透明性をもって使用されるようにすることに多くの注意が払われています。 AI/ML の人間ユーザー間の潜在的な偏見や、ユーザーの信頼に影響を与える要因への対処には、あまり注目が集まっていません。私たちは、AI/ML ツールを使用しながらユーザーのバイアスの存在とその影響を特定するための体系的なアプローチを主張し、意思決定科学と行動経済学からの洞察を活用して、ユーザーをより批判的で思慮深い方向に導く組み込みインターフェース設計機能の開発を求めます。 AI/ML を使用した意思決定。

人工知能と機械学習 (AI/ML) の使用はヘルスケア分野で拡大し続けており、個別化された臨床意思決定の強化に大きな期待が寄せられています1。 AI/ML ツールがより普及するにつれて、アルゴリズムのバイアスを軽減して、AI/ML ツールが公正かつ透過的に使用されるようにすることに多くの注意が払われています。しかし、AI の人間ユーザー間の潜在的な偏見を軽減することにはあまり注目が集まっていません。自動システムが病気の予測、スクリーニング、または診断の能力においてより洗練されるにつれて、臨床上の意思決定において自動システムに依存したいという誘惑が増大するでしょう2。しかし、ユーザーの AI への依存に影響を与える要因はほとんど理解されておらず、医療専門家には意思決定において AI が果たすべき役割に関するガイドラインが不足しています。私たちは、AI ツールを使用しながらユーザーのバイアスの存在と影響を特定し、臨床上の意思決定と患者の転帰に及ぼす影響を特定するための、より体系的なアプローチを主張します。具体的には、意思決定科学と行動経済学からの洞察を活用し、AI ツールを使用したより批判的で思慮深い意思決定にユーザーを誘導するために、埋め込みインターフェイス設計機能を使用してマイナスの結果が予想されるバイアスを軽減する方法についての実証研究をさらに強化することを求めています。

規制当局や政策立案者は、一か八かの意思決定において AI システムに過度に依存することの潜在的な害を認識し、人間が常に「最新情報を把握」できるようにすることを推奨し、行動計画や推奨事項を AI/ML システムの安全性の向上に重点を置いているようです。計算精度の向上3、4、5。その一方で、開発者は、解釈可能性に重大な制限があるディープラーニングやニューラルネットを含む「ブラックボックス」AI/ML の信頼性、説明責任、説明可能性に対処する新しい方法を革新しています6、7。これらの目標は、臨床意思決定に AI/ML を使用する場合に特に重要であると思われます。その理由は、誤分類や患者への潜在的危害によるコストが高いだけでなく、過度の懐疑や信頼の欠如により、利害関係者による有望な新しい AI テクノロジーの採用が減少する可能性があるためです。実験環境以外での使用と利用を禁止します。

しかし、私たちの一人 (Babic et al.8 の SG) は最近、医療従事者に対し、ブラックボックス AI/ML モデルについて提示される説明には慎重になるよう警告しました。

Explainable AI/ML … 事後的にアルゴリズムで生成されたブラックボックス予測の理論的根拠を提供しますが、それは必ずしも予測の背後にある実際の理由や予測に因果関係があるわけではありません。したがって、ブラックボックスの事後的な合理化はその内部の仕組みの理解に寄与する可能性が低いため、説明可能性の明らかな利点は「愚か者の金」です。むしろ、私たちはそれをよりよく理解しているという誤った印象を残される可能性があります。」

したがって、米国食品医薬品局 (FDA) のような規制当局は、医療における AI/ML の厳密な条件として説明可能性に焦点を当てるのではなく、安全性と有効性に直接関係する AI/ML システムの側面にもっと総合的に焦点を当てる必要があります。特に、これらのシステムが対象ユーザーの手元でどのように機能するか。 FDA は最近、自動化バイアスのリスクを明確に認識する最終ガイダンス 9 を発表し、AI/ML ベースのソフトウェアを医療機器として変更するための新しい規制枠組みの構築に取り組んでいます (つまり、ソフトウェア自体が医療機器として分類されている場合)。米国連邦食品医薬品化粧品法 201(h)(1) 10)、Babic et al. FDAのような規制当局も、少なくとも場合によっては、現実世界の環境でAIを使用した場合の人的要因やその他の結果をテストするために、適切に設計された臨床試験を重視すべきだと主張している。 Gerke ら 11,12 も同様に、より多くのアルゴリズムツールは、使用目的の設定や人間と AI の相互作用を反映するさまざまな手順コンテキストにわたるパフォーマンスを理解するために、前向きにテストする必要があると主張しています。これらの学者たちが提案しているユーザーテストの種類は、AIツールのベータ版から最終バージョンまでのパイプラインを特徴づける一般的なユーザビリティと受容性のテストを超えたものである。この種のテストは、ほとんどの場合ヒューリスティックに行われ 13、少数の評価者を使用してインターフェイスを検査し、関連するユーザビリティ原則 (例: 解釈可能性、知覚される有用性、ナビゲーション性、使用の満足度など) への準拠を判断します。これらの指標は、ツールのインターフェイスを使用した直近のユーザーエクスペリエンス (つまり、「UX」テスト) を評価するのに役立つことがよくありますが、発生する「緊急」または「コンテキスト」バイアス 15 の潜在的な原因を特定して対処するには、より深いレベルのユーザーテストが必要です 14製品の設計とユーザーの特性、ユースケース、または使用設定の間の不一致が原因です。こうした不一致は、AI ツールの場合、パフォーマンスがユーザーの操作や解釈に左右されにくい 12、または適応アルゴリズムが継続的に変化する 16 場合よりも、従来の医療機器や医薬品に比べて予測および説明が難しい可能性があります。これらの不一致を軽減するには、ユーザーテストの概念を、AI のパフォーマンス指標と近接したユーザビリティに焦点を当てた現在の焦点を超えて、不完全な環境で不完全なユーザーによって実際に AI システムがどのように適用されるかを形成する人的要因とシステム的要因を調査することによってのみ達成できます。さらに、テストは、さまざまな状況にある個人が AI ツールとどのように対話するかを単に観察することに限定される必要はありません。以下で説明するように、行動科学からの既存の洞察を使用して、これらの相互作用を形成する最適な方法をテストすることもできます。