トレンドニュースサイト STRAIGHT PRESS【 ストレートプレス 】

株式会社Citadel AI

人とAIの安全な協調を支えるAIセーフティ基盤を構築しました

このエントリーをはてなブックマークに追加

―設計・評価・運用の一貫したガイドラインと評価・実証基盤を整備―

NEDO(国立研究開発法人新エネルギー・産業技術総合開発機構)
国立研究開発法人産業技術総合研究所
株式会社Citadel AI
株式会社コーピー
国立大学法人琉球大学

NEDOが推進した「AIの安全性確保に関する研究開発・検証等の推進事業/AIセーフティ強化に関する研究開発」(以下、本事業)において、NEDO、国立研究開発法人産業技術総合研究所(産総研)、株式会社Citadel AI、株式会社コーピー、国立大学法人琉球大学の5者は、AIシステムの安全性確保のための共通基盤となる、ガイドラインや評価プロトコルなどを開発・策定し、公開しました。

本事業で策定したガイドラインなどは、AIシステムの企画・設計段階から、評価・運用における安全性確保に重点を置き、AIを活用したシステムを開発・導入する事業者が、リスクの洗い出しや適切な対策の検討を行うための考え方や基本的な手順を整理したものです。

ガイドラインや評価プロトコルなどが広く活用されることで、AIシステムの安全性に関する共通の考え方や手順が社会に浸透し、AIを安心して活用するためのAIセーフティの共通基盤の整備を加速することを目指します。


図1 本事業の概要

1.背景

2023年のG7広島サミットで発足した広島AIプロセスなどを背景に、各国でAIセーフティに関する議論や体制整備が進んでいます。こうした国際情勢を踏まえ、日本においてもAIセーフティ・インスティテュート(AISI)※1が設置され、国際的な議論に参画しています。

本事業※2は、生成AIの安全・安心な利用に向けた国際ルール作りを日本国内でも推進するため、官民一体となった取り組みを研究開発の側面から支援するものです。近年、人とAIが協調して判断・行動する場面が増加している中で、AIセーフティをいかに設計・評価・運用するかという共通課題への対応が求められています。

本事業では、こうした課題に対し、AIセーフティを評価・運用するための共通基盤の整備を目的とした研究開発を実施しました。AIの実現技術や応用分野は多岐にわたる一方で、人とAIが関わる場面をどのように安全に設計するか、また安全性を判断・検証・運用によってどう担保するかといった課題は、分野を横断して共通しています。

図1に示すように、本事業は、安全性の「ものさし」となる評価・管理技術の開発(研究開発項目1.)、実環境を想定した応用領域別のAIセーフティ評価・実装技術の開発(研究開発項目2.)と、それらの成果を企業の実務で活用可能な形に整理・体系化し、AIセーフティ実施のためのガイドライン類の策定(研究開発項目3.)につなげる構成としています。

なお、本事業は特定のAIの社会実装の完了を示すことを目的とするものではなく、今後の技術開発・実証・標準化につながる共通の基盤を提示することを目指しています。

2.今回の成果

本事業では多岐にわたるAIセーフティの課題に対し、「設計・評価・運用」の各段階にまたがり、ガイドライン、評価手法、テンプレート、評価環境などを、幅広く整備しました。

(1)マルチモーダルAI品質マネジメントガイドラインの策定(研究開発項目3.)

本事業の中核成果として、産総研は、画像とテキストを受け取り、主にテキストで応答するマルチモーダルAI※3を対象に、品質マネジメントの観点およびプロセスを整理したガイドラインを策定しました(図2)。マルチモーダルAI特有の基本的評価観点として、クロスモーダル照応能力※4に着目し、この能力を4段階に分類しています。マルチモーダルAIシステムの安全性や品質を確保するためには、求められるクロスモーダル照応能力の水準を見極めることが特に重要であり、その水準に応じてライフサイクルの各段階で実施すべき対応を体系的に整理しました。

また、ガイドライン内では、画像に基づくキャプション自動生成、インフラ老朽化の画像診断、SNSなどにおけるコンテンツモデレーションの三つの事例を取り上げ、人による判断や監督が関与する場面における留意点や、品質マネジメント上の論点を示しています。

本ガイドラインは、マルチモーダルAIの特性を踏まえた安全性・品質の確保に向けた共通的な設計・評価の枠組みを示すものであり、AIセーフティを実務的に適用するためのベースとなるものです。

本ガイドラインは下記より閲覧できます。

マルチモーダルAI品質マネジメントガイドライン
https://qai.pj.aist.go.jp/aisafety1/results/2025/3-1-1/pdf/multimodal-aiqm-guidelines-rev1.0.0.pdf


図2 「マルチモーダルAI品質マネジメントガイドライン」の概要

(2)企業現場におけるAIの社会実装を支えるガイドライン・事例集の策定(研究開発項目3.)

Citadel AIは、生成AIやAIエージェントを実際に開発・運用している企業へのヒアリングを通じて、AIセーフティの原則やガイドラインを、現場で実装・運用可能な形に落とし込むための評価観点・評価水準・評価手法を整理しました。技術、プロセス、組織文化の観点から共通して見られるパターンや実践的なノウハウを抽出し、「生成AI実践ガイドと企業事例集」として体系化しています(図3)。

また、開発者に向けて、抽出したノウハウを検証の上で具体化するため、行政手続きなどに関する情報を中心に、外国人などの言語や制度の理解に一定の配慮を要する利用者を想定したチャットボットとして実装し、公開しました。本チャットボットでは、生成AIによる回答とその根拠を明示するため、自治体が発行・公開している暮らしに役立つ情報を活用しています。

これらの成果は、ガイドラインが示す「あるべき姿」を、企業が実務として実装・運用するための具体的な評価・運用手法として提示するもので、AIセーフティを実務レベルで適用可能にする役割を担っています。

生成AI実践ガイドと企業事例集 
https://citadel-ai.com/ja/news/2026/04/03/gen-ai-practical-guide/

GitHub上のチャットボット公開先 
https://github.com/citadel-ai/nedo-ai-safety-agent

本研究成果に関するCitadel AI HP 
https://citadel-ai.com/ja/news/2026/04/03/nedo-citadel-ai-2025/

図3 「生成AI実践ガイドと企業事例集」の概要図

(3)組織マネジメントと技術評価を接続する実装ガイドと評価テンプレートの整備(研究開発項目3.)

コーピーは、ISO/IEC※5 42001(AIマネジメントシステム規格)※6に整合した生成AIの安全性評価を実務として実施するための、分析・テスト・報告の3フェーズからなる「AIマネジメントシステムに基づく生成AI安全性評価プロトコルとその実装ガイド」および評価用テンプレートを整備しました(図4)。

また、視覚言語モデル※7を用いた顧客サポートシステムを題材として、レッドチーミング※8などによる評価を実施し、その評価の有効性および実務上の論点について検討を行っています。
これらの成果は、組織的なマネジメント要求と技術的な安全性評価とを接続する実践的な枠組みを提供するものであり、企業においてAIセーフティを一貫して実施する際のもととなります。

本研究成果に関するコーピーHP
https://corpy.co.jp/jp/news/op46vus_

図4 成果概要図

下記の2点は、医療や日常生活といった実環境におけるAI活用を想定し、人とAIの協調における安全性確保の具体的な考え方や評価・検証手法につながる成果です。

(4)Human-AI Teamingにおける意思決定プロセスの安全性確保手法の提示(研究開発項目1.)

産総研と琉球大学は共同で、マルチモーダルAIガイドラインが示す「用途や利用シーンに応じた品質要件」という考え方を具体化する取り組みとして、医療現場を想定し、人とAIが協調して判断を行うHuman-AI Teamingにおける安全性の検討を実施しました。

具体的には、医療画像診断においてAIと医師の判断が一致しない場合を想定し、どのようなプロセスで最終判断を行うべきかについて分析を行い、合意形成の在り方やリスク回避策を整理しています。

AIが提示すべき追加情報や判断根拠、意思決定を支援するインターフェースの在り方について、医師との共同検討を通じて整理し、人とAIの協調における意思決定プロセスの安全性を確保するための設計指針として体系化しました(図5)。

また、人が最終的な意思決定権を有する関係において、人間がAIの精度を正しく認識できない場合があること、またその認識がAIの活用に影響を与え得ることを確認しています。

本成果は、人とAIの判断が一致しない状況を前提とした安全性確保の考え方を整理したものであり、Human-AI Teamingにおける実践的なAIセーフティ設計に資するものです。
当該成果については、2026年6月に開催予定の2026年人工知能学会全国大会(第40回)において公表予定です。

技術レポートを含む本研究開発成果の公開先
https://qai.pj.aist.go.jp/aisafety1/results/2025/1-3-2/

2026年度人工知能学会全国大会(第40回)公式HP
https://www.ai-gakkai.or.jp/jsai2026/

人工知能学会で実施予定の本成果に関する講演
https://pub.confit.atlas.jp/ja/event/jsai2026/presentation/1H3-OS-40-01

図5 Human-AI Teamingの研究概要

(5)日常生活領域におけるAIセーフティ評価・検証基盤の構築(研究開発項目2.)

産総研は、家庭や介護施設などの日常生活環境においてAIシステムの安全な活用を進めるため、AIセーフティの評価・検証基盤の構築に取り組みました。

日常生活向けAIシステムは、生活場面の多様さやプライバシー保護の観点から、開発・検証用データの取得が困難であることに加え、安全性や頑健性※9の評価手法が十分に確立されていないという課題があります。

本取り組みでは、見守りAIシステムを対象として、人の安全性確保の観点から想定される行動や事象をシナリオとして整理し、AIの安全性評価に必要なデータの収集、生成および検証を可能とする実・仮想融合環境を整備しました。

実世界に構築したフィジカルリビングラボなどで取得した実行動データと、仮想空間上のサイバーリビングラボにおけるデータ拡張技術を組み合わせることで、転倒やふらつきなどの実計測が困難な行動を含む、見守りAIの安全性評価に資するデータセットを構築しています(図6)。

さらに、見守りAIの社会実装を見据え、安全性評価や検証の在り方に関する技術的・社会的課題について議論を行う場として、「人間中心AIライフテックコンソーシアム(HAIL)」を2026年4月に発足させ、6月より活動を開始します。本データセットは同コンソーシアムにおいて活用予定です。

本成果は、これまで評価が難しかった日常生活領域におけるAIの安全性を、実環境の特性を踏まえて検証可能にする基盤を整備したものであり、AIセーフティの実践的な評価・検証の高度化に資するものです。

人間中心AIライフテックコンソーシアムHP
https://www.airc.aist.go.jp/hail/

図6 日常生活環境向けAIの安全性検証基盤の概要

3.今後の予定

本事業においては、AIセーフティに係るガイドラインの策定を中核としつつ、企業現場における実装方法論、さらには組織マネジメントと評価を結び付ける実践的手法、人とAIの協調に関する技術的知見、実環境における検証基盤など、性質の異なる成果が得られました。

これらの成果は、多岐にわたるAIセーフティの課題に対し、「設計・評価・運用」の各段階で多面的に取り組むための要素として位置づけられ、広がるAIの利用場面に応じた対策を幅広く実現していくための布石としている点が特徴です。

今後は、本事業で得られたAIセーフティに関する共通の考え方に加え、具体的な評価・実装手法を、さらに人とAIが協調する社会に向けた実践的なAIセーフティの共通基盤として体系的に整備していく予定です。

なお、本リリースでは、本事業の中でも代表的な成果を取り上げています。図1に示す各研究項目においては、本リリースで触れていない成果も多数得られており、これらについては専用Webページにて紹介しています。

本事業の研究開発成果の紹介HP
https://qai.pj.aist.go.jp/aisafety1/index.html

【注釈】
※1  AIセーフティ・インスティテュート(AISI)
2023年末に英国と米国で同時に設立され、日本を含む複数国が追随しています。その後英国ではAI Security Institute、米国ではCenter for AI Standards and Innovation (CAISI)とそれぞれ改称しました。国際AISIは各国AISIの連携体制を指します。

※2 本事業
事業名:AIの安全性確保に関する研究開発・検証等の推進事業
事業期間:2025年度
事業概要:AIの安全性確保に関する研究開発・検証等の推進事業 https://www.nedo.go.jp/activities/ZZJP_100327.html

※3 マルチモーダルAI
テキスト、画像、動画、音声など、複数の異なる形式のデータを入力または出力として扱うAIです。

※4 クロスモーダル照応能力
画像やテキストなど、異なる形式の情報の間で、同じ対象や出来事の対応関係を見分けたり、対応する箇所を特定したりする能力です。

※5 ISO/IEC
International Organization for Standardization(ISO)およびInternational Electrotechnical Commission(IEC)のJoint Technical Committee 1(JTC1)第一合同技術委員会の活動です。

※6 ISO/IEC 42001(AIマネジメントシステム規格)
AIシステムを開発・提供・利用する組織が、AIに関するリスクを体系的に管理するための国際規格です。

※7 視覚言語モデル
画像とテキストの両方を理解・処理できるAIモデルの総称です。画像を見て質問に回答したり、画像の内容を説明したりすることが可能です。

※8 レッドチーミング
敵対者(レッドチーム)の役割を模擬し、AIシステムに意図的に攻撃的な入力を行うことで、安全性上の弱点を発見する評価手法です。

※9 頑健性
入力データや利用環境に変化があっても、AIシステムが性能や動作を大きく損なわずに機能する性質です。

企業プレスリリース詳細へ
PR TIMESトップへ

最新情報をTwitterで受け取ろう!
最新情報をFacebookで受け取ろう!
前の記事
一覧へ戻る
次の記事