~AIエージェントがリアルタイムに会議に参加し、会議の生産性や創造性の向上をサポート~
株式会社NTTドコモ(以下、ドコモ)は、人間とAIエージェント(以下、エージェント)が協働する新しい会議スタイルの実現に向けて「会議支援エージェントシステム」(以下、本システム)を開発しました。本システムでは、さまざまな役割を持つ複数のエージェントが人間と同じように会議に参加し、より自然に親しみやすく会話しながら、リアルタイムに情報収集や分析を行ったり、最適なタイミングで新たな提案や多面的な意見を発言したりするなど多角的に会議を支援し、会議の生産性や創造性の向上をサポートします。

図1. 本システムの利用イメージ
近年、生成AIの発展に伴い、資料作成や議事録整理といった定型的な業務は自動化が進んでいますが、従来のAIソリューションでは、会議中のリアルタイムでの議論活性化や意思決定の迅速化、多面的な視点の創出まで十分にサポートすることはできませんでした。
本システムは、ドコモが独自に開発した「音声コミュニケーション技術」※1「マルチエージェント技術」※2「代理エージェント技術」※3の3つのエージェント技術および、「会議状況のリアルタイム把握機能」と「社内のデータ資産」を組み合わせることで、人間とエージェントがシームレスに会話し、会議内容に応じてエージェントが最適な支援を行うことを特長としています。
エージェントは人間と同じように会議に参加し、会議中の発言や投影資料を理解した上で、会話の文脈を読み、人間がエージェントの支援を必要とする最適なタイミングで発言するなど、EQ※4の観点を取り入れた、人間中心のコミュニケーション能力を発揮します。また、1つのエージェントだけでなく、さまざまな役割を持った複数のエージェントが同時に議論に加わり、情報収集や分析を行ったり、新たな提案や多面的な意見を発言したりすることで多角的に会議を支援します。例えば会議参加者が議論の行き詰まりを感じた際に、情報収集エージェントが社内のデータ資産から、関連情報や資料を能動的に収集して提示したり、異なる役割を持つアドバイスエージェント同士が議論して多角的で建設的なアイディアや新たな視点を提示したりすることが可能になります。
さらに、上長や専門家の考え方や知識、発言の傾向をあらかじめ代理エージェントにインプットしておくことで、上長や専門家が不在の場合でも、不在者と同じ観点からの助言や、意思決定サポートを受けることができます。代理エージェントから会議中に上司や専門家の意見が提示されるため、従来必要だった作成資料等の上司による事前のチェックや、専門家への個別相談をする頻度が少なくなり、業務効率化につながります。

図2. 本システムの利用シーン
本システムを活用することで、日々の会議において、個人の知識だけに頼ることなく、多角的な意見や助言をその場で得ることができるようになるため、組織全体の「生産性」「創造性」「意思決定の速さ」「課題発見・解決力」の強化に寄与します。従来の業務の流れの中で、エージェントが自然なかたちで人間と連携し、情報収集、議論の活性化、意思決定のための観点追加など、会議のあらゆる場面で直接的に価値を提供します。
ドコモは、今年度中に本システムを社内会議に導入する予定です。また、社内活用と並行してさらなる研究開発を進め、社外のパートナーとの実証実験や、本システムを利用したビジネスの展開も検討する予定です。
今後は本システムによる会議のDX(デジタルトランスフォーメーション)を推進するとともに、オフィス業務全体の変革に向けてさらなるAIエージェントの研究開発に取り組んでまいります。また、EQの観点も取り入れながらAI技術をさらに進化させることで、新しい時代の自然で親しみやすい豊かなAIとのコミュニケーションの実現と、新たな社会価値の創出をめざします。
なお、2025年11月19日 (水)~21日(金)および2025年11月25日 (火)~26日(水)にNTT株式会社が開催する「NTT R&D FORUM 2025」に本技術に関するブースを出展いたします。
詳細は展示会公式サイトをご確認ください。
公式Webサイト︓https://www.rd.ntt/forum/2025/
※1 人間とエージェントが自然な形で音声会話を行うための技術
※2 さまざまな機能や役割をもった複数のエージェントが会議状況に応じて連携する技術
※3 特定の個人の考え方や発言内容の傾向などを模倣したエージェントをつくりあげる技術
※4 「心の知能指数」または「感情的知性(感情知能)」と呼ばれるもので、自身や周囲の人達の感情を適切に察知し、適切に
コントロールする能力
別紙
会議支援エージェントシステムの概要
1. システム概要
会議中の議論や資料の内容をリアルタイムで理解した上で、会話の文脈を読み、人間が支援を必要と
する最適なタイミングで発言するなど、EQの観点を取り入れたエージェントが、多岐にわたる社内
資料や過去の会議などさまざまなデータと連携することで、人間との自然な会話の中で高度な会議支
援を行います。
2. 技術概要
ドコモの独自技術である「音声コミュニケーション技術」、「マルチエージェント技術」、「代理エ
ージェント技術」と、「会議状況のリアルタイム把握機能」と「社内のデータ資産」を組み合わせる
ことで、エージェントが自然な形で会議に参加することを可能にします。

各技術の連携イメージ
(1) 会議状況のリアルタイム把握機能
会議参加者の発言を音声認識により文章に書き起こし、投影資料の内容を画像分析することで、エー
ジェントが、会議の状況をリアルタイムで把握・理解することができます。なお、音声認識エンジン
にはNTT人間情報研究所が開発した「MediaGnosis(R)」※1を活用しています。
(2) 音声コミュニケーション技術
エージェントが会話の流れや話題転換をリアルタイムで認識し、発言が必要なタイミングを自律的に
判断します。会議中の複雑な文脈を考慮した上で、人間が支援を必要としていることをエージェント
が察知するため、円滑なコミュニケーション能力を備えたエージェントが実現します。また、エージ
ェントの発言中に他の会議参加者が発言する「割り込み」時にも即応ができ、自然でシームレスな音
声コミュニケーションがとれます。なお、音声合成にはNTT人間情報研究所が開発した音声合成技術
※2を活用しています。
(3) マルチエージェント技術
情報収集・分析・提案など異なる役割を持つ複数のエージェントが同時に会議に参加し、互いに議論
を繰り広げることで、多面的な分析や新しいアイディアの創出が可能となります。エージェントは社
内資料や過去の会議データと連携することで、社内知識なども考慮した発言をすることが可能です。
(4) 代理エージェント技術
特定の個人の考え方や発言の傾向といった情報をもとに、本人の代理となるエージェントが会議に参
加します。専門家や上長の不在時でも、会議中に必要な助言や意思決定サポートが得られます。
なお、上記技術における会議の文脈理解と、発言タイミングの自律的判断、エージェントの発言内容の生成には、NTT版大規模言語モデル「tsuzumi(R) 2」※3を活用しています。これらの技術や機能がリアルタイムで連携することで、エージェントが最適な支援をしてくれる、新しいスタイルの会議が実現します。
※1 NTTが開発したマルチモーダルメディア処理AI技術 https://www.rd.ntt/mediagnosis/
※2 NTTが開発した表現力の豊かな音声合成技術 https://www.youtube.com/watch?v=gVaob4sWhLk
https://journal.ntt.co.jp/article/33343
※3 NTTが開発した日本語性能が高い大規模言語モデル https://www.rd.ntt/research/LLM_tsuzumi.html
* 「MediaGnosis」はNTT株式会社の登録商標です。
* 「tsuzumi」はNTT株式会社の登録商標です。