エッジAIが全てを変える

エッジAIが全てを変える

Share

優れた会議室のためのテクノロジーは、その部屋のためにあるわけではなく、そこにいる人々のためにあります

会議室にある、様々なテクノロジーについて問うべき質問は、「それは実際、誰のためにあるのか?」です

当たり前の様に聞こえます。テクノロジーは、人のためにあるべきです。

しかし、現実の世界では、会議室に置かれたハードウェアや、コラボレーションツールは、長い間その逆を強いてきました。明るい席を探し、話をしていない時にはミュートしておくのを忘れない様にする。

誰かがメモを取る。マイクがうまく声を拾わなかったために発言を繰り返す。何かがきちんと接続されていなかったために、ミーティングの開始が遅れてしまう。

会議室としては機能しています。しかし、あなたがそれに合わせて動いているのです。

これらが、エッジAIが解決する問題です。技術的な成果としてではなく、人間的な成果として解決されるものです。もし会議室に設置されたデバイスに、その環境をリアルタイムで把握するのに十分なローカル処理能力があれば、人々が環境に順応する必要が無くなります。人々で無く、デバイスが人々に順応し始めるのです。カメラがあなたをトラッキングします。あなたの顔に当たっている照明に合わせて明るさが調整されます。メモは自動的に作成されます。摩擦、あつれきは、消え去ります。

それが、DTEN D7X AIの提供するものです。単なる「スマートな部屋」ではなく、会議室の中にいる人々のために、真に、そして能動的に働きかける会議室なのです。


エッジAIが優位性をもたらす理由

Blog banners (13)

遠くのクラウドから呼び出されるのではなく、その場に存在する知能

人々にリアルタイムでサービスを提供するためには、テクノロジーは人々の実際のふるまい– 動き方、話し合いの仕方、照明のない場所にすわる、カメラのフレームに完璧に収まっている

ことはめったにないことなど – に追従できなければなりません。

こうした複雑なことを処理するためには、本格的な専用コンピューティングのリソースが必要です。

そして、そのコンピューティングリソースがどこに設置されているのかが、全てを決定づけます。

クラウドに依存したAIでは、遅延を招きます。ネットワーク環境に依存してしまいます。

最も負荷のかかる処理、つまり音声、動画、空間マッピングをリモートのインフラに送り、応答を待つ仕組みになります。そのため、インテリジェンスが常に、その会議室からネットワークを介しての一往復分の距離にある事になり、体感の応答性や最適化された環境、経験に限界が生じてしまいます。

エッジAIは、その限界を取り除きます。

会議室に設置されたデバイス内に演算処理機能が物理的に搭載されていれば、システムはネットワークの速度では無く、人間の行動の速度に合わせて反応する事が出来ます。部屋を横切るプレゼンターの動きを追跡するのに十分な高速性をもちます。背景に影響を与えること無く、個々の人々の顔の明るさを調整できる精度をもちます。

騒がしい環境下でも、9mほど離れた場所から、一人の声を識別出来るほどの感度をもちます。

その結果として、管理せざるを得なかったテクノロジーが、あらゆる事をバックグラウンドで処理してくれる存在に変わります。

Speaker tracking Camera follows you — 3D room awareness Per-face exposure Each face corrected individually in 3D Smart Boundary Smart Boundary Depth perimeter ignores hallway traffic ID A ID B ID C Beamforming + voiceprint 15-element array · persistent speaker IDs この技術は必要な空間に適用され、範囲外には適用されない


実際の動作

DTENの提供する、全ての機能の基盤となるのは、D7X AIに搭載されているAIカメラモジュールです。

これは、4800万画素のメインカメラと、Vision Transformer技術を採用した2つの深度センサーカメラが連動して動作し、室内の形状を3次元で継続的にマッピングする仕組みです。この処理は、バックグラウンドで常時実行されており、会議の映像配信を妨げる事はありません。この機能こそが、本デバイスに搭載された、その他のあらゆるインテリジェント機能を実現しています。

  1. カメラがあなたを追いかけるのであって、その逆ではありません。システムが、部屋を三次元で把握しているため、全ての参加者がどこにいるかを常に正確に把握しています。スピーカートラッキング機能により、発言者はカメラの事を一切気にせずに、ホワイトボードまで歩いたり、会議室内を歩き回ったり、自然に動き回る事ができます。画角は自動的にスムーズに中央に保たれます。フレーム内に収まるために、イスにじっと座り続ける必要はありません。
  2. 明るさは、部屋に合わせてではなく、あなたに合わせて調整されます。一般的に会議室は、カメラにとって特に扱いが難しい環境として知られています。明るい窓からは強い逆光が入り込み、天井照明は特定の席だけを明るく照らし、他の暗くしてしまいます。肌の色が異なる参加者に対して、単一の全体的な露出設定では、均等に適切な明るさにする事はほとんど不可能です。 DTENのAIは、三次元空間内で各々の顔を個別に識別し、背景とは無関係に明るさと露出の補正を直接適用します。実際の一に関係無く、全員が適切な照明の下にいるかの様に映ります。
  1. 不完全な空間においても、会議の集中力を維持します。オープンオフィスや、壁がガラスになっている部屋では、ミーティングに参加していない人の動きに、カメラが追随してしまったりします。 スマートバウンダリーは、深度データを活用して、アクティブな会議エリアの周囲に見えない境界線を生成するため、廊下の通行人や、通りかかる同僚がフレームを乱すことはありません。この技術は空間に適応され、その逆ではありません。
  1. 音声機能はスムーズに動作するため、参加者はそのことを気にする必要がありません。

D7X AIの15素子ビームフォーミング・マイクロフォン・アレイは、最大30フィート(約9メートル)離れた場所からの音声を明確に捉え、AIがエコーや背景ノイズを継続的に低減します。ビームフォーミングでは音の発生源を推定することはできますが、誰が話しているかを確実に特定することはできないため、ボイスプリント技術も併用されています。これにより、システムは室内にいる各個人の一貫性のある信頼性の高いプロファイルを構築することができます。

これこそが、D7X AIのマルチセンス・アプローチが独自性を持つ特徴です。

このアプローチは、その場にいる全員の一人一人を特定するのに役立ちます。視覚的な外見が、アイデンティティの最初の拠り所となります。深度マッピングとシステムによる部屋の物理的レイアウトの理解から導き出された空間的な位置情報が、そのアイデンティティをその場に定着させます。そして、ボイスプリント認識がその全体像を完成させます。その結果、誰が話しているかを把握できるシステムが実現します。そして、その精度こそが、文字起こし、会議の要約、リアルタイム翻訳といった下流のAIワークフローを意図通りに機能させる要因なのです。


それを実現するハードウェア

d7x dual processor illustrative

左側はその会議室で体験されるすべての体験(Windows、Teams/Zoom、コンテンツ)を担当
し、右側は、デバイスが処理するすべての要素(文字起こし、ノイズキャンセリング、AIによる分
析)を担当します。

適切なハードウェア基盤がなければ、これらを実現することはできません。D7X AIはデュアルプロセッサアーキテクチャを採用しています。

Windows 11およびMicrosoft Teams RoomsやZoomの環境を処理するIntel Core Ultra 7CPUと、AIワークロードを専任で処理する8コアの専用ARMプロセッサを組み合わせた構成です。これら2つのプロセッサがリソースを奪い合うことは決してありません。会議用ソフトウェアとAIは、外部のPCやハブを必要とすることなく、常に同時にフルスピードで動作します。

この分離が重要なのは、AIが体験の妨げにならないからです。AIは通話を遅らせたり、プレゼンテーションのリソースを奪ったりすることはありません。AIは並行して動作し、目に見えない形でその役割を果たしているため、会議室にいる人々はAIの存在を意識する必要が一切ないのです。


あなたにぴったりの会議室

D7X AI 55は、正式な会議として行われているかどうかにかかわらず、常にスマートに機能しています。ホワイトボードを使ったセッションでも、急な打ち合わせでも、あるいは一人でブレインストーミングをする場合でも、このシステムは常に稼働し、状況を把握し、いつでも準備万端です。それは単に技術的な能力が優れているからではなく、利用者が「技術の準備ができているか」などと考えなくても済むようにするためです。ただ、それが当たり前だからです。

それが、エッジAIが正しく機能しているかどうかの真の尺度です。一連の処理がどこで行われるかではありません。カメラの画素数が何メガピクセルかでもありません。その会議室に入ってくる人々が、技術に合わせて行動しなければならないのか、それとも技術がようやく、人々の行動に合わせて機能するのか、それこそが重要なのです。