AI関連の報道記事は、大規模言語モデル(Large Language Model:LLM)や生成AIモデルについての発表が大部分を占めており、近年のそのパワーと汎用性の高まりを反映しています。 アプリケーションは、オープンエンドのチャットボットからタスク指向のアシスタントまで、幅広い分野にわたります。 LLMについてはクラウドベースおよびサーバー側アプリケーションでの使用に焦点が当てられる場合が多いですが、これらのモデルを組込みシステムやエッジ・デバイスに展開することにも関心が高まっています。
マイクロプロセッサなどの組込みシステムは、家電製品、産業用機器、自動車、その他の幅広いデバイスに使用されていますが、コストと消費電力を所定の範囲内に収める必要があるため、コンピューティングとメモリの可用性が制約を受けます。 そのため、十分な精度とパフォーマンスでエッジ・デバイスに言語モデルを展開することは非常に困難です。
エッジ・デバイスへのLLMの展開
LLMが現在、組込みソリューションで活用されている重要な分野の1つは、オペレータと機械との間の自然な対話型相互作用、つまりヒューマン・マシン・インターフェース(Human Machine Interface:HMI)です。 組込み機器は、マイクやカメラ、その他のセンサなど、さまざまな入力オプションを利用できますが、デスクトップPCやノートPC、携帯電話などと異なり、LLMモデルと対話するためのフル・キーボードは備えていないことがほとんどです。 そのため、組込みシステムでは、LLMへの入力としてオーディオとビジョンを使用することも考慮する必要があります。 これには、自動音声認識(Automatic Speech Recognition:ASR)または画像認識と分類による前処理ブロックが必要です。 同様に、対話のための出力オプションも制限されています。 組込みソリューションには画面がないか、あったとしてもユーザーが読み取るのが実用的でない場合があります。 したがって、生成AIモデルの後に、モデルの出力を音声合成(Text-to-Speech:TTS)アルゴリズムでオーディオに変換する後処理ステップが必要です。 NXPでは、エッジ上で生成AIを実用化するために必要な前処理ブロックと後処理ブロックを備えたモジュール型フローとして、eIQ® GenAI Flowを構築しています。
LLMによるアプリケーションの変革
LLMを活用した音声認識、自然言語理解、テキスト生成機能を統合することで、組込みデバイスはより直感的な対話型のユーザー・エクスペリエンスを提供できます。 これには、音声指示に対応するスマートホーム機器や自然言語で制御可能な産業機器などがあり、また車載インフォテイメント・システムでは、ハンズフリーでの双方向の会話を通じて、ユーザーに指示を出したり、車両内の機能を操作したりできます。
LLMは、医療アプリケーションでの組込み予測分析や意思決定支援システムにも使用されています。 各分野のデータを学習した言語モデルを組み込むことで、自然言語処理を活用してセンサ・データを分析し、パターンを特定し、洞察を得ることができます。これらはすべてエッジ上でリアルタイムで動作し、クラウドにデータを送信する必要がないため、患者のプライバシーが保護されます。
生成AIの課題に対処
許容可能な精度と能力を備えた生成AIモデルを組込み環境に展開するには、一連の課題があります。 LLMを対象ハードウェアのリソース制約の範囲内に収めるために、モデル・サイズとメモリ・フットプリントの最適化が必要です。 数十億個ものパラメータを持つモデルは、ギガバイト単位のストレージを必要とします。これは、高コストの汎用品となり、エッジ・システムでは対応不可能です。 畳み込みニューラル・ネットワークに適用可能な量子化やプルーニングなど、モデルを最適化する各種手法は、モデル・サイズの問題を克服するための生成AIのバックボーンであるTransformerモデルにも適用されます。
また、LLMのような生成AIモデルには、知識上の制限があります。 例えば、それらは理解に限界があるため、しばしば「ハルシネーション」とも呼ばれる一貫性のない答えを提供することがあり、その知識はトレーニング時に利用されたデータの最新性に制限を受けます。 モデルのトレーニングや、再トレーニングによるモデルの微調整は、精度とコンテキスト認識を高める可能性がありますが、データ収集と必要なトレーニング計算の面で非常にコストがかかる場合があります。 幸いなことに、イノベーションはニーズがある場所に存在し、これは検索拡張生成、略してRAGによってもたらされます。 RAGとは、コンテキスト固有のデータから知識のデータベースを作成する方法の1つで、LLMはそれを実行時に参照して、クエリに正確に回答するために役立てます。
eIQ GenAI Flowは、生成AIとLLMの利点を実用的な方法でエッジのユース・ケースにもたらします。 NXPでは、このフローにRAGを組み込むことで、ユーザー・データを元のAIモデルのトレーニング・データに公開することなく、組込みデバイス固有のドメイン知識を提供します。 それにより、LLMに対して行われるすべての調整がプライベートに保たれ、エッジ上でローカルにのみ利用可能になります。