マルチモーダルAIとは?
Multimodal AI ・ まるちもーだるエーアイ
A. マルチモーダルAIとは
テキストだけでなく画像・音声・動画など複数の種類の情報を扱えるAIです。画像を見て説明する、音声で会話するなどが可能です。
マルチモーダルAIは、テキスト・画像・音声・動画など複数のモダリティ(情報の種類)を同時に理解・生成できるAIです。画像をアップロードして内容を質問したり、音声で会話したりできます。
主要なAIチャットの多くがマルチモーダル対応を進めており、画像入力・画像生成・音声会話の有無が機能比較の重要なポイントになっています。