マルチモーダルAIとは何ですか？

AI GLOSSARY

マルチモーダルAIとは？

Multimodal AI ・まるちもーだるエーアイ

A. マルチモーダルAIとは

テキストだけでなく画像・音声・動画など複数の種類の情報を扱えるAIです。画像を見て説明する、音声で会話するなどが可能です。

マルチモーダルAIは、テキスト・画像・音声・動画など複数のモダリティ（情報の種類）を同時に理解・生成できるAIです。画像をアップロードして内容を質問したり、音声で会話したりできます。

主要なAIチャットの多くがマルチモーダル対応を進めており、画像入力・画像生成・音声会話の有無が機能比較の重要なポイントになっています。