跳转到正文

AI GLOSSARY

什么是多模态 AI？

Multimodal AI

A. 什么是多模态 AI

不仅能处理文本，还能处理图像、音频、视频等多种信息的 AI。它能描述所看到的图像，或进行语音对话。

多模态 AI 能够同时理解和生成多种模态（信息类型）——文本、图像、音频和视频。你可以上传一张图片并询问其内容，或通过语音进行对话。

许多领先的 AI 聊天机器人都在不断增强其多模态能力，是否支持图像输入、图像生成和语音对话，已成为功能对比中的一个重要看点。

相关术语

生成式 AI→LLM（大语言模型）→AI 聊天机器人→

相关数据与排行榜

图像生成 AI 排行榜→AI 功能对比→

查看更多

AI 术语词典首页→AI 人气排行榜→AI 份额与使用率→

⚠ 依据公开数据与编辑部调研的参考值，并非实际用户数的完整统计。