多模态大语言模型

多模态大语言模型

多模态大语言模型（Multimodal Large Language Model, MLLM）是LLM的重要进化方向。像GPT-4V或Gemini这样的模型，已经能够同时理解文字、图片、音频和视频。

意义

多模态融合使得AI具备了更接近人类的感知力。这种能力的融合使得LLM能够处理更丰富的输入信息，拓展了应用场景。

与[[智能体]]的关系

多模态能力是智能体在物理世界执行任务的基础，使智能体能够感知和理解环境。