多模态大语言模型

多模态大语言模型

多模态大语言模型

多模态大语言模型(Multimodal Large Language Model, MLLM)是LLM的重要进化方向。像GPT-4V或Gemini这样的模型,已经能够同时理解文字、图片、音频和视频。

意义

多模态融合使得AI具备了更接近人类的感知力。这种能力的融合使得LLM能够处理更丰富的输入信息,拓展了应用场景。

与[[智能体]]的关系

多模态能力是智能体在物理世界执行任务的基础,使智能体能够感知和理解环境。

分享到