告别“盲盒”发音,当声音成为代码:从 Gemini 3.1 Flash TTS 看语音模型的下半场
Gemini 3.1 Flash TTS 的真正价值,不只是声音更像人,而是语音模型第一次以 Audio Tags 为核心,进入了像代码一样可被精细控制、可纳入 Agent 与多模态工作流的阶段。
Gemini 3.1 Flash TTS 的真正价值,不只是声音更像人,而是语音模型第一次以 Audio Tags 为核心,进入了像代码一样可被精细控制、可纳入 Agent 与多模态工作流的阶段。
这两年,很多人都在说自己做 AI:有人接了个大模型 API,套了个聊天框;有人把提示词打磨得越来越漂亮;也有人把"智能体"三个字贴到任何一个工作流上,仿佛项目瞬间就高级了。但 Rohit 在 《The 2026 AI Engineer Roadmap》 里抛出的判断很直接,也很刺耳:大多数开发者还在造玩具,而这个世界真正需要的是系统。 他反复强调,市场已经被各种薄薄一层的 GPT/Claude 套壳塞满了,这些东西不是壁垒,更像是下一次平台更新就会被顺手吞掉的功能。真正拉开差距的,不是谁更会写提示词,而是谁能把模型、工具、记忆、权限、恢复机制和真实业务拼成一个能活下来的系统。
在人工智能的发展史中,Embedding(向量化)始终是连接人类感知与机器计算的"隐形桥梁"。从早期的 Word2Vec 将单词映射为空间坐标,到 BERT 让机器理解上下文,再到 OpenAI 的 text-embedding-3 实现的大规模语义索引,我们一直在完善文本的数字化表达。
在人工智能的发展历程中,我们正处于一个关键的转折点。过去几年,大语言模型(LLM)的巨大成功让我们产生了一种错觉:似乎只要用足够多的文本进行"预测下一个词"(Next-token prediction)的训练,就能通向通用人工智能(AGI)。然而,文本本质上只是物理现实的一种高度压缩和有损表达。正如有些评论家所言:“仅靠文本训练的模型,就像是被困在柏拉图洞穴里的囚徒,它们精通于