工业智能算网

会员专区

2026-07-19

B站展台上的“猫娘计划”：AI伙伴开始主动看屏幕、记住用户并操作电脑

B站在WAIC 2026展出了开源项目Project N.E.K.O.。它可以读取桌面内容、主动发起对话、保存长期记忆，并调用工具操作浏览器和电脑。

会员专区

2026-06-05

Higgs Audio v3 TTS：语音模型正在从“朗读机器”走向“实时对话接口”

Higgs Audio v3 TTS 的重点不只是把文字读得更自然，而是把 TTS 放进 voice agent 的实时工程语境：流式合成、内联控制、多语言声音保持、零样本声音克隆和可服务化推理，正在把语音模型从“文本到声音”推向“对话到表达”。

AI技术

2026-04-17

告别“盲盒”发音，当声音成为代码：从 Gemini 3.1 Flash TTS 看语音模型的下半场

Gemini 3.1 Flash TTS 的真正价值，不只是声音更像人，而是语音模型第一次以 Audio Tags 为核心，进入了像代码一样可被精细控制、可纳入 Agent 与多模态工作流的阶段。

AI技术

2026-04-14

The 2026 AI Engineer Roadmap 深度解析

这两年，很多人都在说自己做 AI：有人接了个大模型 API，套了个聊天框；有人把提示词打磨得越来越漂亮；也有人把"智能体"三个字贴到任何一个工作流上，仿佛项目瞬间就高级了。但 Rohit 在《The 2026 AI Engineer Roadmap》里抛出的判断很直接，也很刺耳：大多数开发者还在造玩具，而这个世界真正需要的是系统。他反复强调，市场已经被各种薄薄一层的 GPT/Claude 套壳塞满了，这些东西不是壁垒，更像是下一次平台更新就会被顺手吞掉的功能。真正拉开差距的，不是谁更会写提示词，而是谁能把模型、工具、记忆、权限、恢复机制和真实业务拼成一个能活下来的系统。

AI技术

2026-03-19

Gemini Embedding 2 开启"万物皆可向量化"

在人工智能的发展史中，Embedding（向量化）始终是连接人类感知与机器计算的"隐形桥梁"。从早期的 Word2Vec 将单词映射为空间坐标，到 BERT 让机器理解上下文，再到 OpenAI 的 text-embedding-3 实现的大规模语义索引，我们一直在完善文本的数字化表达。

AI技术

2026-03-15

AI技术深度观察-2026年3月

2026年3月，AI技术进入"架构智能+世界理解+自主代理"新纪元。世界模型、Agentic AI与多模态统一架构驱动下一代智能跃迁。

AI技术

2026-03-12

从柏拉图的洞穴走向真实世界：LeCun 团队原生多模态基座论文深度解读

在人工智能的发展历程中，我们正处于一个关键的转折点。过去几年，大语言模型（LLM）的巨大成功让我们产生了一种错觉：似乎只要用足够多的文本进行"预测下一个词"（Next-token prediction）的训练，就能通向通用人工智能（AGI）。然而，文本本质上只是物理现实的一种高度压缩和有损表达。正如有些评论家所言：“仅靠文本训练的模型，就像是被困在柏拉图洞穴里的囚徒，它们精通于

标签: 多模态

B站展台上的“猫娘计划”：AI伙伴开始主动看屏幕、记住用户并操作电脑

Higgs Audio v3 TTS：语音模型正在从“朗读机器”走向“实时对话接口”

告别“盲盒”发音，当声音成为代码：从 Gemini 3.1 Flash TTS 看语音模型的下半场

The 2026 AI Engineer Roadmap 深度解析

Gemini Embedding 2 开启"万物皆可向量化"

AI技术深度观察-2026年3月

从柏拉图的洞穴走向真实世界：LeCun 团队原生多模态基座论文深度解读