LLM 的原理与标新立异之间,真的有矛盾吗?
LLM 降低 loss、贴近既有分布,这确实会压低怪异性;但这不等于它只能复读。更准确的说法是:LLM 能生成新组合和候选假说,但不能单独证明这些东西有价值。
LLM 降低 loss、贴近既有分布,这确实会压低怪异性;但这不等于它只能复读。更准确的说法是:LLM 能生成新组合和候选假说,但不能单独证明这些东西有价值。
自主编码 Agent 不能只靠模型自述判断是否完成。没有 evaluator,loop 只是生成、解释、宣布完成;有 evaluator,目标、过程和产物才会被证据闭合。
Cloudflare 临时账户让 Agent 可以无登录部署 Worker,HTTP QUERY 成为正式 RFC 则补上了复杂查询的协议语义。它们看似是两条小新闻,本质上都指向同一件事:Agent 时代真正稀缺的不是“会说话的模型”,而是能让代理安全、临时、可验证地调用和交付的基础设施。
真正稀缺的从来不是模型,而是能让 AI 跑通真实闭环、产生可衡量价值的场景。一座每天几万人流、集零售、餐饮、服务、物流、安防于一体的大型商场,恰恰是城市里被严重低估的优质 AI 场景——前提是别把它当成"门口摆两台迎宾机器人"的噱头,而是当成一座可经营的应用场景基础设施。
6 月 9 日,国家互联网应急中心提醒,部分智能体技能包正在以"突破大模型限制""挖矿赚钱"等名义传播……这条预警表面上说的是安全问题,但更深一层,它提前揭开了 AI Agent 时代的一个新矛盾:当"能力"开始被打包、流通、下载、安装,Skill 就不再只是效率工具,而会变成新的攻击入口。
Science Skills 的信号很明确:科研 AI 的下一阶段,不是一个更会聊天的模型,而是一个能连接数据库、工具、文献、代码和实验假设的 Agent 工作台。
Anthropic 最新公开了 Claude.ai、Claude Code 和 Cowork 的沙箱隔离设计,真正值得关注的不是用了哪些安全名词,而是它明确承认:AI Agent 的安全边界不能只靠模型自觉,必须靠环境隔离、权限收口与出口治理一起兜底。
Anthropic 收购 Stainless 释放了一个更关键的行业信号:AI Agent 的核心竞争,正在从模型能力转向连接系统、工具调用、权限治理与标准化接口能力。
Claude Code 把代码生成推进到长任务执行,OpenClaw 则把终端自动化接进 WhatsApp、Telegram、iMessage 等日消息界面。AI Agent 不再只是企业流程工具,而开始成为个人工作流的操作入口。
Oracle 最近发布的技术博客,把 AI Agent 连接数据库这件事推进到了一个更具体的位置。它演示如何把 OpenAI Codex 连接到 Oracle Autonomous AI Database MCP Server,让 Codex 通过 MCP 协议访问数据库工具、查看 schema、获取元数据,并在受控权限下执行数据库工作流。
MathWorks新发布的MATLAB Agentic Toolkit,本质上不是一个简单的“让AI会写MATLAB代码”的插件,而是一套把MATLAB能力、工程知识和AI代理工作流绑定起来的基础设施。它一边通过MATLAB MCP Core Server给AI代理接上可执行的MATLAB环境,一边通过skills把MATLAB工程师的最佳实践注入代理,让AI不只是“会写几行.m文件”,而是能以更接近真实工程团队的方式完成建模、测试、诊断、应用开发与工具箱调用。
几乎所有创始人都在焦虑一件事:如何让公司对 AI 更“可读”。但一个更少人愿意面对的问题是,当你把内部知识、流程、判断逻辑和操作方式系统化、结构化、标准化时,你也可能正在亲手把自己的护城河翻译成供应商可以学习、复制和商品化的能力。你的优势,正在变成别人的功能。
大多数公司并不缺数据,真正缺的是“记忆”。会议开了无数,Slack消息刷了无数,工单、邮件、客户反馈和路线图讨论堆成山,但这些碎片很少真正沉淀成组织可调用的共享现实。于是公司越大,越容易失忆;AI 越强,这个问题反而越刺眼。
Anthropic 已正式宣布与 Blackstone、Hellman & Friedman 及高盛共同成立一家新的 AI 原生企业服务公司,把 Claude 推进中型企业核心运营环节。OpenAI 方面也被多家媒体连续报道正以类似模式推进 PE 合资平台。这不是普通渠道合作,而是大模型公司开始亲自下场做“驻场交付”。
Autodesk Research发布Zero-to-CAD框架,将LLM嵌入反馈驱动的CAD环境中,通过Agent式搜索合成约100万个可执行、可读、可编辑的CAD构造序列,涵盖倒角、圆角、布尔运算等丰富操作词汇,无需任何真实CAD历史数据。微调后的视觉语言模型在图像到CAD重建任务中超越GPT-5.2。
在本地大模型玩家圈里,RTX 3090 仍然是一张极有代表性的“临界点显卡”。24GB 显存、成熟的软件生态和相对可承受的成本,让它成为很多人判断本地模型是否真正可用的一把尺子。问题是,一张3090到底能干什么,边界又在哪?
过去50年,软件是"录音"——相同输入永远得到相同输出。AI Agent让软件变成了"现场演奏"。但这场演奏需要全新的舞台、乐器和音响系统。谁来建?
在 AI 浪潮席卷全球的当下,“AI 工程师”已经成为科技行业最炙手可热的高薪岗位之一。不同于传统机器学习研究者或数据科学家,AI 工程师的核心任务不是从头训练模型,而是把大语言模型真正落地到生产环境中,构建可靠、可扩展、可维护的完整系统。 这份路线图源于 Alexey Grigorev 的开源项目《AI Engineering Field Guide》。该项目分析了超过 2445 个职位 JD、5694 个职责描述和 4525 个实际用例,从中提炼出真正驱动 80% 工作产出的 20% 核心技能。对于想转型或进阶的工程师来说,这不是一份“概念清单”,而是一张非常务实的实战导航图。