大模型这场“高考”:口号会过期,榜单不会讲情面
大模型竞争越来越像一场全球统一命题的高考。每家公司都能讲自己的故事,但一旦进入公开测评、盲测榜单、数学证明、代码修复和长任务Agent场景,故事就会被压缩成一句话,你到底考了多少分。
大模型竞争越来越像一场全球统一命题的高考。每家公司都能讲自己的故事,但一旦进入公开测评、盲测榜单、数学证明、代码修复和长任务Agent场景,故事就会被压缩成一句话,你到底考了多少分。
真正可靠的复杂Agent,不能只靠越来越长、越来越强硬的提示词来约束,而必须把关键逻辑写进确定性的程序结构里,比如循环、条件判断、状态机、检查点和验证机制。提示词负责表达意图,控制流负责保证执行。
Anthropic 最新发布的自然语言自动编码器 NLA,试图把大模型内部看不懂的激活向量,翻译成研究者可以直接阅读的自然语言。这项工作真正重要的地方,在于它让 AI 可解释性从“专家解剖神经元”,迈向了“研究者直接阅读模型内部状态”的新阶段。
Hugging Face 上名为 Open-OSS/privacy-filter 的虚假 AI 模型被确认为信息窃取恶意软件,下载量超过24.4万次。比数字更值得警惕的是,AI 开发生态正在快速复制开源软件供应链风险,而很多用户仍把“模型仓库”误当成天然安全区。
DeepMind与《EVE Online》开发商Fenris Creations建立研究合作,并对其进行少数股权投资。真正值得关注的,不是AI进游戏,而是AI测试场正从规则清晰的竞技场,走向经济、政治、组织与长期战略交织的复杂社会系统。
Goldman Sachs一张“今天60%的工作在1940年并不存在”的图,再次把AI时代的就业焦虑推到台前。真正需要讨论的,不是AI会不会替代岗位,而是技术如何重塑职业结构,以及个人、企业和社会应该如何应对这场深层迁移。
CoreWeave发布Q1 2026财报,营收20.8亿美元超预期,同比增长112%,收入积压飙升至994亿美元创历史新高。白宫正考虑发布行政命令,要求前沿AI模型发布前须经政府审查,Google DeepMind、Microsoft和xAI已签署安全测试协议。Microsoft发布全球AI扩散报告显示AI使用率升至17.8%,AI编程推动Git推送量同比增长78%,美国软件开发者就业创历史新高。PayPal宣布裁员20%约4760人,以AI驱动转型目标节省15亿美元。
特朗普-习近平北京峰会(5月14-15日)进入倒计时一周,多方分析聚焦贸易、台湾、AI三大议题,关税框架11月到期设定谈判时间窗口。白宫考虑前沿AI模型发布前政府审查,对中国AI产业的出口管制与技术封锁可能进一步收紧。中国4月制造业PMI维持扩张,新出口订单创两年新高,中小企业景气度改善验证新质生产力政策传导效果。美国4月非农就业报告今日发布,科技行业裁员潮与AI驱动重组成焦点。
CoreWeave Q1营收20.8亿美元同比翻倍,活跃电力突破1GW,AI基础设施需求验证工业AI经济可行性门槛持续降低。SoftBank与Nvidia、富士康探讨在日本本土制造AI服务器,"主权AI"趋势加速全球算力基础设施区域化。AVEVA World 2026将于5月19-21日在米兰举行,聚焦工业数字孪生与AI驱动运营。中国4月制造业PMI维持50.3扩张区间,新出口订单升至两年新高,中小企业景气度改善。
Corgi 四个月内从 6.3 亿美元估值冲到 13 亿美元,真正让资本兴奋的,不是“AI概念”,而是它试图用 AI 重做商业保险这条又慢又重的底层流程。
如果这轮融资最终落地,它的意义绝不只是DeepSeek拿到一笔钱,而是中国AI产业、国资资本和算力自主路线的一次重新对齐。
这不是一条普通的算力租赁新闻,而是AI基础设施战争进入新阶段的信号:连最核心的训练集群,也开始在竞争对手之间流动了。
Anthropic在纽约发布10款金融服务AI Agent及Claude Opus 4.7模型,JPMorgan CEO Jamie Dimon同台站台,FIS联合Anthropic推出银行反金融犯罪AI Agent。Musk诉OpenAI案庭审继续,前CTO证词称Altman在高管中"制造混乱与不信任",Brockman证实OpenAI 2026年计算支出500亿美元、正探索IPO。CoreWeave今日发布Q1财报,华尔街预期营收19.7亿美元,同比增长超100%。
Automate 2026北美最大机器人与自动化展会公布主题演讲阵容,Siemens Digital Industries与Standard Bots领衔,聚焦Physical AI与工业AI转型。CoreWeave今日发布Q1财报,预期营收19.7亿美元同比翻倍,AI基础设施需求持续爆发。Nvidia B300服务器在中国黑市价格飙升至约700万元人民币(100万美元),较美国售价翻倍,出口管制与走私打击收紧供应。FIS与Anthropic合作推出银行级反金融犯罪AI Agent,标志着Agentic AI进入金融工业化部署阶段。
特朗普将于5月14-15日访问北京与习近平会晤,Brookings分析认为峰会预期较低,核心目标是维持脆弱贸易休战而非达成突破性协议。Reuters Breakingviews指出芯片与稀土互相钳制使休战可能延续,但新关税威胁将笼罩峰会。中国工信部4月29日发布稀土生产加工监管框架草案,在休战期内强化战略杠杆。Nvidia B300服务器中国黑市价格飙升至100万美元,凸显出口管制下中国AI算力供应链的结构性困境与国产替代紧迫性。
最近关于 Microsoft Edge 浏览器“内存明文密码”的争议,把一个很多用户长期忽视的问题重新摆到了台面上:浏览器帮你“记住密码”,到底是在替你安全保管,还是只是在替你更方便地自动填充?更准确地说,Edge 并不是把密码明文存到硬盘,而是在运行时可能把已保存密码以明文形式加载到进程内存中。这种设计对单机个人用户未必立刻构成灾难,但在共享电脑、远程桌面、VDI 和企业多用户场景里,风险会明显放大。