一、Claude Opus 4.8:编程封王,诚实性成新标杆

5月28日,Anthropic正式发布Claude Opus 4.8,全平台同步上线。这次更新被官方定性为”适度但切实的提升”,但数据摆在眼前,力度一点都不”适度”。

在编程评测SWE-Bench Pro上,Opus 4.8以69.2%位居榜首,碾压Opus 4.7的64.3%、GPT-5.5的58.6%及Gemini 3.1 Pro的54.2%。终端编程Bench上GPT-5.5以78.2%微弱反超,但整体编程能力上Opus 4.8已是公认的第一梯队。

更值得关注的是Anthropic对“诚实性”的极致追求。官方评估显示,Opus 4.8允许自身代码缺陷不加说明通过的概率仅为Opus 4.7的四分之一。在一个模型普遍擅长”自信地胡说”的时代,这个指标的分量不亚于任何Benchmark分数。

随模型同步上线的三项功能同样亮眼:

  • Claude Code Dynamic Workflows:单次会话内可并行启动数百个子Agent,面向企业用户开放。Agent编排从”串行链”走向”并行网”,这是Agent工程化的重要一步。
  • Effort强度调节:用户可手动设置模型思考深度,按需分配推理资源,不再”一刀切”。
  • Opus 4.8 Fast模式:速度提升2.5倍,定价每百万token输入10美元、输出50美元,较前代Fast模式降价三分之二

此外,Anthropic透露旗舰级模型Mythos目前仅限网络安全领域内测,预计数周内向全用户开放。可以预见,Opus 4.8只是过渡,Mythos才是真正的重头戏。

二、AI治理三箭齐发:计量、伦理、素养同日推进

5月尾声,中国AI治理体系迎来密集落地,三份重磅文件几乎同期面世,勾勒出AI监管从”原则讨论”到”制度构建”的关键跨越。

2.1 计量体系:给AI一把”标准尺”

市场监管总局、国家发展改革委联合印发《人工智能计量体系和能力建设指引(2026版)》,直击两大行业痼疾:

  • 算法黑箱:部署AI系统内部状态监测与表征等关键技术攻关,推动AI性能实现”可测量、可比较、可追溯”。这相当于给AI模型装上了”仪表盘”,让黑箱变得可观测。
  • 数据荒:构建最高计量特性数据集、标准参考数据集和测试数据集,建立基础资源共享机制,打破行业数据壁垒。

《指引》还将计量技术深度融入智能制造、智慧医疗、智慧交通等14个重点领域,围绕AI诊断算法可靠性等关键参数开展研究。

2.2 伦理安全:全链路规范落地

2026年中国网络文明大会上,《人工智能应用伦理安全指引1.0》正式发布,首次以体系化方式构建AI伦理安全框架:

  • 前端(开发阶段):将安全可控、公平公正、隐私保护作为默认设置,从数据选择、目标设定、算法设计等环节源头防范偏见歧视。
  • 中端(服务提供):关键领域使用不可解释AI时,限定为仅承担辅助决策、不提供直接决策依据,并设置人工复核机制——”算法不替代人类做出核心判断”。
  • 后端(应用使用):AI生成内容对外发布须履行主动声明及标识义务,禁止利用技术伪造他人身份或仿冒权威主体。

《指引》归纳了AI技术应用的六大结构性影响:人类主导权、公共秩序、个体认知与社会价值、社会分化与歧视、生命健康与基本权益、可持续生态。

2.3 全民素养:AI从”少数人的工具”走向”全民的基础能力”

中央网信办、教育部、工信部、人社部四部门联合印发《2026年提升全民数字素养与技能工作要点》,部署6方面15项重点任务,其中”提升全民人工智能素养”首次作为独立板块出现,涵盖:

  • 强化AI赋能教育
  • 加快AI人才培育
  • 深化AI普及应用

另外还涉及AI安全规范发展、信息无障碍、数字助老惠民等。这意味着AI素养正从”锦上添花”升级为”国民基础能力”。

三、硬件与出海:讯飞AI眼镜、腾讯WorkBuddy国际版

科大讯飞在BEYOND Expo 2026发布首款讯飞AI眼镜,售价4299元,6月15日预售。整机40克,支持122种语言实时互译,配备唇动识别降噪技术——通过前置摄像头锁定说话人嘴唇辅助拾音,嘈杂环境识别准确率提升超50%。内置基于OpenClaw协议的AI助理GlassClaw,支持多模态记录和跨端任务执行。AI硬件赛道从”手机附属品”走向”独立计算终端”的趋势愈发清晰。

腾讯在香港发布WorkBuddy国际版(workbuddy.ai),支持Slack、Telegram、Discord远程遥控PC端,原生接入GitHub、GitLab、Jira、Confluence、Google Drive、Gmail、Notion等海外主流工具。WorkBuddy国内版3月发布以来,日活已位列国内AI效率智能体服务第一。出海动作表明腾讯在AI Agent赛道不满足于国内市场。

四、资本与生态:融资潮未退,争议依然

月之暗面完成约20亿美元新轮融资,投后估值突破200亿美元,中国移动等产业巨头入局,总融资额超376亿元人民币。这是国内大模型创业公司迄今金额最高的私募融资。

具身智能赛道同样火热——飞捷科思、眸深智能等企业亿元级融资落地,维他动力、鹿明机器人等密集完成交割。资本正从单一的大模型赛道向全产业链上下游延伸。

不过争议从未缺席。豆包因”满月婴儿每顿喂60ml奶致体重不增”的报道陷入舆论漩涡,官方回应称报道不实,AI单次回复不会给出此类建议。事件再次敲响警钟:AI生成内容不能替代专业意见,尤其是在医疗、法律等高风险领域。

微博发布的《AI内容生态报告》则展示了另一面:2026年Q1 AI兴趣用户较2024年Q4增长328%,AI专业博主同比增长86%,DeepSeek上线7天用户破亿——AI内容消费正在成为主流。

写在最后

今天的AI圈呈现出清晰的双轨叙事:一条是技术冲刺——Claude Opus 4.8编程封王、Mythos蓄势待发、Agent工程化加速;另一条是制度构建——计量破黑箱、伦理定边界、素养育未来。两条轨道并行不悖,共同推动AI从野蛮生长走向有序繁荣。作为AI领域的持续观察者,我越发感受到:2026年不是又一个”模型发布年”,而是AI与社会深度咬合的”制度元年”