AI行业日报:万亿模型开源浪潮与人形机器人实用化突破
AI行业日报:万亿模型开源浪潮与人形机器人实用化突破
Ring-2.6-1T开源上线、Figure机器人连续自主运行四天、AI原生创业新范式——5月17日AI行业全景扫描
今日AI行业迎来密集发布:万亿级推理模型Ring-2.6-1T正式开源并上线OpenRouter,NVIDIA发布26亿参数开源世界模型SANA-WM;具身智能领域,Figure人形机器人实现连续四天自主运行,杭州国家级机器人训练基地正式启用。与此同时,Anthropic发布《Founder's Playbook》警示AI可能提高创业失败率,RLVR在科学领域的结构性局限引发深思。从模型开源到产业落地,从创业方法论到安全攻防,今日资讯勾勒出AI生态的多维图景。
01模型发布/更新
社区协作再创佳绩,vLLM支持万亿级模型
? X:蚂蚁百灵 (@AntLingAGI)又一次Day0协作,又一次社区胜利。vLLM项目团队展现了始终可靠的支持能力,社区协作再创佳绩,为万亿级模型的高效推理部署铺平道路。
查看原文 →Ring-2.6-1T开源并上线OpenRouter,专为智能体工作流设计
? X:蚂蚁百灵 (@AntLingAGI)Ring-2.6-1T模型现已开源,并上线OpenRouter平台,5月底前享有75%折扣。该模型由AntLingAGI开发,是一个为现实世界智能体构建的万亿级推理模型,其核心设计目标不仅是回答问题,更是执行任务。它专注于规划步骤、使用工具、维持上下文和完成复杂工作流,具备强大的智能体执行能力和高推理模式,并采用了Async RL与IcePop训练方法。
查看原文 →SANA-WM:一个用于生成1分钟720p视频的26亿级开源世界模型
? Hacker News 热门(buzzing.cc 中文翻译)NVIDIA研究团队发布了SANA-WM,这是一个参数规模达26亿的开源世界模型,专门用于生成长达1分钟、分辨率为720p的视频。该模型已在GitHub页面开源,旨在推动高质量长视频生成的研发。其在Hacker News社区获得了107点热度,显示出业界对该技术进展的高度关注。
查看原文 →02产品发布/更新
Zerostack——一款采用纯Rust语言编写、受Unix启发的编程代理
? Hacker News 热门(buzzing.cc 中文翻译)Zerostack是一款采用纯Rust语言编写、受Unix哲学启发的编程代理工具,已正式发布1.0.0版本并在Rust包管理平台crates.io上提供。该发布在技术社区Hacker News上获得115点关注,反映出开发者对其的高度兴趣。Rust语言以内存安全和性能见称,Unix设计强调简洁与模块化,Zerostack结合两者优势,旨在提升编程效率,为代码辅助领域带来新选择。
查看原文 →Codex新增键盘快捷键自定义功能
? X:Tibo (@thsottiaux)Codex迎来了一系列优化更新,键盘快捷键现已支持自定义。用户可根据实际工作方式配置Codex,通过设置调整快捷键,不必再迁就默认设定。这些改进让使用体验提升显著。
查看原文 →按需定制快捷键,优化工作流效率
? X:OpenAI Developers (@OpenAIDevs)OpenAI开发者团队表示,处理用户反馈令他们感到兴奋,并鼓励继续反馈。键盘快捷键现已支持自定义,用户可围绕实际工作方式设置Codex,通过设置调整快捷键,无需再适应默认配置,进一步提升工作流效率。
查看原文 →03行业动态
Figure人形机器人连续自主运行四天,迈向实用化关键一步
? X:Berry Xia (@berryxia)Figure公司的F.03人形机器人已进入第四天不间断自主运行测试,在真实仓库环境中24/7连续工作直至出现故障。测试核心在于评估机器人执行抓取、搬运、分拣等任务的长期耐力,并收集故障数据、维护需求及安全恢复机制等信息。这标志着人形机器人从展示单次动作的"能动"阶段,进入了考验持续工作能力的"能干"实用化关键阶段。
查看原文 →美国开始出现人工智能相关岗位的大规模裁员
? Hacker News 热门(buzzing.cc 中文翻译)美国人工智能相关岗位正出现大规模裁员。根据彭博社报道,受AI影响的职位开始经历严重的就业岗位流失。这一趋势表明AI技术对劳动力市场的冲击已从理论讨论进入现实阶段,具体裁员数字和涉及的行业领域在进一步显现中。
查看原文 →杭州基地启用,机器人有了国家级职业技能训练场
? IT之家(RSS)国家人工智能应用中试基地(具身智能)5月16日在浙江杭州挂牌启用,为机器人提供国家级职业技能训练场。该基地是集场景体验、技术展示、研发合作、产业赋能于一体的综合性平台,旨在推动具身智能技术从实验室迈向现实应用。杭州市于5月1日施行首部具身智能机器人地方性法规,支持核心研发、平台建设和场景开放。目前杭州已集聚机器人产业相关企业700余家,2025年具身智能产业集群产值达1068亿元。
查看原文 →研究人员利用Anthropic Mythos工具构建macOS内核漏洞,绕过苹果M5芯片内存完整性执行安全系统
? X:Kim (@kimmonismus)三名研究人员借助Anthropic的Mythos工具,成功开发出一个可绕过苹果M5芯片内存完整性执行(MIE)安全机制的macOS内核漏洞利用程序。MIE是苹果耗时五年、投入巨资为M5和A19芯片打造的旗舰安全功能,旨在彻底消除内存损坏漏洞。研究团队于4月25日发现漏洞,5月1日即完成开发,并亲自前往苹果园区提交报告。该攻击采用纯数据攻击方式,无需操纵指针,仅通过非特权用户的标准系统调用即可获取根权限。完整技术报告将在苹果发布补丁后公开。
查看原文 →04论文研究
Δ-Mem:适用于大型语言模型的高效在线内存
? Hacker News 热门(buzzing.cc 中文翻译)研究人员提出了Δ-Mem,一种专为大型语言模型设计的高效在线内存系统。该系统通过仅存储和更新模型激活的增量变化,而非完整的激活状态,显著降低了内存占用。实验表明,Δ-Mem能将内存使用量减少高达70%,同时保持模型输出的质量基本无损。这一方法有助于在资源受限的环境中部署和运行大规模语言模型,提升其在线推理和持续学习场景下的可行性。
查看原文 →05技巧与观点
创始人手册:打造 AI 原生初创公司
? X:宝玉 (@dotey)AI正重塑创业格局,大幅降低技术门槛,催生"AI原生"初创公司。创始人角色从执行者转变为AI智能体的指挥者,无需传统技术背景即可开发软件或制定商业策略。初创生命周期被重新定义为构思、MVP、发布和扩展四个阶段,核心是利用AI工具(如研究、智能体编程和流程自动化)来压缩时间。成功关键在于创始人需掌握使用AI的时机与方法,尤其在构思阶段应通过深入研究验证痛点与方案的匹配度,而非盲目开发。
查看原文 →MagicPath与Codex深度整合,设计开发流程合二为一
? X:Berry Xia (@berryxia)MagicPath AI CEO @skirano 演示了其产品与Codex的深度整合。用户现可将MagicPath作为原生画布直接在Codex中运行,通过拖拽设计UI,Codex能实时感知项目并自动生成、编辑代码,实现设计与开发的无缝衔接,无需在Figma和IDE间切换。安装简便,只需在Codex中粘贴一条命令即可完成配置。此举将"设计-开发-迭代"流程整合于单一窗口,显著缩短了从创意到可运行应用的距离。
查看原文 →工具使用代理认知与行动脱节机制研究
? X:Elvis Saravia (@omarsar0, DAIR.AI)该可解释性论文聚焦工具使用代理,通过探测隐藏状态发现模型常能识别应调用工具,但实际调用失败,不匹配率达26%-54%。问题完全集中于认知到行动的过渡阶段,而非认知本身。内部探测方向可解码,但后期层的最后令牌机制使信号旋转,几乎与产生的行动正交。研究旨在预测干预措施效果,指出常见归因如提示或训练不足可能忽略后期层几何结构,这为工具使用提示A/B测试中的性能上限提供了合理解释。
查看原文 →RLVR 可能在科学领域格外糟糕
? Dwarkesh Patel:Podcast & Blog(RSS)RLVR(强化学习与验证)在科学理论验证中可能表现出不成比例的缺陷。科学理论的验证循环周期长达数十年甚至数个世纪,且当前被视为更优的理论实际上常会做出更差的预测。这一矛盾揭示了基于短期反馈的强化学习范式与科学探索长期性、复杂性之间的根本冲突,凸显了现有AI方法在应对科学发现这类超长反馈周期任务时存在的结构性局限。
查看原文 →Eric Jang分享从零构建AlphaGo的经历与见解
? X:Marc Andreessen (@pmarca, a16z)Eric Jang在过去几个月从零开始实现AlphaGo,这是2016年激发他进入深度学习的AI突破。他最初理解AlphaGo为"通过自我对弈训练的搜索增强深度神经网络",但通过亲手构建获得了更深层次的理解。他指出,前沿深度学习研究虽昂贵,但特定能力的实现成本下降迅速;在2026年,训练强大围棋AI仅需几千美元租赁算力,无需DeepMind级别的资源。他荣幸受邀在播客中分享这一过程,并提供了详细教程和代码。
查看原文 →最新开源成果(#21):开源模型盛宴
? Nathan Lambert:Interconnects(RSS)本月开源AI模型领域迎来密集发布,包括Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5和GLM-5.1等一系列重要新版本。这些模型均在CAISI的V4评估框架下进行了性能评测。多个团队几乎同期推出旗舰级更新,反映出开源社区当前高速迭代的竞争态势。
查看原文 →