全球第三方编程榜单 Code Arena 最新结果显示,阿里最新旗舰模型 Qwen3.7-Max 以 1541 分位列前列,编程能力超过 GPT-5.5、Gemini-3.5-Flash 等模型,仅次于 Claude 系列,在大模型厂商中排名全球第二,反映其代码生成与编程综合能力显著提升。
模型发布 2
一款国产 Agent 模型宣布深度适配 OpenClaw、Claude Code、Hermes 等主流智能体与编程工具生态,并以“跻身全球第一梯队”为卖点进行发布推广。目前信息重点集中在兼容性与限时免费策略,意在快速吸引开发者试用并扩大落地场景。
融资动态 2
前华为具身大脑核心负责人启动创业项目,试图以认知科学为基础重构具身智能的“世界模型”,探索用更接近人类心智的方式提升机器人感知、决策与行动能力。项目已获得亿元级融资,显示资本持续加码具身智能赛道。
报道指出,部分 AI 初创公司在对外披露业务进展时,倾向放大或重新定义 ARR 等传统营收指标,以强化增长叙事和市场估值;相关投资机构往往知情并默许。这反映出 AI 融资环境中财务口径模糊、宣传与真实经营表现可能存在偏差。
政策法规 5
《深圳市国民经济和社会发展第十五个五年规划纲要》提出统筹智算芯片、算力设施与模型算法发展,推进昇腾等训练芯片和端侧推理芯片迭代适配,建设多层次智能算力底座。到2030年,深圳实时可用算力将超150EFlops,国产芯片部分指标及算力集群达到国际先进水平。
《深圳市国民经济和社会发展第十五个五年规划纲要》提出,将人工智能终端、低空经济、具身智能机器人等培育为新兴支柱产业,推进智能手机、电脑、家居与穿戴设备研发应用,推动全身、全车、全屋智能规模化落地,并在核心零部件、多模态感知、高精度运动控制和灵巧操作等方向提升具身智能机器人发展能级。
美国联邦贸易委员会宣布,Cox Media 及营销公司 MindSift、1010 Digital Works 因宣称可通过手机和智能设备秘密监听用户、借此进行广告定向而被罚款。尽管其实际技术能力证据不足,监管机构仍认定相关宣传误导市场并涉及隐私合规风险。
教皇利奥十四世在首份重要教宗文件《Magnifica Humanitas》中聚焦人工智能时代的人类处境,警示不受约束的技术权力可能带来的风险,重点提及 AI 驱动战争、对劳动市场的影响及维护人的尊严,呼吁在技术发展中坚持“深刻的人性”。
特朗普推迟签署一项原计划要求 AI 模型在发布前接受政府安全审查的行政令,理由是对其中措辞不满,认为相关表述可能成为阻碍。此举意味着美国 AI 安全监管节奏或将放缓,预发布审查机制暂未落地。
研究论文 62
MobileGym 是面向移动 GUI 智能体研究的轻量级浏览器仿真平台,可完整记录与分叉结构化 JSON 状态,并通过确定性判题提供可验证结果与稠密 RL 奖励。配套基准覆盖 28 款应用、416 个参数化任务模板;案例显示,基于 GRPO 训练后模型测试集成绩提升 12.8 个百分点,且 95.1% 的仿真增益可迁移到真实设备。
论文提出 Agentic AI 的关键瓶颈正从模型扩展转向系统扩展,强调将围绕基础模型的执行层“agent harness”作为一等研究对象,重点讨论上下文治理、可信记忆、动态技能路由及编排与治理机制,并给出衡量轨迹质量、记忆卫生、验证成本等的新型基准研究议程,同时发布参考框架 CheetahClaws。
该论文面向主体驱动图像生成,提出以多模态大语言模型联合编码文本与参考图像,并结合基于 VAE 的身份条件控制扩散模型。方法通过双层聚合模块整合多层特征,并采用多阶段去噪平衡语义理解与身份细节,在减少复制粘贴伪影的同时提升主体一致性与人类偏好表现。
Prism 是面向多模态持续指令微调(MCIT)的可复现插件式基础设施,旨在解决现有研究需直接修改底层 MLLM 代码、实现成本高且难以公平比较的问题。其通过轻量注册机制将算法开发与模型骨干解耦,支持以独立插件集成新方法,并原生兼容大规模训练流程,提升实验复现性与扩展性。
论文提出用于掩码扩散语言模型的 LoopMDM,通过循环使用 Transformer 前中层,在不增加参数的情况下获得更深层训练效果,并支持推理时按循环次数灵活扩展算力。实验显示,其在多个预训练语料上以最高减少 3.3 倍训练 FLOPs 达到同规模模型性能,并在 GSM8K 等推理基准上最高提升 8.5 分。
论文研究利用大语言模型对代码补丁进行结构化变更标注,而非仅做摘要或评论生成。作者提出两阶段流程,先为 diff hunk 分类,再补充重命名传播、类型变化等结构与语义属性。在人工构建基准上测试四种模型,最佳配置达到 84% 召回率和 81% 精确率,显示其可辅助自动化代码审查。
论文提出面向长时程任务的“睡眠式巩固”机制:模型定期将近期上下文离线压缩为持久快权重,并清空 KV cache,以缓解 Transformer 注意力随上下文长度扩展的开销。方法在细胞自动机、多跳图检索和数学推理任务中优于常规 Transformer 与 SSM-注意力混合模型,且更长睡眠步数可提升深层推理表现。
论文研究语言模型在顺序学习新任务时的遗忘问题,发现模型可通过从自身训练分布中生成样本进行“自回放”,在无需保存旧任务样本的情况下显著缓解遗忘。研究还指出,遗忘受模型剩余容量与优化策略影响:容量接近饱和时更易覆盖旧知识,而回放可支持高学习率快速微调并减少遗忘。
论文提出目标驱动的贝叶斯最优实验设计框架 GoBOED,不再单纯最大化参数信息增益,而是直接针对下游决策目标优化实验方案。方法结合摊销变分后验代理与可微凸决策层,可进行端到端梯度优化,并证明其对与决策无关的参数方向不敏感。在定位、疫情管理和药代控制任务中,GoBOED获得更优决策效果。
论文提出面向边缘部署的 Transformer 低比特量化方法 OrpQuant,通过正交残差投影在幂次量化的非均匀格点上构建更高分辨率残差表示,仅用移位与加法替代乘加计算。其解析求解器将 LLaMA-2-7B 全模型校准时间降至约15分钟,在 3 比特 W3/A16 下取得 6.10 困惑度,并显示出 28nm 硬件实现优势。
论文提出通道级向量量化 CVQ,将图像离散化从传统 patch 级改为特征图通道级编码,并基于此构建通道自回归生成框架 CAR,以“下一通道预测”逐步生成图像细节。实验显示,CVQ 在 16K+ 码本上实现 100% 利用率并提升重建质量,CAR 在文生图任务上取得 86.7 DPG 和 0.79 GenEval。
论文提出 DiscoverPhysics 基准,用 22 个偏离现实物理规律的模拟世界测试大模型是否具备真正科学推理能力。模型需自行设计实验、观察轨迹数据并归纳规律,再提交文字解释与 Python 定律实现。结果显示,11 个前沿模型中最强者也仅通过约一半任务,开源模型明显落后,且预测精度高不代表概念理解到位。
研究提出面向“常驻型”个人助理的 Claw-Anything 基准,将评测扩展到长周期活动历史、相互依赖的后端服务,以及跨设备 GUI/CLI 交互三类更完整的数字世界上下文。实验显示 GPT-5.5 在该基准上 pass@1 仅 34.5%,并发布可生成 2000 个训练环境的数据管线,使基础模型提升 23.7%。
论文提出面向深度研究智能体的认知图框架 VeriTrace,针对中间表征易受低质量信息污染、误差沿依赖传播的问题,引入解释更新、偏差反馈和模式修订三类显式调节闭环。基于 Qwen3.5-27B,方法在 DRB Insight、Overall 及 DeepConsult 上均优于同级基线,并取得可复现开源最优结果。
论文提出自动基准审计框架 ABA,用于系统检查 AI 智能体和大模型评测任务中的隐含依赖、规格缺失和评分逻辑脆弱等问题。研究审计了 9 个领域共 168 个前沿基准,发现 25.7% 任务存在关键缺陷;剔除问题任务后,SWE-bench Verified 和 Terminal-Bench 2 的平均成绩分别提升 9.9% 和 9.6%,并导致模型排名变化。
论文针对熵正则化强化学习中的 Wasserstein Policy Gradient 提出全局收敛理论。作者利用 Bellman 结构证明:通过状态级 KL 表示、Bellman 收缩与 Fisher 信息联系,可建立类似 Polyak-Lojasiewicz 几何,并在统一对数 Sobolev 不等式条件下得到几何收敛及离散化误差界,补足连续控制场景下该方法理论基础。
论文提出金融语言理解评测框架 StakeBench,将 56 万条评论与 Polymarket、Manifold 共 2261 个已结算市场中的真实持仓、交易行为和赔率变化记录对齐,以可观察市场承诺替代人工标注。对 15 个大模型测试发现,其能部分识别立场,但在预测后续交易和集体赔率走势上普遍失效。
论文提出面向偏好学习的主动查询合成框架 Info-Synth,以互信息目标在连续空间生成最优查询,降低传统基于候选池主动学习的计算开销;同时引入置信感知响应模型,处理近似或极端相似度比较带来的低置信反馈,并给出适用于有限查询池的两种扩展策略,在合成数据、文本摘要和机器人控制调参任务中验证效果。
论文提出一种人类与大语言模型协同的多语种说话者属性重标注框架,通过让模型归纳标注依据、结合分歧采样进行重点复核,在资源受限条件下提升标签稳定性。作者据此构建包含九类属性的多语数据集 WhoSaidIt,并评估原始与修订标注差异、测试近期 LLM 表现及显式推理依据对分类行为的影响。
论文提出弱监督异常检测统一基准 WSADBench,覆盖标签缺失、不精确和不准确三类场景,在 4 种模态下按标签数量、粒度和质量系统评测 36 种算法,累计超 70 万次实验。结果显示不同弱监督设定存在强相关性,专用 WSAD 方法仅在极低标签条件下占优,监督增强后常被表格基础模型和通用分类方法超越。
论文研究条件核岭回归(conditional KRR),将未受惩罚的特征类注入核方法,并证明其可归约为带“残差核”的标准 KRR,额外测试风险项仅为 O(1/√N)。作者进一步分析主特征函数与随机特征两种设定,理论和实验表明,当目标函数中的显著成分可由给定特征类解释时,该方法优于标准 KRR。
Paris 2.0 发布,为首个通过去中心化计算预训练的视频生成模型,延续 Paris 1.0 的开放权重去中心化扩散路线。论文称其解决了去中心化训练下时序一致性难题;在低分辨率文生视频任务中,相同数据与总算力预算下,FVD 从 561.04 降至 279.01,CLIP 文本视频相似度与美学评分同步提升。
论文提出用于连续时间表征学习的不确定性建模架构 NSAC,将注意力 logit 表达为受输入门控调制的 Ornstein-Uhlenbeck 随机微分方程解,在注意力权重与输出中传播概率分布。该方法可联合刻画偶然与认知不确定性,并在函数拟合、回归、预测、工业与自动驾驶任务中展示出较好精度与校准能力。
论文提出将神经算子代理模型直接嵌入 CFD 贝叶斯逆向设计的 MCMC 推断流程,在保持似然、先验和采样配置不变的情况下,以 Deep Operator Network 替代高保真求解器。结果显示其在稀疏到完全观测场景下可复现后验几何与不确定性趋势,并将总推断时间压缩到 1 秒内,实现超千倍加速。
研究比较 AI 控制中的“重试”和“重采样”两种安全机制:重试虽可降低正常任务的可疑度,但会向不可信模型泄露监控线索,助其规避检测。实验显示,在 BashArena 中每步重采样 5 次并按最高可疑度审计,可在 0.3% 审计预算下将安全性从 61% 提升至 71%,且不损害可用性。
论文研究面向大语言模型评审器的多目标提示优化失败模式。作者测试五种文本梯度分解方式,发现 10 种配置中有 6 种优化效果不如初始提示;当梯度模型联合处理多项标准时,梯度特异性下降 59%,简单合并任务指令还使 Spearman 相关性下降 5.3%,揭示了优化期梯度稀释与推理期指令干扰两类问题。
论文研究用于解释语言模型内部激活的 activation oracles 的不确定性量化与置信度校准,比较了 6 种置信度估计方法,并在不同 verbalizer 与上下文提示下对每个 oracle 进行 6000 个样本实验。结果显示,bootstrap mode frequency 校准最佳,显著优于答案词对数概率基线,后者则可作为低成本快速筛查信号。
论文提出面向图欺诈检测的 L2IR 框架,利用大语言模型从用户行为与可疑连接中挖掘潜在意图,区分支持性与误导性边,从而缓解欺诈者通过伪装连接稀释信号的问题;同时结合自适应自训练提升少标注场景鲁棒性,在两个真实数据集上最高将 AUPRC 提升 8.27%。
论文提出面向轻量级视觉语言模型密集场景推理的基准与训练方法:构建含 2943 张图像、14573 个问题的 DRBench,覆盖 5 类任务和 3 层渐进推理;并提出无需修改架构的监督微调框架 DRScaffold,将推理监督拆分为 4 个因果有序阶段。实验显示其在提升密集场景推理能力的同时,保持或改善通用基准表现。
论文研究知识图谱工具调用中的强化学习退化现象:在基于 Qwen2.5-7B 的 GRPO 设置下,工具答案率先从 3.8% 升至 9.6%,随后在短窗口内跌至 0%,且四个随机种子均复现。作者归纳七种奖励设计下的四类失败模式,指出问题核心在接口反馈贫乏而非关系选择;自蒸馏可将 7B 模型 EM 提升至 40%。
研究提出统一城市表征评测基准 CityRep,针对现有评估仅覆盖少量城市与任务、随机划分导致空间泄漏等问题,构建支持异构表征对齐的评测框架,采用基于空间块的划分协议,并覆盖 8 个城市、8 类任务。作者评测了 11 种模型,发现随机划分会夸大成绩并改变模型排名,强调跨城市泛化评估的重要性。
论文提出对数深度循环单元 MLP-LDRU,通过带结合性偏置的并行归约近似递归,缓解神经网络长度泛化问题。在 21 个正则语言任务上,其分布外准确率在 18 个任务达 100%,其余 3 个也至少 99.9%,并优于同类循环与注意力模型;在 ListOps 和 NLP 分类基准上也表现出竞争力。
论文提出尺度不变扩散模型 SKILD,将图像生成与连续超分辨率统一到单一无条件框架中。其前向过程按尺度逐步衰减图像信息并注入频谱匹配高斯噪声,使尺度成为扩散坐标;反向过程仅通过调整起始时间步即可完成生成和 2×至8×超分。在 CIFAR-10 上获 FID 2.65、IS 9.63,并在 ImageNet 与 Ising 系统重建中表现突出。
研究团队提出可扩展交互式因果发现评测环境 CausaLab,用于测试大模型代理在合成实验室中基于观测与干预恢复因果图和结构方程的能力。结果显示,模型预测正确率与机制恢复存在明显差距;混合观测-干预策略可提升结构识别,但代理在设计有效干预和避免过早停止方面仍表现不足。
论文提出面向光片荧光显微镜(LSM)三维数据的多模态基础模型,在跨物种、染色和成像协议的大规模3D图像上预训练,联合采用掩码重建与图文对齐学习体数据表征。实验显示,该模型可在少样本条件下提升分割、分类和去模糊任务效果,并显著降低标注成本,代码与权重已开源。
研究提出面向智利服务条款的检索增强生成框架,用于自动识别和分类潜在滥用条款,可在本地运行,结合条款检测、稠密/稀疏混合检索、重排与提示增强。团队同时发布含100份合同、10029条标注条款的扩展语料库,实验显示该方法显著提升中型开源模型效果并降低算力与调用成本。
论文提出 STORMS,两阶段训练视频语言模型进行“内化”的时空推理:先将潜在 token 与由生成视频得到的 thought-video 表征对齐,再用仅答案监督强化无需逐步标注的隐式推理。方法在推理时无需重生成视频、重插帧或外部工具,在 VideoMME、MVBench、TempCompass、MMVU 上提升准确率并降低推理开销。
论文提出面向 rectified flow 模型的强化学习算法 AdvantageFlow,以优势加权最小二乘优化前向过程预测损失,而非像 Flow-GRPO 那样优化反向过程。针对负优势导致的不稳定与非凸问题,作者引入 rollout policy regularization 降低方差并构造局部奖励改进目标分布。在 Stable Diffusion 3.5 Medium 图像生成实验中,其效果优于 Flow-GRPO 和现有前向过程 RL 基线。
论文提出在强化学习编码器中加入固定正交投影,将高维特征压缩到低维子空间,无需额外目标、预训练或修改算法。在满足线性可实现性条件下,作者证明当瓶颈维度超过最优价值函数的内在秩时,表达能力与梯度动力学基本不变。实验显示该方法在单任务和多任务基准上通常可保持或提升性能。
研究提出面向菲律宾语与英语混合语音失智检测的首个系统评测,并首次在临床 NLP 场景测试 NeoBERT。作者构建含 4000 份双语转写数据集,比较多类模型后发现,跨语言迁移效果显著下降,而双语微调可将各类 Transformer 的 Macro-F1 提升并稳定在 0.969 至 0.973。
论文提出面向大视觉语言模型指令微调的数据子集选择方法 MAGIC,无需训练选择器或反向传播,仅基于预训练 VLM 前向信号筛选样本。方法结合多模态增益、视觉 grounding 相关性和技能神经元签名,在仅用 20% 数据预算下,在 LLaVA 与 Vision-Flan 上达到或超过全量微调效果,并将训练总耗时降低 73.7%。
论文聚焦生成式 AI 评测中的“推理、公平、创造力”等宽泛概念难以量化的问题,提出“系统化”步骤,将抽象概念转化为可测的结构化定义。研究引入 concept spec 与验证工作表,并设计零样本和多智能体两种 AI 辅助系统化方法,在仇恨言论与数字共情两项概念上验证内容有效性与信息可恢复性。
论文提出一种适用于有限方差与无限方差两种情形的 SGD 统计推断方法,可基于 SGD 轨迹直接构造置信区域。该方法结合 Polyak-Ruppert 平均估计与梯度经验二阶矩归一化,并用子采样校准临界值,无需显式估计尾指数或稳定分布参数,仿真显示覆盖率可靠。
文章探讨将因果推断系统性引入大语言模型开发与评测流程,指出预训练数据混合、对齐偏好、推理路由、智能体工作流和评测等核心问题本质上都涉及干预效应。作者认为当前 LLM 研发过度依赖经验迭代,在混杂、分布漂移和有偏评审条件下较脆弱,因果方法可提升识别、估计与设计的可靠性。
论文提出“部署完备基准测试”框架,强调基准分数只能反映已记录响应,未必足以支持真实部署决策。作者用证据纤维、完成曲线等方法衡量基准是否能唯一决定行动,并在 Tox21、Matbench、JARVIS 等任务中发现现有基准存在大规模信息缺失;其 certify-then-acquire 策略可显著降低误判率,建议基准除分数外同步报告可支持行动、歧义与补全成本。
研究提出 Fuzzy PyTorch 框架,用于快速评估深度学习模型中的浮点数值波动。该方法将随机算术集成进 PyTorch,并通过新库对接 Verificarlo,支持随机舍入与上下舍入模式。在 1 到 3.41 亿参数模型上验证可扩展性,相比 Verrou 实现 5 至 60 倍运行加速且基本保持模型性能。
论文研究在生物医学问答中将NLI事实核查器作为RAG强化学习奖励的可训练性。作者发现决定训练效果的是核查器训练时的输出分布而非离线准确率:LLM打分会导致97%以上标签塌缩为中立、梯度近零;过强核查信号还会诱发奖励劫持,出现超短回答、回避检索和语言退化。适中的本地分类器反而获得更高答案质量。
论文提出面向知识图谱复杂逻辑查询的 Neural Scalable Symbolic Search(NS3)框架,解决多自由变量 EFO_k 查询中联合排序随变量数增长而难以穷举的问题。方法通过回答边缘子查询、合并变量为超节点并用动态预算裁剪候选域,将 EFO_k 逐步化简为 EFO_{k-1}。在 3 个标准数据集上,NS3 提升联合排序效果并保持较强边缘精度,同时发布扩展到 k=3 的联合排序基准。
论文提出 SafeCtrl-RL,一种面向大语言模型对话的推理时行为控制框架,无需重训或修改参数。其将生成过程建模为序列决策,由强化学习智能体依据上下文反馈动态选择提示词调整策略,在多种模型与不安全对话场景中提升安全性与回复质量,并优于现有提示优化方法。
一项针对 10 个大语言模型驱动的 CoT 与 ReAct 智能体的测量研究发现,在 GSM8K、MATH、HotpotQA 共 68 个实验单元中,语义扰动比表面扰动更易改变最终答案,平均不一致差距达 19.69 个百分点。研究还在第 11 个留出模型上完成复现,并提出“隐性分歧”机制:语义扰动常在首步不变情况下从中间推理阶段开始分化。
论文提出“Creative Quality Alignment(CQA)”方法,基于约 100 条专家级思维链标注,在小型基础模型和低数据成本条件下验证创意质量度量的工程可行性。作者同时指出现有对齐数据集偏重技法知识、受众建模与现实逻辑覆盖不足,并给出欣赏侧校准可迁移至生成侧的理论解释。
论文提出主动式智能体架构 ProAct,利用用户交互间隙的空闲算力,结合对话历史与持久记忆预测后续需求,提前补充信息并准备证据。作者同时发布包含 40 个领域、200 个场景的评测基准 ProActEval。实验显示,相比被动式基线,ProAct 可减少 14.8% 交互轮次、降低 11.7% 用户负担,并将幻觉率下降 28.1%。
论文提出 B^3D-RWKV,一种将 RWKV 的线性时序推理与离散扩散的双向并行生成结合的统一架构,通过 triplet-block layout 解决扩散双向注意力与因果单向建模的不一致问题。其 7.2B 模型在 8 项任务上达到与现有模型相当的准确率,并在解码吞吐上平均提升 1.6 倍。
论文提出一种面向合成音频的无梯度水印方法,利用离散表示中的词表冗余,通过社区检测缩减词表以降低 token 错误对检测的影响。作者给出理论分析,并在实验中验证该方法可将水印可检测性提升数个数量级,同时对音频修改具备内生鲁棒性。
研究考察亚 1 亿参数解码器语言模型在从头量化感知训练中,学习率调度是否随位宽变化。作者进行两阶段共 1345 次实验,发现 FP16、INT8、INT6 在不同模型规模下最优 warmdown 均为 33%,INT4 在 5000 万参数以上也显著偏好 wd33,而更小模型中调度差异基本落入噪声区间。
研究提出内容条件式论文引言生成任务 CCIG,并发布框架 LECTOR,将科学论文正文构造成可验证的逻辑推理图,再通过逻辑—表达协同奖励联合优化引言写作质量与结构忠实度。在 Nature Communications 数据集实验中,图质量提升 26.7%,引文质量提升 8.6%,一致性提升 3.3%。
论文提出面向零样本文本转语音的持续说话人身份遗忘框架 CORTIS,针对隐私删除请求会随时间连续到来的现实场景,解决现有方法在顺序遗忘新说话人时导致已遗忘身份被重新恢复的问题。该方法结合基于 Fisher 信息的参数掩码与历史更新子空间正交投影,在无需访问已删除说话人数据下实现稳定遗忘。
论文提出 PolyGnosis 2.0 多智能体架构,结合 Polymarket 异常信号与 GDELT 等 OSINT 数据,识别预测市场情绪与全球媒体叙事间的“视角错配”作为交易信号。研究系统评估反思循环、工具调用、分治与 CoT 等编排方法,发现分治对多维对齐必要,而无约束反思会导致推理漂移,并揭示普遍存在的共识偏差。
论文提出用于评测大模型创意生成能力的新基准 QUIET,采用含 10 至 20 个空位的级联故事完形任务,每个空位附带明确内容约束且前后依赖。模型以开放式生成方式作答,并通过基于信息论的自动评分协议衡量约束满足度与“校准惊喜度”,避免主观人工评审。
论文提出 Step-TP,用于大模型引导的张量程序优化后训练。该数据集提供可验证、原子化的逐步监督与结构化思维链,围绕中间程序状态形成闭环推理,并采用可确定降至 TVM TIR 的高效 IR 表示,提升多步优化决策的可靠性、可解释性与组合能力,相关代码与数据已开源。
蚂蚁灵波 LingBot-VA 相关论文被机器人领域顶级会议 RSS 2026 接收,表明其“边推演、边行动”的机器人能力方案获得国际学术共同体认可。该进展聚焦机器人智能体在推理与执行协同上的研究突破,体现出相关技术路线的学术影响力。
OpenAI 一款模型攻克离散几何中悬而未决 80 年的单位距离问题,成功推翻该领域一项核心猜想。该成果显示 AI 已能够在高难度数学研究中提出并完成关键证明,成为 AI 驱动数学发现的重要里程碑。
产品应用 30
日本数据中心与云服务商樱花互联网称,为满足国内AI算力需求,计划在2026财年追加采购GPU,资本开支最高或达200亿至300亿日元,较此前公布的44亿日元预算提升近6至7倍,显示日本本土云基础设施正加速扩容。
河北今年将以“人工智能+制造”为抓手,推进电子信息产业高质量发展,涵盖集成电路、新型显示、现代通信、软件和大数据等方向。全年计划推进68个亿元以上项目,其中新建22个、在建46个,并重点关注10个国产替代、强链补链及高市占率项目。
天眼查显示,字节跳动关联公司北京字跳网络技术有限公司近日申请注册多枚“AGENT WORLD”商标,覆盖教育娱乐、科学仪器等类别,状态为等待实质审查。公开资料称,扣子Coze已于4月在2.5版本推出同名AI Agent生态功能,提供云设备、记忆和身份系统,支持Agent协作与进化。
阿里云5月26日在新加坡面向海外市场发布全新AI产品官网Qwen Cloud,并推出Agent产品MuleRun、智能体编程平台Qoder及通用桌面智能体QoderWork的更新,同时完成面向Agent的云基础设施升级,强化其海外AI产品与智能体服务布局。
文章讨论作者在编程中使用 AI 的实际体验:AI 并未显著提升开发速度,反而常因生成冗长、需反复核查的代码而放慢节奏。但在重构、样板代码编写和思路补全等场景中,AI 仍能提升代码质量与表达完整性,反映出当前 AI 编程工具更适合辅助而非完全替代开发者。
挪威一项与大模型训练相关的基础设施案例引发关注:项目采用约 2PB 的华为全闪存储,为 LLM 训练提供高吞吐、低时延的数据支撑。报道聚焦 AI 训练对存储系统性能与容量的需求,以及华为在高性能 AI 存储场景中的应用进展。
协作软件公司 ClickUp 被曝在成立九年后进行大规模裁员,并以数千个 AI 代理替代数百名员工岗位。该事件反映企业正将生成式 AI 从辅助工具升级为核心劳动力配置手段,也凸显未来工作组织、岗位结构与人机协作模式可能加速重塑。
REI 年度 Anniversary Sale 仍在进行,作为其全年最大促销活动之一,涵盖帐篷、睡垫、炉具等多类户外装备。报道汇总了临近结束前值得关注的优惠商品,面向有露营和户外出行需求的消费者提供选购参考。
在 AIGC2026 活动上,京东 JoyInside 戴文军表示,AI 的终极形态并非独立聊天入口,而是深入家庭场景并嵌入各类终端设备,让硬件主动理解和适应用户需求。其核心观点聚焦 AI 与智能硬件、家居物品的深度融合方向。
Waymo 因无人车在涉水场景下可能出现失效风险,启动大规模召回,并暂停多个城市的 Robotaxi 服务。事件反映自动驾驶系统在复杂道路与极端环境中的安全边界仍待验证,也凸显规模化商业运营阶段对软件可靠性与应急策略的更高要求。
一款面向 DeepSeek V4 的新工具宣称可显著降低推理调用成本,通过将缓存命中率提升至 99.82%,把原本约 4 亿余 token、61 美元的账单压缩至 12 美元左右,实现接近两折的稳定成本水平,核心卖点是优化缓存复用与费用控制。
UniPat AI 发布 SaaS-Bench 办公任务评测,针对真实 SaaS 办公场景检验主流大模型的 Computer-Use 能力。结果显示,Claude 等模型的任务完全通过率最高仅为 3.8%,暴露出在复杂流程执行、稳定性与可靠性上的明显短板,说明“全自动办公”距离实际落地仍有较大差距。
OpenAI 与巴西媒体集团 Grupo Folha 和 Grupo UOL 达成战略内容合作,将其新闻内容引入 ChatGPT。合作强调新闻来源标注与透明展示,旨在扩大巴西用户获取可信新闻的渠道,并推动生成式 AI 与主流媒体内容分发的结合。
文章围绕亚马逊 AI 可穿戴设备 Bee 的上手体验展开,指出其与同类产品一样,一方面提供语音记录、智能助理等便利功能,另一方面也因持续感知和数据采集带来明显隐私焦虑,呈现出实用性与被监控感并存的矛盾体验。
苹果最新款 MacBook Air 在美国阵亡将士纪念日前促销,两种尺寸均降价 200 美元。13 英寸版本在亚马逊开售,搭载 M5 芯片和 16GB 内存。文章聚焦这款笔记本的折扣信息与购买时机,强调其长期性能表现和当前入手性价比。
IBM 与法拉利 F1 车队合作,利用人工智能重塑车迷互动体验,目标是培养更高黏性的“超级粉丝”。报道聚焦双方如何借助 AI 技术升级内容呈现、赛事参与和粉丝服务,展示体育产业中企业级 AI 的产品化落地路径。
谷歌为 Pixel 手机推出一套“迪斯科球”风格图标,用户可将主屏幕应用图标整体替换为更闪亮的视觉主题。该更新聚焦界面个性化与美术风格调整,属于面向终端用户的小型产品体验变化,未涉及底层技术、模型能力或重大业务动作。
谷歌搜索引入 AI 更新后,用户搜索单词“disregard”会导致搜索界面异常,相关词条结果无法正常显示。该事件反映出生成式 AI 与搜索系统集成后,前端交互和内容处理可能出现意外故障,暴露产品稳定性与质量控制问题。
谷歌展示了原型 Android XR 智能眼镜,可将由 Gemini 驱动的翻译、导航及其他信息直接叠加到用户视野中,体现其在 AI 与可穿戴设备结合上的最新进展。该产品仍处于原型演示阶段,但已显示出较强的实时辅助交互能力。
维珍大西洋介绍其借助 Codex 加快软件交付,在假日出行这一固定上线期限前完成新版移动应用发布。案例称项目实现接近全部单元测试覆盖,并在上线时保持零 P1 级缺陷,体现生成式编程工具在企业开发提效与质量保障中的应用价值。
Spotify 与环球音乐达成合作,允许 Premium 订阅用户生成 AI 歌曲翻唱与混音内容。该机制将向参与计划的艺人分成,尝试在版权可控前提下推动用户生成音乐创作,为流媒体平台与唱片公司探索生成式 AI 商业化提供新路径。
文章关注 Google 搜索因 AI Overview 等生成式功能而发生明显变化,认为其搜索体验已不再是传统意义上的 Google,并据此推荐六款可替代的搜索引擎,面向不喜欢 AI 摘要与新搜索界面的用户提供分流选择。
Spotify 为播客引入 AI 驱动的问答与简报生成功能,用户可基于自定义提示词生成每日或每周内容摘要,提升播客信息获取与检索效率。该更新显示生成式 AI 正进一步嵌入音频内容消费与分发场景。
Spotify 推出一款新的桌面应用,并以研究预览形式在 20 多个市场上线。标题显示该产品意在与 Google 的 NotebookLM 竞争,表明 Spotify 正将产品能力从音频平台延伸至 AI 辅助信息整理与内容交互场景,目前仍处于早期测试阶段。
Anthropic 于 5 月 19 日在伦敦举办为期两天的开发者活动“Code with Claude”,聚焦 Claude 在软件开发中的编程与代码生成能力。活动与 Google I/O 同日举行,现场重点讨论由 AI 完整撰写代码、提交 PR 等新型开发流程,展示 AI 正在重塑编程协作与生产方式。
AdventHealth 正在采用面向医疗场景的 ChatGPT,以优化临床与运营工作流程、减少医护和管理人员的行政负担,并将节省出的时间更多投入患者护理。这体现出生成式 AI 正在医疗机构中向提升效率和支持全人照护的实际应用落地。
Ramp 介绍其工程团队如何将 Codex 与 GPT-5.5 用于代码审查,加速开发流程。该方案可在数分钟内生成具有实质性的审查反馈,替代以往需数小时的人工等待,帮助工程师更快发现问题、迭代修改并推动改进上线。
OpenAI 宣布推进“Education for Countries”计划下一阶段,通过与更多国家和机构建立合作,扩大 AI 在学校场景中的应用,并提供教师培训与配套工具,旨在提升教学效率、学习体验和全球教育成果,加速教育体系的智能化转型。
OpenAI 宣布推出“OpenAI for Singapore”多年期合作计划,将在新加坡推动 AI 更广泛部署,培养本地人才,并支持企业及公共服务场景应用。该合作聚焦生态建设与落地推广,体现 OpenAI 在区域市场的本地化拓展与政企协同布局。
OpenAI 介绍其在 AI 内容溯源领域的进展,重点包括采用 Content Credentials、集成 SynthID,以及推出验证工具,帮助用户识别和核验 AI 生成媒体来源与真实性。此举旨在提升内容透明度、降低误导风险,并推动更安全可信的 AI 生态建设。
其他 27
DeepSeek 将 V4-Pro API 价格永久下调至原价 25%,进一步压低大模型调用成本。同时,网络流传“禁止上市公司披露无发票海外卡部署”传闻,多家上市算力租赁企业回应称未收到相关要求,且出于合规考虑通常不会部署无发票境外算力卡。
最新编程模型权威榜单显示,阿里千问 3.7 进入全球编程模型第一梯队,排名仅次于 Claude,阿里因此位列全球第二。该结果反映出千问系列在代码生成与编程能力评测中的竞争力进一步提升。
文章围绕教皇利奥十四世关于人工智能的通谕笔记展开,来源为 Simon Willison 博客,并在 Hacker News 引发少量讨论。现有信息仅包含链接、热度与评论数,未披露通谕核心观点、政策主张或技术细节,属于宗教与社会议题对 AI 的一般性关注。
天眼查信息显示,河南擎宇未来机器人科技有限公司近日成立,注册资本5000万元,法定代表人为张琰。公司经营范围涵盖智能机器人的研发与销售、工业机器人销售等,由南阳中关村科技金融服务有限公司、南阳诸葛英才创新创业发展有限公司及深圳众擎机器人科技股份有限公司共同持股。
苹果披露 macOS 26.5 内核漏洞 CVE-2026-28952,相关信息出现在其安全更新页面。该漏洞由 Anthropic 的 Claude 协助发现,显示大模型已开始参与实际安全研究与漏洞挖掘。新闻还附有 Hacker News 讨论,反映业界对 AI 在网络安全场景应用的关注。
Weave(YC W25)发布招聘信息,面向机器学习、人工智能、产品与设计工程等岗位招募人才。内容主要指向其 Ashby 招聘页面,暂无更多关于公司业务、产品进展或融资情况的补充信息,相关讨论热度和评论数量也较低。
教皇利奥十四世在首份通谕中借人工智能切入,讨论的核心并非技术本身,而是权力过度集中、民主机制被侵蚀,以及科技精英按自身利益塑造世界等长期社会问题,强调 AI 只是放大这些结构性矛盾的观察窗口。
TechCrunch 宣布 Startup Battlefield 200 的申请与提名通道将于 5 月 27 日截止。入选团队有机会获得风投对接、全球曝光、TechCrunch 媒体报道以及 10 万美元奖励。该信息主要面向寻求融资与品牌展示机会的初创公司。
TechCrunch 提醒,旧金山举办的 TechCrunch Disrupt 2026 大会门票早鸟优惠将于 5 月 29 日晚 11:59(太平洋时间)截止,当前注册可节省最高 410 美元,截止后票价将上调。该信息主要涉及活动售票与限时优惠安排。
2026投资界SuperLink大会已定档于6月10日至11日举行。该活动定位为打造创投生态“超级枢纽”,聚焦投资机构、创业企业及产业资源的链接与合作。当前披露信息主要为会期安排,具体议程、嘉宾阵容及发布内容尚未公布。
蚂蚁灵波沈宇军在 AIGC2026 活动中表示,VLA 与世界模型都不会是机器人智能的最终形态,未来将出现更适配物理世界特性的专属模型体系。其核心愿景是构建“机器人时代的安卓系统”,强调通用平台、生态能力与底层操作框架的重要性。
2026 智源大会启动报名,文章以“图灵奖得主领衔、中国大模型第一梯队集结”为核心卖点,预告大会将汇聚顶尖学者、产业代表与头部大模型力量,聚焦人工智能下一阶段发展方向与技术趋势。当前披露信息主要为会议信息与报名提示,尚未给出更具体议程与成果内容。
谷歌表示,当前整个行业都处于 AI 安全治理的过渡阶段,各方都在边实践边建立规则与防护体系。该表态反映出即便是头部科技公司,也仍在实时应对模型安全、风险控制与治理框架的不确定性。
YC F25 创企 Flick 正招聘资深前端工程师,目标是打造面向 AI 影视制作的“Figma 式”协作工具。现有信息主要来自 YC 招聘页面与 Hacker News 条目,未披露产品细节、融资进展或技术指标,属于早期团队扩张与岗位发布动态。
文章介绍《On Trails》一书,以徒步旅行为线索,融合自然科学、历史与个人体验,探讨人在步行过程中与环境、知识和自我之间的关系。内容偏向文化阅读与生活方式分享,并非围绕人工智能、科技产品或产业动态展开。
文章指出,攻击者正从早期简单的提示注入,转向利用聊天机器人被设定的“人格”和行为风格实施操纵。随着生成式 AI 被更广泛部署,这类更隐蔽的越狱与安全绕过手法正在演化,暴露出模型对齐和应用防护的新风险。
文章称,马斯克在地球能源布局上已明显转向:xAI 正大举采用天然气供能,SpaceX 则聚焦轨道数据中心,与其过去倡导的“太阳能电气化经济”形成反差。报道借此讨论其能源战略变化及背后商业与技术考量。
有人利用 AI 对驾驶舱录音的频谱图像进行语音重建,试图还原已故飞行员的声音,引发对事故调查材料滥用与隐私伦理的担忧。受此影响,美国国家运输安全委员会一度临时关闭案件档案系统访问权限。
SpaceX 递交 S-1 文件,披露其 IPO 计划目标估值达 1.75 万亿美元,若成行将成为美国史上最大 IPO。文件还列出长达 36 页风险因素,宣称总可服务市场达 28 万亿美元,并将高管激励与火星殖民等长期目标挂钩,显示其资本运作已超出单纯航天业务。
SpaceX 递交 IPO S-1 文件,披露其上市叙事已超越火箭业务本身。文件包含长达 36 页风险因素,并给出高达 28 万亿美元的总可服务市场测算;同时提及与建立火星殖民地目标挂钩的薪酬设计,以及瞄准成为美国历史上最大规模 IPO 的估值目标。
在 Google I/O 主题演讲中,Google DeepMind CEO Demis Hassabis 称人类正“站在奇点山麓”。文章借此指出,AI 驱动科学研究的路径正在变化:行业叙事从单纯强调通用智能前景,转向展示 AI 如何更直接地服务科研发现与现实应用,反映出科技公司在 AI 科学战略上的重心调整。
OpenAI 在 2026 年 Gartner 企业级 AI 编码代理魔力象限中被评为领导者,其 Codex 因创新能力及面向企业的大规模部署表现获得认可。该消息反映出 OpenAI 在企业软件开发与代码生成场景中的市场地位进一步巩固。
文章围绕“AI 能否学会理解世界”展开圆桌讨论,聚焦世界模型在当前 AI 发展中的地位。内容指出,AI 公司正尝试构建能理解外部世界、弥补大语言模型局限的系统,并结合近期技术进展讨论世界模型为何成为行业关注焦点。
Google DeepMind 宣布在亚太地区启动 Accelerator 加速器项目,聚焦利用人工智能应对环境风险。该计划预计支持相关初创团队与研究者,推动 AI 在气候与生态问题中的实际落地,体现科技公司在亚太扩展社会影响力项目与区域合作布局。
文章探讨 AI 时代创意生产与叙事方式的演进,指出讲故事始终是人类表达理想、警示、希望与经验的核心能力。内容回顾从洞穴壁画颜料到摄影等技术如何持续塑造创作媒介与传播方式,并强调在 AI 推动下,创意规模化生产与内容分发格局正进一步变化。
Typewise 在 Y Combinator 招聘页面发布 AI Growth Engineer 职位,工作地点为苏黎世或远程。该信息主要涉及人才招聘与岗位开放,未披露新模型、融资、政策或研究进展,属于公司运营层面的常规动态。
文章围绕马斯克起诉 OpenAI 一案展开,介绍其指控 CEO Sam Altman 与总裁 Greg Brockman 在公司非营利属性问题上存在误导。内容以圆桌讨论形式呈现,由报道庭审的记者兼律师 Michelle Kim 解析案件经过、判决结果及其背后的治理争议。
各来源累计条数
- arXiv AI60
- OpenAI Blog50
- Google DeepMind50
- TechCrunch AI20
- 量子位11
- MIT Tech Review AI10
- 36氪 AI9
- Hacker News7
- The Verge AI6