你的位置:滚球app官方网站 > 滚球投注 > 滚球app下载 开源模子首超Opus4.6!智谱GLM-5.1登场,14小时后CUDA各人被冲了
滚球app下载 开源模子首超Opus4.6!智谱GLM-5.1登场,14小时后CUDA各人被冲了
发布日期:2026-04-09 01:24    点击次数:179

滚球app下载 开源模子首超Opus4.6!智谱GLM-5.1登场,14小时后CUDA各人被冲了

优化 CUDA Kernel这件事,刚刚被 AI 狠狠地冲击了一波。

因为当今,给 AI 十四个小时,它就能帮你把 CUDA Kernel 优化,加快比从 2.6 × 推至 35.7 ×!

什么看法?

当年东说念主类资深 CUDA 工程师要完成这个任务,需要数月反复测试、调优、推翻重来才行;但当今,AI 在你寝息的时候就能惩办掉。

而且 AI 在这个经过中还展现出了各人级的直观。

举例在优化初期,它尝试在现存高层框架内寻找解法,但很快通过自主跑测试发现性能波及了天花板,然后它便作念出了东说念主类各人才有的决策——

自主判断废弃高层框架,平直转向底层 C++ 进行硬核重写。

整整 14 个小时里,这个 AI 主打一个全自动:AI 我方发现瓶颈,我方改革技能栈,我方再行编译,我方测试。

那这到底是何许 AI 是也?

不卖关子,恰是各人纯属的,来自智谱的开源模子——GLM-5.1。

跟着此次长程任务(Long Horizon Task)智力的栽种,智谱官方也晓谕了一个进攻的突破:

首次解锁了开源模子与现时全球最顶尖闭源模子 Claude Opus 4.6 的全面临皆!

嗯,是妥妥稳坐全球最强开源模子宝座的嗅觉了。

而且,从更多的泰斗评测榜单中来看,亦然印证了这极少。

在被称为"软件工程智力试金石"的SWE-bench Pro基准测试中,GLM-5.1 刷新了全球最好收货,平直杰出 Claude Opus 4.6、GPT-5.4 等一众头部模子,拿下全球第一:

致使在国外网友们的圈子中,照旧吹起了弃用 Claude Max的风了:

它的手感和 Opus 一模不异,使用额度是 Claude Code 的 3 倍,成本却唯独 1/3。

HuggingFace CEO也出头站台,称 SWE-Bench Pro 中性能最强的模子开源了:

而这一切收货的背后,恰是智谱面向小时级的长程任务智力。

给 AI 几个小时,一切都不不异了

现时主流的大模子,不错说大大宗照旧处于"分钟级交互"的阶段。

但到了 GLM-5.1 这边,它的委派单元就不同了——一个完好的技俩。

接下来,咱们就通过实测的方式,来看下 GLM-5.1 的实力到底几何。

调用用具 1000 轮,优化真是机器学习模子负载

第一个实测,咱们顺着前边的 CUDA 的例子,不息让 GLM-5.1 进行一场磨练:

KernelBench Level 3 优化基准,这一基准涵盖 50 个真是机器学习计较负载,主打一个规复真是工业场景,磨练的是端到端的完好优化智力而非单一算子调试。

在跳跃 24 小时的络续交迭代中,GLM-5.1 全程自主发力,无需东说念主类各人侵扰,一遍遍完成"编译—测试—分析—重写"的闭环轮回,最终交出了这样的截止——

3.6 倍几何平均加快比,而四肢对比,torch.compile max-autotune 模式仅能达到 1.49 倍,差距平直翻倍不啻!

从这个经过中不错看到,GLM-5.1 能够自主编写定制 Triton Kernel 和 CUDA Kernel,利用 cuBLASLt epilogue 交融并实施 shared memory tiling 与 CUDA Graph 优化。

这些优化计谋隐敝了从高层算子交融到微架构级调优的完好技能栈,每一步都是模子的自主决策。

截止再次标明,在 GPU 内核优化这一传统上高度依赖各人教会的限制,爱游戏appAI 模子照旧展现出从问题分析、决议设想到迭代调优的端到端自主使命智力。

1 小时从零构建 MacOS 桌面环境

在这个实测中,咱们给 GLM-5.1 扔了一份 3000 字的 PRD,中枢条目唯惟一个:

从 0 起头复刻 MacOS 中枢 UI 与交互,不仅要前端壳子,还必须包含窗口不竭器、Dock 栏调停、以及模拟的底层文献系统。

这是一个标准的前端工程团队至少需要数天才能打磨出原型的任务,但在 GLM-5.1 这里,时代被压缩到了小时级别。

瞧,待它分析完任务之后,我方就起头唰唰地编程了:

1 个小时之后,在莫得任何东说念主工参与的情况下,一个 MacOS 的桌面环境,就这样水汪汪地出身了!

不错看到,鼎新桌面布景、放大幽静 Docker、末端呐喊践诺、系统自带的截图功能等,完满都能杀青。

而在智谱官方的 demo 中,展示了 GLM-5.1 耗时 8 小时杀青的愈加复杂的 Linux 系统:

践诺了 1200 多步,完好的桌面、窗口不竭器、状况栏、应用标准、VPN 不竭器、中笔墨体撑捏、游戏库等……绝顶于一个 4 东说念主团队一周的开荒使命量。

不得不说,当今 GLM-5.1 的每一次提交,都是具有实质真理真理的系统级演进。

全自动重写屎山代码

写代码的东说念主都知说念,比从零写一个新型样更灾荒的,是重构别东说念主留住的屎山代码。

但当今有了 GLM-5.1,咱们不错把这个任务交给它来处理了。

举例这段代码就号称是屎山中的经典:变量名完全无真理真理、五层嵌套 if、换取计较总额三遍、全局变量到处乱改、函数几百行不拆分……

能运行吗?能运行;恶心吗?亦然真恶心。

而在 GLM-5.1 只需半小时的自动重写之后,一份防卫了了、稳妥标准的代码就出身了:

655 次迭代,糟塌向量数据库性能瓶颈

如若说重构代码还仅仅把已有的东西作念好,那向量数据库优化,磨练的便是AI 自主迭代、捏续突破的智力。

这也大约恰是东说念主类资深工程师最中枢的价值。

在这项测试中,GLM-5.1 的需求是优化现存向量数据库的查询性能,滚球app尽可能栽种 QPS。

随后,它开启了完全自主的"测试 - 分析 - 优化 - 再测试"闭环。

每一轮优化后,它都会主动跑完好的 Benchmark,取得 QPS、蔓延、内存占用等中枢数据,自主分析性能瓶颈。

最终,在 655 轮迭代之后,GLM-5.1 把向量数据库的查询隐约从初度委派的 3108 QPS 悉数推到 21472 QPS,栽种到启动郑再版块的 6.9 倍。

AI 能零丁使命多久,成了新标准

之是以 GLM-5.1 此次能够炸场,实践上是它踩中了 AI 行业的下一个中枢赛点:长程任务(Long Horizon Task)智力。

2025 年 3 月,全球顶尖的 AI 安全磋商机构 METR(Model Evaluation and Threat Research)便提倡了一个澈底改革行业领悟的新方针,叫作念 Task-Completion Time Horizon(任务完成时代线)。

这个方针的中枢想想是,不再用作念题的准确率来计议模子有多醒目,而是用时代来计议它能零丁完成多万古期的东说念主类各人任务。

磋商裸露,前沿模子的时代线每 7 个月就会翻一倍,这条指数弧线,被 MIT Technology Review 称为" AI 限制最进攻的一张图"。红杉本钱更是在 2026 年头平直宣告:"这便是 AGI 的中枢场地",并直言:2023-2024 年的 AI,是只会对话的" talker ",而 2026-2027 年的 AI,将成为能着实落地作念事的" doer "。

而 GLM-5.1,是全球第一个在真是工程任务中,考证了 8 小时捏续使命智力的开源模子。

它能在单次任务中,捏续、自主地使命长达 8 小时,经过中自主贪图、自主践诺、自主测试,碰壁时主动切换计谋,出错后自行竖立,最终委派完好的工程级效果。

GLM-5.1 之是以能作念到这极少,中枢源于三个维度的系统性技能突破:

第一,更强的长程贪图与目的保捏智力。

它能把一个复杂的大目的,拆解为可践诺的多阶段盘算,况兼在长达十几小时、上千步的践诺链路中,永远围绕最终委派目的鼓励。简短来说,便是干到第十步,还牢记第二步定的模范。

第二,更稳的自适合纠错与捏续践诺智力。

它杀青了代码编写、用具调用、环境调试、API 对接等多个标准的巩固衔尾,半途出错时,不会停驻来等东说念主工介入,而是会自主检察造作日记、定位问题根源、竖立 bug,致使我方写记忆测试用例考证竖立效果。

第三,更好的状况延续与高下文整合智力。

面临万古期跨度、多轮反映和百万级 token 的高下文信息,它能巩固跟踪已完成的使命、现时所处的阶段和下一步的中枢动作,捏续整合新的信息,保捏悉数践诺链路的一致性。

开源模子看中国,更得看智谱

GLM-5.1 的出现,不仅是模子智力的升级,鼎新写了全球大模子行业的叙事逻辑。

永远以来,中国开源模子永远带着追逐者的标签,与好意思国顶尖闭源模子存在差距,而 GLM-5.1 澈底糟塌这一场合:

它在泰斗榜单上对皆 Claude Opus 4.6,在 SWE-bench Pro 等中枢工程方针上杀青反超,让中国开源 AI 在中枢工程智力上与全球前沿并驾皆驱。

更进攻的是,它的变革远超模子自己,正重构万亿级 IT 作事商场的底层逻辑。

AI Coding 的进化有了了旅途:从标准员提效率具,到裁汰代码门槛,再到能自主作念事的低级工程师,而 GLM-5.1 的 Long Horizon 智力,平直将 AI 推向能捏续使命数小时、委派完好技俩的新阶段。

当 AI 的委派单元从一转代码变为一个完好技俩,便冲击了悉数软件工程的坐褥联系—— 4 东说念主团队一周的使命量、资深工程师数月的优化任务,它数小时就能完成,这将重构多个行业的订价与东说念主力建树逻辑。

虽然,咱们不必堕入 AI 会替代标准员的无须恐忧。就像当年计较机的普及,莫得淘汰管帐这个事业,仅仅淘汰了不会用计较机的管帐;AI 的到来,也不会淘汰开荒者,只会淘汰不会独霸 AI 的开荒者。

GLM-5.1 的出现,着实给悉数行业抛出的中枢问题是:当 AI 照旧能自主完成长达数小时的复杂长程任务,杀青从贪图、践诺、纠错到完好技俩委派的全闭环时,东说念主类的不行替代性到底在那儿?

谜底大约便是界说问题、创造价值、作念出中枢决策的智力,毕竟这是 AI 暂时无法替代的中枢护城河。

而对中国 AI 行业而言,GLM-5.1 仅仅起头,当开源模子达到全球顶尖工程智力、AI 从对话者变为践诺者,行业必将迎来更澈底、更深远的变革。

一键三连「点赞」「转发」「严防心」

接待在驳倒区留住你的想法!

—  完  —

� � 谁会代表 2026 年的 AI?

龙虾爆火,带动一波 Agent 与繁衍居品海浪。

但真恰恰得持久温存的 AI 公司和居品,大约不啻于此。

如若你正在作念,或见证着这些变化,接待文书。

让更多东说念主看见你。� � https://wj.qq.com/s2/25829730/09xz/

一键温存 � � 点亮星标

科技前沿确认逐日见滚球app下载

一分彩APP官方网站下载