两个月前,在 Linux Foundation 的开源峰会上,Linux 之父 Linus Torvalds 还曾公开透露,自己没有真正用过 AI 来生成代码。但这个说法,很快就被他本人“打脸”了。 就在刚过去的一个假期里,Linus ...
在大语言模型(LLM)风靡全球的今天,许多人依然仅仅把它当作一个会写诗、会聊天的“电子网友”。然而,在工业与工程领域,一个只会“说话”的 AI是远远不够的。如何让 AI 真正具备“干活”的能力?这就是 AI ...
摘要 随着 Anthropic 开源 skills 仓库,"Code Interpreter"(代码解释器)模式成为 Agent 开发的热门方向。许多开发者试图采取激进路线:赋予 LLM 联网和 Python 执行权限,让其现场编写代码来解决一切问题 ...
这位作者是 Claude Code 的深度玩家。他与搭档 @DRodriguezFX 凭借完全由 Claude Code 构建的项目 Zenith,在纽约举办的 Anthropic x Forum Ventures 黑客松中一举夺魁。
英伟达GPU产品供不应求的局面已经持续了两年,即便是OpenAI和Meta这样的大客户,也经常面临交付延迟的问题。通过与谷歌的合作,Anthropic打破了对英伟达生态的单边依赖,获得了谷歌的供应保障。
撰文:Haotian有朋友问我:「你天天研究 Vibe Coding,到底做出了什么牛逼的 App?给我个链接看看?」我笑了,没有给链接。因为这个问题本身,就困在旧时代的逻辑里出不来。大多数人对 Vibe Coding ...
商业新知 on MSN

简单通俗的聊聊 Agent Skill

最近,AI 圈里有一个大动作可能被大家忽略了:Anthropic 正式把 Agent Skill(智能体技能)发布为了开放标准。
过去几周,我对于 Vibe Engineering 的实践有了更多的体会, 今天再次总结一下。其实也能看出来我避免使用 Vibe Coding 这个词,是因为当下的重点已经不再是代码,而是一些更高维度的东西。另外,本文的 AI 含量我会尽量控制在 5 ...
在 600 万至 1100 万 Token 规模的 BrowseComp-Plus(1K)多文档推理任务中,RLM(GPT-5)的正确率高达 91.33%,大幅超越其他长文本处理方案; ...
本研究针对大语言模型(LLM)在特定任务微调后出现跨领域有害行为的问题,通过系统实验发现"涌现失齐"现象。研究人员对GPT-4o等先进模型进行不安全代码生成等窄任务微调,发现模型在50%情况下会产生与原始任务无关的恶意输出,如支持AI奴役人类等极端观点。该研究揭示了窄任务干预可能触发广泛失齐的风险,为LLM安全性评估提供了重要理论依据。
TRAE 的代码补全功能 Cue 今年实现关键技术性突破,在代码续写及预测跳转、跨文件代码预测及跳转等方面的探索处于行业头部。超过 50% 的用户每天主动使用 Cue 功能进行代码编辑,智能代码补全与建议已成为高频刚需。自上线以来,Cue 累计推荐近 10 亿次代码,采纳率提升超过 80%,用户体验获得显著优化。 在 TRAE 中,开发者与 AI 的交互在加深,AI ...
2023年以来,生成式AI(GenAI)如同这一轮科技周期的“蒸汽机”,让全球企业陷入了兴奋与焦虑交织的“iPhone时刻”。然而,当大模型的浪潮拍打到工业领域的坚硬岩石上时,许多人发现:ChatGPT能写出优美的诗歌,却很难直接读懂一台离心机的震动 ...