标签

LLM

Anthropic 拿下 650 亿美元 H 轮:估值逼近万亿,开发者该怎么看?

来源:oschina.net 20
Anthropic 刚刚宣布完成 650 亿美元的 H 轮融资,投后估值 9650 亿美元——这个数字已经把大多数上市科技公司甩在身后。更值得关注的是,公司年化收入突破 470 亿美元,说明 Claude 的商业化不是纸上谈兵。本轮融资由 Altimeter Capital、Dragoneer、Greenoaks、Sequoia Capital 领投,...

Arm 开源 Metis:用 RAG + Agent 把漏洞挖掘的命中率拉到新水位

来源:oschina.net 17
Arm 把内部安全研究团队打磨多年的漏洞发现框架 Metis 完全开源了。这不是又一个"AI 扫描器"的 demo——它在 Arm 内部 130 多个软件项目里已经跑出真阳性率提升 10 倍、误报降低 50% 的硬数据,并计划 2026 年底前覆盖 Arm 全系产品。对于做安全审计、代码扫描的工程师来说,这个架构值得拆开看一遍。 静态分析工具(Cove...

OpenAI 推出 Rosalind 生物防御计划:前沿 AI 如何进入公共卫生与防疫实战

来源:openai.com 12
OpenAI 正式发布 Rosalind Biodefense 项目,将此前内部使用的 GPT-Rosalind 模型向经过审核的开发者和美国政府合作伙伴开放。这标志着前沿 AI 从通用对话场景,正式进入生物防御、公共卫生和疫情准备这类高敏感、高门槛领域——模型能力不变,但访问机制、使用边界和合作方资质都截然不同。 生物防御场景的数据和处理逻辑有几个鲜...

VS Code 1.122:离线也能跑自己的大模型,浏览器里直接测响应式

来源:oschina.net 19
VS Code 1.122 把两件开发者高频要做的事推到了编辑器内部:一是用自己部署的大模型写代码,二是看页面在不同屏幕上的表现。前者通过 Air-gapped BYOK 让你断网也能调用本地模型,后者用浏览器设备模拟把"开 Chrome DevTools 切设备"的流程收进了 VS Code。再加上更丰富的问题报告机制,这个版本在"编辑器即工作台"这...

Claude Opus 4.8:诚实度翻四倍,动态工作流初露锋芒

来源:oschina.net 18
Anthropic 刚放出旗舰模型的新一轮迭代——Claude Opus 4.8。编程、推理、agent 能力都有提升,但最值得工程师盯住的,是两个方向:自我审查能力带来的诚实度大幅改善,以及动态工作流的预览开放。价格没变,能力变了,这意味着现有 pipeline 可以直接升级,不用重新算成本。 模型"诚实"在 LLM 场景里不是道德口号,而是工程指标...

阶跃星辰开源 Step 3.7 Flash:196B 参数只激活 11B,Agent 场景的推理速度新标杆

来源:oschina.net 42
Agent 应用从 demo 走向生产,最大的拦路虎不是模型能力不够,而是推理太慢。多轮对话、工具调用、搜索反馈——每一轮都在等模型吐字,用户体感直接崩盘。阶跃星辰刚开源的 Step 3.7 Flash,用稀疏 MoE 把总参数推到 196B,但每步只激活 11B,换来最高 400 Tokens/s 的生成速度,瞄准的就是这个痛点。 Step 3.7 ...

Istio 1.28 支持即将终止:升级路线与实操检查清单

来源:istio.io 24
Istio 的版本维护策略很明确——每个小版本在 N+2 版本发布六周后停止支持。Istio 1.30 已于 2026 年 5 月 18 日发布,这意味着 1.28 的维护窗口将在 2026 年 6 月 28 日正式关闭。届时,安全漏洞和关键 bug 的修复不会再回溯到 1.28。如果你还在跑 1.28,现在就是规划升级的时间点,拖下去只会让未来的紧急...

第三方 AI 评估怎么做才可信?OpenAI 公开评估手册的核心思路

来源:openai.com 22
前沿 AI 模型的能力越来越强,但"强到什么程度"和"安全到什么程度"不能只靠模型厂商自己说了算。OpenAI 近期公开了一份面向第三方评估者的实践手册(playbook),系统梳理了如何对前沿模型做可信的外部评估——覆盖能力探测、安全护栏验证、评估有效性三个核心维度。这份手册不是空泛的原则声明,而是给出了具体的评估流程、指标设计和常见陷阱提醒,对任何...

在 SageMaker AI 上为形态丰富语言训练专属大模型——阿塞拜疆语实践

来源:aws.amazon.com 32
阿塞拜疆语属于突厥语族,一个词通过后缀叠加可以表达英语整句话的含义——名词有 18 种格变,动词时态与人称通过层层黏着完成。这种"形态丰富"(morphologically rich)的语言对大模型来说意味着两件事:词表膨胀极快,训练数据却极其稀缺。Azercell 作为阿塞拜疆最大电信运营商,需要在六周内从零搭建一套生产级训练框架,把通用基础模型改造...

用 LangSmith 在 AWS 上评估深度 Agent:从离线测试到线上监控的完整路径

来源:aws.amazon.com 19
当你把一个 Agent 从 demo 推到生产环境,最大的问题不是"它能不能跑",而是"它跑得对不对、稳不稳"。深度 Agent——那种会多步推理、调用工具、自己纠错的 Agent——比单轮 LLM 调用难评估得多:一次对话可能触发 5 次工具调用,中间任何一步偏了,最终结果就废了。这篇文章把 LangChain 在深度 Agent 评估上的经验和 A...