从零构建 LLM(34a):为训练流程搭建 JAX 训练循环
作者基于 Sebastian Raschka 的《Build a Large Language Model (from Scratch)》完成了一年学习后,挑战不参考原书独自构建并训练 LLM。本篇记录了使用 JAX 框架搭建训练循环的完整过程,输出目标是对标此前 PyTorch 实现的最优模型质量,标志着从学习者向独立实践者的转变。
Claude Sonnet 5 正式发布,Anthropic 声称其性能接近 Opus 4.8,但价格更低。系统卡片揭示了模型在网络任务方面明显弱于 Mythos,且已通过美国政府的安全审查得以发布。该版本开发者文档比官方公告包含更多可操作的细节信息。
Ornith-1.0 是 DeepReinforce 发布的首个模型,采用 MIT 许可开源权重,提供 9B Dense、31B Dense、35B MoE 和 397B MoE 四种规格变体。该模型基于 Gemma 4 和 Qwen 3.5 预训练,在同类规模开源模型的编程基准测试中达到最优性能,特别针对代理编程场景进行优化。
勒索软件组织从苹果印度供应商 Tata Electronics 窃取数据后,将敏感文件发布至暗网,涉及 iPhone 18 Pro 的组件清单、供应商列表及实机照片。此次泄露威胁到苹果在全球范围内的供应链谈判机密,可能影响即将发布产品的市场策略。
作者基于 Sebastian Raschka 的《Build a Large Language Model (from Scratch)》完成了一年学习后,挑战不参考原书独自构建并训练 LLM。本篇记录了使用 JAX 框架搭建训练循环的完整过程,输出目标是对标此前 PyTorch 实现的最优模型质量,标志着从学习者向独立实践者的转变。
Nano Banana 2 Lite 即 Gemini 3.1 Flash Lite Image,是 Google 定位为「最快最便宜 Gemini 图像模型」的产品,专为速度和规模化场景设计。作者测试了「在图片中找浣熊持对讲机」的任务,相比 4 月的 Nano Banana 模型有明显提升,但仍有拼写错误问题。
3Blue1Brown 创始人 Grant Sanderson 与播客探讨 AI 在数学领域的进展远超其他领域,使得数学成为观察 AI 进步的最佳窗口。他讨论了数学史上最重要概念突破的本质,以及与当前 AI 能力的差异,并探讨 AI 对人类理解的净影响是增强还是削弱。
作者对AI行业持批评态度,认为该行业正面临严重的财务困境。付费订阅可获取对NVIDIA、Anthropic和OpenAI等公司财务状况的详细分析,以及对AI泡沫的深度解读(文章已更新至3.0版本)。作者还提供关于SaaS崩塌、私募信贷和私募股权的「反对者指南」系列,帮助读者理解当前金融体系。
作者在联合国开源周上观察到,来自十多个国家的政府官员纷纷将开源软件称为「关键基础设施」,这一框架源自Nadia Eghbal于2016年为福特基金会撰写的《道路和桥梁》报告,历经十年终于触达了其描述的对象群体。在联合国会议厅中,作者开始思考:如果不再把这个比喻当作隐喻,而是字面意义上去理解开源与公共基础设施的关系,会发生什么?
GHC 10.2版本改变了内置名称的解析机制,这些名称现在通过GHC.Essentials模块解析,而该模块位于base库中,导致每个包都隐式依赖base。Dan Burton的一个零依赖Haskell包composition受到冲击,其原本设计就是不依赖任何东西甚至不包括base。最终Dan关闭了修复PR,发布2.0版本并正常依赖base,承认从该版本起所有包都会获得隐式base依赖。
Windows窗口类结构中预留的额外字节(extra bytes)区域原本设计用于存储小型整数和ID,但Microsoft发现开发者会想方设法在这些空间中存储指针,导致ID字段不得不扩展为指针大小以容纳地址。从16位Windows时代的SetClassWord函数开始,系统就已记录了开发者滥用额外字节的历史。
shot-scraper 1.10 版本新增 video 命令,可通过 storyboard.yml 定义操作流程并使用 Playwright 自动录制网页应用的操作视频。这是作者推进「让编程代理产出工作演示」理念的最新工具,可帮助 AI 代理直观展示其执行结果。
英国竞争与市场管理局(CMA)就苹果和 Google 移动平台的「引导」(steering)规则和 NFC 访问限制启动新规咨询。当前苹果禁止引导、Google 限制引导,新规将要求平台允许开发者向用户推荐平台外支付选项,并建立公平合理的引导费用框架。
英国竞争监管机构提议允许应用开发者引导用户至平台外支付选项,并要求 iOS 向第三方开放 NFC 访问,以削减苹果和 Google 的垄断优势。监管机构将制定引导费用的公平性标准,证据显示此举将显著降低开发者的合规成本。
美国最高法院以6-3票裁定,警方使用地理围栏搜查令(geofence warrant)获取手机用户位置数据的行为,构成《第四修正案》意义上的「搜查」。该案涉及2019年弗吉尼亚州一起银行抢劫案,警方要求谷歌提供特定时间内在案发地点附近的用户位置数据来获取定罪证据。最高法院将Chatrie案发回下级法院重审,但指出该案在技术上可能已无实际意义,因为相关判决于2024年已作出。
美国最高法院同意审理苹果针对「Apple v. Epic Games」案中民事藐视裁定的复审请求,限缩审查范围至petition中提出的第一项问题。该问题涉及苹果是否因在 injunction 条款文字之外对外部支付收取佣金而构成藐视。