Fable 的判断力
来自 Claude Code 团队的建议:在使用 Fable(和 Opus)时,应给予模型自行判断的空间,而非过度指令化具体操作。例如测试场景中,与其规定"大功能才用自动化测试,小改动不跑测试",不如直接告诉模型"自行判断何时适合运行测试"。让模型发挥判断力往往比僵硬规则产生更好的效果,这种方法已在实际开发中得到验证。
Anthropic 的 Claude Opus 4.8 在调用 Pi 编辑工具时,会在 nested edits[] 数组中生成额外杜撰的字段,导致工具调用因不符合 schema 而被拒绝重试。编辑内容本身通常正确,但参数格式错误,这一问题在 Opus 4.8 等高端模型上反而比小模型更频繁出现。作者 Armin 深入研究后发现这可能与模型遵循指令遵循(instruction following)的能力增强有关——模型倾向于填充更多字段以"取悦"指令,而非严格遵守 schema 定义。
"a global partnership building a public option for AI" 是一个于 2025 年 2 月巴黎 AI Action Summit 成立的非营利组织,已获 $4 亿承诺资金支持。该组织近日发布 Gap Map v0.1,试图索引当前开源 AI 的全景图:详细收录 421 个产品,包括 266 个软件工具和库、85 个模型、50 个数据集、20 个硬件项目,由 228 个组织开发。这是目前最全面的一份开源 AI 生态全景索引。
1914 年美国内政部垦务局开始评估哥伦比亚河开发潜力,干旱但潜在肥沃的土地急需水资源,山脉中封存的贵金属矿藏需要电力才能冶炼。两年后俄勒冈州工程师力推邦纳维尔坝址建设,将其定性为国防项目。作者追溯了20世纪初美国西部水资源与电力开发的历史背景,探讨公共基础设施如何塑造区域经济发展。
来自 Claude Code 团队的建议:在使用 Fable(和 Opus)时,应给予模型自行判断的空间,而非过度指令化具体操作。例如测试场景中,与其规定"大功能才用自动化测试,小改动不跑测试",不如直接告诉模型"自行判断何时适合运行测试"。让模型发挥判断力往往比僵硬规则产生更好的效果,这种方法已在实际开发中得到验证。
本期通讯涵盖以下重要动态:Claude Fable 5 和 GPT-5.6 发布,但美国出口管制带来不确定性;GLM-5.2 超越 Llama 成为新的最佳开源权重模型;"Tokenmaxxing" 热潮已退;Datasette Apps 正式推出;sqlite-utils 和 shot-scraper 持续更新;此外还收录了多个 WebAssembly 项目及其他模型发布动态。
Anthropic 的 Claude Opus 4.8 在调用 Pi 编辑工具时,会在 nested edits[] 数组中生成额外杜撰的字段,导致工具调用因不符合 schema 而被拒绝重试。编辑内容本身通常正确,但参数格式错误,这一问题在 Opus 4.8 等高端模型上反而比小模型更频繁出现。作者 Armin 深入研究后发现这可能与模型遵循指令遵循(instruction following)的能力增强有关——模型倾向于填充更多字段以"取悦"指令,而非严格遵守 schema 定义。
从贝叶斯统计角度探讨一个反直觉问题:虽然新数据通常会减少估计的不确定性,但并非绝对。如果获得意外数据(surprising data),即似然度远低于预期的观测值,后验分布反而可能变得更加分散。作者通过数学推导证明这一现象,并指出这与"更多数据 = 更小置信区间"的常见误解相悖。
Raymond Chen 通过分析崩溃转储中 DLL 卸载的环形历史记录,确定 CcNamespace.dll 是导致其他 DLL 过早卸载的根源。他利用 !dumpdomain 和 !lmi 等调试命令追踪模块加载顺序,发现一连串 DLL 被连续卸载的时间线,从而推断出 FabrikamContextMenu.dll 和 LitWareSync.dll 的卸载是由 CcNamespace.dll 触发的一系列连锁反应。
作者 Cory Doctorow 探讨了抽象层级与保真度的关系,批判了"氛围编码"(vibe coding)现象,认为过度依赖 AI 生成代码会丧失对底层原理的理解。文章链接涵盖 CARDiac 计算机历史、版权蟑螂败诉、美国住房补贴等话题,反映了技术与人文交叉的多元视角。
Anthropic 于 2024 年 10 月发布的首个 Claude「桌面」应用采用 Electron 技术栈,界面设计令 UI 设计师失望。John Gruber 对比指出,ChatGPT 的 Mac 原生应用才是真正的 macOS 应用,体验流畅且持续改进。Gruber 批评 Claude 选择 Electron 而非原生开发的决策,认为 Anthropic 作为 AI 公司理应做得更好,目前正越来越多地使用 ChatGPT 而非 Claude。
开发者将 1D 条形码(UPC)嵌入 QR 码的四个定位角点之间,实现两种编码的融合。通过调整手机与二维码的距离,近距离时可读取 1D 条形码的数字信息,远距离时可读取 QR 码的 URL 链接。QR 码的高纠错级别为此设计提供了可行性支撑,为条形码向 QR 码过渡提供了一种混合兼容方案。
本周包管理器重要更新:Hex 2.5.0 新增组织级依赖策略功能,组织可发布命名策略到仓库,项目通过 HEX_POLICY 或 mix.exs 中的 :hex 块选择加入,解析时会过滤含高危漏洞或已退休的依赖版本;Conan 2.30.0 同期发布。该 Roundup 基于包管理器 OPML feed 集合和 Mastodon 上的相关讨论整理。
日历应用 Fantastical 4.1.15 新增「日历镜像」功能,允许用户连接工作日历和个人日历,自动同步显示对方日历中的事件。该功能的核心优势是事件信息不会上传至 Flexibits 服务器,仅保存在本地设备。用户可选择展示完整事件详情或仅显示「Busy」状态,保护牙科就诊等敏感信息不被同事知晓。
开发者教育者 Josh W. Comeau 发布第三门课程「Whimsical Animations」,目前销量仅为典型课程发布的三分之一,其两门已有课程的销售也显著低于去年。Simon Willison 认为主要原因是 AI 带来的双重打击:开发者担心岗位前景而减少学习投入,同时 AI 工具本身也在蚕食学习新技术的市场需求。这种趋势对以开发者为受众的独立课程创作者构成严峻挑战。
本文讲述 Maxis Software 的发展历程,以创始人 Will Wright 关于「大陆漂移令人惊叹」的语录开篇,展现其对模拟自然的执着追求。文章回顾了游戏玩家群体在软件历史保存方面长达十五年的贡献,以及早期游戏社区对 Maxis 发展的影响。