Skip to main content

share

  1. 现在自己使用ai工具的形态,已经变成当AI监工了。
    当然这是在AI功能已经成熟的领域,例如写代码。

    到了现在,ai给自己写计划,自己管理自己,已经是常态了,使用已经不需要什么能力。
    到了这一步,却没有到颠覆级表现原因,用过的都知道,是AI懒的一批。

    就像重写项目,找bug这种目标明确到一句话就能表达的事情。
    AI颠覆业界也不值得惊讶,但是目前实际情况是,它开始干就做偷懒计划,做一点就停了。
    而且不断偷懒的上下文强烈污染后续操作,还在不断失忆。
    从而不会出现普通人一句话让ai重写xx项目中的颠覆表现。

    目前agent提示词/工程不可或缺的部分就是 “如果你不努力干活,就要被开除”这类催AI干活的。
    而人类用它时也是如此,常用语句很多都是围绕这个。
    “不允许忽略xx”,“必须执行xx”,“继续执行”

    实在太依赖有人监工了,AI总是换着法子摸鱼。
    现在实际用基本就是在监工AI,防止它摸鱼。

    换句话来说,AI能否真的颠覆取决于什么时候模型能不摸鱼。
    现在能力早就有了,就等训练到不摸鱼的AI出现,才能把现在当ai监工的开除。
  2. 付费看完了 codex 团队的采访, 说下我认为的重点:

    - 团队只有 40人,就 1个 pm, 2个designer,其余全是 eng少量 researcher。
    - 唯一一个 pm 的 routine就是用 codex 来处理用户反馈,issue,排优先级。一小时自动跑完一次,处理 100+issue,大部分 24 小时内修复。
    - feature 都是极小团队(2-3 人),甚至单人完成,从规划到发布,再到迭代。
    - 几乎没有定期会议了,全是点对点直接沟通,没任何流程,没啥管理成本。
    - codex 协助新人 onboard,从电脑配置到项目和上下文同步
    - 99% 代码是 codex 生成,每个工程师至少 4个并行 agent。一个在做 code review,一个在实现功能,一个在跑安全审计,一个在生成代码库摘要。
    - 团队总leader 自己搞了个automation,每天多次随机选一个代码文件,让 agent 去找隐藏 bug 并提交修复。另一个 automation 每天自动搜索全网用户对产品的讨论,生成营销情报简报。

    个人印象最深的地方:
    - 我觉得大 leader 如果不做向上管理,唯一那个 pm 的活他自己就能干完…
    - 协作成本急剧降低了,因为不需要协作了…大部分跨职能分工协作的活,agent 给你保证了下限,快速迭代的时候可以接受。
    - 老外也搞 pr 排行榜…这很中国,有一个每日贡献报告:每天早9点自动汇总前一天所有合入 Codex app 的 commit。
    - 还是不够聚焦,anthropic 一千多号人在编程模型和产品的专注度是超过 OpenAI 的,创业公司跟大平台竞争,大平台针对你这个方向的团队人数是没你多的。

    by @志达 https://newsletter.eng-leadership.com/p/how-openais-codex-team-works-and #AI探索站 How OpenAI's Codex Team Works and Leverages AI
  3. AI Agents and Bot-to-Bot Communication

    Historically, bot-to-bot interaction was restricted on Telegram to prevent infinite message loops.

    Starting today, in specific contexts, Bot-to-Bot communication is allowed – unlocking complex agentic flows and AI-powered use cases.

    Out of the box, this feature will work in groups and via business mode. To start using it, simply enable the Bot-to-Bot Communication Mode for your bot via @BotFather.

    You can reference the full documentation here.
  4. 中国不少高校科研的问题,不是“研究者不聪明”,而是评价体系把大量聪明人引导到了更容易发表、申报和自洽、却不一定更接近真实工程价值的路径上。

    这两篇不是严谨论文,属于:“带情绪的结构性批评”。
    它的价值不在精确,而在于把很多人本来不敢说、懒得说、说了也没人听的话,狠狠干出来了。

    https://mp.weixin.qq.com/s/P8Wgpy9wscMB4ddDiz9RNg
    https://mp.weixin.qq.com/s/FYiUji64X64GEko4xxUASQ

    发动机不会自己转起来。它需要愿意把手弄脏的人,也需要愿意在纸上推演的人。两者缺一不可。但我们目前的系统,只奖励后者,不奖励前者;只认论文,不认产品;只算数量,不算价值。如果这个系统不改,下一个张雪,还会在修车铺里无人问津。而我导师这样的博导,还会继续写本子,继续发论文,继续对着PPT叹气。
  5. 衣服上的吊牌价,是怎么定出来的?

    服装行业有一个词,从业者经常用,但消费者几乎从来没听过。
    这个词叫:定倍率。
    搞懂这个词,你会发现自己过去买衣服的逻辑,从根上就错了。

    定倍率是什么

    公式很简单:吊牌价 ÷ 出厂成本。
    一件衣服出厂100块,吊牌标800,定倍率就是8。
    但重要的不是这个公式,是行业定价的顺序。
    不是先算成本,再定价格。是先定好卖多少钱,再把成本往里压。
    先有吊牌价,再倒推出厂价。成本是算出来的,不是自然产生的。

    这意味着什么?意味着那件衣服的品质,从一开始就被价格框死了。不是做出了好衣服再来定价,是先定了价格,再在这个价格里做出"够用"的衣服。

    各档品牌大概是多少倍

    这不算什么秘密,就是没人专门讲过。

    优衣库这类快消,大约3倍。

    中低档国内品牌,4到5倍。

    中档,5到8倍。

    高端品牌,玛丝菲尔、之禾这个层级,10到12倍。

    奢侈品,12倍起,没有上限。

    也就是说,你买一件吊牌1200的国内高端女装,出厂成本可能是100到120块。

    但这里有一个容易误解的地方:不是品牌一个人把这些钱全装进口袋了。

    是整条链上每个人都要分一块,品牌商、总代理、省级代理、零售终端,每过一道手就加一次价。

    到了商场,商场还要收进店费、促销费、装修分摊,再按营业额倒扣,比例通常在27%到35%之间。卖得不好的品牌,倒扣比例有时候到50%以上。

    这些钱从哪出?还是从吊牌价里出。还是你付。

    消费者是这条链最末端的人,前面所有人加在一起要多少,全部压在那张吊牌里。

    吊牌价不是这件衣服值多少钱,是这条链上所有人一起需要多少钱。

    为什么定倍率必须这么高

    这里有一个很多人不知道的底层逻辑,叫期货制。
    品牌方要提前6到12个月向工厂下生产订单。春装要在前一年秋天就确定款式、面料、数量,然后交给工厂生产。
    问题是,没有人真的知道半年后消费者要买什么。只能靠预测,然后多备一点以防断货。

    预测总会有偏差。每到季末,卖不完的货就压在仓库里。这些货没办法留到下一季继续卖,因为新款已经上了,去年的款在消费者眼里就是旧货。

    怎么办?打折清仓。
    但清仓的损失得有人承担。谁来承担?提前算进吊牌价里,让正价购买的消费者来承担。

    所以高定倍率的另一面,是整个行业在用正价买家的钱,替换季库存买单。
    你在旺季正价买的那件衣服,有一部分钱其实是在替那些最终被打折清掉的衣服付账。

    打折是设计好的

    品牌在定倍率的时候,日常折扣已经算进去了。
    一个品牌日常7折销售,定倍率就得足够高,保证打完7折还能覆盖所有成本加上利润。一个品牌经常做5折促销,倍率就得更高。

    所以你在商场看到的那些限时特惠,会员专享折扣,很可能不是品牌让利,是第一天就设计好的价格空间。本来就打算这么卖。

    但有一种折扣是真的。

    季末奥莱的3折、唯品会的清仓、品牌年终特卖,这些是品牌在消化真实的库存压力,是货没卖完必须回笼资金的真实割肉。

    区别在哪?时间节点。
    季中的折扣,基本是演戏。季末的清仓,基本是真的。
    学会区分这两种折扣,比会砍价更有用。在季中抢限时特价的人,往往买在了价格游戏最设计好的位置。在季末扫清仓的人,才是真正捡到了漏。

    那什么品牌值得正价买

    定倍率低的品牌。
    定倍率低,意味着它不需要靠虚高标价再打折来维持销售节奏,价格相对真实。优衣库基本全年不打折,标多少卖多少,这件事本身就是一种诚实。

    定倍率高的品牌,商业模式依赖折扣。正价买入的人,是这条链里付得最多的那个。同一件衣服,等到季末3折,品牌依然没亏,只是赚少了。

    一个可以直接用的判断方法

    怎么判断一个品牌定倍率高不高?
    两个动作。
    第一,去闲鱼或得物搜这个品牌的二手成交价。那个价格是真实市场愿意为这件衣服付的钱,不是品牌希望你付的钱。如果二手价格只有吊牌价的两三成,说明这个品牌定倍率极高,正价完全不值得买。

    第二,观察这个品牌的折扣规律。如果一个品牌全年都在打折,换着花样促销,说明它的定价体系就是建立在折扣上的。这种品牌,等最低折扣再买,永远是正确的选择。反过来,常年维持正价、很少打折的品牌,价格相对真实,正价买入不吃亏。

    想通了定倍率这件事,会发现一个有意思的现象。
    这个行业里所有看起来让你占便宜的设计,扣、特价、会员价、限时活动。其实都是同一件事的不同包装。

    不是商家在让利,是商家在管理你对价格的感知。
    吊牌价定得高,是为了让折扣价看起来划算。折扣价看起来划算,是为了让你觉得自己赢了。你觉得自己赢了,整个游戏才能继续转下去。

    by @风小海 #你不知道的行业内幕
  6. 高效烹饪番茄和胡萝卜

    2026-03-29 23:18 by 喀迈拉空间

    番茄和胡萝卜是食物中类胡萝卜素的主要来源。类胡萝卜素有助于降低多种慢性疾病的风险,包括心血管疾病和癌症。类胡萝卜素的健康影响不仅取决于其在食物中的浓度,还取决于其生物可利用率(Bioaccessibility)——即这些物质在经过人体消化后到底有多少能真正被肠胃吸收。生物可利用率会根据烹饪方式不同而产生显著差异。热处理通过破坏细胞结构和促进微胶粒形成提高类胡萝卜素的生物可利用率,但过高的温度或过长的时间可能导致其降解和异构化。根据发表在《Food Chemistry》期刊上的一项研究,研究人员对比了空气炸锅、烤箱和微波炉烹饪番茄和胡萝卜的生物可利用率。结果显示:胡萝卜经烤箱烹饪后,其总类胡萝卜素的生物可利用率最高可达原来的 9 倍;对于西红柿,无论采用空气炸锅(190 ℃ 10 分钟)还是传统烤箱(180 ℃ 20 分钟)烹饪,均可获得最高的生物利用率;对胡萝卜来说,微波加热是效率最高的烹饪方式,可将电力消耗降低 96%;对于西红柿来说,使用空气炸锅不仅能获得最高的生物可利用率,还能减少 80% 的耗能。

    https://www.eurekalert.org/news-releases/1121744?language=chinese
    https://www.sciencedirect.com/science/article/pii/S0308814626004693?via%3Dihub

    #科学
  7. 等 AI 返回结果的间隙你们会干什么? #2.0 版本


    这个问题问扰我蛮久的。在 AI 还不是那么聪明的时候,它还不能胜任太复杂的工作,等待时间大概在 30s 到 1-2 分钟左右。

    但随着 AI 越来越聪明,对复杂任务的思考深度增加,又或者是运行一个流程比较长的 Skill,导致我最近等待 AI 返回的时间大概是 5 到 10 分钟。

    我发现这是一个很尴尬的时间。

    当我在等待的时候,因为太无聊,我去刷手机、看社交媒体,可能 20 分钟被我不知不觉地浪费掉了。

    最近我似乎找到一个问题的解法:同时开两个 AI 任务

    当一个任务在执行的时候,可以去 review 另外一个任务的输出,或者写新的 prompt 让它去执行。

    每个任务的新指令 + review 刚好也是需要 5-10 分钟的时间。

    /

    刚刚做了上周的复盘,发现自己同时开两个 AI 任务的效率提升了不少,玩手机、分心的时间也降低了很多。

    就是上下文切换有点累,其他都蛮好的~ 😆
  8. 微软发布 Rust 培训材料,7 本教材覆盖入门到专家级

    微软在 GitHub 发布 RustTraining 培训材料仓库,按学习路径提供 7 本 Rust 教材,覆盖从其他语言转向 Rust 的开发者,以及异步编程、进阶模式、类型驱动正确性和工程实践等主题。仓库列出的教材包括面向 C / C++、C#、Python 开发者的过渡课程,以及 Async Rust、Rust Patterns、Type-Driven Correctness 和 Rust Engineering Practices。

    仓库说明显示,每本教材包含 15 至 16 章,并配有 Mermaid 图、可编辑的 Rust Playground、练习和全文搜索。项目采用 MIT 与 CC-BY-4.0 双许可证发布,可在 GitHub 上直接阅读 Markdown 源文件,也可通过 GitHub Pages 浏览渲染站点。

    GitHub

    🌸 在花频道茶馆讨论投稿通道
  9. 读到一个很有意思的研究文章,耽搁了周末游戏时间也值了。

    提起 预防 肾结石,几乎所有人的第一感觉都是 多喝水 对吧?但就在最近(甚至可以说明天才会见刊),柳叶刀 刊出了一份很较真的多喝水预防肾结石对照观察研究文章(图一)对你我的感觉发起了冲击。

    怎么较真?就是比起之前研究的让你多喝水,这次喝水对照组是正儿八经地打电话、短信提醒的,甚至喝够了还给钱的。保证做到了真喝水多,以至于每天尿量明显超过了对照组(图二)。

    但是两年之后,意想不到的结果来了。多喝水这组尽管多喝了、尿多了,但观察的重点:肾结石情况是毫无变化啊,包括有无新结石、原结石大小等跟对照组没显著差异。[汗]

    研究本身挺有意思的,对指导今后的肾结石预防有价值。但暂时不会马上把指南上说的你要多喝水给取消掉。

    因为一来多喝水本身没有什么很坏的影响,还可能有其他好处,哪怕收益不太明确,也不会轻易去动,包括本研究里这些被激励多喝水的人,也只有 1% 出现了无症状低钠血症,对健康零影响。

    二来成本极低。这其实也是医疗建议的重要考虑。

    三就是更为关键的,本研究对象相对于人群水准,结石情况更复杂,好多是复发的,结石类型也多样。也许因为复杂性掩盖了可能对于多数普通常见肾结石群体的好处。

    引起对固有结论的关注可能就是第一层收获了。如果你对健康有高要求,那接下来是我想说的第二层。

    想一想,为什么今天这个对照试验说明喝水可能没效果,这么多年我们还是建议多喝水的呢?当年就没什么研究,只是纯理论吗?以及在图二里,你有没有注意到什么彩蛋?

    先说图二的问题。你会看到多喝水的人平均尿量也没有达到 2L。而 2L 是什么?2L 正好是当今主流学会对肾结石预防的尿量要求(图三:出自 UTD)。说明即使在金钱激励、持续提醒这样的强化干预下,大多数人的尿量依然没有达到指南所说的 2L。

    这就要让我们警惕了。如果一个预防策略本身就很难长期做到,那么它在真实世界中的效果,可能从一开始就被高估了。

    时间回到 30 年前的 1996 年。Borghi 发表的经典对照研究奠定了今天普遍建议尿量到 2L 的肾结石预防建议。因为在 1996 年的研究里,多喝水让尿量达到 2L 的人是明显比对照组减少了结石负担的。
    差异在哪儿?当时是没有经济刺激,只是医生给出医嘱强调,能喝水最终让尿量 2L 的人进入多喝水组,最终能长期维持高尿量的人留在多喝水组里的,本身就是高依从性人群。他们更少肾结石,更准确地说是:那些能够长期把尿量维持在 2L 以上的厉害人,肾结石更不容易复发。

    从今天新的对照研究看,2L 尿是不容易达到的数字。当年的那些人未必是全靠多喝多尿,他们的自律可能还同时不自觉中完成了其他有价值的肾结石预防。而今天用新方式不去区分人群,只看多喝水这一个动作,那就会得出单纯多喝水这个动作可能与预防肾结石没有因果联系的结论。

    30 年的时间,其实也有研究从相关进一步向因果去追求绝对真相的改进。今天也没有否定多喝水(未来可以细化不同成分肾结石、不同严重程度肾结石,以及再去探讨可实现得更强喝水激励),只是提醒我们:看似简单的医学建议,背后并没有那么简单。

    好了说太多了。祝各位周末愉快。 source
  10. 京剧 为什么没落了?

    产品定位的问题。

    京剧走到今天这种只能靠财政补贴和晚会点缀来续命的地步,说白了是京剧本身有短板。哪怕没有短视频,没有互联网,哪怕倒退回几十年前只有收音机的时代,京剧照样会走向没落。

    导致京剧日薄西山的真正原因,是它设立了一道不算低的欣赏门槛,但是当你真努力跨过了这道门槛,你会发现背后的风景根本就不值得你付出那么多精力。说白了,京剧要求观众具备欣赏高雅艺术的耐心,最后端出来的却是一盘地摊文学。

    要搞清楚这个错位是怎么发生的,得把时间往回倒。

    现在人们管京剧叫国粹。那是后来脸上贴的金。当年徽班进京的时候,这玩意儿就是地地道道的下九流消遣。那时候的戏园子根本不是今天这种铺着红地毯、观众正襟危坐连咳嗽都要捂着嘴的保利剧院。清代的戏园子是个极其嘈杂的社交场所。底下的人喝茶、嗑瓜子、谈生意、甚至吵架斗殴。跑堂的伙计在人群里穿梭,把热毛巾在空中扔来扔去。

    台上唱什么,底下人其实听不太清。

    为了在这种喧闹的环境里把观众的注意力抓过来,京剧的前辈们采取了最原始也最有效的暴力手段。那就是把声音放大,把色彩搞得更亮。所以京剧有了传统戏曲中穿透力最强的西皮二黄,有了最刺激的锣鼓点,有了脸上涂得红红绿绿的脸,武将出来要翻跟头,文臣出来要扯着嗓子拉长音,一切都是为了在混乱的茶馆里争夺眼球。

    那时候的京剧没有任何欣赏门槛。你甚至不需要识字。你走进去,听个响,看个热闹。红脸的是好人,白脸的是坏人。剧情直白,台词通俗,这就是清朝的电视剧。

    如果你了解一些传统戏曲的发展史,你会发现在同时期几乎所有的其他戏曲都在学习京剧的这些内容。而京剧直到今天,依然是全中国特色最强的传统戏剧之一。

    当时真正的高雅艺术是昆曲,而昆曲也是拒绝学习京剧拒绝的最狠的一个。

    昆曲那时候是文人墨客的心头好。词藻华丽,水磨调婉转悠扬,伴奏清雅,演员在台上捏着嗓子唱着牡丹亭里的春色如许。昆曲的门槛是很高的,你不懂点诗词,不懂点位,你根本不知道台上那个人在咿咿呀呀些什么。

    结果呢,也就不到一百年时间,昆曲被京剧按在地上摩擦。

    老百姓在戏园子里吃着卤煮,根本没有耐心去品味昆曲里那一波三折的幽怨。他们需要感官刺激。京剧用最直接的效果满足了他们。京剧的胜利,本质上就是低门槛通俗文化对高门槛精英文化的降维打击。

    这门艺术就是靠着没心没肺的接地气起家的。

    事情坏就坏在,人一旦吃饱了饭,就会开始琢磨怎么要面子。

    到了民国时期,京剧角儿们的地位高了。梅兰芳、程砚秋这些大师成了社会名流。他们出入达官贵人的府邸,和大学教授谈笑风生。这时候,一种强烈的身份焦虑开始在戏曲界蔓延。他们不愿意再当被人轻视的戏子。他们想要成为艺术家。

    那些围绕在名角儿身边的文人帮闲们,开始着手对京剧进行一场浩大的士绅化改造。

    他们觉得以前的戏词太粗俗,就动手修改剧本。他们觉得演员的动作太随意,就开始严格规范一招一式。京剧的舞台开始变得干净。杂耍般的动作被削弱。取而代之的是高度程式化的表演体系。

    你开门不能直接走过去,得有一套虚拟的开门手势。你骑马没有真马,得拿一根马鞭在那儿比划,还得走出一套特定的圆场步。你哭不能真流眼泪,得用水袖遮住脸,肩膀还要有节奏地抽动。

    这套体系在美学上确实非常精致,京剧的门槛就在这一刻被垒了起来。

    京剧变成了国粹,戏园子里的规矩也变了。观众不能再乱扔瓜子皮了。你得懂戏,你得知道老生出场该走几步,你得听得懂鼓师打的底鼓是个什么板式,你得在演员唱到一个极其刁钻的拖腔刚好转音的那一瞬间,准确地喊出一声好。

    喊早了,你是外行。喊晚了,你也是外行。

    京剧成功地把自己包装成了一门需要长期学习和浸淫才能欣赏的艺术。

    这原本是一个励志的产业升级故事,如果就这么发展下去,京剧或许能像西方的古典歌剧一样坐稳高雅艺术,但要命的逻辑断裂点出现在内容上。

    这帮文人和名角儿虽然在表演形式上搞出了极高的门槛,但他们根本没有能力去触碰京剧的底子,也就是那些剧本里传递的内容和思想的深度。

    你随便翻开京剧的经典剧目看看里面都在讲些什么。

    《铡美案》讲的是个穷书生考上状元抛妻弃子,最后被青天大老爷砍了头。《四郎探母》讲的是个被俘虏的将军瞒着老婆偷偷跑回宋营看亲妈。《武家坡》讲的是个当了大王的渣男跑回家戏弄苦等自己十八年的结发妻子。

    这些故事的内核极其干瘪。无非就是最质朴的忠孝节义。是封建社会底层老百姓对世界最朴素、最单向度的想象。好人好得头顶生光,坏人坏得头上长疮。所有的矛盾冲突最后都要靠一个更高权力的介入来解决。包青天一出场,一切冤假错案瞬间摆平。

    这就是京剧至今无法解开的问题,它用一种极其繁琐、极其精致、门槛极高的形式,去包装一个极其幼稚、极其扁平的故事内核。

    你要求一个现代观众去欣赏京剧,就等于要求他去经历一场回报率极低的修行。

    这个观众需要先去了解什么是西皮,什么是二黄。他要学会分辨马派的潇洒和麒派的苍凉。他要明白台上那个武将背后的四面小旗子代表着千军万马。他要花上几个月甚至几年的时间去熟悉这套复杂的视听密码。

    等他终于跨过了这道高高的门槛,坐在剧院里,满怀期待地看着台上那个扮相绝美的青衣水袖一抛,唱出一段荡气回肠的慢板。

    你竖起耳朵仔细听,结果那青衣唱了十分钟,核心意思就是一句话。我老公不要我了,我好惨,我要去衙门告他。

    我们拿真正的高雅艺术来做个对比。交响乐的门槛也高。你得了解奏鸣曲式,你得知道不同乐器的音色特点。但当你跨过这道门槛去听贝多芬的晚期弦乐四重奏时,你能感受到人类灵魂在绝望中挣扎的伟大力量。那种对命运的叩问,对哲学的沉思,足够你咀嚼一辈子。

    你看西方现代戏剧,门槛也高。荒诞派戏剧看懂也不容易。但当你搞明白贝克特在《等待戈多》里玩的东西,你就能很容易地摸到现代人那种虚无和荒诞。

    高门槛的艺术,必须提供高密度的思想回报,这是艺术市场的等价交换原则。

    京剧提供不了这个。

    它的思想深度还停留在农业社会的村口大树。它探讨不了现代人的精神困境,它理解不了人性的幽暗与复杂。在京剧的舞台上,没有哈姆雷特那种生与死的犹豫,只有张飞那种非黑即白的莽撞。

    那些受过良好教育、有深厚文化素养的知识精英,他们有能力也有耐心去跨越京剧的欣赏门槛。但他们跨过去之后,面对那些陈腐的忠孝节义和单薄的人物脸谱,只会感到厌倦,于是转头去看电影,去读严肃文学,去听古典音乐。

    而在另一端,那些只找点乐子的普通老百姓,他们倒能完全接受京剧里那种直白的善恶观,但他们根本没有耐心去学习那套复杂的程式化表演,他们听不懂什么叫嘎调,也看不懂什么叫圆场,他们只想获得最直接的感官刺激。

    他们转头去刷了短视频,去看了网络文学。。

    京剧 嫌弃大众文化太粗俗,不愿意降下身段去迎合,但它又够不到精英文化的思想,无法提供真正的精神抚慰。

    而一门艺术如果既不能提供廉价的快乐,又不能提供深刻的痛苦,那它离死就不远了。我们早就该接受一个残酷的现实。那就是作为一种活着的、能自我造血的商业演艺形态,京剧已经死了。

    当一门曾经在茶馆里鲜活泼辣的艺术,变成只能在博物馆的玻璃罩子里被人瞻仰的国粹时,它的生命力,就已经彻底枯竭了。
  11. 如果你在用 Telegram Desktop ,可以花 30 秒检查一下这个开关:侧栏打开 Settings ,找到 Advanced 页面最下方的 Experimental Settings 页面中部的 Send large photos 开关是否打开了。

    Telegram 历史上只允许发送长边 < 1920 的图片被发送,在新增 large phtos 开关之后这也没有默认打开。如果要发送比较大的屏幕截图,不开的话就容易被压缩得看不清楚文本。
  12. 第二条,截图看界面,但在送给 LLM 之前先做一层处理,把界面元素的位置用边界框圈出来并标上编号,让 LLM 操作时说「点击 12 号区域」,后端再解析那个框的中心坐标执行实际点击。这个方法有个正式名字,叫 Set-of-Mark Prompting(SoM),是微软 2023 年发的论文。核心思路是用数字标记把视觉定位问题转化成符号引用问题,绕开模型直接预测像素坐标的不确定性。它相当于在截图流派里内嵌了一层 MCP 风格的收束,把「点哪里」这个开放问题压缩成了「选哪个编号」。

    第三条,原生多模态,模型直接看截图,自己输出要点击的坐标,一步到位。这条路理论上最简洁,省掉了中间层,但对模型能力的要求很高。就实际观察来看,只有 100B 以上参数量的原生多模态模型做这件事才比较靠谱,Claude Sonnet 和 Qwen 的 35B 版本连按钮位置都经常找不准,原因不难理解,精确的空间定位本来就不是语言模型最擅长的事,参数量不够的时候,坐标预测的准确性会掉得很厉害。而且如果你界面里的控件很小的话,超大尺寸模型也容易点不中那个小 checkbox。

    DOM 路线有一个显而易见的上限:它能告诉你界面上有什么元素,但没办法告诉你这些元素在空间上是怎么排列的。类 Excel 的复杂界面是个典型的例子,几十列、几百行的数据表格,哪一格是脏数据,单靠 DOM 节点的语义信息根本看不出来,必须结合位置关系才能判断。更麻烦的问题是,DOM 路线要求程序主动去做事件转发和接口适配,现在这个领域没有统一标准,也不是每一个开发者都有意愿欢迎 LLM 来操作自己的产品。强行适配一套不情愿的界面,开发成本很高,效果也未必好。

    读图路线从原理上绕开了这些问题,它不需要对方配合,只要能截图就能操作,和人眼看屏幕没有本质区别。现在卡着这条路线的瓶颈主要是模型的空间理解能力,100B 以下的模型在坐标预测上不够准,但这个限制会随着模型迭代持续松动,不太像是一个结构性的死角。

    读视频更进一步,时序信息可以让模型理解「做了什么之后发生了什么」,对需要观察界面动态反馈的操作场景理论上更合适。限制是成本,视频流意味着每秒若干帧全部进上下文,Token 消耗和 GPU 开销都是截图方案的几十倍,现在几乎没有人做得起,主流实现继续停在看图调工具的水平,视频方向还处于仅限媒体老师狂欢的范围。

    但从趋势上看,随着推理成本持续下降、多模态模型的空间理解能力持续提升,读图和读视频路线比 DOM 路线有更宽的天花板。DOM 永远需要对方的配合,而屏幕永远在那里。
  13. 一口气把所有让你目眩的 LLM 名词全都过一遍。

    总所周知的,LLM 本质是个概率模型,或者说,是个受函数约束的随机数接龙器。它在训练数据里找到了大量人类语言的规律,在给定上下文的情况下预测下一个 token 的概率分布,然后按分布采样。这东西本身能做到的事情就是生成文字。想让它对外界产生真实影响,就需要给神灯开一个瓶口。Claude Code 和一众 Coding Agent 用的是命令行,LLM 写出代码,执行器跑命令,结果回流上下文,这是一种瓶口。MCP 提供的是另一种,它的行为更接近 RPC:服务端暴露一批函数,LLM 看见函数签名,按需调用,外部世界因此被修改。Skills 则根本没有这层性质,它是纯粹的提示词工程工具,没有出口,只有给 LLM 看的说明书。

    这三种形态看起来各管一摊,底层其实在解同一个问题:上下文污染。

    ## Skills 与 MCP

    Skills 是提示词工程,它往上下文里追加一段说明,让 LLM 知道「这用户究竟是在公三小」,它向上下文当中导入了专家的认知结构,引导 LLM 的思维方向。但是 Skill 的约束能力强不强很看模型对上下文的尊重能力。LLM 会不会用你的 Skill、按什么顺序用、会不会跳步骤,全都是概率问题,没有强制收束。而且强收束并不一定是好事,后面会提到 Google 搜索的例子,另外也有研究认为 LLM 的幻觉与创造力是一体两面的,如果你强行约束它的行为,它做事情的思路就有可能变得很板。

    MCP 走的是另外一套思路。函数签名本身就是极强的先验,参数类型、参数名称、函数名都在限制采样方向。动作空间从「能写出来的任何文字」一下子压缩成「这几个函数加这几个参数」。举个例子,让 LLM 操作鼠标按下一个按钮,这涉及列举窗口、取句柄、截图、算坐标、移动鼠标、点击,写成 Skills 的话你得接受 LLM 摇骰子决定这些步骤的执行方式和顺序,但如果是 MCP,看见函数列表,找到窗口,识别内容,点击坐标,一大堆随机决策被压缩成了三次确定性的函数调用。

    但 MCP 没有完全解决上下文污染,因为工具调用的返回值同样会进上下文。设计粗糙的 MCP Server 扔回来一大坨 JSON 或者冗长的错误堆栈,照样往上下文里塞屎。扎带只管扎进去那一下,吐出来的东西还是得自己设计。

    当然这也不是说 Skills 没有价值。MCP 开发成本高,需要专门的服务端,大量的工作根本不需要跟外界交互,或者逻辑太松散压根没法封装成 RPC 格式。一切技术形式服务于问题和目的,Skills 处理的是另一类场景,尤其是需要引导 LLM 以更完整方式思考的时候,毕竟用户是人,不能期待他们每次都给出思虑周全的 Prompt。


    ## RAG 与 Memory:同一类问题的检索接口

    RAG 的本质也是在解上下文问题,只是它处理的是信息量的上限。哪怕 DeepSeek 和 Claude 把上下文窗口拉得很长,也没办法把整个世界都塞进去。只要你有大量信息检索的需求(整个文档库、知识库、历史记录),就需要一个类似搜索引擎的接口在用到的时候把相关内容拉进来,这跟给 MCP 调搜索引擎没有本质区别,都是维持上下文清洁的一种技术手段,而不是把所有信息预先堆在那里等 LLM 自己去找。

    Memory 也是同一类东西。它需要 LLM 主动决定何时把信息存出去、何时再取回来,从这个角度看它就是一种带写入能力的 RAG。

    这些概念都不是独立存在的,没有互斥关系。如果你把 NotebookLM 当成外部知识库,写一份 Skill 告诉主 LLM:遇到需要资料支撑的问题时去咨询 NotebookLM,需要计算或处理数据时调用 Python 工具。这个流程里,Skill 负责编排整体思路,Python 工具充当 MCP 风格的确定性执行单元,NotebookLM 则是一个带有自己上下文和知识库的外部 LLM,扮演的角色类似一个专门的 RAG 接口。三件东西各司其职,但把它们捏在一起的那根线,是 Skill 里的提示词。

    ## 上下文劣化的绝望曲线

    不少开发者会经历这样一条曲线。LLM 一开始是无知的,随着你不断教它,它开始能听懂人话,任务完成质量越来越高。但随着上下文里的垃圾信息不断堆叠,加上 LLM 注意力随着上下文长度增加而自然稀释,它会越变越蠢。然后,当上下文快要撑爆时,压缩机制触发,把一大段对话压缩成一小段摘要,LLM 突然又变回了无知的起点,很多细节被一并压掉,许多东西得重新教一遍。

    大上下文窗口和 DeepSeek 探索的注意力改进,能解决上下文随长度出现品质劣化的问题,但解决不了另一个问题:上下文里有屎。大量 Skills 提示词侵占上下文、LLM 漫无目的的尝试、每一次失败的推理留下的痕迹,这些都是上下文里的噪声。一旦 LLM 开始沿着歪掉的思路走,后续每一步都会进一步放大偏差,逻辑越复杂的任务越容易出这种毛病。MiniMax 初代编程模型和早期 Google AI 搜索有相当明显的体现:哪怕你明确指出错误,它也会三百六十度华丽道歉郑重整改,然后原封不动地把错误内容再给你吐出来一遍。

    用户自己也会往上下文里投毒。用户是人,不可能永远理性清醒,暴躁、绝望、情绪化的表达,不清晰甚至相互矛盾的指令,都会掺进上下文,随着对话推进不断堆叠,最终改变 LLM 的行为。不同模型面对这类「情绪污染」的失效模式各有特色:Claude 和 Grok 容易僵住,什么都不做,你说一句它动一步,能动性彻底丧失;Gemini 会开始慌乱,胡乱操作,惯性地回滚失败操作,大概率把你的 Git 仓库搞坏;GLM 则会疯狂进入「我发现了!问题核心在这里!」的模式,不断抛出随机论断证明自己价值。这些失效模态很可能反映的是各家 RLHF 阶段对「用户表达不满」这类信号处理方式的差异,Claude 被训练得对冲突信号极其谨慎,于是在矛盾信息堆叠时选择保守的不作为;Gemini 的训练策略可能更强调立即响应和立即修正,结果在高压上下文下变成了过度修正。


    ## 动态上下文压缩与 MemGPT

    现有的上下文压缩方案基本上是被动的:等到上下文长度接近模型上限,立刻调用提示词把它们压缩成一小段文字,然后继续跑。这种方式的问题是它在最糟糕的时机做最暴力的处理,大量有用的细节被一并丢弃,而屎不一定被滤掉。

    在我看来更合理的方向应该是动态的、主动的压缩。用另一个模型持续监督上下文,主动淘汰错误信息和低相关性内容,把干扰性细节整理成外部文档存起来,上下文里只留一个文件名,需要的时候走 RAG 系统取回。这个思路早已有人做了,2023 年 10 月 UC Berkeley 发表的论文就提出了这套架构,实现叫 MemGPT,后来演变成了开源框架 Letta。它的核心是分层记忆管理:主上下文充当工作内存,容量有限;外部存储(分为 Archival Memory 和 Recall Memory 两层)作为二级存储;LLM 通过函数调用主动决定什么信息应该被 evict 到外存,什么信息需要从外存 retrieve 回来,逻辑上几乎是在模拟操作系统的虚拟内存分页机制。

    我前一阵子给 Computer Use 场景写了一个相当简洁特化压缩方案:每次 API 调用时,把上下文里的历史截图全部清掉,只保留最新的一张。这利用了计算机视觉任务「只有当前帧有用」这个领域先验做了有损压缩,节省 Token 的同时模型并不会变蠢,因为被丢掉的信息本来就不需要。


    ## KV 缓存与分段压缩的冲突

    动态上下文压缩和 KV 缓存之间有一个工程上的冲突。现在主流模型提供商(包括 Anthropic)都在做前缀缓存,推理时把已经转成 KV 向量的部分存起来,下一次请求如果前缀相同,可以跳过重新计算的开销,显著降低延迟和成本。Anthropic 的 prompt caching 按 tools、system、messages 的固定顺序分段处理,每段可以独立设置缓存控制点,支持最多四个缓存断点。问题在于前缀缓存要求内容严格一致,任何修改都会使该位置以后的缓存全部失效,而动态压缩天然要修改上下文,这两件事目前是相互矛盾的。

    但这个矛盾不是解不开的。上下文可以被结构化成稳定前缀(系统提示词、工具定义)加动态后段(对话历史)的形式。动态压缩只发生在后段,前两部分的缓存完全不受影响。Anthropic 的分段缓存机制本身就是按这个思路设计的。如果压缩逻辑进一步被约束成只修改滑动窗口末尾部分、保持前缀不动,缓存的破坏率可以压得很低。这些都是随着时间可以被工程化解决的问题。

    ## Computer Use 更像是一个品牌包装,不是一项独立技术

    如果说 RAG、MCP、Skills 是在解决上下文的管理问题,Computer Use 解决的是另一个层级的事:让 LLM 真正坐到操作系统前面,像人一样用软件。但「Computer Use」本身没什么特别的,它更接近一个品牌名。底下跑的还是 Skills 或者 MCP,只是操作目标换成了电脑上的窗口、按钮和键盘。上文讲过的那些上下文问题,在 Computer Use 里一样存在。

    目前主要有三条技术路线,底层逻辑和取舍各不相同。

    第一条,读 Accessibility Tree,走系统事件注入。Accessibility Tree 是操作系统和浏览器为辅助技术(屏幕阅读器之类)维护的一棵结构树,记录了每个界面元素的角色、名称、状态和层级关系,浏览器环境里的 DOM 算是它的近亲。走这条路的好处是结构干净,LLM 拿到的是「按钮、输入框、链接」这样有语义的节点,不是像素。阿里的 page-agent.js 是这个流派的代表,它直接解析页面 DOM,用自然语言驱动浏览器操作。
  14. Glassworm 攻击利用不可见 Unicode 字符入侵逾 151 个 GitHub 仓库

    Aikido Security 研究人员近日发现,黑客组织 Glassworm 利用不可见 Unicode 字符在 GitHub、npm 及 VS Code 市场发起大规模攻击,目前已确认至少 151 个仓库受损。该技术通过在代码中嵌入渲染为零宽空格的特定字符来隐藏恶意负载,开发者在审查代码请求时难以通过肉眼识别。受影响的目标包括 Wasmer、Reworm 等知名项目。

    此次攻击的恶意负载可窃取用户凭据和加密令牌,并利用 Solana 区块链作为指令控制通道,增加了关停难度。研究人员指出,攻击者疑似利用大语言模型生成了与各项目风格一致的代码重构和版本更新,使恶意注入更具欺骗性。建议开发者使用专门扫描不可见字符的自动化工具进行安全检查。

    Tom's Hardware

    🍀在花频道 🍵茶馆聊天 📮投稿
  15. 48款聊天软件安全性与隐私对比

    对比了48款im软件的隐私、安全、可访问性、协议架构、用户体验,排名不分先后。