EN
shouximingmo.com

妈妈的绣感红桃视频OpenAI联合创始人揭秘AI进化新方向:让模型学会和人类一样反思

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。 这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案: 当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任务,最后只得到一个单一的“得分”(scalar reward),然后用这个得分去调整整个过程中的行为权重。这就像跑了一场马拉松,最后只告诉你“跑得不错”或“跑得不好”,但没有具体告诉你哪里可以改进。这种方式在超长任务上显得粗糙,效率不高。 人类在学习时并不完全依赖“结果好坏”这种单一信号。我们会通过反思来提取更多信息,比如“这次哪里做得好?哪里出了问题?下次该怎么改进?”这种反思过程会生成明确的经验教训(lessons),就像一条条指导原则,帮我们在未来做得更好。 Karpathy 用“second nature”(第二本能)来形容人类通过反思逐渐掌握技能的过程。比如,你学骑自行车时,摔了几次后会总结:“我得保持平衡,眼睛看前方。”这种总结就像一条“经验教训”,直接指导你下次的行为。 Karpathy 认为,AI 应该也有类似机制,尤其是像 LLMs 这样有强大语言能力和上下文学习能力的模型。他举了个例子:LLMs 在处理某些任务(比如数单词“strawberry”里的“r”)时,因为分词和内部计算的限制,表现得很吃力。Anthropic 给 Claude 加了一条“补丁”提示,大意是:“如果要数字母,先把单词拆成单个字母,用逗号隔开,然后一个一个数。”这条提示就像人类总结的“经验教训”,直接告诉模型怎么做更有效。 问题在于:这条“补丁”是工程师手动加的。Karpathy 想知道,能不能让模型自己通过实践和反思,自动生成这样的“经验教训”,而不是靠人类硬编码?更进一步,这些教训能不能被“蒸馏”成模型的直觉(类似人类睡觉时巩固记忆),避免上下文窗口无限膨胀? 2. 反思阶段:把这些尝试的结果塞进上下文窗口,用一个“元提示”(meta-prompt)引导模型分析:“这次哪里做得好?哪里不好?下次该怎么改进?”生成一条明确的“经验教训”(lesson),以字符串形式记录。 3. 更新系统提示:把新生成的“教训”加到系统提示中,或者存到一个“教训数据库”里,供未来使用。4. 长期优化:为了避免上下文窗口塞满这些教训,可以通过某种方式(类似“睡眠”)把它们蒸馏到模型权重中,形成更高效的直觉。这种方法利用了 LLMs 的独特优势——它们能理解和生成语言,能在上下文里学习新策略。而传统的 RL(比如在 Atari 游戏或机器人控制中)没有这种语言能力,所以无法直接套用这个思路。 Karpathy 认为,RL 确实比监督微调更“苦涩”,而且还会带来更多性能提升。但他也相信,RL 只是当前的一条 S 曲线(技术进步的阶段性曲线),未来还有更多曲线等待发现。特别是对于 LLMs 这样有语言能力的模型,可能会有全新的学习范式,超越传统 RL 的局限。 这些范式可能跟人类反思、总结、归纳的方式更接近,而且在长任务和复杂问题上更高效。他提到的 ChatGPT 新增的“Memory”功能,可能是一个雏形,但目前只用于个性化定制(比如记住用户偏好),还没用于解决复杂问题。Karpathy 的设想是:如果能让模型自己总结经验教训,并在实践中不断优化,可能会开启 AI 智能的新篇章。

妈妈的绣感红桃视频
妈妈的绣感红桃视频我听比如阿马德-迪亚洛说过:“教练让我踢哪儿都行,”因为他心中有那团火,他想出场、想表现,位置无所谓。这才重要。我为弗格森踢球的渴望是巨大的。所以我会拼尽全力;如果我做不好,我会对他说我干不好,而且我也不想踢,因为那对我和球队都没好处。所以我会说,26岁的我会想去帮助现在这支曼联。对于引进卢克曼,拜仁确实向亚特兰大提交了先租后买的报价,非强制买断费为2800万欧元。但是,亚特兰大甚至没有对这样的报价做出回应。对于意甲俱乐部而言,他们此前已经拒绝了国米总价4500万欧元的报价,拜仁的报价在他们看来有些可笑。妈妈的绣感红桃视频《已满十八岁免费观看电视剧十八岁》但「向上社交」实在太诱人了。早年20个假名媛假男媛靠一套五星级酒店下午茶拍出光鲜亮丽的社交圈,更有创业者豪掷千万就为了和比尔盖茨吃顿饭,桩桩件件不过是为了把自己打造得光鲜亮丽,然后好挣钱。他偏爱街头小吃,常在社交媒体上分享自己穿T恤短裤、拿锅铲炒菜的日常,或是吹奏萨克斯、弹奏钢琴,演绎上世纪80年代泰国流行曲。
20250915 👙 妈妈的绣感红桃视频陈垣宇、吴晙诚、松岛辉空这几个人目前都是小将,正处于上升阶段,未来的世界乒坛应该也有他们的一席之地。至于丹麦的格罗斯,已经是一员老将了,未来很难再有更高的成就。《大战尼姑2高清免费观看中文》李斌:乐道当时士气比较低迷,也有很多困难。我们的第一想法是选一个能适合乐道的组织能力的负责人。让沈斐去是因为,他是体系建设能力非常强的人。他之前做可充可换可升级的体系,有非常全面的能力。
妈妈的绣感红桃视频
📸 李晓钦记者 李颖仲 摄
20250915 🌶 妈妈的绣感红桃视频不只是投资者这么认为,加密货币的创业者也(假装)这么认为。因此,创业者才热衷套用“技术奇迹”的剧本:复制比特币的代码,或宣称要超越它,然后甩出一份白皮书,挂个网站就开始收割。投资者抱着“再现比特币路径”的幻想,却忽略了:复制代码容易,复制意识形态的护城河几乎不可能。Exo妈妈mv高清视频我没太有时间和他们逐一交谈,因为去费内巴切的过程太快了。我只是和部分球员、部分工作人员说了再见。我还给瓜迪奥拉打了电话,对他说我要回来一趟,好好和大家告别。他说,当然、当然,因为8年太多时刻了,我们赢了很多奖杯,也经历了困难时刻,但我们始终团结在一起。对我,对他,对俱乐部,这都很重要。所以我一定会回来和大家好好道别。
妈妈的绣感红桃视频
📸 舒丰记者 贾学军 摄
👙 后续的故事,大家都知道了。波士顿动力在2012年短暂成为北汽新能源的电池供应商后,带着一屁股量产问题消失在市场中。而宁德时代则用了14年成长为全球无可撼动的龙头。在回顾这次投资,朱总留下一句反思:《妈妈装睡配合孩子趴趴》
扫一扫在手机打开当前页