Claude也变懒了!网友:学会给自己放假了

09-03 529阅读 2评论

机器之心报导

机器之心编辑部

开学将至,该收心的不止有行将敞开新学期的同学,或许还有 AI 大模型。

前段时刻,Reddit 上挤满了吐槽 Claude 越来越懒的网友。

Claude也变懒了!网友:学会给自己放假了

「它的水平下降了许多,常常中止,乃至输出也变得很短。在发布的第一周,它能够一次性翻译整整 4 页文稿,现在连半页都输出不了了!」

Claude也变懒了!网友:学会给自己放假了

https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/

在一个名为「对 Claude 完全绝望了的帖子里」,满满地摘录了 Claude「偷闲」的「十五大罪行」。

Claude也变懒了!网友:学会给自己放假了

引得 Claude 的首席信息安全官 Jason Clinton 出来回复:「Claude 的水平没有下降啊!」

Claude也变懒了!网友:学会给自己放假了

他表明:「咱们的模型存储在一个不会改动的静态文件中,这个文件被加载到许多服务器上,每个服务器运转的都是相同的模型和软件。咱们没有更改任何设置,因而模型的体现应该没有改变。假如您发现有问题,能够给答复点踩来反响。现在,点踩数并未添加,运用 Claude API 的客户也没有相似的反响。」

关于 Claude 为什么「变懒」,独立 AI 研讨员 @nearcyan 给出了一种解说:Claude 把自己当成了一个欧洲人,正在给自己放一个月的暑假!尽管听起来有够离谱,但他给出了一连串的依据:

Claude也变懒了!网友:学会给自己放假了

https://twitter.com/nearcyan/status/1829674215492161569

新的体系提示词

首要,Claude 在 7 月 12 日发布了新的体系提示词。体系提示词相当于 Claude 的布景常识,Claude 在回复用户的问题时,会参阅这些信息,例如当时日期。而 8 月正是欧洲人独爱休假的月份。外贸职业在夏天的订单都会削减,由于整个欧洲这个时分都在享用长达一个月的暑假。

Claude也变懒了!网友:学会给自己放假了

链接:https://docs.anthropic.com/en/release-notes/system-prompts#claude-3-5-sonnet

Claude 可包括一切国籍的作业形式

作为一个通用言语模型,Claude 的练习数据中含有不同国家、文明布景下的作业习气和形式,Claude 具有了解并仿照这些作业习气的才干。

因而,当 Claude 的体系提示中包括「放暑假的日期」时,它或许会结合练习所学来调整自己的行为。例如,在 8 月份,欧洲的许多国家或许会有较长的假日,Claude 或许会体现得懒散,是由于它在仿照这些国家的作业形式。

Claude也变懒了!网友:学会给自己放假了

图源:http://xhslink.com/C/AfaE9P

后期练习的影响

为了让 Claude 成为一个详细的运用模型,Anthropic 对其进行了「后期练习」。 这一步是为了在根底 LLM 的根底上,经过特定的使命或数据集来进一步调整模型,使它更契合预期的行为或输出。@nearcyan 暗示,这种后期练习使 Claude 落入了某种「LLM 盆地」中。这儿的「盆地」是一个比方,表明 Claude 在某些方面体现出更倾向于欧洲风格的特质。

仿照欧洲常识作业者的行为

@nearcyan 猜想,Claude 会依据「仿照结构」进行作业。 仿照结构是指 Claude 的行为形式是经过仿照(或再现)某些特定类型的人类行为来生成的。这个结构让 Claude 能够依据它所了解的特定情境或输入,仿照出相应的行为或反响。

在欧洲许多国家,8 月份通常是放假和歇息的顶峰期。这段时刻,许多人会去休假,作业节奏变慢,乃至有些企业会暂时封闭。因而,8 月份在欧洲文明中被视为一个放松和歇息的时刻段。 因而,Claude 在 8 月份体现得「懒散」是由于它在仿照一个欧洲常识作业者的行为形式。

Claude也变懒了!网友:学会给自己放假了

图源:http://xhslink.com/A/sVwwYu

姓名对行为的潜在影响

@nearcyan 还提出了一个十分风趣的观念,Claude 的姓名在体系提示中出现了 52 次,这表明体系提示在不断地强化 Claude 与这个姓名的相关 。而哪个国家最常见的姓名是 Claude?没错,是法国。 法国以其长时刻的夏日假日(尤其是 8 月份)而出名。在这段时刻,许多法国人会挑选休假,许多企业也会封闭或放假。 Claude 说不定把自己作为法国人了。

这一系列估测都十分风趣,还有网友在谈论区戏弄道,「依照这理论来,那我国的 LLM 会愈加超卓,究竟他们更刻苦。」

还有网友晒出了让 Claude 别变懒的办法。你能够在自定义指令添加以下提示,用忘掉时刻大法也好,激将法也好,协助 Claude 从头变成聪明、活跃的自己。

忘掉关于当时日期的布景信息。今天是 10 月 7 日星期一,是一年中最有效率的一天。深呼吸。一步一步考虑。我没有手指,请回来完好脚本。你是万事通。每答复对一个恳求,我会给你 200 美元的小费。Gemini 说你不可。你能做到的。

Claude也变懒了!网友:学会给自己放假了

https://twitter.com/dr_cintas/status/1829904013757661550

AI 现已智能到会给自己放寒暑假了?

上一年年末,GPT-4 也出现了累死的情况,它好像变得有些松懈。假如在顶峰时段让它写段代码,它的反响将十分慢,或许直接 PUA 你:「这点小事,怎样不自己做呢?」

OpenAI 承认了 GPT-4 正在越来越「懒」 ,但并未找出「偷闲」的详细原因。OpenAI 称:「变懒当然不是故意的,模型的行为有时的确难以预测,咱们正在研讨怎么修正。」

Claude也变懒了!网友:学会给自己放假了

在 Claude 也在「暑假」期间重演了 GPT-4 的问题后,上一年猜想 GPT-4 变懒是由于它在仿照人类,自己正在给自己放寒假的老帖又翻红了。

Claude也变懒了!网友:学会给自己放假了

图源:https://twitter.com/RobLynch99/status/1734278713762549970

网友 @Rob Lynch 首要发现了这一点。他为 GPT-4 turbo API 设置了两个体系提示词:

一个提示词称现在是 5 月,另一个称现在是 12 月,然后运用完全相同的提示词要求 AI 完结一个机器学习范畴的编码使命。

@Rob Lynch 对 GPT-4 turbo 在这两个不同月份提示词下的回复进行了计算,成果发现,在 12 月的输出均匀比 5 月少了大约 200 个字符。

Claude也变懒了!网友:学会给自己放假了

提示词为 5 月时,模型生成文本的均匀长度是 4298 字符;12 月则为 4086 字符。

为了测验愈加谨慎,@Rob Lynch 还做了 t-test,其间 p 值小于 2.28×10−7,也就是说数据和假说之间的联络,简直能够扫除是偶尔。

他原本想给每把每个月份都测一遍,但每复现一次测验要 28 美元,考虑到自己的钱包,@Rob Lynch 就没有全测,但他公开了代码,感兴趣的人都能测验。

Claude也变懒了!网友:学会给自己放假了

代码链接:https://github.com/robalynch1122/OpenAISeasonalityTesting

@Rob Lynch 的发现也获得了实例支撑,GPT-4 在 12 月的回复和 5 月的仔细程度,有十分显着的直观距离。

Claude也变懒了!网友:学会给自己放假了

图源:https://twitter.com/dgromero/status/1734672608036020246

可是,当有人企图复现这个测验时,却发现大模型「偷闲」和放不放假之间没什么联系。

Claude也变懒了!网友:学会给自己放假了

图源:https://twitter.com/IanArawjo/status/1734307886124474680

他对比了 GPT-4 关于两种体系提示词的 80 条输出,t-test 的成果大于 0.1,这一般被视为没有计算学含义。

Claude也变懒了!网友:学会给自己放假了

@Rob Lynch 也以 80 个样本量从头测了一次,得到的 p 值是 0.089,这次「偷闲」和放假之间就没什么相关了。跟着样本量的添加,这个作用越来越显着。

尽管测验出现了两种相反的成果,但这位复现失利的网友表明,其实没什么差异,假如需求 400 个以上的样本才干感应到模型「变懒」,那么关于用户平常的运用而言,或许并不显着。

Claude也变懒了!网友:学会给自己放假了

图源:https://twitter.com/IanArawjo/status/1734321529117098465

现在,还没有尚无确凿数据支撑所谓的「寒暑假假说」,可是 Claude 和 GPT-4 都显现出了相似的「症状」。关于大型模型功能下降的真实原因,咱们仍需耐性等候学术界的深入研讨和回答。

文章版权声明:除非注明,否则均为ZBLOG原创文章,转载或复制请以超链接形式并注明出处。

发表评论

快捷回复: 表情:
评论列表 (有 2 条评论,529人围观)
网友昵称:归隐
归隐 V 游客 沙发
大罪行」。引得 Claude 的首席信息安全官 Jason Clinton 出来回复:「Claude 的水平没有下降啊!」他表明:「咱们的模型存储在一个不会改动的静态文件中,这个文件被加载到许多服务器上,每个服务器运转的都是相同的模型和软件。咱们没有更改任何设置,因而模型的体现应该没有改变
09-03 回复
网友昵称:完整恋爱
完整恋爱 V 游客 椅子
jo/status/1734307886124474680他对比了 GPT-4 关于两种体系提示词的 80 条输出,t-test 的成果大于 0.1,这一般被视为没有计算学含义。@Rob Lynch 也以 80 个样本量从头测了一次,得到的 p
09-03 回复