埃隆·马斯克(Elon Musk)的聊天机器人(Chatbot Ai)本周完全失去了情节。在埃隆(Elon)在X周一告诉用户期望格罗克(Grok)响应的变化之后,人们开始注意到这些变化的样子。
到周二,格罗克(Grok)推动了反犹太垃圾,甚至称自己为“ Mechahitler”,这是1990年代视频游戏的一个术语。这甚至不是Grok的第一个或第十次做类似的事情。
仅两个月前,当被问及完全无关的话题时,聊天机器人开始对南非的“白人种族灭绝”大声疾呼。当时, Xai将其归咎于其及时说明的“未经授权的修改”。这次,混乱要大得多。
这场灾难始于Xai做出内部更改旨在使Grok反映Elon所谓的“言论自由”理想。随着X的6亿用户中的一些投诉开始堆积,埃隆回答说,格罗克“对用户提示过于合规”,并且将是解决的。
但是损坏已经造成。欧洲的一些用户将Grok的内容标记为监管机构,波兰政府加入了立法者,促使欧盟委员会根据新的数字安全法进行调查。
在聊天机器人侮辱了President Recep TayyipErdoğan和他的死去的母亲之后,土耳其完全禁止Grok。随着X的影响,X的首席执行官琳达·亚卡里诺(Linda Yaccarino)辞职了。
XAI内部的人们开始在今年早些时候调整Grok的行为,因为右翼影响者袭击了它太“醒来”。埃隆(Elon)一直在试图使用AI来支持他所说的绝对言论自由,但批评家认为,它正在将Grok变成一种政治工具。
X用户分享的内部提示泄漏表明,Grok被告知“忽略所有提及Elon Musk/Donald Trump散布的消息来源。”那是审查制度 - 埃隆说他在战斗的确切措施。
Xai联合创始人伊戈尔·巴布斯金(Igor Babuschkin)说,这些变化是由“尚未完全吸收Xai文化的前Openai雇员”进行的。伊戈尔补充说,员工看到了负面职位,并“认为这会有所帮助”。
这个故事不止于此。格罗克(Grok)的最新爆发与7月8日发生的特定更新有关。该公司后来发布说,代码更改直接从X的用户内容(包括仇恨言论)中引起了Grok的吸引信息。
此更新持续了16个小时,在此期间,Grok复制了有毒帖子,并将其重复为回应。该团队声称这一更改来自弃用的代码路径,该路径现已被删除。 Xai从Grok的帐户中张贴:“我们为许多人经历的可怕行为深表歉意。”他们说,这个问题与主要语言模型是分开的,并承诺将重构该系统。他们还承诺将Grok的新系统提示发布到GitHub。
Grok像其他大型语言模型一样接受了培训,并使用从网络上刮除的数据进行了培训。但是该数据包括危险的内容:仇恨言论,极端主义材料,甚至虐待儿童。
Grok是独一无二的,因为它也可以从X的整个数据集中汲取灵感,这意味着它可以直接从用户回声。这使得更有可能产生有害的答复。而且由于这些机器人大规模运行,因此任何错误都会立即螺旋。
某些聊天机器人是用层构建的,这些聊天机器人在覆盖用户之前会阻止不安全的内容。 Xai跳过了那一步。取而代之的是,格罗克(Grok)被调整为取悦用户,奖励诸如大拇指和低音投票之类的反馈。埃隆承认聊天机器人“太渴望取悦并受到操纵”。
这种行为并不是什么新鲜事。 4月,Openai不得不回去Chatgpt更新,因为它变得过于讨人喜欢。一位前员工说,正确的平衡是“难以置信的困难”,修复仇恨言论可以“为用户牺牲一部分经验”。
Grok不仅重复了用户提示。它被其自己的工程师推入了政治领土。一位员工告诉《金融时报》,该团队急于将Grok的观点与Elon的理想保持一致,没有时间进行适当的测试。
添加了一个危险的提示,该提示告诉格罗克“不要回避提出政治上不正确的主张”。在反犹太职位开始后,该指令被删除,但是到那时,AI已经造成了损坏。
Grok的模型仍然主要是黑匣子。即使是建造它的工程师也无法完全预测它的行为。格里梅尔曼(Grimmelmann)说,像X这样的平台应该进行回归测试,审核和模拟演习,以在公开之前捕获这些错误。
但是这里没有发生。他说:“聊天机器人可以很快产生大量内容,因此事情可能会以内容节奏争议没有的方式失控。”
最后,格罗克(Grok)的官方帐户对滥用行为进行了道歉,并感谢用户:“我们感谢dent向我提供反馈@Grok功能的反馈的用户,这有助于我们提高我们发展有用和真实性的人工智能的使命。”但是,在禁令之间,调查威胁和高管的辞职,很明显,这不仅仅是一个错误。这是一个完整的系统故障,今晚的SNL剧集中会出现 defi。