(相关资料图)
语言模型是一种人工智能技术,可以根据给定的文本生成自然语言。OpenAI的GPT系列语言模型是目前最先进的代表之一,但IT之家注意到它们也有一个问题:它们的行为很难理解和预测。为了让语言模型更透明和可信,OpenAI正在开发一种新工具,可以自动识别语言模型中哪些部分对其行为负责,并用自然语言进行解释。
这个工具的原理是利用另一个语言模型(也就是OpenAI最新的GPT-4)来分析其他语言模型(比如OpenAI自己的GPT-2)的内部结构。语言模型由许多“神经元”组成,每个神经元都可以观察文本中的某种特定模式,并影响模型下一步的输出。例如,给定一个关于超级英雄的问题(比如“哪些超级英雄有最有用的超能力?”),一个“漫威超级英雄神经元”可能会提高模型提到漫威电影中特定超级英雄的概率。
OpenAI的工具就是利用这种机制来分解模型的各个部分。首先,它会将文本序列输入到被评估的模型中,并等待某个神经元频繁地“激活”。然后,它会将这些高度活跃的神经元“展示”给GPT-4,并让GPT-4生成一个解释。为了确定解释的准确性,它会提供给GPT-4一些文本序列,并让它预测或模拟神经元的行为。然后它会将模拟的神经元的行为与实际神经元的行为进行比较。
“通过这种方法,我们基本上可以为每个神经元生成一些初步的自然语言解释,并且还有一个分数来衡量这些解释与实际行为的匹配程度。”OpenAI可扩展对齐团队负责人JeffWu说,“我们使用GPT-4作为过程的一部分,来生成对神经元在寻找什么的解释,并评估这些解释与它实际做什么的匹配程度。”
研究人员能够为GPT-2中所有307,200个神经元生成解释,并将它们编译成一个数据集,与工具代码一起在GitHub上以开源形式发布。像这样的工具有朝一日可能被用来改善语言模型的性能,比如减少偏见或有害言论。但他们也承认,在真正有用之前,还有很长的路要走。该工具对大约1000个神经元的解释很有信心,这只是总数的一小部分。
有人可能会认为,这个工具实际上是GPT-4的广告,因为它需要GPT-4才能运行。但Wu说,这并不是这个工具的目的,它使用GPT-4只是“偶然”的,而且,相反它显示了GPT-4在这方面的弱点。他还说,它并不是为了商业应用而创建的,并且理论上可以适应除了GPT-4之外的其他语言模型。
“大多数解释的分数都很低,或者没有解释太多实际神经元的行为。”Wu说,“很多神经元的活动方式很难说清楚——比如它们在五六种不同的东西上激活,但没有明显的模式。有时候有明显的模式,但GPT-4却无法找到。”
更不用说更复杂、更新、更大的模型,或者可以浏览网页获取信息的模型了。但对于后者,Wu认为,浏览网页不会太改变工具的基本机制。他说,它只需要稍微调整一下,就可以弄清楚神经元为什么决定进行某些搜索引擎查询或访问特定网站。
“我们希望这将开辟一个有前途的途径,来以一种自动化的方式解决可解释性问题,让其他人可以建立在上面并做出贡献。”Wu说,“我们希望我们真的能够对这些模型的行为有好的解释。”
标签:
仓储物流“成渝圈”如何乘势而上? 12月3日,连接昆明和万象的中老铁路全线开通运营,被惠及的显...
两件西周青铜簋时隔三千年成功配对 考古工作者介绍,这个铜簋的盖、身分别时隔40余年出土,纹饰...
“医保砍价”不是一个人在战斗 晁星 “我眼泪都快掉下来了”“每一个小群体都不该被放弃”…...
“购物成瘾”真的是一种病 刘艳 牛雅娟 本周日即将迎来“双十二”促销季,很多人又开始摩拳...
因迷恋山间风景,一男子在甘孜州稻城县海拔4000多米的无人区迷失方向,随后与同伴失联。12月的稻城...
嫌疑人DNA信息比中后,成都市公安局刑侦支队技术处DNA实验室民警白小刚一下坐在凳子上,恍惚迟疑间...
一批反映南京大屠杀历史的新书发布 新华社南京12月7日电(记者邱冰清、蒋芳)“以史为鉴,开创未来...
我在现场·照片背后的故事|电影《亲爱的》里面没有的结局,在我眼前“上映” 12月6日,在深圳市...
冥想?泡脚?不如听听助眠音乐 晚上睡不着,白天睡不醒,成为最贴合都市人群的“睡眠画像”。随...
养老话题 老年教育面临缺口 “终身教育”潜力无限 【现实挑战】“新老年”群体愿意在培养兴...
孙海洋被拐14年儿子如何找到的? 警方侦办另一宗拐骗儿童案时发现线索,通过人像比对、DNA确认找...
北京天文馆、圆明园将对未成年人免费开放 12月6日,北京天文馆发布通知称,12月8日起试行对未成...
今年全国粮食总产量再创新高 连续7年保持在1 3万亿斤以上 根据对全国31个省(区、市)的抽样调...
斑块软的很危险 硬的就无碍? 血管里的“垃圾”分类 赶快学起来! 一项最新研究显示:中国...
诺西那生钠注射液大幅降价 聚焦医保谈判背后脊髓性肌萎缩症家庭 医保目录公布那天 好多家长都...
抖音“窗花剪剪”遭抄袭 被判获赔20万元 法院认为“窗花剪剪”的这种表达方式理应受到《著作权...
公安机关近日侦破3起拐卖儿童案件 失散十几年 3组家庭终于团圆了 北京青年报记者12月6日从公...
2021年度十大网络用语发布 本报讯(记者 路艳霞)作为年度“汉语盘点”活动最具网络特色的组成部...
北京天文馆向未成年人免费开放 本报讯(记者 牛伟坤)北京天文馆对票价免费及优惠政策作出调整:1...
2021北京百个网红打卡地发布 本报讯(记者 李洋)2021北京网红打卡地推荐榜单昨晚正式发布。自然...