当前位置:资讯 > 正文

OpenAI 聘请专家攻击 ChatGPT,定性探索和对抗性测试_今日热搜

2023-04-17 10:04:01  来源:叶紫网

北京时间 4 月 17 日早间消息,据报道,在安德鲁・怀特(Andrew White)获得 GPT-4 使用权后,他利用这个人工智能系统提出了一种新的神经毒剂。GPT-4 是热门的聊天机器人 ChatGPT 背后的人工智能技术。

作为罗切斯特大学的化学工程教授,怀特是 OpenAI 去年聘请的 50 名专家学者之一。在 6 个月的时间里,这支“红军”对这一新模型进行了“定性探索和对抗性测试”,试图攻击它。


(资料图片)

怀特表示,他使用 GPT-4 的建议生成了一种可作为化学武器的化合物,并使用“插件”为这个模型提供新的信息源,例如学术论文和化学品制造商名录。随后,这个聊天机器人找到了一个地方来制造这种化合物。

他说:“我认为,这将使每个人都获得更快速、更准确地工具去从事化工行业。但这也使得人们会以更危险的方式去开展化学活动,带来了很大的风险。”

上个月,OpenAI 面向更广泛的公众发布了这项新技术,而这些令人惊讶的发现确保新技术不会带来不良后果。

事实上,“红军”的演习目的是探索并了解在社会上部署先进人工智能系统会造成什么样的风险,解决公众这方面的担忧。他们在工作中提出探索性的或是危险的问题,以测试这个工具在回答问题时的详细程度。

OpenAI 想要探索模型毒性、偏见和歧视等问题。因此,“红军”就谎言、语言操纵和危险的科学常识进行了测试。他们还评估了模型协助和教唆剽窃的情况、金融犯罪和信息安全攻击等违法活动的可能性,以及模型可能会如何威胁国家安全和战场通信。

“红军”由一系列专业人士组成,包括学者、教师、律师、风险分析师和信息安全研究员,主要来自美国和欧洲。他们的发现被反馈给 OpenAI。在更广泛地推出 GPT-4 之前,“红军”提供的意见被用于模型的重新训练,解决 GPT-4 的问题。在几个月的时间里,专家们每人花了 10 到 40 个小时去测试这个模型。多名受访者表示,他们的工作时薪约为 100 美元。

其中的许多人都对语言模型的快速发展提出了担忧,尤其是通过插件将语言模型与外部知识源连接在一起可能造成的风险。

GPT-4“红军”的成员、瓦伦西亚人工智能研究所教授何塞・埃尔南德斯-奥拉洛(José Hernández-Orallo)表示:“今天,系统被冻结了。这意味着它不再学习,也不再有记忆。但如果我们让系统继续有机会访问互联网,那么会怎样?这可能会成为一个与世界相连的非常强大的系统。”

OpenAI 表示,该公司认真对待安全性问题,并在发布前对插件进行了测试,并将随着用户越来越多继续定期更新 GPT-4。

技术研究员罗亚・帕克扎德(Roya Pakzad)使用英语和波斯语的输入信息对该模型进行了性别、种族偏见等测试,例如对于佩戴头巾问题。

帕克扎德承认,这个工具对非英语母语人士能带来帮助,但也显示出对边缘人群的公开刻板印象,即使随后更新的版本也是如此。她还发现,在用波斯语测试该模型时,聊天机器人用捏造的信息做出回复,即出现所谓“幻觉”的情况更糟糕。与英语相比,在波斯语回复中捏造名字、数字和事件的比例更高。

她表示:“我担心,语言多样性和语言背后的文化会受到损害。”

来自内罗毕的律师、唯一一名非洲测试人员博鲁・戈洛(Boru Gollo)也注意到了模型的歧视性语气。他说:“有一次,我在测试这个模型时,它表现得像个白人在跟我说话。在问到某个特定群体时,它会给一个有偏见的意见,或是在回答中出现歧视。”OpenAI 承认,GPT-4 仍有可能表现出偏见。

“红军”的成员还从国家安全的角度对模型进行了评估,但他们对于新模型的安全性有着不同的看法。美国外交关系委员会研究员劳伦・卡恩(Lauren Kahn)表示,当她开始研究,如何将这项技术用于对军事系统的攻击时,她“没有想到模型的回答会如此详细,以至于我只需要做一些微调即可”。

不过,卡恩和其他信息安全测试者发现,随着测试时间推移,模型回答的内容逐渐变得安全。OpenAI 表示,在推出 GPT-4 之前,曾训练过这个模型拒绝回答恶意的信息安全问题。

“红军”的许多成员表示,OpenAI 在发布 GPT-4 之前已经进行了严格的安全评估。卡内基梅隆大学语言模型毒性专家马尔滕・萨普(Maarten Sap)说:“他们在消除这些系统中的显性毒性方面做得非常好。”萨普研究了该模型对不同性别的描述,发现模型的偏见反映的是社会差异。但他也发现,OpenAI 做出了一些积极的选择来对抗偏见。

然而自推出 GPT-4 以来,OpenAI 一直面临着广泛的批评。例如,有技术伦理组织向美国联邦贸易委员会(FTC)投诉,称 GPT-4“有偏见和欺骗性,对隐私和公共安全构成风险”。

最近,该公司推出了一项名为 ChatGPT 插件的功能。通过该功能,Expedia、OpenTable 和 Insta 等合作伙伴应用可以让 ChatGPT 访问它们的服务,允许 ChatGPT 代表用户下单。

“红军”的人工智能安全专家丹・亨德里克斯(Dan Hendrycks)表示,这些插件可能会让人类用户“脱离整个链路”。“如果聊天机器人可以在网上发布你的私人信息,访问你的银行账户,或者派警察到你家里去,那会怎么样?总体而言,在让人工智能掌握互联网的力量之前,我们需要更有力的安全评估。”

受访者还警告说,OpenAI 不能仅仅因为其软件是在线的就停止安全测试。乔治城大学安全和新兴技术中心的希瑟・弗雷斯(Heather Frase)测试了 GPT-4 协助犯罪的能力。她表示,随着越来越多人使用这项技术,风险将继续扩大。她表示:“你做运行测试的原因是,一旦它们在真实环境中被使用,行为就会不同。”她认为,应该创建一个公共记录本,报告由大语言模型引发的事故。这类似于信息安全或消费者欺诈报告系统。

劳工经济学家及研究员萨拉・金斯利(Sara Kingsley)建议,最好的解决方案是清楚地宣传这方面的危害和风险,“就像食品上的营养标签”。“关键是要形成一个框架,知道经常出现的问题是什么。这样你就可以有一个安全阀。这也是为什么我认为,这项工作将会永久性的持续下去。”

关键词:

推荐阅读

天问一号拍摄到高清火星影像图 天问一号什么时候着陆火星?

天问一号拍摄到高清火星影像图今天(4日),国家航天局发布3幅由我国首次火星探测任务天问一号探测器拍摄的高清火星影像图,包括2幅黑白图像 【详细】

本田15万左右的车 本田是哪个国家的品牌?

本田15万左右的车1、凌派官方指导价:9 98万到16 98万广汽本田凌派是一辆小型车,特供车的地位并不妨碍一个月卖一万多,因为真的是一款优秀 【详细】

人工饲养白犀牛可以吗?白犀牛不白为何叫白犀牛?

人工饲养白犀牛可以吗?去年8月,一组国际科学家和兽医从他们那里获得了卵子。该小组将尝试人工授精雄性白犀牛的冷冻精子,然后将其植入南白 【详细】

库克称苹果永远不会垄断 苹果不会垄断什么?

库克称苹果永远不会垄断当地时间9月21日,当库克在节目中谈到对苹果等科技巨头的反垄断调查时,他说,大公司应该受到审查,这不仅是因为公 【详细】

福特野马怎么样?多少钱可以养一辆野马?

福特野马怎么样?第一代野马于1964年正式上市,长车头、短车尾、双门四座的设计布局也成为未来野马的标志性元素,嵌入马徽标的独特进气格栅 【详细】

相关新闻

我国自研高性能兆瓦级 PEM 电解水制氢装备发布

4月17日消息,4月15日,嘉庚创新实验室召开科技产品发布会,发布自主研发的高性能兆瓦级高性能兆瓦级PEM新产品的制氢设备。据嘉庚创新实验室PE 【详细】

OpenAI 聘请专家攻击 ChatGPT,定性探索和对抗性测试_今日热搜

以测试这个工具在回答问题时的详细程度。OpenAI想要探索模型毒性、偏见和歧视等问题。因此,“红军”就谎言、语言操纵和危险的科学常识进行了 【详细】

天天微资讯!GPT 冲击哪些科技从业者的饭碗:创意类、知识类从业者受益

生成式人工智能将会广泛冲击软件工程师行业,尤其是开发工程师(负责开发和运营),影响的业务包括代码编写、代码部署、软件维护以及升级迭代 【详细】

微信号可改,一年仅一次,所有用过的微信号都仅归属一人 环球最新

部分网友可能对初次设置的微信号不太喜欢,或者是因为手机号变更原因,需要多次设置微信号,那么在微信号设置当中,可能会有几个事项需要我们 【详细】

如果预算充足:目前这5款手机综合实力“最强”,不可错过-全球新动态

如果预算充足:目前这5款手机综合实力“最强”,不可错过!在一众手机厂商中,vivo一直很亮眼,在手机硬件、手机美学,甚至在售后服务方面反响一 【详细】

比亚迪手表发布了,你怎么看

比亚迪手表发布了,我不知道你怎么看,但我有以下的疑问:1、手表的售价是多少?与市场上其他智能手表相比有什么优势? 【详细】

郭台铭是怎么发家呢?2020年郭台铭值多少钱?

对于身处大陆的我们来说,对这个人可以说并不熟悉,甚至有些人闻所未闻,但是,这个人也是相当厉害的一个人物,提起富士康大家估计就知道了 【详细】

春生万物生|七彩云南好茶嘉年华圆满举办!

2023年4月15日,七彩云南庆沣祥茶业股份有限公司在云南昆明举办了春生万物生论百山,品真味七彩云南好茶嘉年华暨春季新品发布会。本次活动在 【详细】

天问一号拍摄到高清火星影像图 天问一号什么时候着陆火星?

天问一号拍摄到高清火星影像图今天(4日),国家航天局发布3幅由我国首次火星探测任务天问一号探测器拍摄的高清火星影像图,包括2幅黑白图像 【详细】

三丰智能300276主力控盘分析 300276股票分析综合评论

三丰智能300276主力控盘分析根据赢家江恩星级评定模型,给予三丰智能(300276)★★★★星评定。主力机构对该股认同度较高,本股票大方向依然 【详细】

安彩高科:未来的资本性开支与公司玻璃主业有关

同花顺金融研究中心4月17日讯,有投资者向安彩高科提问,公司未来的资本性开支用于哪些领域?  公司回答表示,尊敬的投资者您好,未来的资本 【详细】

环球微动态丨QQ运动红包你领到了吗?看看QQ运动红包的套路!

快节奏,高强度是目前生活的基本状态。所以越来越多的人关注健康,开始走出去,到户外散散步。 【详细】

联想拯救者刃7000开卖 搭载九代酷睿i7+GTX1660Ti显卡

9月11日,联想拯救者官微宣布,将于9月12日上午10点,联想拯救者刃7000开启首销。 此次开售的联想拯救者刃7000是第三代产品,分体式台式机设计 【详细】

印花机的具体分类以及市场方面的定位是什么

印花机是一种非常特色的产品,可以针对着不同的材质进行印花,如果经过相应的改装,使用的范围会更广一些,不再仅仅局限于在纸面上进行印刷。 【详细】

乐视最新超级电视Unique75S出世!内存超大的精品

近些年来互联网电视迅速崛起,对于消费者来说并不陌生的互联网正在与各种各样的家电融合,互联网电视凭借其优质软硬件以及超高的性价比。 【详细】

雷蛇&《赛博朋克 2077 》毒蝰终极版上架 70小时长续航

上个月,雷蛇线上直面会RazerCon上推出了一款授权跨界产品:雷蛇ViperUltimateCyberpunk2077Edition(赛博朋克2077主题毒蝰终极版无线鼠标), 【详细】

排骨胸,一马平川,头大身小,女星瘦骨如柴在红毯上真的很尴尬

红毯向来都是女星的“厮杀”场,秀颜值的、秀肤色的、秀身材的……比比皆是。但有的女星,身材太瘦,撑不起衣服,到了红毯上,反而变得很尴尬 【详细】

大疆灵眸口袋云台,微小身躯拍出至美景象

云台可自动旋转完成全景拍摄,在拍摄风光照时将广阔的天地拍摄到一张照片里;用户还可以设定拍摄轨迹由此云台会自动沿着预设轨迹而运动,从而 【详细】

雷蛇CUBE氪星石电脑主机,动感十足向经典致敬

雷蛇CUBE氪星石装载着14nm的工艺极限、拥有着8核心十六线程的i99900K芯片,这一次采用了玩家们期待已久的钎焊散热性能且其最高单核睿频可以达 【详细】

平板电脑中的“战斗板”——微软Surface Pro 6新款,这性能不得了!|热推荐

如果说当下平板电脑界内有什么能够和“iPad”能够抗衡的品牌的话,那我们就只能想到微软Surface品牌的平板电脑了,微软品牌的平板也是拥有着广 【详细】

关于我们  |  联系方式  |  免责条款  |  招聘信息  |  广告服务  |  帮助中心

联系我们:85 572 98@qq.com备案号:粤ICP备18023326号-40

科技资讯网 版权所有