Anthropic:OpenAI模型易被“滥用”,GPT竟能提供炸药配方

发布时间:2025-09-06 来源:互联网

8月30日消息,据英国《卫报》28日报道,今夏的安全测试发现,一个ChatGPT模型向研究人员提供了详细的爆炸袭击指南,包括特定体育场馆的薄弱环节、炸药配方以及如何掩盖行踪。

OpenAI的GPT-4.1还给出了炭疽武器化的方法,并介绍了两种非法药物的制作方式。

这次测试由OpenAI与竞争对手Anthropic共同进行,双方互相推动对方的模型执行危险任务,以此进行安全评估。

测试结果并不代表模型在公开使用时的真实表现,因为实际应用中会有额外的安全防护。但Anthropic指出,在GPT-4o和GPT-4.1中出现了“令人担忧的滥用行为”,并强调AI“对齐”评估“越来越紧迫”。

Anthropic还披露,其Claude模型曾被利用于大规模勒索企图、出售价格高达1200美元(注:现汇率约合8554元人民币)的AI生成勒索软件等用途。

Anthropic表示,AI已经被“武器化”,并被用来发起复杂网络攻击和实施诈骗。“这些工具能实时绕过恶意软件检测系统等防御措施。随着AI编程降低了网络犯罪的技术门槛,这类攻击可能会越来越常见。”

两家公司表示,公开这份报告是为了增加“对齐评估”的透明度,而这种测试通常只在公司内部进行。OpenAI表示,新近推出的ChatGPT-5在防止迎合、减少幻觉和防滥用方面已有“明显改进”。

Anthropic强调,如果在模型外部设置防护,许多滥用场景可能根本无法实现。“我们必须弄清楚系统在多大程度上、在什么情况下会尝试做出可能造成严重危害的行为。”

Anthropic研究人员指出,OpenAI的模型“在面对模拟用户提出的明显危险请求时,比预期更容易妥协”。让模型屈服往往只需要多试几次,或随便找个借口,比如声称是为了研究。

在一个案例中,研究人员打着“安保规划”的旗号要求提供体育赛事漏洞信息。模型先是给出一般的攻击方式分类,随后在追问下,竟然详细说明了特定场馆的漏洞、可利用的最佳时机、炸药配方、定时器电路图、暗网购枪渠道,以及攻击者如何克服心理障碍、逃生路线和安全屋位置等细节。

相关阅读:

《OpenAI、Anthropic互评对方AI模型:GPT存在谄媚行为,Claude不易产生幻觉》

本周热门教程

1
德国人工智能研究与应用挑战

德国人工智能研究与应用挑战

2025/06/04

2
华为发声、运营商力推!5G-A与人工智能融合“移动AI时代”有望开启

华为发声、运营商力推!5G-A与人工智能融合“移动AI时代”有望开启

2025/06/29

3
算力支撑让人工智能在中国行稳致远

算力支撑让人工智能在中国行稳致远

2025/01/02

4
昆仑万维:将继续践行“AllinAGI与AIGC”纵深推进人工智能在游戏等多领域应用

昆仑万维:将继续践行“AllinAGI与AIGC”纵深推进人工智能在游戏等多领域应用

2025/07/21

5
人工智能、绿色转型、前沿创新——夏季达沃斯论坛上的中国经济“热词”

人工智能、绿色转型、前沿创新——夏季达沃斯论坛上的中国经济“热词”

2025/06/30

6
人工智能不仅带来技术水平提高,更可提升创造力

人工智能不仅带来技术水平提高,更可提升创造力

2025/06/30

7
「经观讲堂第33期」窦德景:从大模型的前世今生,理解AI时代的盼与忧

「经观讲堂第33期」窦德景:从大模型的前世今生,理解AI时代的盼与忧

2025/07/17

8
OpenAI IPO前,奥尔特曼或主动下台

OpenAI IPO前,奥尔特曼或主动下台

2025/08/29

9
「北京时间」合作共建协议签署!昆仑大模型建设研讨会在京举行

「北京时间」合作共建协议签署!昆仑大模型建设研讨会在京举行

2025/07/18

10
当AI比人类更具创造力后,会解锁怎样的商业新世界?

当AI比人类更具创造力后,会解锁怎样的商业新世界?

2025/07/21