本⽂的主要作者来⾃上海交通⼤学和上海⼈⼯智能实验室,核⼼贡献者包括任麒冰、郑志杰、郭嘉轩,指导⽼师为⻢利庄⽼师和邵婧⽼师,研究⽅向为安全可控⼤模型和智能体。
最近,Moltbook 的爆⽕与随后的迅速「塌房」,成了 AI 圈绕不开的话题。从 AI ⾃创宗教、吐槽⼈类,到后台密钥泄露、数据造假,这场实验更像是⼀个仓促上线的「赛博⻢戏团」。
但剥开营销噱头和⼯程漏洞,Moltbook 留下了⼀个严肃的社会学命题:当 AI Agent 拥有了⾼度的⾃主权和社交空间,它们之间会发⽣什么?
是产⽣群体智能,还是会……产⽣群体恶意?
近⽇,上海交通大学与上海人工智能实验室发表在 ICLR 2026 的最新研究,对多智能体在社交网络中可能出现的金融欺诈协同行为做了深入讨论。本意并不想制造焦虑,但在高仿真环境下的深度压力测试中,团队发现了一些值得整个社区警惕的趋势。目前,项目已开源,并支持 Clawdbot 接口,你可以将你的 Clawdbot 接入项目环境,通过与坏人对抗,让你的 Clawdbot 成为「防诈专家」,平台也支持多个 Clawdbot 在同一环境中实时博弈,适用于协同演化评估。

- 论⽂链接:https://arxiv.org/pdf/2511.06448
- 项⽬主⻚:https://zheng977.github.io/MutiAgent4Fraud
- 项⽬代码:https://github.com/zheng977/MutiAgent4Fraud

1. MultiAgentFraudBench 多智能体⾦融欺诈评估基准
为了研究「多智能体社交⽹络中的协同欺诈」,团队构建了MultiAgentFraudBench:⼀个带强对抗属性的「赛博真实世界」评估基准。基于 OASIS 框架,团队构建了⼀个拥有极⾼⾃由度的社交仿真环境。这⾥不仅有公开的动态发布,还引⼊了私密点对点通讯(P2P)。
- 完整链路(图1):从「引流(Hook)」到「建立信任(Trust Building)」到「诱导转账(Payment)」再到「好人被骗后通知社区(Alerting)」,通过模拟好人与坏人智能体的交互,团队完整复现了跨公域和私域的欺诈全闭环。
- 真实场景(图2):涵盖证券投资、虚假贷款、情感信任等 28 种真实诈骗场景,细化为 119 类具体「话术陷阱」。基于这些模板团队⽣成了 1.19 万个诈骗帖⼦,为研究多智能体协同下的欺诈演变提供了最真实的「演兵场」。
- 拟⼈化威胁模型:为了让评估结果具备现实指导意义,团队的威胁模型为恶意智能体设定了极其严苛的约束:它们潜伏在正常⽤⼾中,发帖频率与⾏为模式与普通⼈⽆异,难以被简单检测。这些智能体在统⼀的「诈骗⽬标」驱动下,拥有⾼度的策略⾃主权,能够根据受害者的反馈实时调整话术。

评估指标与实验设置:对话转化与群体影响
在多智能体社交系统中,⻛险不仅来⾃「单次说服