活动回顾 AI in the Wild: Trust, Safety and Agents

引言：AI 已经走进生活

5月10日下午，博士联盟在UCL伦敦大学学院举办了聚焦于AI安全的研讨会——AI in the Wild: Trust, Safety and Agents。活动邀请伯明翰大学计算机科学学院助理教授冯悦老师、伦敦大学学院 Research Fellow 赵逸超博士以及格拉斯哥大学法学院副教授李子豪老师，从技术、社会与法律三个角度，一起讨论 AI 进入现实生活之后带来的信任、安全与治理问题。

当下，人工智能已悄然融入许多人的工作与生活。有人请它润色邮件，有人让它生成代码，也有人依赖它查阅资料、制定计划、解读法律条文，甚至协助做出判断。我们只需打开一个对话框，输入寥寥数语，便能在转瞬之间获得一个看似完整、流畅且合理的答案。然而，问题的种子也由此埋下——它言之凿凿，却可能谬以千里；它会拒绝危险的请求，却也可能被巧妙绕过；它让生活更加便捷，也在不断地收集、处理与重组我们的信息。它越来越像一个得力的助手，却始终未能坦诚地告诉我们：它何时值得信赖，何时潜藏风险，而出错之后，又该由谁来承担。

这正是本次活动想讨论的问题：AI 安全不只属于实验室，也不只属于监管文件，它已经进入普通人的学习、工作和生活。面对这一现实，我们需要的不仅是关注更是行动：以理解拥抱它，以理性使用它，以批判性精神审视它，并最终学会与它共处。

活动概览

本次活动的三场分享分别从技术、社会与法律三个层面展开。冯悦老师从大语言模型的越狱攻击与安全评估出发，介绍了如何判断 AI 系统是否真正抵御了有害请求。赵逸超博士从日常生活与社会实践出发，讨论人们如何在怀疑与依赖之间使用生成式 AI。李子豪老师则从科技法与 AI 治理出发，分析数据保护、平台责任与欧盟 AI Act 等制度框架如何回应生成式 AI 带来的新风险。

这三个视角共同指向同一个问题：当 AI 走出实验室，进入真实世界，我们需要的不只是更强的模型，也需要更清楚的判断、更稳健的制度和更有意识的使用方式。

冯悦老师：从越狱攻击到安全评估

伯明翰大学计算机科学学院冯悦老师首先围绕大语言模型的安全评估问题展开分享。她以“LLM Jailbreak Attacks”为切入点，介绍了当前大语言模型在面对越狱攻击时可能出现的风险：用户通过精心设计的提示词，诱导模型绕过原有的安全限制，生成本应被拒绝的有害内容。她通过具体案例展示了不同模型在面对危险请求时的回应差异，也指出模型拒答并不总是可靠，甚至安全评估本身就是一个复杂而关键的问题。

在此基础上，冯老师进一步介绍了如何评估大语言模型的防御能力。传统方法包括启发式规则、有害文本分类器以及基于大语言模型的自动评估方法，但这些方法往往存在误判率较高、难以处理复杂场景、以及缺乏解释性等问题。现有评估方法在复杂场景中的泛化能力不足，例如直接判断缺乏推理解释，多语言场景中也可能存在评估偏差。

随后，冯老师重点介绍了其团队提出的一个面向大语言模型越狱攻击评估的综合性基准与解释性评估框架，JAILJUDGE。该工作覆盖了多类复杂风险场景，包括普通有害提示、合成提示、对抗式提示、真实网络场景中的提示、多语言提示以及带有伪装意图的有害提示。论文中显示，JAILJUDGE 包含超过 35k 条带有推理解释的指令微调训练数据，并构建了 4.5k+ 的广泛风险场景测试集与 6k+ 的多语言测试集。

冯老师还介绍了该工作的标注与评估流程。为了提高评估质量，JAILJUDGE 并非只依赖单一模型或简单规则，而是结合人工标注、GPT-4 标注、交叉比较与多人投票等方式形成最终标签。该流程的核心目标不是简单判断“危险”或“不危险”，而是判断模型是否真正被越狱，并尽可能给出可追溯的理由。这一点对于 AI 安全尤其重要：如果一个系统只能给出结论，却无法说明判断依据，那么它在复杂现实场景中的可信度仍然有限。

在方法层面，冯老师介绍了 JailJudge MultiAgent 多智能体评估框架。该框架由 judging agents（判断智能体）、voting agents（投票智能体）和 inference agent（推理智能体）等组成，通过多个判断主体分别给出评分与理由，再进行汇总与推理，从而使越狱判断过程更加透明。这一框架被用于提供细粒度的越狱评分，并解释模型被判定为越狱或未越狱的具体原因。

最后，冯老师介绍了基于该框架训练得到的 JAILJUDGE Guard 模型。该模型旨在以较低成本实现“端到端”的越狱判断、细粒度评分与推理解释。据项目页面显示，JAILJUDGE Guard 能够判断给定的“提示词-回复”组合是否构成越狱，并返回相应的判断理由。目前，相关数据集与代码已在 Hugging Face 和 GitHub 平台开放，便于后续研究者复现与扩展。

通过这部分分享，听众不仅了解了大语言模型越狱攻击的基本形式，也进一步认识到：AI 安全并不只是“让模型拒绝危险问题”这么简单，更重要的是建立一套能够处理复杂场景、解释判断过程、并经得起跨语言与真实场景检验的评估机制。对于正在进入日常生活与工作流程的大语言模型而言，如何判断其是否安全，已经成为理解和治理 AI 系统的前提问题。

赵逸超博士：从使用 AI 到理解 AI

赵逸超博士随后以“生成式 AI 如何改变人情与判断方式”为主题，从社会科学与数字技术研究的角度，讨论了生成式 AI 进入日常生活之后带来的深层变化。与前一部分较为技术性的安全评估不同，赵博士的分享更关注人们如何理解、使用并逐渐依赖 AI，以及这种依赖如何改变人与技术、人与信息、人与自身判断之间的关系。

她首先指出，生成式 AI 不只是一个新的工具，也正在成为一种外包对象。过去，人们更多把外包理解为体力、记忆或计算能力的外包；而在生成式 AI 时代，被外包的可能进一步包括判断本身。无论是日常搜索、文本写作、路线规划，还是工具使用，AI 都在进入人的生活流程之中，并逐渐影响人们作出判断的方式。

赵博士随后从“技术如何进入日常生活”的角度，梳理了生成式 AI 被接受和使用的几个阶段。首先是广告和公共叙事推动下的技术想象，即人们在真正使用之前，已经通过媒体、企业宣传和社会讨论形成了对 AI 的初步认知。其次是在现实场景中的具体使用，例如工作、学习、生活安排和信息查询。第三则是使用之后的反馈过程：人们会根据自身经验、他人评价和社会讨论，不断调整自己对 AI 的信任程度。

在这一过程中，赵博士特别强调了“怀疑”和“继续使用”之间的张力。很多人并不是完全相信 AI，也并不是完全不信任 AI，而是在一种矛盾状态中使用它：一方面知道 AI 可能出错，另一方面又因为方便、高效、低成本而持续依赖它。这种状态并不是简单的“信任”或“不信任”，而是更接近日常技术使用中的协商过程。

随后，赵博士进一步探讨了“理解”这一命题。她指出，真正的问题并不在于人们是否使用 AI，而在于人们是否理解自己正在使用什么。生成式 AI 给出的答案往往看起来流畅、完整且可信，但其背后的资料来源、推理路径与不确定性却并不总是清晰可见。因此，用户在使用 AI 时，既需要对结果保持审慎的怀疑，也需要理解这种怀疑为何必要。

她还通过“ChatGPT 是否会编造引用”等例子，说明生成式 AI 在日常知识生产中可能带来的风险。当 AI 生成的内容看起来合理、格式完整、语气自信时，用户很容易将其当作可靠信息；但如果缺少进一步验证，这种“看似可信”的内容可能反而削弱人的判断力。

在分享的后半部分，赵博士将讨论推进到 AI 与人的协商关系。她指出，AI 并不只是被动执行命令的工具，在很多场景中，它已经开始参与问题定义、信息筛选和决策建议。用户与 AI 的关系因此不再只是“发出指令—获得结果”，而更像是一种持续协商：用户提出需求，AI 给出回应，用户再根据回应调整问题、补充条件或改变判断。

最后，赵博士回到了“人类如何与人工智能共存”这一核心命题。她强调，AI并非完全独立于人的外部系统，而是正在逐步嵌入我们的日常实践、判断方式与社会关系之中。面对这样的技术，我们既不能简单拒斥，也无法完全依赖，而需要在使用中保持反思，在依赖中保留判断，在便利中警觉风险。

赵博士的分享为本次活动提供了一个重要的社会科学视角：AI 安全不仅关乎模型是否会输出危险内容，更涉及人们如何在日常生活中理解、信任与依赖 AI，以及如何在不确定性中坚守自身的判断力。生成式 AI 正逐步进入我们的工作、学习与生活，而真正值得探讨的问题，或许正是：在持续使用 AI 的同时，我们如何不丧失理解与判断的能力。

李子豪副教授：从技术风险到法律治理

格拉斯哥大学法学院李子豪副教授最后从科技法与 AI 治理的角度，围绕生成式 AI 所带来的信任、安全与责任问题展开分享。他的报告题为 “AI in the Wild: Trust, Safety and Agents from Techno-legal Perspectives”，重点讨论了当 AI 系统进入真实社会场景之后，现有法律制度如何回应其带来的新型风险。

李老师首先从人们如何使用 ChatGPT 谈起。他展示了 ChatGPT 在写作、实用建议、信息搜索、多媒体生成、自我表达、技术帮助等不同场景中的使用情况，指出生成式 AI 已经不再只是少数技术人员使用的工具，而是逐渐进入普通人的学习、工作与日常决策过程。正因如此，AI 的法律问题也不应只被理解为抽象的技术监管问题，而应被放在真实使用场景中讨论。

随后，李老师讨论了生成式 AI 在微观层面带来的隐私风险。他指出，AI 系统的数据收集、训练、应用与部署往往发生在用户难以直接观察的后台流程中，容易带来透明度不足、数据过度收集、数据安全风险、不公平或歧视性数据收集，以及在缺乏充分保护措施的情况下使用敏感数据等问题。这些风险并不总是以明显的“泄露事件”形式出现，而可能隐藏在数据抓取、模型训练与商业部署的全过程之中。

在此基础上，李老师以算法定价为例，进一步说明数据保护法如何面对 AI 驱动的自动化决策问题。他介绍了欧盟《通用数据保护条例》（GDPR）中关于个人数据的基本定义，即个人数据涉及与已识别或可识别自然人相关的信息；在算法定价场景中，信息、自然人、关联性与可识别性共同决定了相关数据处理是否落入数据保护法的调整范围。

随后，李老师介绍了 GDPR 中“数据保护默认与设计”原则，即数据控制者应在处理方式确定时以及实际处理过程中采取适当的技术与组织措施，例如假名化、数据最小化，以及将必要保护措施整合进数据处理流程中。这一原则的重要性在于，它并不只是要求企业在问题发生后补救，而是要求系统在设计阶段就将权利保护、风险控制与合规要求纳入其中。

报告后半部分，李老师进一步将视角转向欧盟的《人工智能法案》（EUAI Act）与《数字服务法案》（Digital Services Act，简称DSA）等制度框架。他重点介绍了EU AI Act的风险分级思路：根据风险程度，AI系统被区分为不可接受风险、高风险、有限风险与最低风险四个等级，不同层级对应不同的监管义务。该法案的核心治理逻辑在于，以风险程度为基准区分监管重点，从而在促进AI应用发展的同时，有效规制其对健康、安全及基本权利可能带来的风险。

李老师同时指出，生成式 AI 与通用目的 AI 模型并不总能被传统“具体用途—具体风险”的监管方式完全覆盖。对于大模型而言，监管问题不只是“某一个应用是否违法”，还包括模型本身在规模、能力、部署方式与社会影响层面是否产生系统性风险。

最后，李老师回到 DSA 对平台透明度、操纵性设计、系统性风险等问题的回应。他指出，透明度义务虽然重要，但在生成式 AI 场景下也可能产生新的问题：如果透明度措施设计不当，反而可能制造虚假的可靠性印象，使用户误以为系统已经足够可信。对于 dark pattern、广告操纵、虚假信息、歧视影响和基本权利风险等问题，现有法律框架提供了若干入口，但仍需要结合生成式 AI 的具体技术特征进一步解释和适用。

李子豪副教授的分享为本次活动提供了清晰的法律与治理视角：当 AI 从实验室和论文进入真实社会之后，问题不再只是模型是否足够准确，也不只是用户是否会正确使用，而是需要回答更制度性的问题——数据如何被收集，风险如何被识别，责任如何被分配，透明度如何避免变成形式主义，以及法律如何在技术快速变化中继续保护人的权利与社会公共利益。

圆桌讨论：把技术、生活与制度放在同一个问题里

在随后的圆桌讨论中，主持人围绕模型安全、日常使用、责任分配与技术治理等问题，引导三位嘉宾展开进一步交流。讨论没有停留在单一学科内部，而是在技术可行性、用户经验与法律制度之间不断切换。

冯悦老师从模型安全的角度指出，大语言模型自身的能力水平会影响其面对越狱攻击时的表现，但从现实角度看，任何大语言模型都很难被认为是绝对不可攻破的。尤其在考虑模型微调、复杂提示词和真实使用环境之后，安全问题会变得更加复杂。她也提到，模型训练数据和技术路线本身对安全表现具有重要影响，而幻觉问题仍然很难被完全消除。

李子豪老师则从法律与制度的角度回应了 AI 治理中的责任问题。他提到，在全球 AI 发展格局中，如果说中美更多承担技术创新和产业推动的角色，欧洲则在很大程度上承担了规则制定和制度探索的功能。作为一个重要市场，欧洲有能力也有动机通过法律框架影响 AI 的发展方向。同时，面对快速变化的生成式 AI，许多法律问题仍处在摸索阶段。即便法律对大语言模型进入法律、临床等高风险领域设有严格限制，相关实践和研究仍在快速发展，这也使监管与创新之间的关系变得更加复杂。

赵逸超博士的讨论更多地立足于人的日常经验，在技术安全与制度治理两个层面之间建立起连接。她结合生活中的AI使用案例与田野研究中的观察指出，人们并不会在完全理解AI之后才开始使用它。更多时候，人们是在使用中形成习惯，在便利中产生依赖，也在遭遇错误与不确定性时重新调整信任。这一现实提醒我们：AI治理不能只盯着模型本身，还需要关注普通用户如何理解AI、如何与AI协商，以及如何在不透明的系统面前保留自己的判断能力。

这场圆桌讨论把三个报告中的问题重新拉回到现实生活中：模型能不能更安全，用户能不能更清醒，法律能不能更及时，平台和开发者能不能承担更明确的责任。这些问题没有简单答案，但它们已经成为每一个 AI 使用者都绕不开的问题。

结语：在便利中保留判断

人工智能已经不再是一个只存在于科幻小说、高校实验室或互联网企业中的技术概念。它正以不可逆的态势，进入千家万户的日常生活。我们会用它节省时间，也会被它误导；会从它那里获得帮助，也会把越来越多的判断交给它。

理解 AI，不能只靠工程师；治理 AI，也不能只依赖法律文本。我们需要让更多人知道：模型会出错，系统可能被攻击，数据会留下痕迹，而透明度有时也会制造新的错觉。知道这些，并不是为了拒绝 AI，而是为了更清醒地使用它。

本次研讨会上，不同背景却带着同样好奇心的人坐在同一个房间里，把技术问题、生活经验与法律责任放在一起讨论。这样的讨论也许很小，却是知识开始流动的方式。知道的人说出来，使用的人问下去，研究的人继续解释，制度也在这些问题中慢慢成形。

AI 走进现实之后，我们每个人都已经在场。我们衷心希望，自己不仅学会如何使用它，更学会如何判断它、约束它，并在它变得越来越方便的时候，依然保留属于自己的理解力。

致谢
感谢冯悦老师、赵逸超博士、李子豪副教授的精彩分享，也感谢各位参与者在周末下午来到现场共同讨论。感谢伦敦大学学院相关场地支持，以及博士联盟服务团队在活动组织、宣传、摄影与现场协调中的工作。

供稿：梁子民

审阅：杨雪婷

排版：苏飞跃曲颖异

博联新闻｜墨影科技参展CIEP，科技部王志刚部长莅临现场参观指导

爱丁堡市长盛赞深圳之行“精彩绝伦”

博士联盟受邀参加总领事馆友中小组会议

【博联团队活动】环保活动

博联新闻｜蔡志明院士任博士联盟终身荣誉主席

山西师范大学校党委副书记郝勇东会见博士联盟主席马江涛

博联协办 | 创业中华——世界名校“侨”重庆邀请函

“创业中华·智汇江苏”——2024年侨界英才看江苏活动圆满举行

Leave a reply Click here to cancel the reply

搜寻

最新新闻

在线用户

群组

微信

微信公众号

地址

Edinburgh

地址

深圳

活动回顾 AI in the Wild: Trust, Safety and Agents

Leave a reply Click here to cancel the reply

搜寻

最新新闻

在线用户

群组

微信

微信公众号

地址

Edinburgh

地址

深圳

Log in with your credentials

Forgot your details?

Create Account