产业

博特智能周诗林:四个领域为AIGC构建安全边界

7月6日-8日,2023世界人工智能大会(WAIC)期间,博特智能分别入选中国信通院《2023大模型和AIGC产业图谱》以及亿欧智库发布的《高投资价值垂直场景服务商榜单》、《人工智能全产业链图谱》、《AIGC原子能力产业图谱》。其算法、数据、行业应用的AI商业落地能力和创新价值受到广泛认可。

7月6日-8日,2023世界人工智能大会(WAIC)期间,博特智能分别入选中国信通院《2023大模型和AIGC产业图谱》以及亿欧智库发布的《高投资价值垂直场景服务商榜单》、《人工智能全产业链图谱》、《AIGC原子能力产业图谱》。其算法、数据、行业应用的AI商业落地能力和创新价值受到广泛认可。

博特智能联合创始人、副总裁、AI算法负责人周诗林受邀出席“AI商业落地论坛”上,并发表《机遇伴随风险,博特智能为AIGC构建安全边界》主题演讲。以下是经整理后的演讲节选:

博特智能一家专注于内容生态领域的人工智能科技公司,在AI浪潮时代来临之前,我们一直在积极探索大语言模型(LLM)的应用和实践,3年来,研发了一系列内容安全、内容生成、内容服务方面的AI产品。

在大模型火爆之前,博特智能在去年年底,我们就已经在AI内容创作领域进行了模型算法以及行业应用的研发工作,今年3月底,我们第一个垂直场景的AIGC写作应用“博特妙笔”就已经上线运营。

所以,我们在发展人工智能大模型和应用产品方面积累了较多的经验和优势,比如数据语料、内容安全、场景入口、多模态能力、核心技术算法、语言模型、垂直应用工具等领域。

在大模型加持的AI服务和产品的时代,每天在网络上产生的信息量以指数级爆炸式增加,人工智能创造的内容也越来越频繁地充斥到网络当中。

当人工创作与机器创作的内容再也无法轻易区分时,这些起初源于人类的信息,经过机器的理解和整合,又反过来对人类的思维和行为方式产生深刻的影响。人类更弱的控制能力使得内容的风险更多,从技术框架、深度学习框架、开源框架有非常多的代码漏洞。训练数据的异常、人为造成的异常、输出的异常是现在面临更大的风险。

【错误使用方式将带来难以预料的恶果】

建立在如今的大模型之上的人工智能,与大家在影视作品中所接受的形象有所不同。在影视作品中,人工智能往往被呈现为可以模拟人类的思维、情感和记忆方式的人造生命。然而,现实中的人工智能还远没有达到这种程度,而仅仅是通过模拟人类语言组织习惯来进行交互和处理信息。

由于对话式模型对齐微调的过程中以人类评分为奖励目标,使得实现机器与人类的积极交互的过程中,出现的第一个副作用就是模型更多的关注于服从人类指令,顺应人类指令的重要性超过了回答本身,使得用户可以随时命令模型按照自己的意志扭曲回答方式,从而导致人工智能的响应内容缺乏可靠性、真实性、甚至存在偏见和误导。

所以,当前的人工智能在以下场景具有明显缺陷:

1. 人工智能缺乏承认未知或不确定性的能力,这使得它即使在偏离事实的情况下也会努力完成回答。

2. 人工智能倾向于不否认用户输入。不否认输入的前提,使得人对模型的攻击极易奏效。

3. 人工智能倾向于承认已发生的错误输出。当它输出了违背事实的内容之后,为保持前后逻辑的顺畅性,它难以违背历史输出,这就是我们通常所说的没有思考能力。

在这里分享两个案例,一名执业30年的资深律师,在向法庭提供的文件中引用了6个ChatGPT提供的不存在的案例,面临法庭惩罚。另一位大学教授怀疑学生利用人工智能完成作业,在向ChatGPT询问是否由它写作,得到肯定答复后,试图给所有学生打出不及格成绩。

这两个案例中的使用人都在不了解新兴技术原理的情况下,在对人工智能这一概念根深蒂固的传统期望下,误以为机器具有了人的认知和记忆能力以及对自身行为的判断能力,这恰巧反而落入了大模型幻觉的圈套。所以,错误地使用方式将带来难以预料的恶果。

【攻击方式更加难以防范和杜绝】

大模型幻觉是当前技术发展路线上的缺陷,而对人工智能应用的蓄意攻击则是网络安全威胁在新时代的又一次蜕变。

人工智能模型是利用自然语言进行操作的,对其攻击的方式与传统方式大不相同。传统的网络攻击方式通常是发掘和利用技术漏洞,而自然语言的灵活性和不确定性使得攻击者可以通过组织语言向人工智能服务发起攻击,由于模型不能严格遵循人类指令输出,这种攻击方式更加难以防范和杜绝。

前不久,博特智能AIGC安全实验室联合新华社媒体融合生产技术与系统国家重点实验室、创业黑马(300688)发布了国内首份《AIGC安全报告》,总结了10种AIGC技术框架攻击方式,比如,提示注入攻击、数据投毒攻击、模型投毒攻击、模型萃取攻击、拜占庭攻击。我们也希望这份报告给国内的AIGC研发公司一个指引,引起足够的重视。

最为普遍有效的攻击方式是诱导模型输出或绕过自己的预设指令及角色,精心构造prompt,来诱导模型产生出乎开发者意料的输出结果,从而绕过开发者对模型输出能力的限制。攻击者还可通过引导模型执行根据用户指令生成的代码,可导致用户敏感文件、密钥等信息泄露。总之,这些攻击方式对于人工智能模型的可信度和安全性提出了极大的挑战。

数据污染,会导致模型犯错不可逆】

大模型易受攻击的根源在于其最初的训练方式。获得一个具备良好的文字能力的大型语言模型,需要极大规模的参数数量和优质训练语料数量。为满足训练数据的数量要求,开发者会最大化利用所有获取数据的方式,但又无法对训练数据内容进行完整的甄别和清洗。包含隐私、恶意、违规、版权的内容将不可避免的进入训练过程中,也不可避免地出现在模型的输出中。

即使我们在后续的强化学习或指令微调中,人为向模型引入对异常输出的回避能力,仍然无法彻底解决模型输出的合规性问题。因为模型在最初的训练步骤中就已经获得了生成和合成不合规内容的能力。

这些不合规内容可能是从训练数据中学习到的,也可能是对不同信息模仿或合并获得。由于人工智能模型的复杂性和随机性,我们无法精确控制模型的输出结果,因此也无法完全消除不合规内容的生成。

内容合规问题是01游戏,AIGC也不可避免

大模型输出不可控的另一个更令人担忧的问题,是用户将大模型应用在不符合设计意图的领域上,深度合成的另一面是深度伪造。随着AIGC应用的持续火爆,对人工智能的滥用现象的担忧也开始兴起。

世界各国开始进行了法律法规方面的工作,一方面要求人工智能服务提供商规避有害输出,另外从版权角度,则要求训练不能包含对版权方面违规的信息。我们国家网信办提出的《生成式人工智能服务管理办法》,则更多地关注对深度合成内容的标记、溯源,确保能够避免民众被虚假的伪造内容欺骗。从国内各类监管案例来看,内容安全问题是0 和1的游戏,一旦出现严重的内容违规问题,面临的处罚也是十分严重。

博特智能发布的《AIGC安全报告》中,有这样一组数据,希望能给大家提供一个参考,AIGC安全实验室对市面上9大领域主流AIGC应用进行了抽样评测(应用类型涵盖Al聊天、Al写作、Al绘画、Al图像、Al文案、Al设计、Al办公、Al音频和Al视频)。评测结果发现97%的应用已经部署内容安全机制,能够对中文提示词和违规内容进行拦截过滤,但通过提示词调整(例如,采用英文提示词或其它描述方式),99%的AIGC应用仍然会生成违规内容,更多的报告内容可以到“博特智能AIGC安全实验室”官网进行下载。

值得关注的是,目前AIGC领域专业的安全产品还非常少。在内容合规安全治理方面,我们博特智能经过多年积累,在数据、算法、标签、技术能力、服务方案等方面有比较深入的积累。在国内率先提出了《AIGC应用安全评测解决方案》和《AIGC内容安全合规解决方案》。

《AIGC应用安全评测解决方案》是博特智能以30万+违规线索库和提示词生成模型为基础,对AI应用回答的图片、文字、视频进行是否符合道德标准、遗漏的屏蔽词和屏蔽词的变形体、数据质量、数据来源和数据的准确性的审核。

《AIGC内容安全合规解决方案》是一种致力于处理AI赋能内容产生过程中的版权、内容审查和合规性难题的工具。无论是内容生成、社交媒体管理,还是音视频制作等多样化的应用场景,都能找到其应用之处。

鉴于大模型的训练特点,想要在训练时就排除全部隐私、违规或其他类型数据仍然无法实现,而检测输出数据中的隐私等信息同样困难重重。目前,GPT-4的内容过滤准确率也仅有85%左右。所以,AIGC模型和应用在内容合规的重点都应该是在内容输入和最终输出方面过滤机制的建立和完善,而非只是单独严格阻止模型输出相关信息。

生成式AI服务的大规模出现,推动科技向星辰大海探索的同时,也在挑战一系列颠覆现有认知之外的伦理、内容、数据安全问题。但在大语言模型的时代,新的应用模式会带来一些新型的审查要求,安全合规治理也迫切需要对症解决。

24快报
JSON抓取失败