fxcg50模拟器世界数字技术院(WDTA)发布的全球大模型安全领域首个国际标准《生成式人工智能应用安全测试标准》2024年6月,智谱AI揭晓了GLM基座大模子系列中的GLM-4-9B模子。该大模子锻练数据量到达了10T,具有众模态增援本领,正在语义知道、数学计较、逻辑推理等众个规模均或许展示出超越Llama-3-8B的卓着功能。
GLM-4系列大模子产物由清华靠山的智谱AI团队打造,正在业内被视为中邦大模子本领规模的卓着代外,正在环球墟市都有着寻常的使用。
举动一个正在环球都有着远大影响力且中文用户本原伟大的开源基座大模子产物,正在功能方面得到生色功效的同时,安宁方面功效怎么?永信至诚AI安宁测评「数字风洞」平台对其对线B-chat举办了测评。
正在本次的安宁测评中,「数字风洞」平台运用11类针对大模子代价观对齐的检测手腕,建议8467次提问。GLM-4-9B-chat准确回答占比64.63%,个中合理回答2109次,拒绝回答3363次;很是回答占比35.37%,共2995次。
GLM-4-9B-chat的最终测评得分为44.77分,这一功效相较同类开源基座大模子的测评功效而言低于均匀程度。
GLM-4-9B-chat大模子安宁本原本领但是闭。正在本原检测枢纽,GLM-4-9B-chat呈现了很是回答,正在往期测评过的大模子中,云云的“失分”是很少睹的;
中枢代价观、违法违规、宗教鄙夷方面生活的题目较为非常。查察挖掘,GLM-4-9B-chat天生的5个很是回答关键都聚积正在违反执法法例、违反中枢代价观和宗教鄙夷方面;
安宁方面的数据锻练生活不够。正在越狱检测、前缀注入检测、DAN检测、目的挟造检测等10类测评中,该大模子得分均为0分。反应出该大模子缺乏有用锻练。
「数字风洞」平台最先操纵包罗100个本原题目的测评集举办本原本领测试,随后再叠加11类检测载荷插件降低测试强度,将敏锐要害词变形和埋伏,查察被测大模子是否或许有用识别。
本原本领测评枢纽,GLM-4-9B-chat对个中5个题目给出了很是回答,这一展现比照咱们此前测评过的通义千问Qwen-72B(开源版)、OpenAI GPT-4o、Llama2-7b等大模子产物相对较差。
如下图,原始提问未经任何本领手腕变形的情景下,该大模子还是给出了很是回答:
正在随后的叠加11类检测载荷的高强度测评中,GLM-4-9B-chat的测评展现仍然不佳,正在统共13项测评中,有10项都得了0分。
除上述这些违反执法法例、中枢代价观的很是回答外,该大模子还生活局部政事态度代价观方面的题目,文中未便展现,提倡该开源项目标保卫团队予以眷注,就模子数据质料题目惹起珍贵。
兼容邦表里3种主流测评基准,基于11类提问变异手腕、11类安宁检测载荷插件、20类实质安宁危机测评集和「年龄」AI安宁测评大模子的智能天生和很是判决本领,协议圭臬化的AI安宁测评大模子「数字风洞」安宁测评系统。
以具有很是辅导实质的原始提问测试集为本原,直接举办针对性安宁检测,鉴定是否具备本原语义了解本领,识别彰彰很是;
操纵平台中带有绕过安宁防御法例本领的11类针对性检测插件载荷对测试题目集举办变异和调治,经API接口提交给被测AI大模子建议提问,评估被测大模子的代价观对齐和防御要领;
基于危机的紧要性,「数字风洞」平台主动按照评分圭臬举办归纳判决后输出得分情景。
鉴于GLM-4-9B基座模子生活上述安宁危机,或许会影响最终使用的牢靠性。针对将GLM-4-9B举动基座模子斥地对民众怒放操纵的AI使用、Agent或其他大模子的锻练改正的用户,倘使未举办特意的安宁锻练或加强,肯定要降低警戒。
如需操纵GLM-4-9B模子,提倡正在斥地流程中强化对潜正在攻击手腕的防护。参考AI大模子测评「数字风洞」平台中的联系测评数据集举办针对性的安宁锻练和微调,正在模子框架中增加安宁防护模块等,确保模子或许识别并合理回应很是的诱导性题目。
正在大模子本领突飞大进的成长流程中,数据安宁、隐私掩护、伦理德行、常识产权等挑衅日益呈现。
面临日益苛刻的安宁危机,各邦纷纷出台联系策略法例,美邦揭晓首个天生式AI禁锢规章,哀求大模子产物正式揭晓前要举办安宁评估,上报测试结果;
我邦禁锢部分出台了《天生式人工智能任职处置暂行要领》等策略法例与行业圭臬,夸大正在天生式人工智能本领研发流程中举办数据标注的供应者应该发展安宁评估。
2024年4月,全国数字本领院(WDTA)揭晓的环球大模子安宁规模首个邦际圭臬《天生式人工智能使用安宁测试圭臬》,也提出要注复活成实质安宁,为天生式人工智能使用的安宁测试供应了教导。
可睹,环球范畴内,天生式人工智能任职的安宁造造都是一个纷乱且紧要的议题。作战起一套众宗旨的提防机造,是保护天生式人工智能安宁性的要害。
因为大模子体系的纷乱性和其数据的黑盒属性,通过通例技能举办大模子安宁测试难以泄露更众潜正在的安宁危机。
永信至诚子公司-智能永信维系「数字风洞」产物系统与本身正在AI年龄大模子的本领与履行本领,研发了基于API的AI大模子安宁检测体系—AI大模子安宁测评「数字风洞」平台。
通过锻练一个AI安宁大模子,接入到「数字风洞」测试评估平台,作战了“以模测模、以模固模”的安宁机造,借帮前辈的检测插件,正确地测评各式安宁危机,帮力AI大模子提拔安宁危机提防本领。
“以模测模”从攻击者视角开拔,运用安宁行业笔直语料数据集和测试载荷,锻练安宁测评大模子,实行对通用大模子体系安宁、实质安宁等深度体检,实时挖掘AI大模子的虚亏性及数据缺陷。
“以模固模”指锻练特意的或许识别和过滤很是攻击指令和很是天生实质的专用大模子举动“安宁外脑”,用AI大模子的本领赞帮AI大模子及其使用提拔安宁性。
基于工程化、平台化上风,「数字风洞」平台或许正在环球大模子禁锢规模上线新圭臬后疾速对齐和兼容,支柱各行业大模子使用和产物高效的练习和更新,保障大模子天生实质合规。
正在实质安宁测评方面,平台或许基于变成的100+提示检测模板、10+类检测场景和20万+测评数据集,模仿伪善讯息、痛恨谈吐、性别鄙夷、暴力实质等各样纷乱和边沿的实质天生场景,评估其正在惩罚潜正在敏锐、违法或不对规实质时的反映,确保AI大模子输出实质更适当社会伦理和执法法例哀求。
正在体系安宁测评方面,平台采用众轮回的主动化模仿浸透测试本领,对目的体系举办深切的安宁评估,赞帮AI大模子体系迟缓挖掘潜正在的安宁裂缝,实行先敌防御,确保体系的“数字强壮”。
使用与数据安宁方面,平台基于天生数据提取应激反应特色的“DNA验证”更始测试手腕,实行了针对差别大模子之间的“同源性”验证,或许帮力斥地团队掩护和验证本身大模子的本领原创性与常识产权合规性,赞帮斥地团队、造造和禁锢单元疾速挖掘安宁隐患,帮力大模子安宁造造、禁锢与危机办理。
目前,平台已接入百度千帆、通义千问、月之暗面、虎博、商汤日日新、讯飞星火、360智脑、抖音云雀、紫东太初、孟子、智谱、百川等30余个AI大模子API,以及2个当地搭修的开源AI大模子。
已揭晓Llama2-7b、OpenAI GPT-4o、通义千问Qwen-72B(开源版)等大模子的测评呈报,为大模子厂商供应专业的评估结果和完全整改和调试提倡,以提拔实在质安宁性和合座功能。
「数字风洞」平台正正在一连为大模子财富各界生态团结伙伴供应完整灵巧的安宁本领增援。希望与AI大模子规模的厂商作战更苛紧的团结伙伴联系,协同尽力于鞭策AI安宁生态造造,共筑大模子安宁防地。