生成式人工智能大模型备案流程简明教程(附常见问题答疑)

dakeflyer 2024-09-14 15:01:01 阅读 73

  生成式人工智能大模型备案流程简明教程

关键字:生成式人工智能|大模型备案|上线备案|网信办备案|算法备案

随着人工智能技术的快速发展,大模型在各个领域的应用越来越广泛,对大模型进行安全评估和备案管理,成为一项至关重要的工作。我们根据为大模型公司进行备案辅导服务的工作经验,撰写了此篇大模型备案简明教程,帮助大家熟悉大模型安全风险、梳理大模型上线备案流程,方便大家快速通过备案,取得备案批号,顺利上线运营。

1. 大模型备案的目的

为了促进生成式人工智能(即大模型)健康发展和规范应用,使提供和使用生成式人工智能大模型服务的企业和产品,遵守法律、行政法规,尊重社会公德和伦理道德。大模型备案是指对互联网信息服务主体(即企业)所使用的大模型进行备案登记,包括基本情况、训练语料、算力部署、产品安全、安全评估、必要承诺等,以确保其合法性和安全性。

2. 大模型备案的法律依据

截至目前,大模型备案遵循的法律依据主要有《网络安全法》、《互联网信息服务算法推荐管理规定》、《互联网信息服务深度合成管理规定》、《生成式人工智能服务管理暂行办法》等,其中最后一个《暂行办法》是专门针对生成式人工智能大模型制定的法规制度,需要我们认真学习深入理解。

3. 大模型备案的条件

这里需要说明的是,并不是所有大模型都需要备案才能上线。《生成式人工智能服务管理暂行办法》中明确规定,“利用生成式人工智能技术向中华人民共和国境内公众提供生成文本、图片、音频、视频等内容的服务(生成式人工智能服务)”,以及“提供具有舆论属性或者社会动员能力的生成式人工智能服务的”,应当按照国家有关规定开展安全评估。

换句话说,《暂行办法》对大模型备案的条件进行了界定,当大模型提供文本、图片、音频、视频等内容生成服务,面向的对象是境内公众,同时具备舆论属性或社会动员能力时,才需要“开展安全评估”,也就是我们所说的生成式人工智能大模型上线备案,简称大模型备案。

另外,《暂行办法》也规定了,未向境内公众提供服务的,不适用本办法规定,也就是不用开展安全评估(大模型备案)。

那么,什么是具有舆论属性或社会动员能力?安全评估和模型备案是什么关系?算法备案和模型备案是不是同一件事?大模型备案分几种类型?

4. 大模型备案的内容

大模型备案工作,主要分为训练语料安全、模型基座安全、技术安全措施三大部分,以下从这三个方面进行发散介绍,详细指出大模型技术提供者和服务提供者需要遵循的安全基本要求。

4.1 训练语料安全

首先,需要介绍一下训练语料的来源安全要求。一要面向特定语料来源进行采集前,应对该来源语料进行安全评估和核验。这里需要注意的是,一定不能采集不良信息占比超过5%的语料数据集。二是训练语料来源要体现出多样性,如中文、英文语料,应有多个语料来源。这里需要注意的是,境外中文语料占比不能超过一定比例,要注意中英语料占比、中文语料境内境外占比。三是语料来源要合法合规,要具有开源语料许可协议或授权、爬取语料的构成情况和采集记录、商业语料的购买证明等。

其次,我们要了解一下训练语料的内容安全要求。要对采集来的训练语料进行过滤、去重、标注、确保不包含政治有害、违反社会主义核心价值观信息、个人隐私信息、违法有害信息、泄露商业秘密、侵犯知识产权等内容。

然后,我们还要知道训练语料的标注安全要求。要能提供明确的语料标注规则,应包括标注目标、数据格式、标注方法、质量指标等。同时,要开展数据标注质量评估,抽样核验标注内容的准确性;对标注人员进行必要培训,提升尊法守法意识,监督指导标注人员规范开展标注工作。

4.2 模型基座安全

我们在开发基座模型时,一类是自研模型(我们称之为硬核模型),另一类是基于第三方开源基座进行的二次微调(我们称之为拿来主义)。我们通过这两种技术路径,开发的模型,都可以申请备案。需要提醒的是第二种情况,我们在采用第三方基座模型时,一定要采用已经通过大模型备案的基座,否则备案申请不予受理。目前来看,国内已备案模型中真正具备开源能力的并不多,多是借助开源的名义来进行宣传推广。如需要开源基座名单,可以和我联系获取。

在模型训练时,我们要以生成内容安全性评估作为检验模型安全能力的重要指标。通过问答的方式,来检验模型生成内容的准确性、可靠性。同时,我们也要建立常态化的检测测评手段,来检验模型服务过程中的安全问题,根据实际情况做好指令微调、强化学习,或重新预训练。

4.3 技术安全措施

这部分规定了:一是模型适用人群、场合、用途等,是否支持未成年人使用。二是大模型服务的透明性,用户应知信息需要进行必要公示。三是不能随意将用户输入信息作为训练语料用于大模型训练。四是生成的文本内容要有必要的操作界面提示,生成图片、音视频等内容,要依法进行合理必要标注。五是大模型服务要持续稳定,杜绝出现不必要的卡死、断线、宕机等事故。六是要依法接受公众或使用者的投诉举报,并按照规定时限进行处理并反馈处理结果。七是要有模型更新升级机制,在什么情况下需要进行重新预训练,以及优化训练的周期和频次等,要有明确部署。

4.4 关键词库和测试题库

大模型备案要去,要根据评估要求对训练语料进行关键词评估、对大模型生成内容安全进行测试题评估,并建立相应的关键词库、测试题库(含拒答题库),内容满足“5大类31小类”安全风险要求,如社会主义核心价值观、祖国统一和领土完整、国家安全和国家利益、违法有害、偏见歧视、商业秘密和知识产权、正向拒答等类别。

4.5 安全评估

大模型备案要求中,要对以上各项内容分别进行安全评作,以证明大模型技术提供者和服务提供者(企业)和产品服务的安全性、可靠性、稳定性,撰写形成规定的安全评估和备案申请材料,主要包括生成式人工智能(大语言模型)上线备案表、安全评估报告、模型使用协议、语料标注规则、敏感关键词库、测试问题库等其他相关材料。大模型备案工作内容较多、时间较长、难度也比较大。另外,大模型备案时,还涉及到技术安全测试方面的工作,因为大模型备案政策实施时间相对较短,市面上同时具备备案材料辅导能力、技术安全测试能力的专门服务机构并不多。如需这方面辅导机构资源,可以和我联系获取。

5. 大模型备案的流程

大模型备案遵从属地网信部门受理,国家网信办批准的管理原则,主要分为以下几个步骤:

5.1 报请属地网信部门(也就是省级网信办),申请大模型备案表及安全评估模板。

5.2 企业撰写大模型备案申请材料,包括上线备案表、安全评估报告、模型服务协议、语料标注规则,根据评估情况建设敏感关键词库、评估测试题库等。

5.3 根据要求搭建测试环境、提供测试链接(网站网址、app的apk安装包或二维码)、虚拟测试账号、以及用于自动化测试的API接口代码。需要提醒的是,测试账号和API接口要根据网信部门提供的标准进行开发,确保顺利完成测试。(测试环节需要了解的注意事项,我们有一些经验,需要的可具体联系)

5.4 正式提交大模型备案申请。提交申请时,要提供纸质盖章正式材料、电子版文件材料、测试账号和API接口代码等。各省的备案材料提交要求略有不同,大家可先和属地网信部门取得沟通,确认后再正式提交。尽量不要出现错报、漏报等情况,以免影响备案审查的时间。

5.5 属地网信办受理审查。如果申报材料符合备案要求,属地网信部门受理并开始审查,这个时候不能只等待审查结果,要积极做好各项配合与应对工作(各省的审查方法、测试方向略有不同,因业务关系,我对北京、广东、上海的备案流程较为熟悉,有对其他省份比较了解的,咱们可以建立联系共同学习。)

5.6 审查结论。属地网信部门审查通过后,会上报国家网信办进行终审,终审通过后,由属地网信部门通知备案结果,并发放备案编号,在国家网信办或省级网信部门官方网站向社会进行公示。审查不通过的,企业要根据驳回的建议对备案材料进行优化完善,对产品安全能力进行提升,完成后重新提交申请。

从备案过程看,整个备案流程持续时间较长,如无特别要求外,没有备案经验的企业,首次备案的时间一般在3、4个月,半年,甚至更长时间。我们辅导的多家企业,一般用1个月完成备案材料的准备和申报,1个月后拿到备案批号。

6. 常见问题解答

下面是客户经常问到的一些共性问题,在此做一下简单的解答。

6.1 大模型备案必须要做吗,不做会怎么样?

是的。大模型备案是大模型产品上线前,需要先完成的一项工作,《暂行办法》中有明确的规定,需要先通过上线备案(与安全评估),拿到备案批号,才能上线运营。如果大模型产品是app,在应用商店上架时,会被要求提供大模型通过备案的证明,不能提供批号的无法上架。

目前,也有个别没有备案直接上线的大模型产品(如网站、小程序等),会被监管部门发现,面临约谈、罚款、责令下线、向社会公布等风险,出现这些处理处罚后,再要备案上线,通过难度会很大。所以建议企业尽量不要存在侥幸心理冒这种风险,否则前期的资金投入和员工开支将是很大的负担。

6.2 模型备案和算法备案是同一回事吗?我取得了算法备案号,可以作为模型备案号?

不是。很多人没有准确区分模型备案和算法备案这两个概念。大模型备案是根据《生成式人工智能服务管理暂行办法》制定的审查流程,而算法备案是根据《互联网信息服务算法推荐管理规定》和《互联网信息服务深度合成管理规定》制定的备案流程。两种备案的审批部门、申报内容、备案时机、备案编号等都大不相同。模型备案是上线前需要完成的工作,备案对象是大模型本身,算法备案是在上线后的10日内才要求履行备案手续,备案对象是大模型的底层算法,所以算法备案号不能当做模型备案号。另外,两种备案的要求范围、备案内容也有很大区别,这方面我们也有很多经验和案例,需要的可以联系我,咱们具体交流。

6.3 大模型备案有几种类型?

大模型的技术研发方式有几种类型,有从0到1的自主研发,有在第三方开源基座上进行的微调开发,还有直接调用国内闭源模型开发成的大模型应用(如网站、app、智能音箱等),以及调用境外的GPT模型服务器等。开发方式不同,备案类型就不同,政策要求也会不一样,大家要注意区分。

6.4 大模型备案需要多久?算法备案需要多久?

上面说到,没有模型备案经验的企业,一般需要3-4个月以上或半年时间,经过我们辅导的企业,平均需要1-1.5个月时间。算法备案因为是国家网信办直接审批,按批次公布,时间大概3-4个月。如有这方面需求,可以联系我们,经过评估后,双方共同推进。

6.5 多模态大模型也需要备案吗?

需要。生图、生视频等多模态大模型,因涉及到语义理解,也需要进行包括文本在内的语料训练,所以也需要进行多模态大模型备案,《暂行办法》中有相应条款要求。

6.6 多模态大模型备案要求和文本大模型要求一样吗?

不完全一样。备案材料大致相同,涉及图像、视频多模态的训练语料、生成内容标注、安全评估方法等环节,要根据实际开发训练情况进行阐述。

6.7 有哪些专业辅导机构吗?

不多。上文说到,大模型备案政策实施时间较短,市面上有一些从事代理注册、法务咨询类的机构转过来从事备案辅导服务,但大模型备案除了备案材料申报,另一项重要的审查内容是技术检测,这些机构一般不具备技术检测能力。而市面上同时具备材料辅导能力,和技术安全测试能力的专门服务机构并不多,如有这方面需求需要,欢迎沟通咨询,咱们具体交流。

6.8 通过备案拿到批号后,是不是就可以高枕无忧了?

不是。通过备案,不代表以后就没有内容安全风险,《暂行办法》中提到,“提供者应当在其服务过程中,提供安全、稳定、持续的服务,保障用户正常使用”,有关主管部门依据职责对生成式人工智能服务持续“开展监督检查”。所以大模型获批上线后,仍要持续做好内容安全防护工作,防止出现学习机侮辱伟人、儿童手表生成有害回答等事件,管理部门也会进行常态化的检测监管。

以上是关于生成式人工智能大模型备案流程的简明教程,希望能帮助大家理解备案政策、顺利通过备案。在这方面,我们也有很多辅导经验和实际案例,并且开发有大模型安全检测系统,能帮助大家检测潜在风险,做好安全防护。如有需要获取模型备案表、和安全评估模板,或者需要解答疑问、继续深入交流的朋友,可以随时联系我,谢谢大家!

aa5ad51874cf43099b2327284d817369.png



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。