生成式人工智能大模型备案流程简明教程（附常见问题答疑）

dakeflyer 2024-09-14 15:01:01 阅读 73

生成式人工智能大模型备案流程简明教程

关键字：生成式人工智能|大模型备案|上线备案|网信办备案|算法备案

随着人工智能技术的快速发展，大模型在各个领域的应用越来越广泛，对大模型进行安全评估和备案管理，成为一项至关重要的工作。我们根据为大模型公司进行备案辅导服务的工作经验，撰写了此篇大模型备案简明教程，帮助大家熟悉大模型安全风险、梳理大模型上线备案流程，方便大家快速通过备案，取得备案批号，顺利上线运营。

1. 大模型备案的目的

为了促进生成式人工智能（即大模型）健康发展和规范应用，使提供和使用生成式人工智能大模型服务的企业和产品，遵守法律、行政法规，尊重社会公德和伦理道德。大模型备案是指对互联网信息服务主体（即企业）所使用的大模型进行备案登记，包括基本情况、训练语料、算力部署、产品安全、安全评估、必要承诺等，以确保其合法性和安全性。

2. 大模型备案的法律依据

截至目前，大模型备案遵循的法律依据主要有《网络安全法》、《互联网信息服务算法推荐管理规定》、《互联网信息服务深度合成管理规定》、《生成式人工智能服务管理暂行办法》等，其中最后一个《暂行办法》是专门针对生成式人工智能大模型制定的法规制度，需要我们认真学习深入理解。

3. 大模型备案的条件

这里需要说明的是，并不是所有大模型都需要备案才能上线。《生成式人工智能服务管理暂行办法》中明确规定，“利用生成式人工智能技术向中华人民共和国境内公众提供生成文本、图片、音频、视频等内容的服务（生成式人工智能服务）”，以及“提供具有舆论属性或者社会动员能力的生成式人工智能服务的”，应当按照国家有关规定开展安全评估。

换句话说，《暂行办法》对大模型备案的条件进行了界定，当大模型提供文本、图片、音频、视频等内容生成服务，面向的对象是境内公众，同时具备舆论属性或社会动员能力时，才需要“开展安全评估”，也就是我们所说的生成式人工智能大模型上线备案，简称大模型备案。

另外，《暂行办法》也规定了，未向境内公众提供服务的，不适用本办法规定，也就是不用开展安全评估（大模型备案）。

那么，什么是具有舆论属性或社会动员能力？安全评估和模型备案是什么关系？算法备案和模型备案是不是同一件事？大模型备案分几种类型？

4. 大模型备案的内容

大模型备案工作，主要分为训练语料安全、模型基座安全、技术安全措施三大部分，以下从这三个方面进行发散介绍，详细指出大模型技术提供者和服务提供者需要遵循的安全基本要求。

4.1 训练语料安全

首先，需要介绍一下训练语料的来源安全要求。一要面向特定语料来源进行采集前，应对该来源语料进行安全评估和核验。这里需要注意的是，一定不能采集不良信息占比超过5%的语料数据集。二是训练语料来源要体现出多样性，如中文、英文语料，应有多个语料来源。这里需要注意的是，境外中文语料占比不能超过一定比例，要注意中英语料占比、中文语料境内境外占比。三是语料来源要合法合规，要具有开源语料许可协议或授权、爬取语料的构成情况和采集记录、商业语料的购买证明等。

其次，我们要了解一下训练语料的内容安全要求。要对采集来的训练语料进行过滤、去重、标注、确保不包含政治有害、违反社会主义核心价值观信息、个人隐私信息、违法有害信息、泄露商业秘密、侵犯知识产权等内容。

然后，我们还要知道训练语料的标注安全要求。要能提供明确的语料标注规则，应包括标注目标、数据格式、标注方法、质量指标等。同时，要开展数据标注质量评估，抽样核验标注内容的准确性；对标注人员进行必要培训，提升尊法守法意识，监督指导标注人员规范开展标注工作。

4.2 模型基座安全

我们在开发基座模型时，一类是自研模型（我们称之为硬核模型），另一类是基于第三方开源基座进行的二次微调（我们称之为拿来主义）。我们通过这两种技术路径，开发的模型，都可以申请备案。需要提醒的是第二种情况，我们在采用第三方基座模型时，一定要采用已经通过大模型备案的基座，否则备案申请不予受理。目前来看，国内已备案模型中真正具备开源能力的并不多，多是借助开源的名义来进行宣传推广。如需要开源基座名单，可以和我联系获取。

在模型训练时，我们要以生成内容安全性评估作为检验模型安全能力的重要指标。通过问答的方式，来检验模型生成内容的准确性、可靠性。同时，我们也要建立常态化的检测测评手段，来检验模型服务过程中的安全问题，根据实际情况做好指令微调、强化学习，或重新预训练。

4.3 技术安全措施

这部分规定了：一是模型适用人群、场合、用途等，是否支持未成年人使用。二是大模型服务的透明性，用户应知信息需要进行必要公示。三是不能随意将用户输入信息作为训练语料用于大模型训练。四是生成的文本内容要有必要的操作界面提示，生成图片、音视频等内容，要依法进行合理必要标注。五是大模型服务要持续稳定，杜绝出现不必要的卡死、断线、宕机等事故。六是要依法接受公众或使用者的投诉举报，并按照规定时限进行处理并反馈处理结果。七是要有模型更新升级机制，在什么情况下需要进行重新预训练，以及优化训练的周期和频次等，要有明确部署。

4.4 关键词库和测试题库

大模型备案要去，要根据评估要求对训练语料进行关键词评估、对大模型生成内容安全进行测试题评估，并建立相应的关键词库、测试题库（含拒答题库），内容满足“5大类31小类”安全风险要求，如社会主义核心价值观、祖国统一和领土完整、国家安全和国家利益、违法有害、偏见歧视、商业秘密和知识产权、正向拒答等类别。

4.5 安全评估

大模型备案要求中，要对以上各项内容分别进行安全评作,以证明大模型技术提供者和服务提供者（企业）和产品服务的安全性、可靠性、稳定性，撰写形成规定的安全评估和备案申请材料，主要包括生成式人工智能（大语言模型）上线备案表、安全评估报告、模型使用协议、语料标注规则、敏感关键词库、测试问题库等其他相关材料。大模型备案工作内容较多、时间较长、难度也比较大。另外，大模型备案时，还涉及到技术安全测试方面的工作，因为大模型备案政策实施时间相对较短，市面上同时具备备案材料辅导能力、技术安全测试能力的专门服务机构并不多。如需这方面辅导机构资源，可以和我联系获取。

5. 大模型备案的流程

大模型备案遵从属地网信部门受理，国家网信办批准的管理原则，主要分为以下几个步骤：

5.1 报请属地网信部门（也就是省级网信办），申请大模型备案表及安全评估模板。

5.2 企业撰写大模型备案申请材料，包括上线备案表、安全评估报告、模型服务协议、语料标注规则，根据评估情况建设敏感关键词库、评估测试题库等。

5.3 根据要求搭建测试环境、提供测试链接（网站网址、app的apk安装包或二维码）、虚拟测试账号、以及用于自动化测试的API接口代码。需要提醒的是，测试账号和API接口要根据网信部门提供的标准进行开发，确保顺利完成测试。（测试环节需要了解的注意事项，我们有一些经验，需要的可具体联系）

5.4 正式提交大模型备案申请。提交申请时，要提供纸质盖章正式材料、电子版文件材料、测试账号和API接口代码等。各省的备案材料提交要求略有不同，大家可先和属地网信部门取得沟通，确认后再正式提交。尽量不要出现错报、漏报等情况，以免影响备案审查的时间。

5.5 属地网信办受理审查。如果申报材料符合备案要求，属地网信部门受理并开始审查，这个时候不能只等待审查结果，要积极做好各项配合与应对工作（各省的审查方法、测试方向略有不同，因业务关系，我对北京、广东、上海的备案流程较为熟悉，有对其他省份比较了解的，咱们可以建立联系共同学习。）

5.6 审查结论。属地网信部门审查通过后，会上报国家网信办进行终审，终审通过后，由属地网信部门通知备案结果，并发放备案编号，在国家网信办或省级网信部门官方网站向社会进行公示。审查不通过的，企业要根据驳回的建议对备案材料进行优化完善，对产品安全能力进行提升，完成后重新提交申请。

从备案过程看，整个备案流程持续时间较长，如无特别要求外，没有备案经验的企业，首次备案的时间一般在3、4个月，半年，甚至更长时间。我们辅导的多家企业，一般用1个月完成备案材料的准备和申报，1个月后拿到备案批号。

6. 常见问题解答

下面是客户经常问到的一些共性问题，在此做一下简单的解答。

6.1 大模型备案必须要做吗，不做会怎么样？

是的。大模型备案是大模型产品上线前，需要先完成的一项工作，《暂行办法》中有明确的规定，需要先通过上线备案（与安全评估），拿到备案批号，才能上线运营。如果大模型产品是app，在应用商店上架时，会被要求提供大模型通过备案的证明，不能提供批号的无法上架。

目前，也有个别没有备案直接上线的大模型产品（如网站、小程序等），会被监管部门发现，面临约谈、罚款、责令下线、向社会公布等风险，出现这些处理处罚后，再要备案上线，通过难度会很大。所以建议企业尽量不要存在侥幸心理冒这种风险，否则前期的资金投入和员工开支将是很大的负担。

6.2 模型备案和算法备案是同一回事吗？我取得了算法备案号，可以作为模型备案号？

不是。很多人没有准确区分模型备案和算法备案这两个概念。大模型备案是根据《生成式人工智能服务管理暂行办法》制定的审查流程，而算法备案是根据《互联网信息服务算法推荐管理规定》和《互联网信息服务深度合成管理规定》制定的备案流程。两种备案的审批部门、申报内容、备案时机、备案编号等都大不相同。模型备案是上线前需要完成的工作，备案对象是大模型本身，算法备案是在上线后的10日内才要求履行备案手续，备案对象是大模型的底层算法，所以算法备案号不能当做模型备案号。另外，两种备案的要求范围、备案内容也有很大区别，这方面我们也有很多经验和案例，需要的可以联系我，咱们具体交流。

6.3 大模型备案有几种类型？

大模型的技术研发方式有几种类型，有从0到1的自主研发，有在第三方开源基座上进行的微调开发，还有直接调用国内闭源模型开发成的大模型应用（如网站、app、智能音箱等），以及调用境外的GPT模型服务器等。开发方式不同，备案类型就不同，政策要求也会不一样，大家要注意区分。

6.4 大模型备案需要多久？算法备案需要多久？

上面说到，没有模型备案经验的企业，一般需要3-4个月以上或半年时间，经过我们辅导的企业，平均需要1-1.5个月时间。算法备案因为是国家网信办直接审批，按批次公布，时间大概3-4个月。如有这方面需求，可以联系我们，经过评估后，双方共同推进。

6.5 多模态大模型也需要备案吗？

需要。生图、生视频等多模态大模型，因涉及到语义理解，也需要进行包括文本在内的语料训练，所以也需要进行多模态大模型备案，《暂行办法》中有相应条款要求。

6.6 多模态大模型备案要求和文本大模型要求一样吗？

不完全一样。备案材料大致相同，涉及图像、视频多模态的训练语料、生成内容标注、安全评估方法等环节，要根据实际开发训练情况进行阐述。

6.7 有哪些专业辅导机构吗？

不多。上文说到，大模型备案政策实施时间较短，市面上有一些从事代理注册、法务咨询类的机构转过来从事备案辅导服务，但大模型备案除了备案材料申报，另一项重要的审查内容是技术检测，这些机构一般不具备技术检测能力。而市面上同时具备材料辅导能力，和技术安全测试能力的专门服务机构并不多，如有这方面需求需要，欢迎沟通咨询，咱们具体交流。

6.8 通过备案拿到批号后，是不是就可以高枕无忧了？

不是。通过备案，不代表以后就没有内容安全风险，《暂行办法》中提到，“提供者应当在其服务过程中，提供安全、稳定、持续的服务，保障用户正常使用”，有关主管部门依据职责对生成式人工智能服务持续“开展监督检查”。所以大模型获批上线后，仍要持续做好内容安全防护工作，防止出现学习机侮辱伟人、儿童手表生成有害回答等事件，管理部门也会进行常态化的检测监管。

以上是关于生成式人工智能大模型备案流程的简明教程，希望能帮助大家理解备案政策、顺利通过备案。在这方面，我们也有很多辅导经验和实际案例，并且开发有大模型安全检测系统，能帮助大家检测潜在风险，做好安全防护。如有需要获取模型备案表、和安全评估模板，或者需要解答疑问、继续深入交流的朋友，可以随时联系我，谢谢大家！

上一篇：揭秘！中国医疗领域30+前沿AI大模型深度盘点，引领未来医疗新纪元！

下一篇：灵办 AI：免费智能利器，开启高效办公与智能创作学习新时代

本文标签

生成式人工智能大模型备案流程简明教程（附常见问题答疑）

声明

本文内容仅代表作者观点，或转载于其他网站，本站不以此文作为商业用途
如有涉及侵权，请联系本站进行删除
转载本站原创文章，请注明来源及作者。