万字详解:生成式人工智能合规义务的体系化梳理

新闻资讯   2023-06-20 19:39   84   0  



随着ChatGPT等大语言模型引发的技术浪潮,生成式人工智能的合规义务成为热点问题。本文基于主体维度,从研发和经营两大方面对生成式人工智能合规义务体系进行分析探讨,与行业同仁交流。
|Cyrus 互联网法务
本文由作者向新则独家供稿
不同于欧盟在《人工智能法案》中确立的以风险为基准的人工智能治理框架,我国对于人工智能的治理依托于算法主体责任渐次展开,其中《生成式人工智能服务管理办法(征求意见稿)》以生成式人工智能服务提供者为主要规制对象,《互联网信息服务深度合成管理规定》则明确区分了深度合成服务提供者、深度合成服务技术支持者作为不同的监管对象。
据此,本文基于主体维度对合规义务体系进行整体搭建,采取“研发——经营”二维体系。就具体规则层面,由于我国对人工智能的监管规则是跨法域的,具有明显的产品功能导向和监管目的导向的特征,若从法域角度进行梳理会打散原有的规则内容,也不利于合规义务主体在实操中确定其遵循的规则。因此,本文在研发合规中遵循“技术开发——训练数据——数据处理——算法治理——内容生成”的逻辑,在经营合规中遵循“准入资质——服务运维——用户管理”的逻辑。基本框架如下图:
需要说明的是,本文仅仅是个人学习形成的观点,供读者交流、探讨,不代表任何主体出具的法律合规建议,也不涉及任何商业信息的透出或服务于任何商业目的。
- 1 -
研发合规
一、技术开发
(一)开源合规
加强对开源软件以及数据集的审核与管理。人工智能产业链通常分为基础层、技术层和应用层三个层次,技术层包含计算机视觉、自然语言识别、机器学习等关键技术,目前人工智能产业中的开源软件技术主要集中在机器学习尤其是深度学习领域。就生成式人工智能而言,目前OpenAI对外开源了GPT-1和GPT-2,但对于GPT-3及之后的模型都封闭运行,我国很多的AIGC产品也是基于上述两个开源模型开发的。
开源协议中往往要求后续发布者以相同的许可证发布,因而具有一定的传染性,需要在使用前充分评估风险。值得注意的是,除了软件开源许可领域常见的GPL、MIT等许可证之外,许多开源数据集采用的是CC BY-SA 4.0 协议,这种“知识共享公共许可证”拥有和开源软件许可证大体相似的结构,相关法律风险也可以参照理解。总之,在模型开发与数据集选取上都应注意开源合规问题,尤其是对许可证的安全评估,而一旦采用之后,则应严格遵循许可协议。
(二)知识产权合规
如果是自行研发的大模型,需要排除现有市场上是否已存在其他相同的未开源技术(包括软件著作权和专利),防止模型侵犯他人知识产权。此外,还要根据具体情况在对开发项目进行商业化乃至开源之前就原创知识产权进行登记软著或申请专利保护,以防止因未经保护的知识产权的公开而导致潜在商业价值的丧失。
(三)技术进口合规
根据《中华人民共和国对外贸易法》、《中华人民共和国技术进出口管理条例》以及《中国禁止进口限制进口技术目录》,对于限制引进的知识产权,应当向商务部门提交技术进出口申请并取得许可证;对于禁止引进的知识产权,不得引进。从物项维度,在涉及人工智能的软件和信息技术服务业领域,深度伪造技术即被我国列入限制进口清单,需要企业在技术采购时进行细致审核,而且美国也曾发布相关措施限制人工智能软件的出口。从主体维度,不仅美国把许多中国企业列入实体清单,中国也对一些境外的特定主体对华出口作出了一定程度的限制,企业一旦违反相关规范,不仅可能招致国内处罚,还可能引发国际制裁措施。
(四)算法开发
1增强安全透明
《新一代人工智能伦理规范》规定:“在算法设计、实现、应用等环节,提升透明性、可解释性、可理解性、可靠性、可控性,增强人工智能系统的韧性、自适应性和抗干扰能力,逐步实现可验证、可审核、可监督、可追溯、可预测、可信赖。”算法安全的前提是可控,可控的前提是可解释。
目前域外主要国家针对人工智能的监管政策均强调人工智能算法的透明性要求,如美国《AI风险管理框架》中即提出了对人工智能“Explainable and Interpretable”方面的风险管理要求。欧盟《人工智能法案》也提出了透明度要求,认为高风险人工智能应当附有使用说明,其中包括与用户有关、用户可访问、用户可理解的信息,且信息应该是简洁、完整、正确、清晰的,从人类监管的角度来说,应当做到人类可以根据系统的特征和可用的解释工具和方式解释系统的输出。具体的,根据欧盟《人工智能法案》,基础模型的提供者应当通过适当方法(如独立专家参与的模型评估、记录分析和广泛测试)确保基础模型整个生命周期内都实现适当水平的性能、可预测性、可解释性、可纠正性以及安全性。
2避免偏见歧视
除透明性外,算法的公平性也是监管的重点要求。《新一代人工智能伦理规范》规定:“在算法开发中,加强伦理审查,充分考虑差异化诉求,避免可能存在的数据与算法偏见,努力实现人工智能系统的普惠性、公平性和非歧视性。”美国《人工智能权利法案蓝图》针对人工智能领域的权利保护提出了“避免算法歧视,确保系统公平性”的原则,《AI风险管理框架》也明确指出对于人工智能公平性的管理,避免出现有危害的偏见。欧盟《人工智能法案》从数据治理的角度提出,在训练数据收集阶段即应当进行偏见审查,就检测、预防和减轻可能的偏见采取适当措施,这一点和训练数据的客观性、多样性具有密切联系。
二、训练数据
(一)数据来源
1权利基础
(1)知识产权
用于生成式人工智能产品的预训练、优化训练数据不得含有侵犯知识产权的内容。预训练(pre-training)和优化训练(又称微调,fine-tuning)是一组相对的概念,前者是就模型进行基础性的训练,通常使用了较大规模的数据集,以使得模型已经具有通用性的生成功能;后者则指后续开发者以自己的数据集进行参数微调,使模型更适合自己的需求。两种训练均需要使用海量数据,这些数据可能通过网络爬取以及数据采购等方式获得,研发者需要通过对数据集提供者的尽职调查、爬虫对象的选取以及训练前的数据清洗或其他技术措施防止这些数据可能侵犯他人知识产权、个人信息权以及商业秘密。
(2)个人信息
数据包含个人信息的,应当征得个人信息主体同意或者符合其他合法性基础。就个人信息而言,即便在收集进入数据集时有完整、清晰、可靠的授权链路,但要保证信息主体对后续经由人工智能的每一次对外输出个人信息都进行单独同意显然是不可能的。《生成式人工智能服务管理办法(征求意见稿)》虽然只规定用于训练的个人信息必须经过信息主体同意或者基于其他合法性基础,但由于生产式人工智能本身不可避免地具有传输数据的功能,而其面向的用户群体是不特定的,如果人工智能不受控制地将重要数据和个人信息进行对外输出,则可能导致巨大的数据泄露风险。
目前技术尚无法保证人工智能在生成环节自动过滤个人信息或将个人信息匿名化之后输出,也无法保证未经匿名化处理的个人信息被“算法黑箱”用于不可知的目的,因此至少在现阶段,个人信息在用于训练之前应当全部进行匿名化处理。
(3)商业秘密
禁止非法获取商业秘密。
2数据性质
核心数据和重要数据不得用于训练。根据《数据安全法》,国家“根据数据在经济社会发展中的重要程度,以及一旦遭到篡改、破坏、泄露或者非法获取、非法利用,对国家安全、公共利益或者个人、组织合法权益造成的危害程度,对数据实行分类分级保护。”国家加强对重要数据的保护,“对关系国家安全、国民经济命脉、重要民生、重大公共利益等国家核心数据,实行更加严格的管理制度。”训练数据不宜使用重要数据和核心数据,以免带来巨大的安全隐患。关于二类数据的范围界定,在官方划定的更详细的分类目录出台之前,可参考《信息安全技术 重要数据识别指南(征求意见稿)》《网络数据安全管理条例(征求意见稿)》等相关文件进行筛选。
3爬虫合规
(1)技术手段
爬虫不应避开或突破被访问网站的技术防护措施。网站基于其特定目的可能采取措施禁止或限制对其数据的爬取,如果网络爬虫手段以侵入性的方式突破了网站的技术防护屏障,不仅可能承担民事侵权责任,还可能构成非法获取计算机信息系统数据罪等网络犯罪。
(2)爬虫协议
数据爬取应当遵循爬虫协议及合同约定。除了技术性防护措施外,爬虫协议也是网站权利人宣示其对爬虫访问及爬取数据的限制意图的常见方式。爬虫协议在搜索引擎领域已被广泛采用并成为一种行业规范,已有判决也支持了爬虫协议的法律效力。除了爬虫协议外,数据权利人与他人也可能以合同形式约定对数据访问、获取的权限。如果违背服务条款访问、获取其未被授权的数据,则可能承担违约责任。
4质量保障
保证用于生成式人工智能产品的预训练、优化训练数据的真实性、准确性、客观性、多样性。《生成式人工智能服务管理办法(征求意见稿)》对训练数据的质量提出了真实性、准确性、客观性、多样性四项要求,以尽可能保证生产结果的真实准确以及公平客观,但实操中可能很难落实。在训练阶段就数据真实性、准确性进行细致判断也缺乏可行性,因此只能尽可能选取业内高质量的数据集进行训练,并确保数据来源的权威性和提供方的可靠性。值得注意的是,《北京市促进通用人工智能创新发展的若干措施》中提出将“组织有关机构整合、清洗中文预训练数据,形成安全合规的开放基础训练数据集;持续扩展多模态数据来源,建设高质量的文字、图片、音频、视频等大模型预训练语料库,支持在依法设立的数据交易机构开展数据流通、交易。”若有官方的高质量数据集出现,宜及时关注并采用。
(二)数据处理
1人工标注
生成式人工智能产品研制中采用人工标注时,提供者应当制定清晰、具体、可操作的标注规则,对标注人员进行必要培训,抽样核验标注内容的正确性。生成式人工智能的算法模型内部采用“机器学习+人工标注”模式,训练人工智能需要大量的人工标注数据,特别是深度学习技术,一般都需要成千上万数据的训练,规范人工标注是干预机器学习的重要途径。目前许多人工智能训练是通过标注软件LabelImg对其数据集进行人工标注的,但对标注质量的要求尚未统一化。行业性规范层面,已经存在一些数据标注的质量要求,比如《人工智能医疗器械质量要求和评价 第3部分:数据标注通用要求》。
随着生成式人工智能产业规模化发展,人工标注也将逐渐产业化,早在2019年山西省人民政府就出台了《关于加快我省数据标注产业发展的实施意见》,北京市人民政府也拟搭建数据集精细化标注众包服务平台,以众包服务方式,建设数据集精细化标注平台,开发智能云服务系统,集成相关工具应用,鼓励并组织来自不同学科的专业人员参与标注多模态训练数据及指令数据,提高数据集质量。
2数据存储与传输安全
训练所用的数据中可能存在着核心数据、重要数据以及大量个人信息,法律法规对这些数据的存储和传输安全有着极高的要求。具体安全措施方面,应结合《数据安全法》《网络安全法》《个人信息保护法》等要求进行具体设置。
个人信息方面,可以对数据集中包含的个人信息采取相应的加密、去标识化等安全技术措施。对于其他数据,《网络数据安全管理条例(征求意见稿)》第9条的下列规则可以参照:“数据处理者应当采取备份、加密、访问控制等必要措施,保障数据免遭泄露、窃取、篡改、毁损、丢失、非法使用,应对数据安全事件,防范针对和利用数据的违法犯罪活动,维护数据的完整性、保密性、可用性。数据处理者应当按照网络安全等级保护的要求,加强数据处理系统、数据传输网络、数据存储环境等安全防护,处理重要数据的系统原则上应当满足三级以上网络安全等级保护和关键信息基础设施安全保护要求,处理核心数据的系统依照有关规定从严保护。数据处理者应当使用密码对重要数据和核心数据进行保护。
3数据披露安全
(1)对外提供与委托处理
训练数据一般仅用于模型训练,若因业务需要必须对外提供的,需要满足合法、正当、必要的原则,并遵循相关法律法规的要求。对外提供个人信息需要遵循单独同意的规则,需要对数据接收方进行充分尽职调查并将接收方相关情况告知信息主体。
《个人信息保护法》第23条规定:“个人信息处理者向其他个人信息处理者提供其处理的个人信息的,应当向个人告知接收方的名称或者姓名、联系方式、处理目的、处理方式和个人信息的种类,并取得个人的单独同意。接收方应当在上述处理目的、处理方式和个人信息的种类等范围内处理个人信息。接收方变更原先的处理目的、处理方式的,应当依照本法规定重新取得个人同意。”
如果对外提供的是重要数据,则一方面需要进行重要数据处理的安全评估,另一方面未来还需要征得主管部门的同意。根据《网络数据安全管理条例(征求意见稿)》,需要重点评估以下内容:“
(一)共享、交易、委托处理、向境外提供数据,以及数据接收方处理数据的目的、方式、范围等是否合法、正当、必要;
(二)共享、交易、委托处理、向境外提供数据被泄露、毁损、篡改、滥用的风险,以及对国家安全、经济发展、公共利益带来的风险;
(三)数据接收方的诚信状况、守法情况、境外政府机构合作关系、是否被中国政府制裁等背景情况,承诺承担的责任以及履行责任的能力等是否能够有效保障数据安全;
(四)与数据接收方订立的相关合同中关于数据安全的要求能否有效约束数据接收方履行数据安全保护义务;
(五)在数据处理过程中的管理和技术措施等是否能够防范数据泄露、毁损等风险。”
如果评估认为可能危害国家安全、经济发展和公共利益,则不得共享、交易、委托处理、向境外提供数据。在《网络数据安全管理条例(征求意见稿)》未来生效后,数据处理者共享、交易、委托处理重要数据的,应当征得设区的市级及以上主管部门同意,主管部门不明确的,应当征得设区的市级及以上网信部门同意。
(2)数据出境
数据出境的场景主要包括两类:一是数据处理者将在境内运营中收集和产生的数据传输、存储至境外。二是数据处理者收集和产生的数据存储在境内,境外的机构、组织或者个人可以访问或者调用。将包含个人信息和重要数据的训练数据进行跨境传输的,应当按照《个人信息保护法》《数据出境安全评估办法》等相关文件进行合规评估,数据出镜涉及国家安全,风险等级高,监管措施已经较为成熟,具体规则兹不赘述。
三、算法治理
(一)安全评估
1“双新”评估
利用生成式人工智能产品向公众提供服务前,应当按照《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》向国家网信部门申报安全评估。根据《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》的定义,所谓“舆论属性或社会动员能力”意指提供公众舆论表达渠道或者具有发动社会公众从事特定活动能力,从生成式人工智能来看,由于以ChatGPT为代表的聊天机器人自身并没有提供用户联结、沟通的平台,在机器人不将用户观点用于训练并进而对其他用户输出的前提下,个人在与机器人聊天时表达社会政治观点并不具有公开性,但机器人因其类人的输出内容可能具有“发动社会公众从事特定活动”的能力,因此所有利用生成式人工智能产品向公众提供服务的主体均应就其模型进行安全评估申报。
2深度合成评估
深度合成服务提供者和技术支持者提供具有以下功能的模型、模板等工具的,应当依法自行或者委托专业机构开展安全评估:(一)生成或者编辑人脸、人声等生物识别信息的;(二)生成或者编辑可能涉及国家安全、国家形象、国家利益和社会公共利益的特殊物体、场景等非生物识别信息的。
除了前述“双新”评估外,《互联网信息服务深度合成管理规定》第15条就生成生物识别信息和具有公共属性的非生物识别信息的算法专门规定了安全评估义务,生成式人工智能服务往往都带有此类功能,应当单独进行安全评估,但其具体评估内容和办法尚待监管部门进一步明确。
需要补充说明的是,关于深度合成技术和AIGC的关系,2023年1月10日新施行的《互联网信息服务深度合成管理规定》将“利用深度学习、虚拟现实等生成合成类算法制作文本、图像、音频、视频、虚拟场景等网络信息的技术”统称为“深度合成技术”,有学者认为,以ChatGPT为代表的具有生成合成类功能的生成式人工智能当属于深度合成技术所指的范围。应当说,深度合成技术这一概念具有更大的张力,生成式人工智能完全可以被包含在生成合成类技术中,当然属于深度合成的范畴。但由于《生成式人工智能服务管理办法(征求意见稿)》有其颁布背景,即主要指向以ChatGPT为代表的大语言模型,因此相对来说其规制对象比深度合成的规定更为聚焦。
虽然《生成式人工智能服务管理办法(征求意见稿)》采取了开放列举模式,在文意上并不排斥将AR/VR场景应用含括在内,但结合该办法第七条和第十七条多次提到产品的预训练和优化训练数据,以及第十九条规定的违规场景,AR/VR服务场景不属于其典型的规制范围,但如果这种服务中嵌入了生成式服务内容,毫无疑问需要受到《生成式人工智能服务管理办法(征求意见稿)》的约束。同样的,生成式人工智能服务因属于深度合成技术,《互联网信息服务深度合成管理规定》的相关规定也应适用。
(二)算法审核
应当加强技术管理,定期审核、评估、验证生成合成类算法机制机理。该义务来源于《互联网信息服务算法推荐管理规定》。除此以外,《新一代人工智能伦理规范》规定:“根据应当定期审核、评估、验证算法机制机理、模型、数据和应用结果等,不得设置诱导用户沉迷、过度消费等违反法律法规或者违背伦理道德的算法模型。”从该条来看,算法审核的内容既涉及合法合规层面,也涉及伦理道德层面,服务者应制定针对自己算法特性的审查程序。
(三)科技伦理审查
目前科技部制定了《科技伦理审查办法(试行)(征求意见稿)》,要求从事生命科学、医学、人工智能等科技活动的单位,研究内容涉及科技伦理敏感领域的,应设立科技伦理(审查)委员会,开展伦理风险评估,具体审查方法与内容有待后续科技部进一步明确。
四、内容生成
(一)内容合规
1合法正确
《生成式人工智能服务管理办法(征求意见稿)》第4条规定:“(一)利用生成式人工智能生成的内容应当体现社会主义核心价值观,不得含有颠覆国家政权、推翻社会主义制度,煽动分裂国家、破坏国家统一,宣扬恐怖主义、极端主义,宣扬民族仇恨、民族歧视,暴力、淫秽色情信息,虚假信息,以及可能扰乱经济秩序和社会秩序的内容。(二)在算法设计、训练数据选择、模型生成和优化、提供服务等过程中,采取措施防止出现种族、民族、信仰、国别、地域、性别、年龄、职业等歧视。
除此之外,第15条也提出了在内容行业很有影响力的“九不准”规则,即“互联网信息服务提供者不得制作、复制、发布、传播含有下列内容的信息:
(一)反对宪法所确定的基本原则的;
(二)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一的;
(三)损害国家荣誉和利益的;
(四)煽动民族仇恨、民族歧视,破坏民族团结的;
(五)破坏国家宗教政策,宣扬邪教和封建迷信的;
(六)散布谣言,扰乱社会秩序,破坏社会稳定的;
(七)散布淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪的;
(八)侮辱或者诽谤他人,侵害他人合法权益的;
(九)含有法律、行政法规禁止的其他内容的。”强调的内容具有相似性,应结合起来理解并遵循。
2真实准确
《生成式人工智能服务管理办法(征求意见稿)》第4条第4项规定:“利用生成式人工智能生成的内容应当真实准确,采取措施防止生成虚假信息。”《互联网信息服务深度合成管理规定》第6条第2款就虚假新闻强调“不得利用深度合成服务制作、复制、发布、传播虚假新闻信息。”
禁止虚假新闻自然毋庸置疑,但生成式人工智能大量场景本来就是生产虚构内容的,如果是非新闻的场合如生产虚拟情景的图片乃至写小说等情况,本不应要求所谓的“真实性”,更没有准确性要求可言。因此,结合该义务的实质目的,笔者认为,在服务提供者落地时,仅需考虑有现实客观依据的内容生成应遵循真实准确的要求,自始属于纯虚构内容的并无此要求。
(二)内容标识
根据《生成式人工智能服务管理办法(征求意见稿)》第16条,提供者应当按照《互联网信息服务深度合成管理规定》对生成的图片、视频等内容进行标识。由于深度合成可能被用于“无中生有”或篡改信息内容,对生成或合成内容进行标识构成了服务提供者负有的信息安全管理义务之一,欧盟《数字服务法》也要求平台进行深度合成标注。根据《互联网信息服务深度合成管理规定》的规定,标识制度包括一般标识、显著标识、设置显著标识的功能以及对标识的保护四项制度。其内容如下:
  • 一般标识
对使用服务生成或者编辑的信息内容,应当采取技术措施添加不影响用户使用的标识,并依照法律、行政法规和国家有关规定保存日志信息。
  • 显著标识
提供以下深度合成服务,可能导致公众混淆或者误认的,应当在生成或者编辑的信息内容的合理位置、区域进行显著标识,向公众提示深度合成情况:
(一)智能对话、智能写作等模拟自然人进行文本的生成或者编辑服务;
(二)合成人声、仿声等语音生成或者显著改变个人身份特征的编辑服务;
(三)人脸生成、人脸替换、人脸操控、姿态操控等人物图像、视频生成或者显著改变个人身份特征的编辑服务;
(四)沉浸式拟真场景等生成或者编辑服务;
(五)其他具有生成或者显著改变信息内容功能的服务。
  • 功能设置
提供法律明确列举的需要显著标识的情形之外的深度合成服务的,应当提供显著标识功能,并提示深度合成服务使用者可以进行显著标识。
  • 标识保护
采用技术手段防止他人删除、篡改、隐匿深度合成标识。
(三)内容审核
服务提供者对生成内容的审核义务集中体现在《互联网信息服务深度合成管理规定》第10条第1款,即“应当加强深度合成内容管理,采取技术或者人工方式对深度合成服务使用者的输入数据和合成结果进行审核”审核对象既包括输入数据也包括合成结果,不过这里的输入数据当指训练数据而非用户输入信息,因为输入信息除非进一步纳入训练数据,正常情况下并不具有公开性,用户自己对其负责即可。
进一步的,就运行中发现的违法违规生产内容的审核过滤,《生成式人工智能服务管理办法(征求意见稿)》第15条规定:“对于运行中发现、用户举报的不符合本办法要求的生成内容,采取内容过滤等措施。”此外,要提高审核效率、提高审核质量,还应当建立健全用于识别违法和不良信息的特征库,完善入库标准、规则和程序,记录并留存相关网络日志。(《互联网信息服务深度合成管理规定》第10条第2款)
(四)反馈优化
根据《生成式人工智能服务管理办法(征求意见稿)》第15条,对于运行中发现、用户举报的不符合本办法要求的生成内容,应在3个月内通过模型优化训练等方式防止再次生成。对于提供者主动发现或被动获知的违法违规的生成内容,不仅要做到及时停止生成、报告和用户惩罚等措施,还要进一步地反馈到模型训练环节进行相应的优化,防止类似的信息再次生成。值得注意的是,还设定了3个月的优化训练期限,但该期限设定是否合理还有待观察。
- 2 -
经营合规
一、准入资质
(一)基础牌照:互联网信息服务许可。
《互联网信息服务管理办法》第7条第1款规定:“从事经营性互联网信息服务,应当向省、自治区、直辖市电信管理机构或者国务院信息产业主管部门申请办理互联网信息服务增值电信业务经营许可证。”根据该法规的界定,经营性互联网信息服务是指通过互联网向上网用户有偿提供信息或者网页制作等服务活动,生成式人工智能服务显然属于通过互联网有偿提供信息的服务,因而构成经营性互联网信息服务,需要履行相应的许可程序方可经营。
(二)特殊牌照
1. 在线数据处理与交易处理业务许可
如果生成式人工智能服务的提供者将人工智能作为引流手段,同时经营电商平台,比如可能结合自动化推荐技术设计出可供用户以自然语言交互的筛选、比价以及下单、结算等功能的生成式人工智能,此种产品也需要获得在线数据处理与交易处理业务许可。
2网络出版服务许可
如果生成式人工智能服务的提供者通过网络向用户提供网络出版物,则需要获得网络出版服务许可,其场景诸如将网络小说嫁接到生成式人工智能系统中,为用户提供小说智能检索、辅助阅读服务乃至笔记生成等功能。
3网络文化经营许可证
生成式人工智能服务还可能嵌入到互联网文化产品及其服务中,例如提供网络音乐娱乐、网络演出剧(节)目、网络表演、网络艺术品、网络动漫等,需要获得网络文化经营许可证。
4信息网络传播视听节目许可、广播电视节目制作经营许可等
如果同时提供互联网视听节目服务,例如制作、编辑、集成并通过互联网向公众提供视音频节目,以及为他人提供上载传播视听节目服务,还需要获得信息网络传播视听节目许可;如果从事广播电视节目制作经营活动,还需要广播电视节目制作经营许可,等等。总之,生成式人工智能可能赋能各种已有的互联网或非互联网行业的服务中,需要结合行业属性和功能内容对相应的许可进行甄别。
二、服务运维
(一)信息提供
提供者应当根据国家网信部门和有关主管部门的要求,提供可以影响用户信任、选择的必要信息,包括预训练和优化训练数据的来源、规模、类型、质量等描述,人工标注规则,人工标注数据的规模和类型,基础算法和技术体系等。
该义务来源于《生成式人工智能服务管理办法(征求意见稿)》第17条,提供者有义务提供的信息是“可以影响用户信任、选择的必要信息”,但具体向谁提供?提供到何种颗粒度?由于条文规定的前提是“根据国家网信部门和有关主管部门的要求”,在更详细的意见出台之前,尚无法确知。
笔者理解,该条所说的信息提供可能是向监管者进行备案和说明,因为如果是对用户来说已经由另一条苛以的信息告知义务解决,同样的义务设置两条似乎并无必要。欧盟《人工智能法案》也存在类似的监管要求,但进一步的需要服务提供者进行注册并取得唯一的编号标识,较单纯的信息提供义务更进一步。
(二)服务质量
《生成式人工智能服务管理办法(征求意见稿)》第14条规定:“提供者应当在生命周期内,提供安全、稳健、持续的服务,保障用户正常使用。”监管者对生成式人工智能服务质量的要求是“安全、稳健、持续”,目的是保障用户正常使用,因此是否能够保障用户正常使用也是检验产品或服务是否做到了法律要求的“安全、稳健、持续”的衡量标准。该义务不仅是行政监管要求,在确定产品责任或其他侵权责任时也具有参考意义。
(三)算法备案
1备案手续
应当按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。《互联网信息服务算法推荐管理规定》第254条规定:“具有舆论属性或者社会动员能力的算法推荐服务提供者应当在提供服务之日起十个工作日内通过互联网信息服务算法备案系统填报服务提供者的名称、服务形式、应用领域、算法类型、算法自评估报告、拟公示内容等信息,履行备案手续。算法推荐服务提供者的备案信息发生变更的,应当在变更之日起十个工作日内办理变更手续。算法推荐服务提供者终止服务的,应当在终止服务之日起二十个工作日内办理注销备案手续,并作出妥善安排。”
据此,备案手续应在“提供服务之日起十个工作日内”进行,而“变更”“注销”备案对应的是变更备案信息和终止服务的情形。
2信息公示
《互联网信息服务算法推荐管理规定》第26条规定,“完成备案的算法推荐服务提供者应当在其对外提供服务的网站、应用程序等的显著位置标明其备案编号并提供公示信息链接。”目前,国家互联网信息办公室已经在官网公开发布了四批境内互联网信息服务算法名称及备案编号,相关信息可通过互联网信息服务算法备案系统https://beian.cac.gov.cn)进行查询。
(四)平台责任
1管理规则
应当制定和公开管理规则、平台公约,完善服务协议,依法依约履行管理责任,以显著方式提示深度合成服务技术支持者和使用者承担信息安全义务。
该义务来源于《互联网信息服务深度合成管理规定》第8条,其针对的是深度合成服务提供者,内容较广泛,涉及一般用户管理、平台用户管理,并且强调要对技术支持者和服务使用者就信息安全义务进行显著提示,但这些都归结到规则的制定和公示层面,如需要遵循针对平台的更进一步的合规义务则需要参考《互联网平台分类分级指南(征求意见稿)》《互联网平台落实主体责任指南(征求意见稿)》等其他规范。
2辟谣机制
应当建立健全辟谣机制,发现利用深度合成服务制作、复制、发布、传播虚假信息的,应当及时采取辟谣措施,保存有关记录,并向网信部门和有关主管部门报告。
该义务来源于《互联网信息服务深度合成管理规定》第11条。由于生成式人工智能具有类人性,其生产的内容极易混淆视听、以假乱真,因此要求服务提供者负有监督虚假信息的职责,该义务与内容审核义务直接挂钩,后者应有传导到辟谣机制的路径,进而实现两项合规义务的有效联动和对接。
(五)隐私政策
提供者在提供服务过程中,对用户的输入信息和使用记录承担保护义务。不得非法留存能够推断出用户身份的输入信息,不得根据用户输入信息和使用情况进行画像,不得向他人提供用户输入信息。
生成式人工智能中涉及数据合规的不仅是训练数据来源的合规性,还有关于用户输入信息的收集、利用,这一块内容与一般应用程序有相似之处,比如用户注册信息收集的范围以及用于用户画像等目的的限制规则,但也有特殊之处,即生成式人工智能是自然语言交互的使用模式,用户绝不仅仅只是注册使用了该服务,而且还在使用服务的过程中主动向人工智能披露了包括个人信息在内的各类信息,这些信息是否会被收集存储乃至进一步作为训练数据,需要向用户明确告知。
根据《生成式人工智能服务管理办法(征求意见稿)》第11条,输入信息并没有被禁止留存,只是禁止非法留存能够推断出用户身份的输入信息即个人信息,留存这些信息需要遵循《个人信息保护法》的相关规定,诸如告知同意规则等。此外,虽然根据《个人信息保护法》,用户画像以及据此进行自动化决策只是个人信息的一种使用方式,只要经过用户同意即可,包括向他人提供也是如此,但在生成式人工智能的语境下,却刚性地规定了“不得根据用户输入信息和使用情况进行画像,不得向他人提供用户输入信息。”其合理性值得商榷。
(六)竞争合规
尊重知识产权、商业道德,不得利用算法、数据、平台等优势实施不公平竞争。
该义务来源于《生成式人工智能服务管理办法(征求意见稿)》 第4条第3款。《互联网信息服务算法推荐管理规定》第15条规定:“算法推荐服务提供者不得利用算法对其他互联网信息服务提供者进行不合理限制,或者妨碍、破坏其合法提供的互联网信息服务正常运行,实施垄断和不正当竞争行为。”
互联网、人工智能的飞速发展引发了越来越多的新型不正当竞争行为,除了《反不正当竞争法》设置针对流量劫持、软件干扰以及恶意不兼容等行为的“互联网专条”之外,该法第2条对于不正当竞争行为的定义及“遵循自愿、平等、公平、诚信的原则,遵守法律和商业道德。”的概括性要求也为尚未类型化的比如利用生成式人工智能所实施的不正当竞争行为的规制提供了适用空间。
(七)出口管制
《中国禁止出口限制出口技术目录》中的信息处理技术(编号:056101X)涵盖了生成式人工智能的许多技术,比如语音合成技术(包括语料库设计、录制和标注技术,语音信号特征分析和提取技术,文本特征分析和预测技术,语音特征概率统计模型构建技术等)、人工智能交互界面技术(包括语音识别技术,麦克风阵列技术,语音唤醒技术,交互理解技术等)、语音评测技术(包括朗读自动评分技术,口语表达自动评分技术,发音检错技术等)、智能阅卷技术(包括印刷体扫描识别技术,手写体扫描识别技术,印刷体拍照识别技术,手写体拍照识别技术,中英文作文批改技术等)、基于数据分析的个性化信息推送服务技术等,这些都属于限制出口部分,如果服务商需要向境外提供生成式人工智能服务,依规定须向商务主管部门申请出口许可。
(八)域外管辖
根据欧盟已经审议通过的世界上第一部《人工智能法案》,其适用范围具有域外涵盖力,只要是将人工智能系统投入欧盟市场或在欧盟域内投入使用的提供者(无论该提供者设立于欧盟境内或是第三国),或者即使提供者或部署者设立于或位于第三国,只要其使用人工智能系统输出的内容在欧盟境内使用,其均将适用《人工智能法案》的管辖与规制。
三、用户管理
(一)身份管理
根据《生成式人工智能服务管理办法(征求意见稿)》 第9条,服务提供者“应当要求用户提供真实身份信息。”虽然《互联网信息服务管理办法》并没有作出用户实名制的要求,但根据《网络安全法》第24条,“网络运营者为用户办理网络接入、域名注册服务,办理固定电话、移动电话等入网手续,或者为用户提供信息发布、即时通讯等服务,在与用户签订协议或者确认提供服务时,应当要求用户提供真实身份信息。用户不提供真实身份信息的,网络运营者不得为其提供相关服务。”此外,《互联网信息服务深度合成管理规定》第9条也规定,服务提供者“应当基于移动电话号码、身份证件号码、统一社会信用代码或者国家网络身份认证公共服务等方式,依法对深度合成服务使用者进行真实身份信息认证,不得向未进行真实身份信息认证的深度合成服务使用者提供信息发布服务。”
(二)用户教育
提供者应当指导用户科学认识和理性使用生成式人工智能生成的内容,不利用生成内容损害他人形象、名誉以及其他合法权益,不进行商业炒作、不正当营销。该义务来源于《生成式人工智能服务管理办法(征求意见稿)》 第18条第1款。用户教育义务的落地可以体现在用户协议、产品使用手册以及每次打开的弹窗界面当中,但另一方面,教育义务并不能实现充分有效的风险管控,还要搭配监督义务、内容审核义务、投诉处理机制以及平台管理责任等制度来形成全面的风险把控体系。
(三)信息告知
根据《生成式人工智能服务管理办法(征求意见稿)》 第10条,服务提供者“应当明确并公开其服务的适用人群、场合、用途。”生成式人工智能作为一项全新的互联网信息服务,必须对其服务的基本情况进行充分的公开,以使用户和其他公众对其具备明确的认知并作出使用选择。提供者除了应当公开其服务的适用人群、场合、用途之外,《互联网信息服务算法推荐管理规定》第16条还规定:“算法推荐服务提供者应当以显著方式告知用户其提供算法推荐服务的情况,并以适当方式公示算法推荐服务的基本原理、目的意图和主要运行机制等。”该义务还关联到算法的透明性问题,服务提供者可以对此作出一体化的公示。
(四)权益保障
1防沉迷机制
根据《生成式人工智能服务管理办法(征求意见稿)》 第10条,服务提供者“应当采取适当措施防范用户过分依赖或沉迷生成内容。”网络社会中,公众很容易对虚拟世界产生依赖和沉迷,严重者可能导致各种身心问题甚至危害社会。为了防止生成式人工智能因其对人类社会强大的渗透力和潜在的参与性而破坏真实世界的秩序,有必要对用户使用的频度、深度作出适当的限制,以防止用户过分依赖机器生成而不再自主思考,或沉迷机器生成的内容而脱离现实世界。
2特殊用户权益保障
正如前面在谈到生成式人工智能服务的资质牌照问题时提及的各种行业应用场景一样,通用大模型会通过各种行业应用而面对不同的特殊用户,比如可能与K12教育相结合向未成年人提供服务,或者与养老院结合为老年人提供更简易操作、可交互的智能生活系统,还可能与外卖配送系统结合影响劳动者和消费者的权益,这些都需要履行特定场景的特别义务,以保障相关用户的权益。《互联网信息服务算法推荐管理规定》第18-21条分别规定了未成年人保护、未成年人保护、劳动者保护以及消费者保护的相关规则,可资参照。
(1)未成年人保护
向未成年人提供服务的,应当依法履行未成年人网络保护义务,并通过开发适合未成年人使用的模式、提供适合未成年人特点的服务等方式,便利未成年人获取有益身心健康的信息。不得向未成年人推送可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好等可能影响未成年人身心健康的信息,不得利用算法推荐服务诱导未成年人沉迷网络。
(2)老年人保护
向老年人提供服务的,应当保障老年人依法享有的权益,充分考虑老年人出行、就医、消费、办事等需求,按照国家有关规定提供智能化适老服务,依法开展涉电信网络诈骗信息的监测、识别和处置,便利老年人安全使用算法推荐服务。
(3)劳动者保护
向劳动者提供工作调度服务的,应当保护劳动者取得劳动报酬、休息休假等合法权益,建立完善平台订单分配、报酬构成及支付、工作时间、奖惩等相关算法。
(4)消费者保护
向消费者销售商品或者提供服务的,应当保护消费者公平交易的权利,不得根据消费者的偏好、交易习惯等特征,利用算法在交易价格等交易条件上实施不合理的差别待遇等违法行为。
(五)投诉处理
提供者应当建立用户投诉接收处理机制,及时处置个人关于更正、删除、屏蔽其个人信息的请求;发现、知悉生成的文本、图片、声音、视频等侵害他人肖像权、名誉权、个人隐私、商业秘密,或者不符合本办法要求时,应当采取措施,停止生成,防止危害持续。
该义务来自《生成式人工智能服务管理办法(征求意见稿)》第13条,这是一条对划定生成式人工智能服务提供者在个人信息保护及网络侵权中的责任具有重要意义的规则。
首先,“个人关于更正、删除、屏蔽其个人信息的请求”属于个人合法行使个人信息权的情形,《个人信息保护法》第四章“个人在个人信息处理活动中的权利”列举了查阅、复制、更正、撤回同意、删除、转移等具体权利,其中并无“屏蔽”这一权利,笔者理解,屏蔽主要指向内容生成的情形,相当于隐匿个人信息的请求,应指要求处理者对其在训练数据中收集的个人信息作出匿名化处理或者虽然不作匿名化处理但采取技术手段防止机器“吐出”其个人信息。
其次,“发现、知悉生成的文本、图片、声音、视频等侵害他人肖像权、名誉权、个人隐私、商业秘密”将生成式人工智能服务提供者的平台监督义务细化为“内容审核”与“通知处置”两个方面,提供者既要主动去审核生成内容是否侵权或违法,还需要及时回应用户或其他公众的举报通知,因而提供者需要“设置便捷的用户申诉和公众投诉、举报入口,公布处理流程和反馈时限,及时受理、处理和反馈处理结果”(《互联网信息服务算法推荐管理规定》第22条)
最后,提供者主动或被动知晓相关情形后,需要采取《民法典》第1195条规定的“网络用户利用网络服务实施侵权行为的,权利人有权通知网络服务提供者采取删除、屏蔽、断开链接等必要措施。”中的“必要措施”,其措施的效果应实现“停止生成,防止危害持续”才算合格。
(六)使用监督
《生成式人工智能服务管理办法(征求意见稿)》第19条规定:“提供者发现用户利用生成式人工智能产品过程中违反法律法规,违背商业道德、社会公德行为时,包括从事网络炒作、恶意发帖跟评、制造垃圾邮件、编写恶意软件,实施不正当的商业营销等,应当暂停或者终止服务。
用户使用监督义务属于平台提供者的管理义务之一,投诉处理针对的是权利保护,而使用监督的目的则是违规行为的惩治与管控。《互联网信息服务深度合成管理规定》也作出了相应规定:“发现违法和不良信息的,应当依法采取处置措施,保存有关记录,及时向网信部门和有关主管部门报告;对相关深度合成服务使用者依法依约采取警示、限制功能、暂停服务、关闭账号等处置措施。”相比之下,《生成式人工智能服务管理办法(征求意见稿)》的规定更偏向对用户利用生成信息从事违法违规行为的管制,因为生成信息本身的违法违规性责任主要在服务提供者。(《生成式人工智能服务管理办法(征求意见稿)》第5条)
作者简介:

Cyrus互联网法务,微信号15271836865。


- End -






# 大鱼聊天室 #


随着客户需求升级,提供综合性、全周期法律服务的大型律师团队逐渐增多。6月27日晚上8点(下周二),大鱼与上海天驰君泰三位律师展开一场线上圆桌对谈,探讨其背后所反映出的变化与趋势。

欢迎预约直播



# 推荐阅读 #


时常错过新则的推送?
设置星标就不会错过每天的文章啦!
按下图操作,与新则一起日拱一卒吧。

文章引用微信公众号"新则",如有侵权,请联系管理员删除!

博客评论
还没有人评论,赶紧抢个沙发~
发表评论
说明:请文明发言,共建和谐网络,您的个人信息不会被公开显示。