(原标题:类ChatGPT应用中国版监管将如何影响行业发展?)
从2023年1月以来,一直处于舆论焦点的交互反馈式人工智能服务ChatGPT不断给各行各业带来惊叹,近期各互联网大厂陆续推出反馈交互式人工智能大模型。但同时也始终伴随着巨大的争议,如据媒体报道称,2023年3月29日,著名安全机构生命未来研究所(Future of Life Institute,FLI)发布了一封包括特斯拉CEO伊隆·马斯克,图灵奖得主约书亚·本吉奥,以及苹果联合创始人史蒂夫·沃兹尼亚克等1125人签名的公开信,信中呼吁全球所有机构暂停训练比GPT-4更强大的AI至少六个月,并利用这六个月时间制定AI安全协议。
2023年4月11日,国家网信办发布了《生成式人工智能服务管理办法(征求意见稿)》(以下简称《生成式征求意见稿》),拟就类似ChatGPT等基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术拟进行相应规范,坊间称之为“类ChatGPT应用中国版监管”。那么如何看待这一规范?对行业后续影响如何?我们进行简要讨论。
一、如何看待《生成式征求意见稿》?
一是肯定了生成式人工智能技术服务的价值。正是由于其所具有的技术创新和应用创新价值,以及其所可能带来的产业变革,才使得制订规范使其健康发展成为需要。正如《生成式征求意见稿》第一条所明确,制订目的是“为促进生成式人工智能健康发展和规范应用”。
二是对原有相关规范框架进一步有针对性明确或细化。事实上,《互联网信息服务深度合成管理规定》已经于2023年1月10日起施行;而在这之前,《互联网信息服务算法推荐管理规定》也已经自2022年3月1日起施行。《互联网信息服务算法推荐管理规定》中的五种算法推荐中包括生成合成类算法,而《互联网信息服务深度合成管理规定》所称的深度合成技术,是指利用深度学习、虚拟现实等生成合成类算法制作文本、图像、音频、视频、虚拟场景等网络信息的技术,本质上说本办法所称的生成式人工智能技术属于深度合成技术。
本次出台的《生成式征求意见稿》是“办法”,一般来说,办法强调指导性或操作方法,更强调处理问题或办理事务的程序步骤方法等程序性规范性的要求;而针对算法推荐服务和深度合成技术则是“规定”,其强调利益调整的可预见和法律效力,相对“办法”而言其法律条文属性利益关系调整属性要强一些。
三是力图规范生成式人工智能服务的算法安全和内容传播安全问题。正如马斯克等人发出公开信中针对ChatGPT的安全性及其缺乏监管产生的巨大担忧,《生成式征求意见稿》对AI算法模型开发和应用提出了一些要求。
就技术模型研发方面,《生成式征求意见稿》提出的监管要求主要包括安全和可信,主要措施是增强透明度,包括算法安全评估、算法备案、内容标识和预训练与优化训练等训练数据合法、质量保证、保护个人信息和隐私等基本要求。
在算法应用带来影响主要包括两个方面,一是内容传播,主要针对控制虚假内容,二是用户合法权益保护,包括尊重和保护知识产权、反对不正当竞争,以及保护用户人格权、个人信息、隐私等各类合法权益。
四是明确了生成式人工智能服务必须尊重知识产权。生成型人工智能可能在获取数据时侵犯知识产权,同时其生成内容是否应受版权保护存在一定争议。目前境内外针对人工智能生成内容相关知识产权问题,不同司法案例中裁判观点略有不同,有观点认为人工智能生成内容并不构成作品,无论是系统开发者还是用户都不能对此主张著作权,而另有观点则认为人工智能生成内容在一定条件下可以成为作品,系统开发者或使用者可以主张著作权。我们注意到美国版权局也认为,作为人工智能软件本身并不能成为主张著作权的作者,但我们也看到媒体报道印度有将人工智能软件被登记为作品共同作者的信息。这与技术和应用发展尚未完全成型是有关系的。
我们认为,就作者而言,人工智能本身并不能成为作者,因为其不能独立承担法律责任;就作品而言,生成式或其他人工智能服务生成内容本身在一定条件下是可以成为作品的,事实上很多时候人们很难分辨其是否是AI生成,此时用户如果主张版权则需要相应承担责任;就权利归属而言,目前包括OpenAI在内的应用平台将用户输入信息所生成的输入内容相关权益赋予用户,因此用户理论上说可以主张对该输出的著作权,假如其构成作品的话,但是用户可能也仍然并不一定能够承担其全部法律责任,AI服务提供商如果在输出内容时数据来源不合法产生侵权等也可能需要对用户承担法律责任。
五是强调了生成式人工智能服务必须注意数据安全。目前生成式人工智能技术服务中,训练数据来源、数据处理过程、数据共享情况仍然并不十分透明。从数据要素合规角度来说,要求数据来源合法,不违背法律强制性规定包括遵守重要数据保护规定、个人信息和隐私保护要求,同时保证数据质量包括数据标注质量,以及数据处理模型质量,另外还有数据存储传输安全等。
从长远看,还是要数据收益分配,落实数据产权基本制度,才可能形成真正健康的良好数据价值生态。针对AI训练数据问题,目前重点关键的可能还是数据收集、数据共享、数据存储和传播的透明性和合规性问题。
二、生成式人工智能服务规范拟将出台,将对各行各业产生什么影响?监管是否会阻碍目前大模型的研发和应用?大模型的功能应用是否会受到限制?未来监管将如何走向?
正如前所述,从《生成式征求意见稿》开宗明义就可以看到是为了“为促进生成式人工智能健康发展和规范应用”。《生成式征求意见稿》可以说是对《互联网信息服务深度合成管理规定》《互联网信息服务算法推荐管理规定》规定框架基础上针对生成式人工智能应用的有关问题进行了相对明确要求。
简而言之,《生成式征求意见稿》对大厂提出了更高要求,要求评估、备案和数据合法合规,且承担模型合规、数据合规、内容生产责任和个人信息保护责任;对其他外接应用,要求数据合规和承担内容生产、个人信息保护责任;对用户,要求实名;对其他相关产品和服务应用,要求尊重知识产权、反对不正当竞争,以及保障产品服务质量以及保障合法资产权益等。
监管对于人工智能的行业竞争格局是否会产生影响?什么样的公司会比较受益,或者说有足够的实力和经验去面对监管?目前比较一致的意见是,人工智能自然语言大模型本身因为涉及海量参数模型开发、海量数据训练、巨大算力支持,并非一般小公司可承担,从目前实践来看这方面竞争甚至主要存在于中美两国的互联网巨头之间。总体上,互联网巨头们面对监管还是谨慎小心,其自身也有比较强烈的社会责任感,总的来说有实力也有意愿以合规方式去推进研发和应用。
至于未来受益公司,我们认为凡是拥有大数据、大算力和大量应用用户或应用场景的公司,还是会在其中享有很多机会的。比如目前以图片类版权授权和使用为业务模式的公司,虽然会受到一定影响,但是只要其业务模式不断调整,基于其拥有的巨量正版图片数据资源,还是会有很多机会。
而针对一些垂直领域的行业应用,很多初创公司可以有很多机会,目前OpenAI和百度等国内厂家也正在朝这个方面走。但我们也看到,与通用型生成式人工智能技术应用相比,垂直领域的技术应用由于其数据库来自相对专业领域,其数据库准确性相对较高,匹配准确性也比较高,如很多人反映生成式人工智能在代码方面的表现尤其令人印象深刻,因此有理由相信,在垂直领域行业应用中产生的内容安全和用户合法权益保护问题,其安全风险和合规难度应该是远远小于通用型技术应用的。
未来监管走向将会如何呢?正如前所述,对AI算法来说,总的框架包括对技术研发和产品应用两个方面。未来,针对AI算法模型开发监管中的安全、可信等要求会出台一些细则、标准。主要措施是围绕增强技术应用的透明度,包括算法安全评估具体标准、流程、格式要求,算法备案范围、内容、流程、核验等,内容标识的技术方法,与应用可能的结合等,包括预训练与优化训练等训练数据的合法来源、共享、储存、处理、质量要求等,以及在所有这些过程中如何保护个人信息等。从算法应用方面,针对内容传播,在内容标识基础上,可能会进一步研究具体标识方式和要求,强化服务提供者和用户各自的责任;针对权益保护,可能会就知识产权、不正当竞争,以及用户人格权、个人信息、隐私等各种权益通过配合司法实践、其他行业监管等方式进行配套。因此后续监管可能会从细化和加强算法安全评估、算法备案,训练数据使用和管理,用户权益保护机制等角度展开。
三、对办法征求意见稿若干修订意见
一是关于服务名称。“生成式人工智能服务”是否准确?对类ChatGPT技术应用来说,其核心特点是使用来自人类反馈的强化学习(RLHF,Reinforcement Learning from Human Feedback )来训练的人工智能模型,也就是说反馈优化是其根本特征,而不仅仅是生成。因此生成式人工智能服务,是否改为反馈优化式人工智能服务?
二是关于与深度合成技术的关系。根据本征求意见稿,生成式人工智能是指基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术。而根据《互联网信息服务深度合成技术服务管理规定》深度合成技术,是指利用深度学习、虚拟现实等生成合成类算法制作文本、图像、音频、视频、虚拟场景等网络信息的技术,包括但不限于文本生成、图像生成、语音转换。由于涉及到监管框架问题,是否应该明确,“生成式人工智能服务”也是属于“深度合成技术服务”的一种?总之要直接说明二者之间的关系。
三是关于预训练和优化训练数据合法性。征求意见稿第七条中,规定了服务提供者对数据合法性的要求,但是只是规定了尊重知识产权、保护个人信息和隐私,以及数据的真实性、准确性、客观性、多样性,是否还应该针对数据来源、数据共享、数据存储、数据传输和出境等,应该作出明确要求?
四是关于反对用户歧视的内容整合。征求意见第四条第二项,提到了防止出现歧视性内容,而第十二条又提到提供者不得根据用户的种族、国别、性别等进行带有歧视性的内容生成,内容似有重复,至少是不是可以考虑整合到一起?
五是关于算法监测监管要求相对缺失。征求意见稿第十五条规定,对于运行中发现、用户举报的不符合本办法要求的生成内容,除采取内容过滤等措施外,应在3个月内通过模型优化训练等方式防止再次生成,这个规定可以认为是服务提供者针对运行中出现的内容安全问题应作出的处置要求。但算法监管除了安全评估、算法备案以外,还包括算法安全监测,而安全监测并不仅仅包括内容监测,还包括数据处理合规、模型可靠性稳定性等安全事件处理要求,是不是可以把这一条整合成为算法监测的全面性要求。
六是关于内容标识的规定。《互联网信息服务深度合成技术管理规定》明确要求对生成内容进行标识,包括一般标识,即深度合成服务提供者对使用其服务生成或者编辑的信息内容,应当采取技术措施添加不影响用户使用的标识,并依法依规保存日志信息;显著标识,即提供智能对话、合成人声、人脸生成、沉浸式拟真场景等具有生成或者显著改变信息内容功能服务的,应当在生成或者编辑的信息内容的合理位置、区域进行显著标识。但征求意见稿第十六条仅规定对图片、视频进行标识,是否意味着“生成式”服务无须对其他内容进行标识?第十六条是否改为“提供者应当按照《互联网信息服务深度合成管理规定》对生成内容进行标识”即可,至于文本内容无法标识的问题,属于技术操作问题,可以具体研究成熟后具体实施。
作者:张烽,万商天勤律师事务所合伙人,万商天勤数字法律专业委员会主任,上海区块链技术协会智库专家/科技评价专家,中国移动通信联合会元宇宙产业工作委员会常务委员,未来产业元宇宙50人论坛副理事长。
本文系未央网专栏作者:张 烽 发表,内容属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!本文网址:http://www.78099.cn/gulouqu/79130.html ,喜欢请注明来源河南开封新闻网。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。