内容提要
本文分析了AI产业中开发者和运营者所面临的知识产权风险,其中主要探讨中数据采集、算法开发及生成内容运营等环节的知识产权风险,并提出针对性应对策略。在数据层面,训练数据的非法抓取与版权授权困境成为核心矛盾,混合数据源导致的侵权溯源困难与"算法阴影"现象加剧法律风险。开源生态虽加速技术迭代,却潜藏代码污染、专利纠纷及数据集合规黑洞等隐患,需构建防御性专利布局与数据溯源机制。生成内容的权属争议则聚焦于版权归属模糊与侵权判定难题,需通过过程留痕管理与权属声明前置实现风险规避。本文指出,当前法律框架存在责任边界模糊、集体授权机制缺位等问题,需通过完善立法、强化行业合规标准及推动技术透明化实现风险防控。
关键词
人工智能;知识产权风险;训练数据;开源生态;生成内容权属
一、引言
(一)研究背景
近年来,人工智能技术如雨后春笋般迅速崛起并广泛应用,正深刻改变着人类社会的生产生活方式。从智能家居到自动驾驶;从医疗诊断到金融科技,AI技术凭借其强大的数据处理、分析和预测能力,为各领域带来了前所未有的效率提升和创新发展机遇。然而,伴随着这些机遇而来的是,AI开发者和运营者在知识产权方面,面临着日益复杂和严峻的风险挑战。
AI技术的复杂性和特殊性,使得知识产权的保护在整个AI产业链中占据着至关重要的地位。一方面,AI开发过程涉及到大量的数据收集、算法设计和模型训练等环节,其中的数据、算法和模型等要素都可能成为知识产权侵权的导火索。此外,AI产品或服务在市场运营过程中,也面临着诸多知识产权风险,如竞争对手的不正当竞争、技术侵权纠纷,使用者不合理利用而导致的侵犯其他主体权利的情况也会出现,这会让AI的运营者承担监管不到位而带来的法律责任等。
(二)研究意义
在当今数字化时代,AI产业的健康发展对于推动科技进步和经济社会发展具有不可替代的重要作用。深入研究AI开发者和运营者面临的知识产权风险,具有重要的现实意义和长远的战略价值。
保护AI创新成果,激励开发者和运营者持续投入研发资源,推动AI技术创新和产业升级,有助于提升AI产业的核心竞争力,也能够给使用AI的人们一本使用白皮书,在合理的范围内使用AI ,让AI来造福人类,造福社会。通过对知识产权风险的研究和防范,可以为企业创造一个稳定、公平的市场竞争环境,促进AI产业的可持续发展。
同时,明确AI知识产权风险,有助于厘清相关法律关系和责任边界,完善知识产权法律法规和政策体系,为AI产业的规范发展提供有力的法律保障。这对于推动AI技术在全球范围内的交流与合作,提升全球AI产业的整体发展水平,也具有重要的意义。此外,还可以提高公众对AI知识产权问题的认识和关注度,增强全社会的知识产权保护意识,营造良好的创新氛围和知识产权文化环境。
(三)研究目的与问题
本研究旨在全面、深入地剖析AI开发者和运营者在知识产权方面面临的多种风险,探究其风险来源、表现形式及潜在影响,进而提出针对性的防范与应对策略,以期为AI产业的健康、可持续发展提供理论支持和实践指导。
为实现上述研究目的,本研究将重点探讨以下问题:AI开发者和运营者在数据收集、使用和管理过程中,面临哪些知识产权风险,应采取何种有效的防范与应对措施?在算法开发、创新和应用方面,存在哪些知识产权侵权隐患,应采取何种有效的防范与应对措施?市场运营中,如何应对用户的不正当使用而所得生成物的知识产权纠纷,应采取何种有效的防范与应对措施?
通过回答这些问题,本研究期望能够为AI开发者和运营者在知识产权保护方面提供有益的参考和借鉴,帮助其更好地应对知识产权风险挑战,以利于实现企业的稳健发展和AI产业的繁荣进步。
二、训练数据引发的侵权风险
(一)未经授权的数据使用
AI模型的训练需要海量数据,其中开发者训练大模型的语料包括开源语料、商业语料、以及自采语料。开源语料的问题在于无法保证知识产权的清洁性,商业语料是开发者需要与数据提供者签订协议后获得的内容,但获取全球版权人的书面授权在实践中几乎不可行,原因包括权利人数量庞大、授权条款复杂,以及集体管理组织覆盖不足①。例如,Stable Diffusion和Midjourney因使用未经授权的图片训练模型被艺术家起诉侵权。(华盖创意和三名艺术家起诉Stable Diffusion案件②)
此外,从网络抓取数据训练大语言模型(LLM)也可能直接构成版权侵权,即前文所提到的开源语料无法保证知识产权的清洁性。网络抓取的可能会直接侵权,从公开网页抓取数据可能违反《反不正当竞争法》和《著作权法》。例如,Reddit等平台已对OpenAI等企业的大规模数据爬取行为提出侵权指控,进行集体诉讼,认为其构成对平台内容生态的掠夺性利用。
技术特性加剧风险,生成式AI的“算法阴影”现象(即使删除训练数据,模型仍保留学习特征)导致侵权后果难以消除,而训练数据的混合性(多源数据融合)使侵权溯源更加困难。
(二)法律责任的模糊性
即使开发者愿意支付合理费用,由于缺乏统一授权机制和集体管理规范,谈判也容易破裂,全球版权人的分散性(如文字作品涉及数百万的作者)、授权条款的复杂性(地域限制、二次开发限制)导致实际谈判难以完成。版权方对AI产业的警惕性也增加了交易难度,尤其是小型开发者更难与大公司竞争资源。美国已有多个案例显示,AI开发者需为训练数据的合法性承担潜在诉讼风险,稍不注意就会侵犯到数据所有者的著作权,招来诉讼。就像在美国Getty Images对Stability AI的诉讼中,涉及超1200万张图片的非法抓取,这里面甚至有出现篡改版权管理信息的情形③。
集体授权机制缺位,音乐、文学等领域虽有著作权集体管理组织(如中国音著协),但其授权范围仍未覆盖AI训练场景。来源于北欧五国著作权延伸性集体管理制度遂成为北欧诸国版权法上的一项重要制度④。若这一制度能够应用到AI语料的训练上来,这也会使小型开发者更容易承担分散授权的成本。
欧盟《人工智能法案》要求训练数据来源透明化并履行版权声明义务,而中国《生成式AI服务管理暂行办法》第七条仅原则性禁止“侵害他人知识产权”,具体细则尚未明确。在爱奇艺诉Minimax案中,原告主张AI模型对影视片段的“学习-生成”构成对改编权的侵害,法院需首次界定“数据训练是否产生衍生作品”,判决结果可能重塑行业授权模式。
三、开源生态的知识产权隐患
目前在AI领域属于“弄潮儿”地位的DeepSeek将其代码归于开源使用,开源生态为AI开发者提供了高效协作的技术土壤,或许这是一种想通过开源来引发范式革命的想法,技术民主化能催生出恐怖的生态裂变速度。但其开放性与共享性也加剧了知识产权侵权风险的复杂性。接下来,笔者将从代码数据瑕疵、数据集的合规黑洞、专利纠纷以及应对策略等维度进行系统性分析,并结合典型案例与法律实践展开论述。
(一)代码与数据瑕疵风险:多层级权利冲突
1. 开源代码的“污染链”隐患
开源社区中,贡献者可能无意或故意引入未经授权的代码片段,形成“污染链”。即使遵守开源协议,开发者仍需对代码的知识产权清洁性承担连带责任。比如版权归属模糊的发生,DeepSeek开源模型因未明确标注代码贡献者的版权声明,导致下游用户面临侵权追溯风险。
还有可能就是隐性专利侵权,部分开源代码可能隐含第三方专利技术(如算法优化模块),使用者即使遵循GPL协议,若未获得专利许可仍构成侵权。所以在此处,处于开发阶段的大模型公司,应多加予以注意此类型的风险。
2. 数据集的“合规黑洞”
开源数据集的使用可能触发版权、隐私权、数据权三重风险:
版权侵权上来看,国内虽目前无相关案例,但在英国已经有相关判决,如在Getty Images诉Stability AI案中显示,从网络抓取的训练数据若违反Robots协议或未获权利人授权,可能构成不正当竞争与著作权侵权(目前此案件仍未结案,法官Joanna Smith认为Getty Images集团有胜诉前景)。
利用开源数据集训练可能会侵犯隐私权,因为开源数据中若包含未脱敏的个人信息,这可能违反《个人信息保护法》第73条,导致民事赔偿与行政处罚。再者,任意抓取数据有产生偏见连带责任的可能性,比如抓取有性别歧视、种族偏见的数据集来训练模型,可能因生成歧视性内容承担社会责任与法律风险。
3. 专利诉讼风险:开源生态的“达摩克利斯之剑”
(1)贡献者专利主张
开源协议中的专利条款(比如Apache 2.0的专利许可)可能因使用者的“反向工程”或“商业用途”触发贡献者诉讼。例如专利回授条款,部分协议要求使用者将改进技术的专利权无偿授予社区,若企业未履行则可能面临专利无效风险。再者就是专利终止条款,使用者若违反协议,贡献者可立即终止专利授权,导致产品下架。
(2)供应链攻击的“暗礁”
开源依赖项若存在未披露的专利漏洞,可能通过供应链传导至最终产品的隐蔽性侵权:Hugging Face模型库中曾发现恶意代码嵌入的Pickle文件,使用者若未审查依赖项,可能连带承担专利侵权责任⑤。
4. 应对策略:构建“防御-合规-协同”三位一体机制
防御性专利布局,其对核心算法申请专利组合,形成技术护城河,同时开展FTO(自由实施分析)排查开源代码的专利风险。
进行数据合规审计,建立数据溯源机制,对训练数据进行版权清算与匿名化处理(如采用差分隐私技术)。参加社区协同治理,参与Linux基金会等组织推动开源协议与专利政策的标准化,减少条款冲突(如Open Chain认证体系)。有一典型案例是微软使用“开源+专利交叉许可”模式,将Azure AI服务与开源社区深度绑定,既规避侵权风险又扩大技术影响力,或许可以借鉴此类模式来规避风险⑥。
四、生成内容的权属与侵权争议
(一)版权归属问题
目前国内AI生成内容(如文本、图像)的版权归属基本都归于AI的使用人所有。中国法院在类似案件中判决主要采用“创作工具说”的观点:例如19年时腾讯诉盈讯案⑦中法院支持AI生成内容受著作权保护,并认为其使用者享有其版权。比较特别的是菲林案⑧则否定其版权属性(这主要是因为原告菲林律所的文章是由威科先行这一法律检索工具网站中,点击简单指令而生成的法律报告,并无个人劳动以及智力成果的凝结,根本不符合作品定义中的智力成果这一词。)把视角移到美国,美国版权局已经明确拒绝为纯AI生成内容登记版权⑨,要求必须有“人类作者”参与,展开来讲就是如果作品是AI作为工具进行辅助创作的可以申请版权的保护;但仅仅通过指令生成的AI作品无法获得版权的保护,从这点来看我国相对美国来说,对于人工智能生成物的保护力度更大。
对于国内目前对于AI生成内容的态度来讲,作为人工智能的生产者、运营者来说,我们的策略可以是:首先,过程留痕管理,企业需建立创作日志系统,完整记录提示词修改、参数调整及版本迭代过程(如常熟案中用户协议与操作日志得到来了司法采信⑩)。其次,权属声明前置,在用户协议中明确AI工具的“辅助工具”地位,对用户尽到提示义务,让用户能够明白其应该合理运用AI工具,其得到作品的版权归其自身所有。
(二)输出内容侵权风险
AI生成物可能因过度借鉴训练数据中的受保护作品而侵犯这些作品的著作权。例如,ChatGPT生成的文本若与训练数据中的文章实质性相似,可能侵犯原作者的复制权或改编权。但证明AI接触过特定原作品存在技术困难,也增加了开发者和运营者维权的复杂程度。
1. 侵权类型化分析
首先是直接复制风险,AI生成物与训练数据中的受保护作品构成实质性相似。比如在图片领域之中,广州互联网法院“奥特曼案”中,AI生成的绘画形象与原作奥特曼构成近似,判赔金额覆盖商业使用获利。目前在文本领域,国内虽暂无相关人工智能生成的文字作品侵权案件,但笔者认为人工智能生成文本的侵权可能性比较大,人工智能的生产者运营者也应该提前部署规划,做好相关合规工作。
接下来继续来看“奥特曼”案的判决,本案中作为AI的经营者,它的问题在于:第一,投诉举报机制的欠缺。根据《生成式人工智能服务管理暂行办法》第十五条规定:“提供者应当建立健全投诉、举报机制,设置便捷的投诉、举报入口,公布处理流程和反馈时限,及时受理、处理公众投诉举报并反馈处理结果。”而本案中被告经营的Tab网站并未建立相关投诉举报机制。第二,潜在风险提示的欠缺。《生成式人工智能服务管理暂行办法》第四条规定:“提供和使用生成式人工智能服务,应当遵守法律、行政法规,尊重社会公德和伦理道德,遵守以下规定:……(三)尊重知识产权、商业道德,保守商业秘密,不得利用算法、数据、平台等优势,实施垄断和不正当竞争行为;……(五)基于服务类型特点,采取有效措施,提升生成式人工智能服务的透明度,提高生成内容的准确性和可靠性。”本案中,AI经营者未以服务协议等方式提示用户不得侵害他人著作权。而与一般的网络服务存在显著区别的是,一般而言,用户在使用生成式人工智能服务时,对他人特别是著作权人的潜在侵权风险缺乏明确认知,因此生成式人工智能服务提供者有义务对用户进行提示,这其中就包括用户不能利用其服务侵犯他人著作权。 第三,显著标识的欠缺。《生成式人工智能服务管理暂行办法》第十二条规定、《互联网信息服务深度合成管理规定》第十七条规定生成式人工智能服务提供者在生成物可能导致公众混淆或者误认的情况下,有义务对其提供的生成物进行显著标识。经标识后,有关权利人能够明确认识到生成物系由人工智能生成,进而采取更具针对性和有效的维权措施,更好地保护其利益⑪。
上述一案中被告未尽到上述注意义务,主观上存在过错,因此应对侵权行为承担相应的赔偿责任。所以笔者建议相关人工智能的生产者、经营者应该重视设立相关机制,保护用户,保护其他作者的著作权,更是保护好自己。
隐性改编风险:AI对训练数据的二次创作可能侵犯改编权。如Stable Diffusion生成的插画若保留原作的构图框架与色彩风格,即使元素替换仍可能被认定为衍生作品。
2. 技术性抗辩与合规难点
“接触+实质性相似”原则的适用困境:训练数据的非公开性导致权利人难以证明AI接触过特定作品(如Getty Images诉Stability AI案中,原告需通过算法逆向工程证明数据来源)。黑箱模型难以追溯生成路径,司法实践中多采用“高度相似推定接触”(如“奥特曼案”中法院未要求原告提供完整训练数据证据链)。
进行数据源合规审查,优先使用开源协议明确授权的数据集(如CC-BY-NC),避免使用未经清洗的网络爬取数据,这种情况极易招来诉讼。建立训练数据溯源机制,对高价值版权内容(如文学名著、商业图片)实施“白名单”过滤。建立侵权预警系统,部署AI输出比对工具(如Copyscape等文本抄袭检测工具、TinEye等反向图片搜索工具),自动筛查生成内容与既有作品的相似度阈值。也可以参考抖音的模式,对疑似侵权内容添加“AI生成警示标签”,以提示人工智能的使用者不应用于商业用途,尽到经营者的提示义务。
五 、结语
人工智能技术的迅猛发展正深刻重构全球创新生态与产业格局,但随之而来的知识产权风险已成为制约AI产业健康发展的关键瓶颈。本研究通过分析发现,AI开发者和运营者面临的知识产权风险呈现多维度、跨法域、技术性强的特征:从训练数据的授权困境到开源生态的权属瑕疵,从生成内容的版权争议到专利侵权的隐蔽传导,每一环节均可能触发法律纠纷并阻碍技术创新。这些风险不仅源于技术特性与法律规制的错位,更反映出全球知识产权治理体系在应对AI革命时的滞后性。
研究进一步揭示,化解AI知识产权风险需构建“技术-法律-产业”协同治理框架:技术上,应推动数据溯源、算法透明化与版权标记技术的研发,降低侵权风险的可溯性障碍;法律上,需完善集体授权机制、明确衍生作品认定标准,并通过司法判例引导责任边界的厘清;产业层面,则需建立全链条合规体系,强化开源社区治理与行业自律,同时探索“防御性专利+交叉许可”等新型商业模式。值得关注的是,全球监管差异带来的合规成本攀升,要求企业必须建立动态风险评估机制,在技术创新与法律遵从之间寻求平衡。
注释
① 全国网络安全标准化技术委员会:《生成式人工智能服务安全基本要求》,2024-02-29:第2页。
② 参见https://casetext.com/case/andersen-v-stability-ai-ltd。
③ 参见https://www.vossius.eu/fileadmin/news_docs/Getty_Images_v_Stability_AI_Ltd.pdf。
④ 孙新强,姜荣:《著作权延伸性集体管理制度的中国化构建——以比较法为视角》,《法学杂志》,2018年,第39期:第34页。
⑤ 参见https://mp.weixin.qq.com/s/y1ic03Uxx2jm2NXlvLZSZA。
⑥ 参见https://mp.weixin.qq.com/s/p4epUxwOeuPR9mCqkBn5vw。
⑦ 参见广东省深圳市南山区人民法院(2019)粤0305民初14010号民事判决书
⑧ 参见北京知识产权法院(2019)京73民终2030号
⑨ 参见https://copyright.gov/ai/Copyright-and-Artificial-Intelligence-Part-2-Copyrightability-Report.pdf。
⑩ 参见江苏省常熟市人民法院(2024)苏0581民初6697号民事判决书
⑪ 参见广州互联网法院(2024)粤0192民初113号民事判决书