ChatGPT“狂飙”背后危与机 直播实录

作者:佚名

观点

导言:

2023年伊始,ChatGPT迅速“席卷”全球,在短短2个月内月活跃用户数破亿。曾经有文章称,Chat GPT来了之后,最先被取代的Top3行业就包括法律和技术。于是我们有了这样一场对话,从软件工程师和律师的视角,探究ChatGPT“狂飙”背后的危与机。


分享人:

郝峻晟      晟云磐盾信息技术(上海)有限公司总裁

               (下称“郝”)


申晓雨      天达共和律师事务所合规部合伙人,数据合规团队负责人

               (下称“申”)


薛  仑       天达共和律师事务所知识产权部合伙人

               (下称“薛”)


一、ChatGPT是什么,它到底特殊在哪?

 

郝:微软在ChatGPT发布后向OpenAI公司又追加100亿美元投资,成为Open AI最大股东,同时在一个星期内把OpenAI 、ChatGPT和Bing结合在一起,使得上百万用户通过新的Bing来使用ChatGPT。那么ChatGPT是什么,会给普罗大众的生活带来什么影响呢?

日常生活中我们常常会向客服咨询,客服分为智能客服和人工客服两种。我们常用的智能客服最早是由利用关键字搜索的聊天机器人来处理的。而最近的的智能客服是基于AI技术,通过深度学习来对自然语言进行搜索和分析,推断人的意图从而得到相应的答案。常见的搜索引擎例如谷歌、阿里、华为等均会提供聊天机器人平台,可以回应天气、利率等专业问题,也可以回答关于账户余额、企业运营信息等私人问题。在ChatBot发展的过程中,还有提供闲聊功能的聊天机器人例如微软小冰,像Siri,Alexa等私人助理(Private Agent)也很受欢迎。在和它们的交流中,我们能很明显地感受到是在与机器对话。ChatGPT就不同了,它在回答问题的同时还会质疑或反驳我们,在沟通时的语言结构更接近于人类,ChatGPT能处理大量的数据,数据模型有1750亿个参数,这都使得ChatGPT看上去更像人。

计算机历史上著名的“图灵测试”提出,“当我们与机器对话无法判断其是人还是机器时,它就通过了图灵测试。”在过去的几十年,无数软件试图通过“图灵测试”,均以失败告终。虽然这个测试在逻辑上不是很严谨,不过我认为ChatGPT几乎可以算是通过了。我们不禁思考,机器是不是真的可以解决人的脑力问题?

ChatGPT是在Transformer算法的基础上,通过搜集整理海量数据,产生的最新的文本生成平台,能够跨语言,跨领域处理大量的文本工作。这也是ChatGPT在普通人中引起热潮的原因。

 

申:我个人感觉ChatGPT与以往的聊天机器人相比,最大的特点就是“人模人样”。但是同时我也有疑问,ChatGPT仅凭借其语言习惯更像人,在技术上是否就会产生像计算机、互联网的发明以及触屏技术问世等开创性、跨时代的意义呢?ChatGPT的到来是否也意味着“新纪元”的开启呢?

 

郝:作为程序员,站在个人角度来说,我认为ChatGPT在计算机技术发展方面具有重大的意义。ChatGPT之所以在今天引起热潮,是因为大量的普通人被吸引并选择使用这一工具,这在商业上已经是一个现象级的AI产品。上一次人工智能产生这样的热度,还是2016年阿尔法狗(AlphaGo)击败人类职业围棋选手。今天,人工智能不仅在围棋领域,在教育、学术、多媒体等领域产生了巨大的突破。

ChatGPT“狂飙”的原因,在于其可以走入普通人的生活,并开始解决生产力的问题。

  

二、ChatGPT生成的内容有知识产权吗?

 

郝:我想跟两位律师聊一下,抛开技术层面不谈,假设今天有一个助理律师能做总结或者整理这些文书工作,有一个系统是免费的或者只需要支付一点电费,您们会如何选择呢?这会使得您们的工作模式产生什么变化呢?

 

申:要不要用这样一个工具,我会主要考虑以下几个因素:

第一是工作质量。像我们从事法律工作对专业性是有要求的,如果使用ChatGPT,对一些泛泛的问题,ChatGPT的答复看起来是“唬人”的。但是如果涉及到特定的专业,我们进行测试时问过一些更深入的问题,它更多还是局限于对现有素材的整理归纳。以目前ChatGPT的水平来看,它是无法胜任一个中年级律师能做到的基础法律分析工作的,它提供的工作质量可能跟我的预期存在差距。

第二是知识产权问题。尽管它是免费的,但是使用ChatGPT生成的东西会不会存在知识产权方面的问题,我觉得可能大家都特别关心这个问题。


薛: (1)说到知识产权,之前香港大学曾发出通知,禁止学生使用OpenAI来生成作业。尽管我认为大学的这一做法是基于培养学生独立思考能力的角度进行的,但是我们也确实存在这样的问题,人工智能产生输出的内容到底有没有知识产权?

我个人这么理解,首先,因为咱们中国的著作权产生于1990年,那时候别说人工智能,即使是计算机也没有达到普及程度,所以立法者在当时的背景下基于立法原则,肯定没有把人工智能纳入著作权人的范畴。尽管之后著作权法进行了几次修改,但是其立法宗旨没有改变,著作权人还是在自然人、法人和非法人组织的范畴之内。

其次,根据著作权法规定,作品需要同时具备创作意图和独创性表达,才能受到著作权法的保护,这一点AI显然是不具备的。之前有一个很有趣的例子,摄影师在森林里摆放了一台设置好参数的相机,这时候有猴子经过并好奇摆弄。在摆弄过程中猴子按下快门,给自己照了一张露出惊悚表情的自拍照,这张作品在我们人类看来是非常搞笑的,也在网络上火爆一时。后来,摄影师将传播照片的“侵权者”告上法庭,法院合议后得出这样的结论:

“首先照片不是摄影师本人拍的,是猴子误触相机拍出的作品,猴子本身并没创作意图。其次对摄影师来说,在整个作品的产生中,摄影师仅仅将相机放置在原始森林里边起辅助性作用,照片的产生是偶发事件,摄影师对作品的产生同样不具有创作意图。从这个角度出发,摄影师对作品也没有著作权。”

所以基于上述两点,通常情况下AI产生的作品不应该享有著作权。但是我也大概检索过,发现有判例表明法院将AI产生作品的著作权认定为编程者所有。这个例子的特别之处在于,编程人员在编程过程中有意引导AI生成特定作品,最后作品体现了人的干预,最后结果体现了人的创作意图。所以说在这种情况下,尽管比较特殊,法院也有可能把AI作品认定为是著作权的保护对象。

具体到今天我们讨论的ChatGPT的话,我个人对ChatGPT技术不是很了解,但根据所了解到的情况,AI工具的知识领域十分广泛,实际上编程人员很难对每一个问题的答案进行干预,很难在每一个作品中体现人的意图。所以我认为,至少就目前来看ChatGPT所产生的作品很难被认定为具有著作权。

(2)音乐这个领域确实是我不太熟悉的领域。但我认为这个问题可能不是著作权法上的问题,人的思维方式摆脱原有思维方式的局限性,就有可能会产生新的作品。

 

郝:另外一种情况可能不太一样,如果我们在ChatGPT的创作基础上进行再创作,知识产权归谁?我需要证明创作所占百分比吗?如果某一部分是AI创作的,某一部分是我创作的,这算不算我的知识产权呢?

  

薛:著作权有独创性的标准,常见例子是汇编作品。比如说把现有的作品汇编成册,像鲁迅的作品集,在汇编的过程中我们会有选择。比如要表达卑亢悲愤的心情,或者要按照战争或者和平年代的顺序,我们按照顺序选择作品的过程就体现了独创性的思维方式,这样的作品是受到知识产权保护的。另外一个例子是在作品现有的基础上,增加了自己的创造性表达,这部分当然也是可以享有著作权。

  

郝:我想再问一个跟知识产权紧密相关的问题。有一个思想实验叫:“无限猴子定理”,说一只猴子在打字机前面随意打字,在理论上存在着打出一部莎士比亚著作的概率。在我看来猴子可能没有著作权。有一个类似的问题就是,人类可能产生的音乐旋律已经可以通过计算机全部遍历生成,包括音高节奏等。也就是说作曲家只要创作出一段旋律,一定能在数据库里找到。这样作曲家的创新可能会被扼杀,不知道您对此有什么想法?

  

薛:这个确实是我不太熟悉的领域。我个人认为跟著作权相比,人的思维方式摆脱原有思维方式的局限性,就有可能会产生新的作品。

 

申:我的理解是,作曲家可以把ChatGPT当作工具来使用,利用其庞大的数据和素材,来节省时间提高效率。如果是这样的话,ChatGPT仅仅发挥了工具的作用,真正的创作人还是作曲家自己。

 

三、ChatGPT会发展出意识吗?

  

申:以前美国有个电影《Her》,讲述的就是男主角跟AI相爱了,但是 AI自我学习能力太强大了,很快就超出了这个男主的认知水平,所以到最后只能分开。ChatGPT会进行自我学习,那么在往后发展的过程中是否会产生自我意识呢?

 

郝:这个问题就特别深刻了。首先什么是意识?脑科学研究里有一个说法:“如果我们把大脑打开,会看到很多血管神经元,但是看不到记忆。”在人工智能的领域里其实也是类似的。ChatGPT也是深度学习技术,这种技术最早源于神经网络。人工智能里有一个重要的领域叫AI的可解释性:也就是如何解释AI。人工智能科学家或工程师只能通过设计网络结构和参数进行实验得到结果,而不知道这些结果的逻辑推理或因果关系。这种方法让深度学习技术构建的人工智能系统的可解释性很弱。所以我也不知道计算机会不会产生意识。


我还想再说一下人工智能中深度学习里的另一种模式,叫非监督式学习。在这种方法下,机器会自行对数据进行处理,根据预先设定的规则得到相应的结果。GPT算法就是一种非监督式学习的算法。在这种算法下,计算机科学家能够控制输出结果的手段更加有限,出来的结果更不可控。这或许会让大家担心,机器存在自主的意识。不过我倒是觉得目前还不用太焦虑。意识可以包含记忆、思想、情绪、观念、意图等。目前的人工智能离这还太远,大家尽管放心。


四、ChatGPT“违法乱纪”,谁来承担责任?

 

郝:如果说ChatGPT出现了一些违法的东西,责任谁担?

  

申:运营维护设备的,提供技术服务的,像咱们国家法律框架下就是服务提供者,技术支持者来承担。

  

郝:我作为程序员来讲的话,我就会觉得很冤枉,我没有办法控制这东西,即使是公司也无法控制这个风险。如果让企业、程序员承担责任的话,可能就没有公司敢研究这种技术了。


申:如果在大方面说的话,这就是立法和监管环境对整个产业、行业的影响问题了。中国和美国我觉得比较像,都是促进产业发展;欧盟可能就不太一样,更多先想到监管,要把风险想到前面。所以这几个地方的 AI水平发展也是不一样的。在产业发展上肯定还是促进的,因为毕竟它是未来的一个发展方向。咱们国家现在除了整体的政策外,各地包括深圳上海都有这方面的产业促进条例,所以产业发展肯定是鼓励的。但是一个行业的发展,不能说它只有好事没坏事,它一定是伴随着风险的,风险得去想办法去控制。刚才您讲到,责任到人、到公司,觉得很冤,我理解您这个问题下的底层逻辑是,AI的可解释性很弱,我们也无法控制它的走向。但是我们也有规定,要求在AI产品上市之前做评估,在 AI技术发展过程当中要做监控,不能说企业把AI创造出来就往市场上一扔,就任由它自生自灭了,那企业责任何在呢?所以其实在这方面,我觉得立法已经在把边界给画出来,红线就在这个地方,不能超出这红线。

而且我们讲法律上权利义务对等,你既然不让AI享有权利,为什么让它承担责任呢?这是不是也不公平。

这其实就是怎么看待技术中立的问题。好人用好的工具产生了好的效果,如果是坏人使用工具做了坏事,这个责任谁来承担呢?因为刚才我们讲的是权利,那么权利的对立面就是责任。咱们国家对于AI在伦理方面的要求是责任到人,最终这个责任是要人来承担,不能让工具背锅。

  

郝:对,就像网上说的,人工智能是替代不了人的,因为人工智能背不了锅。

  

薛:我也是感受比较深的,因为这两年AI进步确实比较明显,大家自身都能感知到。包括前两年的智能变脸软件,软件出来后我考虑了很长时间。如果说各国领导人用换脸去做一段视频,这个是否代表他的立场?在没有技术或者法律限制的前提下,没法去判断。现在的话像 ChatGPT这个软件也出来了,它不光能够制造一张假的脸,而且能制造一套假的思想,这两个东西结合起来,我觉得是一个非常可怕的事情。现在国内有没有相关法律来限制这种深度合成类的技术呢?

 

申:咱们国家还是有立法的,去年发布、今年生效实施的有一个《互联网信息服务深度合成管理办法》,在这之前,去年有一个《算法推荐管理办法》,都是对AI技术的特定应用场景做了一些要求。像刚才讲的图像的合成,ChatGPT文字的合成,还有其他的一些音频的等等这些,都是有要求的。法律也提到了伦理的问题,也提到了监管的手段,比如上市之前的评估问题,以及对网络空间生态的保护,这些要求都要具体到相应的企业上,我们叫做深度合成服务的提供者或者技术支持者。

现在国内对AI领域已经给予了注意力和监管压力。像刚才提到的换脸软件,国内外已经有了相应的案例。这样的换脸行为实际上会对人格造成侵害,并不是说游戏化、娱乐化之后,法律责任就不存在了。网络不是法外之地,现在我们的网络监管更强了。如果说深度合成服务带有舆论属性或者社会动员能力,那么这个产品在推出后需要到主管部门做备案,这些都是一些监管层面的措施。

 

五、ChatGPT会泄露个人信息或有其他数据安全风险吗?

 

郝:我想问一下关于数据安全方面的问题。

一方面在国内有一些代理机构,会通过ChatGPT的方式与境外接触,然后对外进行服务,这个部分的话会不会涉及到一些数据合规出境和安全的问题?另外一方面是数据隐私。比如说我跟 ChatGPT聊天,报出身份证号让它判断是不是幸运数字,这时候会不会有问题?最后还有一个伦理问题,比如我说需要一个人类毁灭的计划,如果人工智能给出了答案,会不会触犯法律?

 

申:对于伦理问题,包括个人信息问题,ChatGPT会采取屏蔽措施。如果提问这种敏感话题,它的保护机制会控制它不去泄露。您刚提到数据的问题,因为ChatGPT目前没对国内用户开放,通过一些中间的服务商或者翻墙去体验这个产品,肯定会涉及到数据安全问题。

正好我还想跟您确认一下,就您了解的,ChatGPT这个技术它是预训练的,是基于网络上已有数据,它会不会在和用户交互的过程中进行一个及时的搜集和反馈?

  

郝:我们讲的更具体一些,GPT这个算法虽然是预训练的,不过在实践上没有一个软件会只依赖这个预训练模型,包括ChatGPT。比如微软的New Bing,在获得ChatGPT的答案之后,还会在互联网上抓取实时的数据。

具体数据的处理还能分为两类,一类是定期补充新的数据,然后重新训练来改进模型。另一类是通过人工来标记相应的特殊数据,例如垃圾数据,防止系统违反法律或伦理。对于New Bing的结果,在实时抓取数据后不会立即影响其数据模型,只是影响到当时查询的结果,这是一个合成的结果。

  

申:所以在跟用户的沟通过程当中,用户的数据是会被上传的。

  

郝:那是肯定的。我们在询问问题的时候,所有的数据都会上传到这个平台上,问题所有内容都会上传后台。

 

申:那这个其实是一个很典型的数据收集场景了,收集大量的用户在使用过程当中生成的一些数据,这些数据里面有可能就会有个人信息。刚刚您举了一个例子,上传手机号想看看我的手机号码是不是吉祥号,或者对数据安全不敏感的人在无意当中上传敏感数据甚至重要数据,这些都是有可能的。如果企业在境外直接去收集的话,其实涉及到一个数据出境问题。

 

郝:在数据监管领域,可能欧洲的GDPR会做的比较严一些,有没有类似的政府或者国家对ChatGPT出台类似的监管措施呢?

  

申:我最近没有了解到有专门针对ChatGPT的监管措施出台。但是对于AI这种数据流动的监管不是一个新的问题。可能使用的工具不一样,但它涉及到的数据监管问题本质相同。

  

郝:刚刚讲到客户隐私上传网络谁来承担责任的问题,我们分两种情况进行讨论:一个是我自己传上去,还有一种是第三方上传的。

  

申:对于第一种自己上传的情况,我们从个体角度出发,首先需要判断上传者是否具有相应的行为能力,8岁孩子和成年人做出相同行为,承担的责任也是不同的。在成年状态下,我们需要具备理解判断隐私政策和用户协议内容的能力,再去承担这个责任。在数据服务者的角度,有责任去承担保护义务。因为现在各国在数据领域都强调“长臂管辖”,包括我国的法律、欧盟的GDPR以及美国的一些法律,都规定了域外效力。如果你严格按照咱们国家的法律来讲,Open AI直接收集了中国境内个人信息,就是涉及到是否要适用中国法律的问题。现在可能还有一个模糊的边界,因为ChatGPT没有正式向中国开放,很难定义它是面向中国提供服务。但是未来,如果Open AI进入中国市场,还是有可能涉及到数据出境的问题。

对于第三方上传的情况,我觉得需要看考虑问题的角度,如果从数据保护、个人信息保护的角度出发,我觉得他也应该是算一个责任主体。在中国境内设立的主体在中国境内做这个事情,就得遵守中国的法律。

另外,如果从数据跨境的角度,我们需要结合其背后的数据流,去判断它到底是整个数据链路中的哪一个环节,今儿再判断它只是数据链中的一部分还是数据出境的责任主体。这个需要具体问题具体分析。

  

六、ChatGPT会在工作中取代人类吗?

 

郝:从工程师的角度上来讲,我关注的问题其实就两个。

一个是工程师会不会被AI取代的问题。工程师确实分成不同层级,普通的工作是在网上进行一些数据的搜索查询、然后进行修改。有了ChatGPT之后,工作效率会大大提高。无论是通过互联网搜索还是通过ChatGPT得到的答案,我们都需要验证它的真实性,这才是工程师的价值所在。所以认为工程师目前不太可能被ChatGPT替代,而只是替代或加速了一部分的工作。


另一个挑战倒是我比较担心的。由于通过ChatGPT获得结果太容易,工程师可能会失去独立思考、灵光一现的能力。如果我们无法拥有这样的技能,就很可能彻底依赖人工智能、依赖算法。长此以往,工程师的价值就没有了。我不知道律师在法律工作里会不会有类似的问题。


申:其实法律界也一样。因为其实编程也好法律界也好,都是带有一定专业性的。所以刚才一开始咱们也说了,比如说我懂法律,但是法律专业细分的精细度这么高,我可能懂数据,但是我想了解一个知识产权方面的问题,ChatGPT给我一个错误答案,我如果不去请教薛律师,请他帮我判断一下对不对,我可能就被蒙了。而且在使用过程当中,ChatGPT给我的感觉不是简单的搜索引擎,不是抓取关键词后再自行筛选总结。它是一个“一站式”服务,好像把菜做好后端到你面前,先抛开菜的味道不说,做菜的过程和程序消失了。就像刚才薛律师说香港大学为什么不让学生使用ChatGPT生成作业,我也考虑过这个问题,它到底保护的是什么?如果说AI生成的东西都不算作品的话,那么就不存在保护知识产权的问题,它保护的其实就是我们的逻辑思维,我们自己的一个行动力。

  

郝:我可能要泼泼冷水。因为我是做软件的,我个人觉得人类是感性驱动的,而计算机是纯理性驱动,全是逻辑。即使前提错误的情况下,计算机推导出来的结果大概率也是符合逻辑的。在整个过程都是符合逻辑的情况下,普通人可能缺乏检验如此庞大的运算过程是否正确的能力。这也是我比较担心的地方,如果ChatGPT变成“The Only King”,我们可能会真的走向“美丽新世界”。当然我相信ChatGPT不可能是唯一的平台。

 

申:复旦大学是不是已经研发了类似ChatGPT的产品?

 

郝:对的,复旦大学的邱锡鹏教授已经研发了类似平台“MOSS”,谷歌有Bard,百度也说在3月会发布“文心一言”。所以我在幻想一个这样的场景:会有一个聚合的平台,然后有不同的机器人来回答相同的问题,它们直接PK最后得到结果。我个人觉得在法律的领域里,特别是知识产权这个领域里,未来最基础的工作会被机器替换掉,只是要确保数据是有效的、正确的。不过在需要深度思考的领域里,可能机器还无法做到。只是我担心有个ChatGPT以后,大多数人失去了进行深度思考的机会。当然有个好消息是,目前已经有多方研发AI内容检测器,避免学生或其他人员通过AI生成作业或创作。

 

申:您刚才提到提供一个聚合平台让AI自己去内卷起来,这个挺有意思的。但是越这样可能就会导致它结果的专业性越强,就是普通人的判断能力就会在他面前显得更弱。

  

郝:ChatGPT只是人工智能中自然语言处理的部分,只能处理文本,当然我认为它很强大。人工智能里还有多模态人工智能,可以处理图像、音频、视频等数据,它的功能会更强大。举个例子,OpenAI除了产品ChatGPT,它另外还有一个产品叫做DALL·E,它可以通过一段小文字生成图像,这个图像经过了处理,和网上所有的图片都不一样。我今年春节的时候用它制作一个中国风的兔年剪贴画,我说请给我“2023年兔年中国农历春节拜年的剪贴画”,系统就生成了这样一个图片,我再加上一些Logo和恭喜发财、兔年快乐的文字,就可以发给同事和朋友拜年了(如图1)。

1.jpg

过去这样的工作需要通过专业的美工或者艺术家自己画一个的。未来如果出现强大的多模态的人工智能,普通人就更难分辨真假了。艺术家会不会被替代掉呢?

 

七、ChatGPT生成的内容都可靠吗?

 

薛:之前我跟朋友聊过,他自己做了一个实验,是把一个伪命题输入ChatGPT后,会得出一个结论,甚至会给出七八种不同的像模像样的算法,但是细究起来,发现这些计算过程算是错误的,AI在“胡说八道”,为什么会出现这种情况?

 

郝:我理解。这样的就是我刚才讲的AI的可解释性,这是今天计算机科学家需要解决的非常重要的问题。

我们人总是相信因果性,比如人不幸在自然灾害中去世,我们想知道原因,这是一个天然的思维方式。但是计算机不是这样,计算机只看相关性和数学推理。所以对计算机来讲,我只要有数据的这个前提,可以在一定概率之下得到任何你想要的结论。只是说得到结论的置信度是0.000001,还是0.999999。不过在连续概率推导下,如果每个环节的置信度都0.8,10个0.8相乘就差不多是0了,这样就会出现一个错误的结果。对计算机来说,我可以通过任何前提得到置信度是0到1之间的任何结果。

我问一件事为什么是好事,ChatGPT会给出一堆理由;为什么它是件坏事,ChatGPT又会给我一堆不同的理由。例如为什么天空是蓝的,或者为什么天空不是蓝的。GPT是预训练的算法,模型能够让它生成必要的结论。对普通人而言,1+1=2,这是因为在自然界这个模型下,1+1就是2。如果我们学习的是近世代数,在另外的模型下,1只是个符号,+只是个操作,1+1可以是任何我定义下的结果。我以前写程序的时候,夸张一点说,在写程序特别投入的时候,我觉得自己就是个上帝,这就是一个思维的错觉。我也担心机器发展下去,会造成各种结果,而且它的计算速度和数据规模远超人脑,普通人是无法和这样的机器抗衡的。

   

申:其实至少在现阶段,我对它没有抱太大的指望。资料的收集和整理方面,它比人工要好很多而且快,别出错就行。我现在就是担心它对于数据的这种提供以及本身结果的准确性,我是真的打问号。它好像越专业,反而准确性越下降。

  

薛:这个我们测试过。比如说让AI搜集一下某个集团在这一段时间内的一些法律案件,AI给出了一些答案。然后我们追加了一个问题,问能不能给出给这些案件的出处,然后AI立刻把案件出处全部列出。这实际上是一个AI一个很强大的功能,你可以用这个功能来检验它这个东西到底准不准确,这是一个进步。


申:但是我看到报道,AI会自己编写答案,虽然给了案件出处,但是是假的。这个好像是因为技术上的原因?

 

郝:我刚才讲的ChatGPT是结果驱动的,它一定要给出结果,只是结果的置信度高低而已。那些结果点开可能都是错的,也有可能是原来的数据源是错的。还有时效性的问题,ChatGPT给的结果可能不一定是假的,而是被删除的历史数据,所以你觉得可能是假的。

这里我可以多提一点,我们认为中文的训练结果可能比不上英语。因为全世界的英文语料是中文语料的20到30倍,中文语料还存在合成的问题,质量很一般。这种数据作为基础数据训练,会导致模型质量低下。

为什么ChatGPT写代码质量会比较好呢?我认为不管是微软还是其他平台,代码文档的质量非常优秀。公司有专人来整理这些关于代码的文档,比如我以前经常用的MSDN。此外代码本身的语言清晰,逻辑结构明确,这对人工智能模型的训练帮助很大,所以结果质量高。

法律案例可能就不是这样了,判决书、法律意见书的内容就远比代码复杂,还有可能出现冲突的地方,这样结果质量就存在问题。

ChatGPT讲漂亮的废话,可谓是一把好手。前一段时间我还问过它,某家公司某一年的财报显示公司市值是多少,ChatGPT给出了一个看上去非常准确的数字,但是那个实际上是错的。因此我们使用ChatGPT的过程中还是需要睁大眼睛,仔细判断。

  

申:对,所以可能现阶段由于数据的准确性问题,ChatGPT对我们提供的至少在专业工作上的支持是有限的。如果你完全依赖它,有可能会提供错误观点,免不了人工复核。

  

薛:对,这个肯定是要复核,所以这也是人存在的一个意义。如果ChatGPT能做百分百准确,非常完美的话,我觉得人真的没有存在的意义了。

  

申:是的,像刚才郝总提到的基本的初级的编程或者一些简单的法律问题,助理们的工作就被机器取代了。但是我们看到了新的职业,去核实技术后面这些数据的真假,这可能是的一个职业发展方向。而且它数据量越庞大,网络上的合成信息也会越来越多,这个时候信息的真假掺杂在里面,就更需要人工核实。

  

郝:简单信息还可以通过程序进行验证的,对于复杂的信息,还是需要人来处理和分析的。


八、ChatGPT会失控吗?


申:一开始我其实不紧张,现在有点紧张了。其实咱们国家的关于 AI的伦理规范,包括其他的一些政策也好、规则也好,包括境外的一些政策和立法,都在讲AI的可控可信。

但是在听到郝总讲这些之前,我真的觉得是可控可信的,至少在某种技术上是可以实现。但是随着AI发展,怎么一直做到可控呢?

  

郝:在计算机发展的过程中,我们一直认为计算机程序是可控的。但是今天我们不禁担忧,ChatGPT会不会失控。担忧的第一点是安全,他会不会比我聪明;第二点是伦理,如果他比我聪明了,他来对付我怎么办;第三个也是伦理的问题,会不会和聊天机器人产生感情;这都是我们觉得不可控的部分。站在普通人角度上来讲,我觉得我们也不用太害怕,因为毕竟它还只是个机器。

ChatGPT还是可控的,我认为目前它仍然在可控范围内。比如说在几年前微软出了一个聊天机器人产品,让两个机器人互相聊,逐渐出现一些人不认识的语言、还有一些极端的对话。当这件事发生后,微软关闭了这套系统,数据被全部删除。微软提出要做负责任的AI(Responsible AI),这是我们对人工智能控制的努力。IEEE也写过一份人工智能系统设计伦理规范,目前已经是第二版,在征集意见,包括如何人工智能系统的设计原则,例如保证人类权利、为人类造福等。

所以千万不用担心,今天计算机毕竟还是在人类的掌控之下,但是在局部范围内可能会出现一些突破我们的伦理或认知的地方。

举个例子,如果用Elon Musk的Neuralink芯片来控制我们的大脑会造成什么结果?去年年底,有一短视频描述了用人造子宫工厂生孩子的场景,这会造成什么伦理问题?这都是我认为计算机和新的技术产生的不可控风险。

虽然我们的脑力速度肯定比不上计算机,我们在象棋和围棋上都输给了计算机,不过我依然认为计算机目前不可控的风险较小。我是一个乐观的悲观主义者,我认为在未来发展过程当中,计算机一定是可以和人类共同发展,把我们的世界变得更加的美好,而不是相反。

 

九、ChatGPT还有什么风险?

 

申:现在或者说未来ChatGPT这样的技术再发展的话,对我们每个人除了对人的替代性以外,您觉得它最大的风险点在什么地方?

  

郝:在汽车出现的时候,马车夫非常的紧张;计算机人工智能出现的时候,大部分的脑力工作者其实也挺紧张。发展到今天,我觉得不管是汽车还是计算机,都是在为人类造福。真正的风险来自于人类不进步,人类自己不去控制机器,而是让机器控制,这就是《美丽新世界》里面说的最底层的民众产生的问题。长期来讲,只要我们人类不分化,不是顶端的很小一部分人来管理机器,然后通过机器管理大部分人,那机器就可以为全人类服务。

 

十、ChatGPT技术最可能应用在哪些方面?

   

申:您觉得这个技术再往下发展,它最有可能应用在哪些方面呢?

  

郝:目前ChatGPT只能在文本上面做处理,比如说做一些简单的合成式的些工作。逐步来看,未来我们看的更多的是多模态的人工智能或者说通用人工智能。它可以在元宇宙里面模仿人的样子,跟你对话闲聊。然后通过文字生成图像,通过图像生成文字,甚至可以生成虚拟人像。

今天我们在元宇宙里面可以看到AI变得更加的真实,沟通的过程当中它越来越像真人,这都是未来我觉得会逐步发展的方向。长期来看,我还是希望这种智能能够代替解决一些体力性的人脑工作,比如说整理排版,制作PPT。其实现在也可以向ChatGPT做出具体指示,根据提纲制作PPT,只是涉及到数据和事实时,我们要格外注意。

  

申:以后会不会也有智能语言的应用?

  

郝:现在就有相应的技术,而且已经很成熟了。比如说我讲两分钟的话,AI就可以把我的语音生成所有的相应的服务。这个技术是非常危险的,比如合成语音后去给您家人打电话诈骗。

 

申:咱们聊过关于这个话题,声音和人脸一样是敏感的信息,都属于生物识别信息,要特别小心。我觉得将来国内有类似产品出来,在这方面也要特别小心。像您刚才讲,如果我们中文知识库这么的有限的话,它可能更多的是从客户、从使用者的角度来收集更多的数据,来训练它的模型,对吧?

  

郝:从客户那儿收集来的信息很多时候是同质的,模型更需要收集异质的信息。就像我们看到一篇文章,这篇文章如果信息量特别大,我们看起来就比较累。机器需要的语料也是类似的,需要信息量大的数据,而不是简单的重复数据。我个人认为,ChatGPT生成的数据信息量也比较有限,很多时候都是不断反复的信息。如果客户、使用者提供深度信息的话,ChatGPT也能产生更多的深度信息,这样反过来它也能更好地帮助我们脑力工作者。这也是我之前说的人和计算机共同进步的场景。

 


作者

作者动态

作者其他文章

相关领域

Copyright © 1998-2018 天达共和律师事务所 京ICP备11012394号
联系我们 关注公众号
联系我们