网站首页

产品中心

智能终端处理器 智能云服务器 软件开发环境

新闻中心

关于开元体育

公司概况 核心优势 核心团队 发展历程

联系开元体育

官方微信 官方微博
主页 > 新闻中心

开元体育人工智能监管:如何定性从网络抓取个人数据训练AI的行为?

发布时间:2023-11-15 21:57浏览次数: 来源于:网络

  在全球隐私、数据保护法、网络抓取和人工智能的交叉点上,部署生成式人工智能工具的公司正面临“一系列诉讼”,因为它们涉嫌使用“互联网上的大量数据”来训练他们的程序。

  2023年6月PM v. OpenAI的集体诉讼,向美国联邦控诉OpenAI 使用“从数亿互联网用户(包括各个年龄段的儿童)窃取的私人信息,包括个人身份信息,且未经他们知情或同意。”该诉讼的指控包括但不限于侵犯隐私、侵入隔离、不当得利和收受被盗财产。

  该诉讼提出的众多问题之一涉及网络抓取的合法性。正如谷歌最近在其隐私政策更新中披露的那样,许多人工智能产品和服务都是根据从网络上抓取的个人信息进行培训的。因此,通过对相关法规、判例法和全球执法行动的调研来探讨网络抓取的合法性,可以一窥目前人工智能监管动态。

  图片:谷歌的隐私政策变化(“公开可用的信息”用于训练谷歌的人工智能产品的表述更加清晰)

  在美国,大多数围绕从网络上抓取的数据的使用的法律讨论都会援引1986 年颁布的《计算机欺诈和滥用法案》(CFAA)。作为美国第一部专门的计算机犯罪法规,其主要目标是解决当时新兴的黑客犯罪问题。从本质上讲,该法规禁止“未经授权”或以“超出授权访问”的方式故意访问计算机。

  2021年,美国最高法院对范布伦诉美国案(Van Buren v. United States)审理后,裁定范布伦作为一名警官出于个人原因访问政府数据库,并不违反CFAA。虽然范布伦案与网络抓取没有直接关系,但它从更狭隘的角度对CFAA进行了解释、缩小了其适用范围,当将CFAA解读为“非法侵入法规”时,范布伦案对于区分触发责任的门和不触发责任的减速带(即提供商施加的限制)留下了未解答的问题。

  Orin Kerr教授在他的文章《计算机侵权规范》中提到了这种区别的细微差别,并主张在身份验证的标题下制定一套规则,“当计算机所有者需要身份验证才能访问计算机时,如果访问不是由经过身份验证的用户或其代理进行时,才能称之为‘未经授权的访问’。”

  最接近适用于网络抓取的美国法律标准是LinkedIn vs. hiQ Labs案。现已解散的数据分析公司hiQ致力于从LinkedIn托管的公众用户个人资料中抓取信息。2017年5月,LinkedIn向hiQ 发送了一封停止函,指控其行为违反了CFAA、《数字千年版权法》、《加州刑法》等。

  同年晚些时候,美国加利福尼亚州北区地方法院颁布了一项有利于hiQ的初步禁令,法院命令 LinkedIn“消除 hiQ 访问LinkedIn成员公共资料的任何现有技术障碍,并避免设置任何法律或技术障碍来阻止hiQ访问这些资料”等。该禁令引发了人们对 CFAA 的适用性的质疑。美国第九巡回上诉法院在 2019 年的上诉(称为“hiQ II”)中维持了这一命令。随后,美国最高法院批准了LinkedIn 的调卷令状申请,撤销了判决,并将案件发回重审,要求夏季法院根据“范布伦诉美国”案进一步审议。

  随后,2022年4月,美国第九巡回法院重申了其最初的决定。hiQ II 案中的这一判决明确依赖于最高法院在Van Buren案中的推理。正如法院解释的那样,“未经授权”的概念不适用于公共网站。换句话说,它得出的结论开元体育是,LinkedIn 及其用户承担了第三方可能查看包含姓名、电子邮件地址、教育和工作经历等个人信息的面向公众的用户个人资料的风险。此外,法院还认为:

  “……(如果)允许像 LinkedIn 这样的公司可以在任何基础上自由决定谁可以收集和使用数据——这些这些公司自己收集和使用的数据并不属于这些公司所有,而且他们以其他方式公开提供给观众——可能会面临以下风险:损害公共利益的信息垄断。”

  然而,2022年12月,在美国第九巡回法院裁定hiQ 违反LinkedIn用户协议后,双方随即达成秘密和解。

  一些人认为LinkedIn-hiQ 事件的结果是网络抓取公司的胜利。然而,鉴于双方最终达成私下和解,该案并未就网络抓取建立具有约束力的法律先例。而且,这场所谓的胜利代价巨大——hiQ在裁决之前就已经无法获得投资、留住员工、续签业务合同或招揽新业务。2018年,hiQ 最终停止了运营。

  法律学者和从业者对美国各州隐私法对网络抓取行为施加的限制(如果有)提出了疑问。首先,大多数美国隐私立法将公开信息排除在个人信息的定义之外。例如,《加州隐私权法案》(CPRA)将公开信息定义为:

  “……企业有合理依据相信消费者或通过广泛传播的媒体或消费者合法向公众提供的信息;或由消费者向其披露信息的人提供的信息,如果消费者并未将信息限制于特定受众。”

  因此,“个人信息消费者在社交媒体平台上公开发布的内容可能属于例外情况”。

  但是,如果从网络上抓取的个人数据不符合排除条件,则美国各州隐私法中管辖个人信息使用的其他要求可能适用于其收集和处理。例如,《加州消费者隐私法案》(CCPA)要求任何符合条件的企业在收集所涵盖的消费者信息时,应“在收集时或之前”通知消费者其计划收集的信息类别和目的。由于CCPA中收集的定义包括“以任何方式”“获取”或“收集”消费者的个人身份信息(PII),因此抓取网站的行为似乎属于该描述范围。然而,在3月份加州行政法办公室批准的《CCPA 最终条例》中进一步明确:

  “既不直接从消费者那里收集也不控制个人信息收集的企业,如果既不出售也不共享消费者的个人信息,则无需向消费者提供收集通知。”

  另一方面,根据隐私法推论,出售包含个人信息的抓取数据集合的抓取者将需要在收集时提供通知。这可能适用于使用从网络上抓取的个人数据进行训练的人工智能产品。

  然而,重要的问题仍然是:美国各州隐私法的保护是否以及在多大程度上适用于从网络上抓取并用于训练人工智能的数据?

  尽管美国法律体系中仍然存在复杂的问题,但网络抓取与欧盟《通用数据保护条例》(GDPR)的相互关系却截然不同。对于由个人数据驱动的人工智能技术,管理数据控制者个人数据收集和处理的 GDPR 条款可能适用。更高的义务也可能适用于特殊类别的个人数据之一的收集和处理。

  与美国隐私法的区别在于,GDPR默认禁止收集和处理个人数据,除非控制者有合法依据:同意、合同、法律义务、切身利益、公共任务和合法利益。根据 GDPR 的大多数解释,无论信息是从可公开访问的来源获取还是直接从数据主体收集,这些第 6 条要求均适用。

  针对网络抓取工具的明确 GDPR指南于 2020 年出台,当时法国数据保护机构——国家信息与自由委员会提醒公司,必须获得个人“自由给予的、具体的、知情的和明确的同意”才能重复使用在在线公共空间发布的联系方式。同样,ABB公司高级法律顾问 Piotr Foitzik在一篇文章中写道:“毫无疑问,当个人数据来自公开来源,必须根据第 14 条通知数据主体。”

  然而,鉴于“网络抓取”的性质,同意、透明度和反对权是难以实施的原则。其他法律依据对于网络抓取也没有什么意义。

  值得注意的案例是,意大利监管机构于2022年3月决定对 Clearview AI 处以2000 万欧元罚款,原因是其在网络上抓取生物识别数据,监管机构拒绝了该公司将合法利益主张作为其数据处理的合法依据。英国信息专员办公室(ICO)和澳大利亚信息专员办公室(OAIC)对该公司进行了类似的联合调查,其中包括围绕透明度、用途限制和存储限制的投诉。2022年5月,英国信息专员办公室(ICO)对Clearview AI处以900 万美元罚款,并命令其停止获取并删除其已有的英国公民数据。英国法庭于 2023 年 10 月推翻了罚款,称 GDPR 不适用于外国执法活动。

  尽管如此,欧盟的网络抓取仍然存在法律障碍。考虑到这些挑战,依赖网络抓取数据的人工智能模型可能在全球数据保护法方面处于困难的法律地位。事实上,它们已经引起了全球众多隐私和数据保护机构的愤怒。

  网络抓取的做法无疑受到了全球隐私监管机构的关注。2023年8月,包括英国信息专员办公室(ICO)、加拿大隐私专员办公室(OPC)和香港隐私专员公署(PCPD)等在内的12个国际数据保护和隐私机构针对网络抓取发布了一份联合声明,要求对收集个人信息并将其公开的社交媒体公司承担更大的责任。当然,围绕网络抓取的许多隐私问题都源于不良行为者,或者是那些利用网络抓取进行网络攻击、创建欺诈性贷款或信用卡申请、收集政治情报以及发送大量未经请求的营销信息的人。数据保护监管机构发现此类事件的报告数量不断增加,并警告所有公司保持高度警惕。

  然而,监管机构的声明强调,即使是公开的个人数据仍然受到数据隐私法的保护。换句话说,他们担心社交媒体公司授权的网络抓取可能仍然与个人的隐私期望背道而驰。正如电子隐私信息中心的一篇文章所述,“当我们在社交媒体或网络上向公众提供信息时,我们并不期望或不打算让其他人获取该信息并按照他人的意愿进行处理。”

  不过,公共数据的例外和排除使得很难对后来使用这些数据的人(比如人工智能公司)采取执法行动。这种困难在一定程度上解释了为什么全球监管机构的策略是敦促社交媒体公司采取更多技术、程序和法律行动,从一开始就防止其网站被抓取。这些措施中,许多像Meta这样的主要平台已经投入了大量资源来实施,包括限制一个帐户每小时或每天的访问次数、采取更多步骤使用验证码来检测机器人、阻止数据访问的IP地址等。识别抓取活动,并向可疑和已确认的网络抓取者发送停止函。此外,监管机构建议,这些控制措施的使用应与所涉信息的敏感性成比例。

  重要的是,公司使用从网络上获取的个人数据(包括用于人工智能技术的培训)可能会破坏消费者的信任,从而对数字经济产生不利后果。当消费者对数据的收集和使用方式失去信任时,他们更有可能采取这些自卫行为来保护自己的隐私。

  尽管全球隐私法和人工智能治理仍在不断发展,但随着消费者和监管机构对隐私期望的不断发展,网络爬虫可能会发现愿意让他们监听的各方越来越少。参与数据抓取的公司需要考虑一些可行的要点。

  开发和部署依赖网络抓取数据的人工智能模型的公司应该通过采用基于风险的方法来考虑这种信息收集和数据使用的好处和风险。毫无疑问,抓取大量数据并将其转化为创新产品和服务的技术会带来好处,但这些技术也带来了新的隐私风险,必须建立内部和外部问责制度。

  国际隐私专业人士协会(IAPP)首席研究员。她最近为《世界各地的数据保护》一书撰写了有关欧盟和美国隐私和数据保护法律和政策的章节。她的隐私研究已被欧洲议会、国会研究服务处和联合国等机构的各种媒体和报告引用。

下一篇:硅谷人工智能研究院创始人皮埃罗开元体育
上一篇:开元体育《香港人工智能产业发展研究》报告发布

咨询我们

输入您的疑问及需求发送邮箱给我们