Reddit 将限制网络档案资料库(Internet Archive)旗下的Wayback Machine 存取论坛上的内容和索引,Reddit 发现有公司透过Wayback Machine 抓取Reddit 的历史数据训练AI 大型语言模型,违反平台政策。
Reddit 发言人Tim Rathschmidt 向 The Verge表示他们注意到有AI 公司违反平台政策,透过Wayback Machine 抓取Reddit 的资料。因此Reddit 将逐步限制Wayback Machine 的索引能力,未来这些第三方公司仅能存取Reddit 主页,而无法抓取特定贴文、留言和使用者个人页面等内容。
Reddit 强调虽然理解网络档案资料库需努力保存网络内容资产的使命,但也必须保护用户隐私与平台政策的完整性。在网络档案资料库能保障网站内容符合隐私规范前, Reddit 将限制Wayback Machine 的造访,以保障用户利益。
这项封锁措施即日起开始实施,将会逐步加强。 Reddit 表示已事先与Internet Archive 沟通提前告知他们做准备。 Wayback Machine 负责人Mark Graham 回应表示他们与Reddit 一直保持长期合作关系,将继续就此事进行讨论。
Reddit 的AI 政策为使用者付费
这并非Reddit 首度对资料存取施加限制,人工智慧大型语言模型(LLM)迅速发展,许多AI 公司开始利用Reddit 上用户们大量的公开对话训练语言模型。 2023 年起,Reddit 对其API 政策进行重大调整,要求第三方应用程式使用API 需要支付费用,此举导致多个第三方Reddit 客户端关闭,引起社群抗议。 Reddit 表示调整的主因是为了防止AI 公司未经授权使用其内容训练模型。 Reddit 也开始限制搜寻引擎抓取网站内容,除非第三方公司愿意付费。
2024 年,Reddit 与Google 达成协议允许使用论坛内容训练AI 模型与改进搜寻功能,该协议价值约6000 万美元,协议意味着为AI 训练模型的重要来源,Reddit 平台的内容可以成为商品变现。
此外,Reddit 也与OpenAI 建立合作关系,允许使用内容,不过, 2025 年6 月,Reddit 对另一家AI 公司Anthropic 提起诉讼,指控对方声称已停止撷取网站数据,但仍持续进行不间断,借此训练Claude 模型。
这次封锁Wayback Machine,突显出Reddit 对AI 数据主权的重视。虽然Reddit 长期以来被视为开放自由论坛的模范,但当平台意识到用户内容价值升高可被量化为高价值的AI 训练时,也开始夺回主控权。
唉,用户变商品吗?
Reddit 上虽然大部分都是匿名,但平台如果开放付费让第三方使用数据让AI 训练语言模型,那又产生另外个问题,用户的发言是一时的,但网络资料存取是永久的,用户如果改变想法和立场,但所说言论被永久保存,不是会变得更没有隐私权和自主权?
本文链接地址:https://www.wwsww.cn/hqfx/33817.html
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。