
社交媒体巨头Reddit近日在纽约联邦法院发起了一场引人注目的诉讼,将人工智能初创公司Perplexity AI及其三家合作伙伴告上法庭。Reddit指控这些公司涉嫌“工业规模的非法抓取”行为,未经授权大规模复制数百万Reddit用户评论,并将其用于商业牟利。这场官司不仅关乎Reddit自身权益,更可能为当下风头正劲的生成式AI行业,在数据合规与版权使用方面,树立一个重要的行业标杆。
此次诉讼的被告名单颇为复杂,除了位于旧金山的Perplexity AI,还包括立陶宛的数据抓取服务商Oxylabs UAB、被指控为“前俄罗斯僵尸网络”的域名AWMProxy,以及一家总部位于美国德州的搜索服务商SerpApi。Reddit在诉状中洋洋洒洒列举了多项指控,包括不正当竞争、侵犯版权以及不当得利等。据Reddit方面透露,这些公司并非通过正规渠道获取数据,而是设法绕过平台的技术防护机制,从谷歌搜索结果中抓取Reddit的内容,并利用代理工具来掩盖其真实身份和抓取行为。
Reddit的首席法律官Ben Lee在接受采访时,用了一个形象的比喻来形容被告的行为:“他们就像潜在的银行劫匪,闯入了一个装甲卡车,试图窃取里面的东西。”他强调,Reddit之所以成为这些公司的“主要目标”,是因为其平台汇聚了“全球最大、最活跃的人类对话集合”,这些海量数据对于训练强大的AI模型至关重要。Ben Lee进一步指出,Perplexity AI选择的是“购买被盗数据”,而非通过合法途径寻求授权,这种行为无疑加剧了事态的严重性。
面对Reddit的指控,Perplexity AI方面迅速做出了回应。公司表示尚未收到正式的诉讼文件,但同时强调,“将积极捍卫公众公平获取知识的权利”,并声称公司一直以来都“负责任地使用AI”。其他被告的反应也各有不同。SerpApi和Oxylabs均否认了Reddit的指控,并表示将积极应诉。Oxylabs尤其强调,“公共数据不应被垄断或高价出售”,暗示其抓取行为可能涉及对数据公开性质的解读。至于AWMProxy,截至目前尚未对此事作出任何公开回应。
值得注意的是,这并非Reddit首次就AI数据抓取问题采取法律行动。就在今年6月,Reddit曾起诉了另一家AI公司Anthropic。然而,Reddit也并非完全“闭门拒客”。在此之前,Reddit已经与Google、OpenAI等科技巨头达成了一系列授权协议,允许这些公司在支付费用的前提下,使用Reddit的内容来训练其AI模型。这表明Reddit的态度并非一概而论,而是更侧重于“合法授权”与“商业牟利”之间的界限。
此次Reddit起诉Perplexity AI的案件,被许多行业观察家视为生成式AI领域数据合规问题的一个关键性节点。随着AI技术的飞速发展,对海量数据的需求日益增长,但数据的来源、获取方式以及版权归属问题,正变得越来越复杂和敏感。可以预见,未来AI公司在寻求和使用训练数据时,将面临比以往更加严格的审查和更高的合规门槛。这场官司的结果,无疑将对整个AI产业的未来发展方向产生深远影响。