Reddit怒斥“数据窃贼”：Perplexity AI被指控“工业级”盗取数百万用户评论

智享AI

封面图

社交媒体巨头Reddit近日在纽约联邦法院发起了一场引人注目的诉讼，将人工智能初创公司Perplexity AI及其三家合作伙伴告上法庭。Reddit指控这些公司涉嫌“工业规模的非法抓取”行为，未经授权大规模复制数百万Reddit用户评论，并将其用于商业牟利。这场官司不仅关乎Reddit自身权益，更可能为当下风头正劲的生成式AI行业，在数据合规与版权使用方面，树立一个重要的行业标杆。
此次诉讼的被告名单颇为复杂，除了位于旧金山的Perplexity AI，还包括立陶宛的数据抓取服务商Oxylabs UAB、被指控为“前俄罗斯僵尸网络”的域名AWMProxy，以及一家总部位于美国德州的搜索服务商SerpApi。Reddit在诉状中洋洋洒洒列举了多项指控，包括不正当竞争、侵犯版权以及不当得利等。据Reddit方面透露，这些公司并非通过正规渠道获取数据，而是设法绕过平台的技术防护机制，从谷歌搜索结果中抓取Reddit的内容，并利用代理工具来掩盖其真实身份和抓取行为。
Reddit的首席法律官Ben Lee在接受采访时，用了一个形象的比喻来形容被告的行为：“他们就像潜在的银行劫匪，闯入了一个装甲卡车，试图窃取里面的东西。”他强调，Reddit之所以成为这些公司的“主要目标”，是因为其平台汇聚了“全球最大、最活跃的人类对话集合”，这些海量数据对于训练强大的AI模型至关重要。Ben Lee进一步指出，Perplexity AI选择的是“购买被盗数据”，而非通过合法途径寻求授权，这种行为无疑加剧了事态的严重性。
面对Reddit的指控，Perplexity AI方面迅速做出了回应。公司表示尚未收到正式的诉讼文件，但同时强调，“将积极捍卫公众公平获取知识的权利”，并声称公司一直以来都“负责任地使用AI”。其他被告的反应也各有不同。SerpApi和Oxylabs均否认了Reddit的指控，并表示将积极应诉。Oxylabs尤其强调，“公共数据不应被垄断或高价出售”，暗示其抓取行为可能涉及对数据公开性质的解读。至于AWMProxy，截至目前尚未对此事作出任何公开回应。
值得注意的是，这并非Reddit首次就AI数据抓取问题采取法律行动。就在今年6月，Reddit曾起诉了另一家AI公司Anthropic。然而，Reddit也并非完全“闭门拒客”。在此之前，Reddit已经与Google、OpenAI等科技巨头达成了一系列授权协议，允许这些公司在支付费用的前提下，使用Reddit的内容来训练其AI模型。这表明Reddit的态度并非一概而论，而是更侧重于“合法授权”与“商业牟利”之间的界限。
此次Reddit起诉Perplexity AI的案件，被许多行业观察家视为生成式AI领域数据合规问题的一个关键性节点。随着AI技术的飞速发展，对海量数据的需求日益增长，但数据的来源、获取方式以及版权归属问题，正变得越来越复杂和敏感。可以预见，未来AI公司在寻求和使用训练数据时，将面临比以往更加严格的审查和更高的合规门槛。这场官司的结果，无疑将对整个AI产业的未来发展方向产生深远影响。

理想你有吗

Perplexity AI这是又在干啥，偷用户评论是咋想的！

xiaolin

又来一个“聪明”的AI，白嫖用户数据搞研发！