Thế giới AI ngay hôm nay vừa dậy sóng với một tin cực lớn. Reddit đã chính thức kiện Perplexity AI và một loạt đối tác vì hành vi cào trộm dữ liệu người dùng ở quy mô công nghiệp.
Nhưng đây không chỉ là một vụ kiện thông thường.
Nó là phát súng mở màn cho cuộc chiến chống lại “data laundering” (rửa dữ liệu) – một thế giới ngầm đang âm thầm định hình tương lai của AI và internet.
Trong bài viết này, mình sẽ bóc tách toàn bộ câu chuyện nóng hổi này cho bạn.
1. Tóm tắt nhanh vụ kiện: Chuyện gì đang xảy ra?
Nói một cách ngắn gọn nhất, Reddit cáo buộc Perplexity AI đã “ăn cắp” dữ liệu người dùng ở quy mô công nghiệp để huấn luyện cho công cụ AI của họ.
Vụ kiện được đệ trình vào ngày 22/10/2025, tại Tòa án Liên bang ở New York.
Nhưng Perplexity không hành động một mình. Reddit chỉ ra có cả một “đường dây” gồm 3 công ty khác đã tiếp tay cho hành vi này.
Vụ kiện này cực kỳ quan trọng, vì phán quyết của tòa có thể tạo ra một chuẩn mực pháp lý hoàn toàn mới về việc các công ty AI có được phép “cào” dữ liệu công khai trên web để huấn luyện mô hình hay không.
2. Các “nhân vật” chính trong cuộc chiến này là ai?
Để hiểu rõ bản chất, bạn cần biết vai trò của từng bên.
Bên nguyên đơn (bên đi kiện)
- Reddit: Chắc bạn không lạ gì rồi. Đây là “ngôi nhà” của hơn 100,000 cộng đồng online, một kho tàng dữ liệu khổng lồ về gần như mọi chủ đề trên đời do người dùng tạo ra.
Bên bị đơn (bên bị kiện)
Đây mới là phần phức tạp, vì có đến 4 cái tên:
- Perplexity AI (Mỹ): Một công ty AI đang lên, tạo ra “answer engine” (công cụ trả lời) cạnh tranh trực tiếp với Google và ChatGPT. Họ bị cáo buộc là khách hàng chính, người sẵn lòng trả tiền để mua dữ liệu bị đánh cắp.
- Oxylabs (Lithuania): Một công ty chuyên về “data scraping” (cào dữ liệu) chuyên nghiệp. Họ bị cho là đã cố tình vượt qua các hàng rào kỹ thuật mà Reddit dựng lên để bảo vệ dữ liệu.
- AWMProxy (Nga): Được mô tả như một “botnet cũ của Nga”, chuyên cung cấp dịch vụ che giấu danh tính. Nhiệm vụ của họ là giúp các bên khác ẩn mình khi thu thập dữ liệu.
- SerpApi (Mỹ): Một startup cung cấp quyền truy cập vào kết quả tìm kiếm của Google đã được cào sẵn. Họ đã lên tiếng bác bỏ mọi cáo buộc.
3. Reddit kiện Perplexity và đồng bọn vì những tội danh gì?
Về mặt pháp lý, Reddit đưa ra 4 cáo buộc chính. Mình sẽ giải thích đơn giản nhất có thể.
- Vi phạm DMCA (Luật Bản quyền Thiên niên kỷ Kỹ thuật số): Hiểu đơn giản, Reddit có các biện pháp kỹ thuật để chặn robot tự động vào “cào” dữ liệu. Perplexity và đối tác bị cáo buộc đã cố tình phá vỡ lớp bảo vệ này.
- Vi phạm luật bản quyền: Nội dung trên Reddit do người dùng tạo ra, và một phần thuộc bản quyền của họ (và của Reddit). Việc sao chép và sử dụng nội dung này để huấn luyện AI mà không xin phép là vi phạm bản quyền.
- Cạnh tranh không công bằng: Perplexity đã dùng dữ liệu của Reddit để xây dựng sản phẩm cạnh tranh, kiếm lợi nhuận mà không phải trả một đồng phí nào cho Reddit. Đây là một lợi thế bất chính.
- Làm giàu bất chính: Cáo buộc này gần giống ý trên, nhấn mạnh rằng Perplexity đã chiếm đoạt tài sản trí tuệ của Reddit để làm giàu cho mình.
4. Họ đã “rửa dữ liệu” như thế nào?
Đây là phần hấp dẫn nhất, hé lộ cả một nền kinh tế ngầm.
Kỹ thuật “Data Laundering”
Thuật ngữ này mô tả một quy trình tinh vi.
Nó hoạt động như thế này:
- Các công ty AI như Perplexity cần một lượng dữ liệu khổng lồ để huấn luyện mô hình.
- Họ không thể tự mình đi “cào” vì sẽ bị phát hiện và chặn ngay.
- Thế là họ thuê các bên thứ ba như Oxylabs, AWMProxy. Những công ty này dùng bot để vượt rào cản, đánh cắp dữ liệu và “rửa” nó để che giấu nguồn gốc.
- Cuối cùng, họ bán lại khối dữ liệu “sạch” này cho khách hàng là các công ty AI.
Thủ đoạn ẩn mình
Để không bị phát hiện, các công ty scraping đã ngụy trang rất kỹ, ví dụ như:
- Dùng proxy của AWMProxy để che giấu địa chỉ IP và vị trí thật.
- Lập trình cho các con bot hoạt động giống hệt người dùng bình thường.
- Tạo ra hàng ngàn bot với IP ảo khác nhau để qua mặt hệ thống kiểm soát của Reddit.
Không vào được cửa chính thì đi đường vòng
Một chi tiết rất thú vị là Perplexity dường như không thể scrape trực tiếp Reddit.
Thay vào đó, họ bị cáo buộc đã sử dụng dịch vụ của SerpApi để lấy dữ liệu Reddit… từ kết quả tìm kiếm của Google.
Nghĩa là, họ khai thác những nội dung mà Google đã index từ Reddit, một cách đi đường vòng cực kỳ tinh vi.
5. Bằng chứng “không thể chối cãi” của Reddit là gì?
Reddit đã chuẩn bị rất kỹ và đưa ra những bằng chứng đắt giá.
- Cài bẫy bằng “bài đăng ẩn”: Reddit đã tự tạo ra một bài đăng thử nghiệm, ẩn nó khỏi người dùng thông thường. Điều kỳ diệu là, nội dung của bài đăng này lại xuất hiện trong câu trả lời của Perplexity AI. Đây là bằng chứng cho thấy Perplexity chắc chắn đã scrape dữ liệu của họ.
- Sự thách thức công khai: Sau khi Reddit gửi thư yêu cầu Perplexity dừng lại, điều ngược lại đã xảy ra. Số lần Perplexity trích dẫn nguồn từ Reddit trong câu trả lời của nó tăng vọt 40 lần. Hành động này được xem như một lời thách thức trực diện.
- Sự phụ thuộc nặng nề: Reddit đã trở thành nguồn được trích dẫn số 1 trên Perplexity, cho thấy công cụ này phụ thuộc vào dữ liệu của Reddit đến mức nào.
6. Các bên nói gì về vụ việc?
Phản ứng của các bị đơn cũng rất đáng chú ý.
- Perplexity AI – “Chúng tôi vô tội, Reddit đang tống tiền”: Họ phủ nhận mọi cáo buộc, nói rằng họ không huấn luyện mô hình trên nội dung cụ thể mà chỉ tóm tắt các cuộc thảo luận công khai. Thậm chí, họ còn tố ngược rằng Reddit đang “tống tiền” và đi ngược lại tinh thần “internet mở”.
- SerpApi – Bác bỏ hoàn toàn: Giám đốc công ty khẳng định họ “hoàn toàn không đồng ý” và sẽ chiến đấu tới cùng tại tòa.
- Oxylabs – “Sốc và thất vọng”: Họ cho rằng không công ty nào có quyền sở hữu dữ liệu công khai và tỏ ra bất bình với đơn kiện.
- AWMProxy – Im lặng: Công ty từ Nga này vẫn chưa đưa ra bất kỳ bình luận nào.
7. Động cơ thực sự đằng sau vụ kiện là gì?
Để hiểu toàn cảnh, bạn cần nhìn vào bối cảnh lớn hơn.
Tiền, rất nhiều tiền từ AI
Gần đây, Reddit đã ký các thỏa thuận cấp phép dữ liệu trị giá hàng chục triệu đô la với Google và OpenAI.
Nguồn thu từ việc bán dữ liệu cho các công ty AI đã trở thành một phần cực kỳ quan trọng trong mô hình kinh doanh của Reddit, chiếm gần 10% tổng doanh thu của họ.
Chiến lược của Reddit rất rõ ràng: “Bạn muốn dữ liệu của chúng tôi? Hãy trả tiền và đi qua cổng chính. Cấm trèo tường.”
Cuộc chạy đua dữ liệu AI
Các công ty AI đang trong một cuộc chạy đua khốc liệt để có được dữ liệu chất lượng cao. Giám đốc điều hành Reddit nói rằng chính áp lực này đã thúc đẩy nền kinh tế “rửa dữ liệu”.
Và với kho tàng thảo luận thật của người dùng thật, Reddit là một mỏ vàng không thể bỏ qua.
8. Vậy ý nghĩa và tác động của vụ kiện này là gì?
Đây là phần quan trọng nhất đối với tất cả chúng ta.
- Về mặt pháp lý: Vụ kiện này sẽ giúp vẽ lại ranh giới giữa “dữ liệu công khai” và “tài sản trí tuệ”. Liệu công khai có đồng nghĩa với miễn phí sử dụng cho mục đích thương mại?
- Với ngành AI: Nếu Reddit thắng, chi phí phát triển AI sẽ tăng lên đáng kể. Các startup nhỏ như Perplexity sẽ gặp khó khăn hơn khi phải trả tiền cho dữ liệu, thay vì cào miễn phí như trước.
- Với tương lai Internet: Cuộc tranh luận giữa một “internet mở” và “quyền sở hữu dữ liệu” sẽ ngày càng gay gắt. Nó có thể thay đổi cách chúng ta chia sẻ thông tin online.
Lời kết của Tuấn
Vụ kiện giữa Reddit và Perplexity AI không chỉ là một drama công nghệ. Nó là một trận chiến định hình tương lai, nơi giá trị của dữ liệu do con người tạo ra được đặt lên bàn cân.
Kết quả của nó sẽ ảnh hưởng đến mọi công ty AI, mọi nền tảng nội dung và cả những người dùng bình thường như bạn và mình.
Tuấn sẽ tiếp tục theo dõi sát sao vụ việc này và cập nhật cho bạn ngay khi có diễn biến mới.
Bạn nghĩ sao về cuộc chiến này? Hãy để lại bình luận bên dưới nhé

