Công ty dịch vụ đám mây Cloudflare vừa cho ra mắt công cụ mới giúp ngăn chặn bot AI thu thập dữ liệu trái phép từ các trang web.

Công ty dịch vụ đám mây Cloudflare vừa cho ra mắt công cụ mới giúp ngăn chặn bot AI thu thập dữ liệu trái phép từ các trang web.Trong bối cảnh nhu cầu về dữ liệu huấn luyện các mô hình trí tuệ nhân tạo (AI) ngày càng gia tăng, nhiều công ty AI đã triển khai bot để “cào” dữ liệu từ các trang web, dẫn đến <a href="https://phocapblockchain.net/ai-tao-ra-thach-thuc-moi-cho-nganh-truyen-thong-va-giai-tri/" rel="nofollow">nguy cơ </a>xâm phạm bản quyền và sử dụng thông tin trái phép.Mặc dù một số công ty AI như Google, OpenAI và Apple cho phép chủ sở hữu website chặn bot thông qua tệp robots.txt, nhưng Cloudflare lo ngại một số công ty AI có thể tìm cách “lách luật” để thu thập dữ liệu, bất chấp các biện pháp kiểm soát nội dung. Chia sẻ với <a href="https://techcrunch.com/2024/07/03/cloudflare-launches-a-tool-to-combat-ai-bots/" rel="nofollow">TechCrunch</a>, công ty nhận định, “Khách hàng không muốn bot AI truy cập vào website của họ.”<figure><img src="https://static.fwimg.io/img/feed/0332612e399fc64466b245d201cfd9ad.jpg" alt=""><figcaption>Phân bố các User-Agent bị chặn trong tệp robots.txt”</figcaption></figure>Thực tế, chỉ riêng OpenAI, nhiều <a href="https://searchengineland.com/more-popular-websites-blocking-gptbot-432531" rel="nofollow">nghiên cứu</a> đã chỉ ra hơn 600 nhà xuất bản tin tức và 26% trong số 1.000 trang web hàng đầu đã <a href="https://palewi.re/docs/news-homepages/openai-gptbot-robotstxt.html" rel="nofollow">tắt </a>bot của hãng này.Trước thực trạng này, Cloudflare đã nghiên cứu và phân tích hoạt động của bot AI, từ đó tinh chỉnh thuật toán phát hiện bot tự động. Thuật toán sẽ xem xét nhiều yếu tố, bao gồm cả việc bot AI có đang cố gắng “giả dạng” người dùng web hay không. Cloudflare cho biết: “Các tác nhân xấu thường sử dụng công cụ và framework để thu thập dữ liệu trên diện rộng. Dựa trên những dấu hiệu này, thuật toán của chúng tôi có thể gắn cờ bot AI một cách chính xác.”Công cụ mới này hoàn toàn miễn phí cho các website sử dụng nền tảng của Cloudflare. Chủ sở hữu website cũng có thể báo cáo các bot AI đáng ngờ, Cloudflare sẽ xem xét và đưa vào danh sách đen.Bên cạnh Cloudflare, Reddit cũng có động thái tương tự khi thông báo sẽ chặn phần lớn bot tự động sử dụng dữ liệu của họ mà không có giấy phép. Theo Mashable, Reddit sẽ sửa đổi file robots.txt để <a href="https://mashable.com/article/reddit-bots-ai-licensing" rel="nofollow">hạn chế các trình thu thập dữ liệu web</a>.Mặc dù vậy, việc chặn bot không phải lúc nào cũng hiệu quả. Một số công ty AI bị cáo buộc phớt lờ quy tắc robots.txt để giành lợi thế cạnh tranh. Công cụ tìm kiếm AI Perplexity bị cáo buộc giả mạo người dùng để “cào” nội dung, trong khi OpenAI và Anthropic được cho là đã nhiều lần vi phạm robots.txt.Các công cụ như của Cloudflare có thể hữu ích nếu chúng chứng tỏ được độ chính xác trong việc phát hiện các bot AI ẩn danh. Tuy nhiên, chúng không giải quyết được vấn đề lớn hơn về việc các nhà xuất bản phải hy sinh lưu lượng truy cập từ các công cụ AI như AI Overviews của Google, vốn loại trừ các trang web khỏi danh sách nếu chúng chặn các crawler AI cụ thể.Trong báo cáo “Tình hình An ninh Ứng dụng 2024” mới công bố, Cloudflare cho biết các nhóm an ninh mạng đang gặp khó khăn trong việc đối phó với nguy cơ từ ứng dụng hiện đại. Theo đó, chuỗi cung ứng phần mềm, tấn công DDoS và bot độc hại đang là những thách thức lớn đối với đội ngũ an ninh ứng dụng chuyên nghiệp. Cloudflare nhấn mạnh rằng họ ngăn chặn 209 tỷ cuộc tấn công mạng mỗi ngày cho khách hàng của mình.Đồng sáng lập kiêm CEO Cloudflare, Matthew Prince, nhận định các ứng dụng trực tuyến thường được xây dựng mà ít quan tâm đến bảo mật, khiến chúng dễ bị tấn công.

Cloudflare phát triển công cụ chặn bot AI

云服务公司 Cloudflare 刚刚上线了一款新工具，帮助防止人工智能机器人从网站非法收集数据。

云服务公司 Cloudflare 刚刚上线了一款新工具，帮助防止人工智能机器人从网站非法收集数据。在训练人工智能（AI）模型的数据需求上涨的背景，许多人工智能公司部署了机器人来从网站“抓取”数据，从而导致侵犯版权和未经授权使用信息<a href="https://phocapblockchain.net/ai-tao-ra-thach-thuc-moi-cho-nganh-truyen-thong-va-giai-tri/" rel="nofollow">的风险</a>。尽管谷歌、OpenAI和苹果等一些人工智能公司允许网站所有者通过robots.txt文件阻止机器人，但Cloudflare担心一些人工智能公司可能会想方设法“规避法律”来收集数据，尽管有内容控制。该公司在接受<a href="https://techcrunch.com/2024/07/03/cloudflare-launches-a-tool-to-combat-ai-bots/" rel="nofollow">TechCrunch</a>Chia评论道： “客户不希望人工智能机器人访问他们的网站。”<figure><img src="https://static.fwimg.io/img/feed/0332612e399fc64466b245d201cfd9ad.jpg" alt=""><figcaption>robots.txt 文件中被阻止的用户代理的分布”</figcaption></figure>事实上，仅就 OpenAI 而言，多项 <a href="https://searchengineland.com/more-popular-websites-blocking-gptbot-432531" rel="nofollow">研究</a>表明，超过 600 家新闻出版商和排名前 1000 的网站中的 26% 已<a href="https://palewi.re/docs/news-homepages/openai-gptbot-robotstxt.html" rel="nofollow">禁用</a>其机器人。面对这种情况，Cloudflare 研究和分析了 AI 机器人的活动，从而完善了自动机器人检测算法。该算法会考虑许多因素，包括人工智能机器人是否试图“冒充”网络用户。 Cloudflare 表示： “不良行为者经常使用工具和框架来大规模收集数据。”基于这些信号，我们的算法可以准确地标记人工智能机器人。”对于使用 Cloudflare 平台的网站来说，这个新工具是完全免费的。网站所有者还可以报告可疑的 AI 机器人，Cloudflare 将对其进行审查并将其列入黑名单。除了 Cloudflare 之外，Reddit 也采取了类似举措，宣布将阻止大多数自动化机器人在未经许可的情况下使用其数据。据Mashable称，Reddit将修改robots.txt文件以<a href="https://mashable.com/article/reddit-bots-ai-licensing" rel="nofollow">限制数据</a>。然而，阻止机器人并不总是有效。一些人工智能公司被指控忽视 robots.txt 规则以获得竞争优势。 AI搜索引擎Perplexity被指控仿盘用户“抓取”内容，而OpenAI和Anthropic据称次侵犯robots.txt。如果 Cloudflare 之类的工具能够准确检测匿名 AI 机器人，那么它们可能会很有用。然而，它们并没有解决更大的问题，即发布商必须牺牲人工智能工具（如谷歌的人工智能概述）的流量，如果它们阻止特定的人工智能，则将网站排除在列表之外。在最新发布的《2024 年应用程序安全状况》报告中，Cloudflare 表示，网络安全团队很难应对来自现代应用程序的威胁。因此，软件供应链、DDoS攻击和恶意机器人是专业应用安全团队面临的主要挑战。 Cloudflare点击，它每天为客户防止 2090 亿次网络攻击。 Cloudflare联创兼首席执行官 Matthew Prince 表示，在线应用程序的构建通常很少考虑安全性，因此很容易受到攻击。

Cloudflare 开发 AI 机器人拦截工具

Polymarket 上一玩家 1 年交易 61,793 次，狂赚 10.6 万美元。

蚊子肉，滚出 10 万美元利润

高盛次揭露其价值超过23亿镁的加密投资组合。 （图片来源：CoinGape）
高盛次在提交给美国证券交易委员会的投资组合报告中披露了其在加密货币市场的大量投资…

高盛次揭露了其价值超过23亿镁的加密投资组合。

身家千亿，出狱后客厅还在漏水。