全球大型网站正在阻止 OpenAI 等人工智能爬虫访问其内容

云网络8个月前 (09-03)建站教程108

9月2日消息:根据人工智能内容检测器 Originality.AI 的最新数据,全球前 1000 个网站中有近 20% 阻止爬虫机器人收集网络数据用于 AI 服务202302150929449091_0.jpg

在缺乏明确法律或监管规定管理 AI 使用版权材料的情况下,大小不一的网站都自行采取措施。

OpenAI 于 8 月初推出了其 GPTBot 爬虫,并宣布所收集到的数据「可能被用于改进未来模型」,承诺排除付费内容并指导网站如何禁止该爬虫。随后,包括《纽约时报》、路透社和 CNN 等知名新闻网站开始阻止 GPTBot,并且许多其他网站也效仿。

根据 Originality.AI 的数据,在全球前 1000 个最受欢迎的网站中,阻止 OpenAI ChatGPT bot 的数量从 8 月 22 日 9.1% 增加到 8 月 29 日 12%。封锁 ChatGPT bot 的最大网站是亚马逊、Quora 和 Indeed。数据显示,更大型的网站更有可能已经封锁了 AI 爬虫机器人。

Common Crawl Bot 是另一个定期收集某些 AI 服务使用的 Web 数据的爬虫程序,在全球前 1000 个顶级网站上被屏蔽率为 6.77%。

任何您可以从 Web 浏览器访问的页面都可以被爬虫程序「抓取」,它们就像浏览器一样运行,但将材料存储在数据库中而不是向用户显示。

这就是搜索引擎如 Google 收集信息的方式。网站所有者一直有能力发布指令,告诉这些爬虫程序离开他们的网站,但合作完全是自愿性质,并且恶意操作者可以忽略这些指令。

谷歌和其他网络公司认为其数据爬虫工作属于合理使用范围,但许多出版商和知识产权持有人长期以来一直反对此做法,并且该公司因此面临了多起诉讼。大型语言模型和生成式 AI 的兴起使得这个问题重新受到关注,因为 AI 公司派出自己的爬虫程序收集数据以培训其模型并提供聊天机器人所需素材。

自从 Google 和其他搜索网站将用户引导至其支持广告的网站后,一些出版商至少认为允许搜索爬虫程序进入其网站具有某种价值。然而,在 AI 时代中,出版商更积极地阻止爬虫程序进入其网站,因为暂时没有将其数据交给 AI 公司的好处。许多媒体公司目前正在与 AI 公司就以费用向其授权数据进行谈判,但这些谈判还处于早期阶段。

在过去 20 年中被 Google 拿走了一些东西的媒体机构对 OpenAI 等快速商业化的 AI 服务持敌意和「我们不会再上当」的态度。据 The Information 报道,OpenAI 预计在未来一年内将带来超过 10 亿美元的收入。

新闻媒体公司正在努力找到平衡点,在接受和抵制人工智能之间挣扎。一方面,该行业迫切需要寻找创新方法来提高劳动密集型业务的利润率。

另一方面,在人们对新闻媒体公司的信任度处于历史低点之际,将人工智能引入新闻编辑室的工作流程,会带来具有挑战性的道德问题。

而如果太多的网络阻碍人工智能爬虫,它们的所有者可能会发现更难改进和更新他们的人工智能产品——而且好的数据也变得越来越难找到。

Originality.AI 的发现显示,前 1000 个网站中 GPTBot 的屏蔽率每周增加约 5%


相关文章

新人临下班去婚姻登记处领证被拒 还有10分钟,提前锁门下班

新人临下班去婚姻登记处领证被拒 还有10分钟,提前锁门下班

近日,有网友反映在内蒙古自治区赤峰市宁城县婚姻登记处办理结婚证时遭遇工作人员提前下班的情况。对此,宁城县委办公室回应称已责成宁城县民政局进行调查办理。为改善服务问题,宁城县民政局将从优化服务流程、改善...

组合式AI驱动生态系统XenonJs 像搭积木一样构建Web应用

组合式AI驱动生态系统XenonJs 像搭积木一样构建Web应用

9月12日 消息:XenonJs是一个模块化的Web开发框架,让开发者可以轻松创建和分享可定制的Web应用和组件。该框架具有以下核心优点:XenonJs采用组件化和图状态(Graph State)的模...

女生去中医馆买酸梅汤被医师教育:是药三分毒 别随便喝

现在,喝碳酸饮料的越来越少了,年轻人都去中药房配酸梅汤了。因最近中药房配酸梅汤”火了,女生走进中医馆想买酸梅汤,却被医师教育,是药三分毒,不要随便乱喝,除非有医生开了方子,有些药是不能吃的,就像酸梅汤...

生成式AI推动芯片行业逆势增长 英伟达成最大赢家

生成式AI推动芯片行业逆势增长 英伟达成最大赢家

9月8日 消息:经过连续五个季度的营收下滑,半导体行业在最新的市场报告中迎来了一丝曙光。根据市场研究公司Omdia的报告,半导体行业在第二季度实现了3.8%的季度营收增长,达到1,243亿美元。这标志...

网站的域权和页面权重在SEO中的作用是什么

网站的域权和页面权重在SEO中的作用是什么

网站的域权和页面权重在SEO中的作用主要涉及三个方面:一、提高搜索引擎排名;二、增强网站信誉和可信度;三、促进外部链接的质量和数量。域权代表了整个网站在搜索引擎中的权威性,而页面权重则反映了单个页面的...

个人域名和企业域名的区别是什么

个人域名和企业域名的区别包括:1.所有者不同;2.注册信息不同;3.备案要求不同;4.制作的网站类型不同。所有者不同是两者最根本的区别,个人域名所有者是个人,注册信息填写也是个人信息,而企业域名所有者...