无码国产精品,日本性爱视频免费看,91久久人澡人人添人人,五月天乱论视频

icon

新聞 資訊

News and information

OpenAI爬蟲瘋狂“偷”數(shù)據(jù),7人團(tuán)隊(duì)十年心血網(wǎng)站一夜崩了,CEO:太離譜才察覺

發(fā)布時(shí)間:2025-03-10

  “這基本上是一次DDoS攻擊?!?/p>


  幾天前,烏克蘭一家專注于人體3D模型的網(wǎng)站Trilegangers突然崩了,這讓整個(gè)團(tuán)隊(duì)以及老板都有些措手不及。起初,該公司CEO Oleksandr Tomchuk只是收到一則警報(bào),進(jìn)而發(fā)現(xiàn)公司的電子商務(wù)網(wǎng)站已完全癱瘓了。


  一經(jīng)排查,殊不知,該團(tuán)隊(duì)發(fā)現(xiàn),罪魁禍?zhǔn)拙谷皇恰狾penAI此前研發(fā)的一款機(jī)器人GPTbot。


  7人花了十余年時(shí)間構(gòu)建的網(wǎng)站,差一點(diǎn)毀于一旦


  據(jù)悉,Trilegangers是一個(gè)銷售3D掃描數(shù)據(jù)的網(wǎng)站,這家擁有七名員工的公司花了十多年時(shí)間,建立了所謂的網(wǎng)絡(luò)上最大的“人體數(shù)字替身”數(shù)據(jù)庫,即從真實(shí)人體模型掃描而來的3D圖像文件。


  Triplegangers提供從手、頭發(fā)、皮膚到完整身體模型的3D對(duì)象文件和照片,一應(yīng)俱全。其處理的數(shù)據(jù)涵蓋多個(gè)類別,如“臉部”、“全身”、“帶姿勢(shì)的全身”、“全身情侶”、“手部”、“手部雕像”等,網(wǎng)站展示的內(nèi)容正是其業(yè)務(wù)核心所在。



  具體來看,以“臉部”數(shù)據(jù)為例,這一類別中有1509人的數(shù)據(jù),每個(gè)人注冊(cè)了大約20種不同的面部表情。在其他類別中,每個(gè)產(chǎn)品至少有三張圖像,因此總數(shù)據(jù)據(jù)說有數(shù)十萬個(gè)點(diǎn)。


  這一點(diǎn)也得到CEO Oleksandr Tomchuk的證實(shí),其表示,“我們有超過65000種產(chǎn)品,每種產(chǎn)品都有一頁內(nèi)容介紹,每頁至少有三張照片?!?/p>


  

Trilegangers所做的業(yè)務(wù)就是面向3D藝術(shù)家、視頻游戲開發(fā)者,以及任何需要數(shù)字化再現(xiàn)真實(shí)人類特征的人群銷售這些數(shù)據(jù)。


  然而,Oleksandr Tomchuk稱,不久前OpenAI GPTBot發(fā)送了“數(shù)萬”個(gè)服務(wù)器請(qǐng)求,試圖下載全部內(nèi)容,數(shù)十萬張照片及其詳細(xì)描述。


  這有一種,但凡Trilegangers有的,OpenAI都要的感覺,可是這些內(nèi)容實(shí)則為付費(fèi)產(chǎn)品?!癘penAI使用600個(gè)IP來抓取數(shù)據(jù),我們?nèi)栽诜治錾现艿娜罩?,也許更多,”該團(tuán)隊(duì)在談到機(jī)器人試圖訪問其網(wǎng)站的IP地址時(shí)說道。


  “他們的爬蟲程序正在摧毀我們的網(wǎng)站!”O(jiān)leksandr Tomchuk說,“這基本上是一次DDoS攻擊?!?/p>


  

那么GPTbot究竟是什么?


  不難回憶起來,GPTbot是OpenAI在2023年8月推出的一款網(wǎng)絡(luò)爬蟲機(jī)器人,用于抓取互聯(lián)網(wǎng)數(shù)據(jù),為訓(xùn)練和改進(jìn)大模型(如ChatGPT)提供素材。


  它會(huì)自動(dòng)訪問公開可用的網(wǎng)站,收集文本數(shù)據(jù)來增強(qiáng)模型能力。



  OpenAI此前表示,GPTBot會(huì)嚴(yán)格遵守任何付費(fèi)墻的規(guī)則,不會(huì)抓取需要付費(fèi)的信息,并且也不會(huì)收集能追蹤到個(gè)人身份的數(shù)據(jù)。即遵循網(wǎng)站的robots.txt文件中明確標(biāo)示的規(guī)則。如果網(wǎng)站配置了禁止GPTBot抓取的標(biāo)簽,它理論上會(huì)停止訪問該網(wǎng)站。


  而robots.txt是一個(gè)用于網(wǎng)站管理的文本文件,它告訴搜索引擎爬蟲(如Googlebot、Bingbot或GPTBot)哪些網(wǎng)頁可以或不可以被抓取。這是一種被廣泛接受的網(wǎng)絡(luò)標(biāo)準(zhǔn),稱為機(jī)器人排除協(xié)議(Robots Exclusion Protocol,REP)。


  簡單來看,如果你不想讓GPTBot訪問你網(wǎng)站的任何內(nèi)容,可以將以下代碼添加到目錄中robots.txt里面:


  User-agent:GPTBot


  Disallow:/


  如果你想要允許訪問網(wǎng)站上的某些內(nèi)容(例如特定目錄或文件),可以用以下代碼對(duì)robots.txt進(jìn)行以下更改:


  User-agent:GPTBot


  Allow:/directory-1/


  Disallow:/directory-2/


  除此之外,OpenAI還公布了OpenAI使用的爬蟲IP地址,也可以根據(jù)IP地址來拒絕訪問。


  OpenAI公開了以上這些方式,并聲稱會(huì)遵守規(guī)則,顯得誠意滿滿。


  然而,令人無奈的是,一切的前提是得正確配置好“robots.txt”文件,才可以盡可能地避免被爬蟲。


  這一次Trilegangers就落到了“robots.txt”的坑中。雖然其在官網(wǎng)“使用條款”的第5條行為準(zhǔn)則中清清楚楚地寫著:


  未經(jīng)TG明確事先書面同意,不得使用任何機(jī)器人、爬蟲、網(wǎng)站搜索/檢索應(yīng)用程序或其他手動(dòng)或自動(dòng)設(shè)備來檢索、索引、抓取、挖掘數(shù)據(jù)或以其他方式收集網(wǎng)站內(nèi)容,也不得復(fù)制或繞過網(wǎng)站的導(dǎo)航結(jié)構(gòu)或展示方式。盡管有上述限制,在遵守我們網(wǎng)站根目錄中robots.txt文件中發(fā)布的任何指示的前提下,TG授予公共搜索引擎的運(yùn)營者權(quán)限,允許其使用爬蟲從我們的網(wǎng)站復(fù)制材料,但僅限于為創(chuàng)建這些材料的公開可用、可搜索索引的唯一目的(且僅限必要范圍內(nèi)),不得緩存或存檔這些材料。TG保留隨時(shí)和不經(jīng)通知撤銷此權(quán)限的權(quán)利,無論是一般性撤銷還是針對(duì)特定情況。


  未經(jīng)TG許可,禁止執(zhí)行以下行為:


  1.將本網(wǎng)站上展示的任何內(nèi)容或圖像用于人工智能或機(jī)器學(xué)習(xí)(“AI/ML”)研究或研究;


  2.提取、復(fù)制、分發(fā)或向任何第三方提供本網(wǎng)站展示的任何內(nèi)容或圖像,用于AI/ML算法的訓(xùn)練、測(cè)試或開發(fā);


  3.參與任何涉及利用本網(wǎng)站內(nèi)容或圖像的AI/ML相關(guān)活動(dòng),包括但不限于數(shù)據(jù)集編制、模式識(shí)別、神經(jīng)網(wǎng)絡(luò)訓(xùn)練或任何形式的計(jì)算分析。


  任何試圖在未經(jīng)TG有效許可的情況下將本網(wǎng)站內(nèi)容或圖像用于AI/ML目的的行為,均被視為違反本網(wǎng)站條款及我們的供應(yīng)條款與條件,可能導(dǎo)致法律訴訟,并尋求適用法律下的一切補(bǔ)救措施。



  但如今看來,僅憑這一點(diǎn)的聲明毫無作用,GPTBot還是爬取到了其網(wǎng)站的內(nèi)容,還讓網(wǎng)站整個(gè)宕機(jī)了。


  對(duì)此,據(jù)Techcrunch報(bào)道,此次Trilegangers并沒有正確使用robot.txt,其中的標(biāo)簽沒有明確告訴OpenAI的機(jī)器人GPTBot不要爬取該網(wǎng)站內(nèi)容。這就意味著OpenAI和其他公司就會(huì)認(rèn)為他們可以隨心所欲地抓取數(shù)據(jù)。


  更令人氣憤的是,即使Trilegangers告訴了GPTBot不要抓取自家網(wǎng)站的內(nèi)容,誰能料到,OpenAI還有ChatGPT-User和OAI-SearchBot機(jī)器人用來做爬蟲工具。



  還值得注意的是,即使更新了網(wǎng)站的robots.txt,也不要掉以輕心,因?yàn)镺penAI的系統(tǒng)可能需要大約24小時(shí)才能才能識(shí)別更新的robot.txt文件。


  

https://platform.openai.com/docs/bots


  正所謂爬蟲的工具千千萬,企業(yè)有時(shí)根本防不勝防。


  “如果爬取的數(shù)據(jù)少一點(diǎn),或許都發(fā)現(xiàn)不了”


  就像這一次,如果不是OpenAI的GPTBot爬取的數(shù)據(jù)過于龐大,也許Trilegangers可能還發(fā)現(xiàn)不了。Tomchuk在接受外媒Techcrunch采訪時(shí)表示,「如果爬蟲更加“溫和”地抓取,他可能永遠(yuǎn)都不會(huì)發(fā)現(xiàn)?!?/p>


  “這令人害怕,因?yàn)檫@些公司似乎鉆了一個(gè)漏洞,聲稱‘你可以通過更新帶有我們標(biāo)簽的robots.txt文件選擇退出抓取’,”Tomchuk說,但這實(shí)際上把責(zé)任推給了網(wǎng)站所有者,讓他們必須了解如何屏蔽這些爬蟲。


  更可怕的是,Tomchuk稱他們連GPTBot究竟是從何時(shí)開始抓取的都不知道,更不要說OpenAI具體抓取了哪些內(nèi)容。


  這也讓Tomchuk有些擔(dān)心,“我們的業(yè)務(wù)對(duì)權(quán)利要求非常嚴(yán)格,因?yàn)槲覀儝呙璧氖菍?shí)際的人體,按照歐洲的GDPR等法律,他們不能隨便拿網(wǎng)絡(luò)上的任何照片使用?!?/p>


  事件發(fā)生后,Triplegangers的網(wǎng)站不僅因OpenAI的爬蟲被迫下線,CEO Tomchuk還預(yù)計(jì)將收到一份因爬蟲導(dǎo)致的高CPU消耗和大量下載活動(dòng)而產(chǎn)生的高額AWS賬單。


  同時(shí),Tomchuk稱他也沒找到可以聯(lián)系OpenAI的方法,也無法讓他們刪除這些素材。為此,Tomchuk無奈之下選擇用Trilegangers官方Twitter賬號(hào)發(fā)了一條致OpenAl、Microsoft、Meta、Google和其他使用爬蟲程序的公司的官方聲明:


  除用于搜索目的的頁面索引外,嚴(yán)禁在我們的網(wǎng)站上使用爬蟲程序。未經(jīng)有效許可,產(chǎn)禁將我們網(wǎng)站上的任何公開內(nèi)容用于AI或ML應(yīng)用程序。



  截至目前,Triplegangers配置好了正確的robots.txt文件,并創(chuàng)建了一個(gè)Cloudflare賬戶,用于阻止GPTBot以及他發(fā)現(xiàn)的其他爬蟲,例如Barkrowler(一個(gè)SEO爬蟲)和Bytespider(TikTok的爬蟲)。


  引發(fā)爭議的數(shù)據(jù)爬取


  Triplegangers的經(jīng)歷引發(fā)了廣泛關(guān)注,其公開此事后,不少其他網(wǎng)站運(yùn)營者紛紛表示也曾遭遇類似情況。


   markerz:


  我的其中一個(gè)網(wǎng)站曾被Meta的AI爬蟲Meta-ExternalAgent完全摧毀。這個(gè)爬蟲似乎有些“天真”,沒有像Google Bot那樣進(jìn)行性能回退(performance back-off)。它不斷地重復(fù)請(qǐng)求內(nèi)容,直到我的服務(wù)器崩潰,然后短暫停止一分鐘,再次發(fā)起更多請(qǐng)求。


  我的解決方法是添加了一條Cloudflare規(guī)則,直接屏蔽該User-Agent的請(qǐng)求。我還為鏈接增加了更多nofollow規(guī)則,并更新了robots.txt文件,但這些規(guī)則僅僅是建議,某些爬蟲似乎會(huì)忽略它們。Cloudflare還有一個(gè)功能可以屏蔽已知的AI爬蟲,甚至懷疑是AI爬蟲的請(qǐng)求:https://blog.cloudflare.com/declaring-your-aindependence-block-ai-bots-scrapers-and-crawlers-with-a-single-click/。盡管我不喜歡Cloudflare的集中化,但這個(gè)功能確實(shí)非常方便。



  griomnib:


  我從事網(wǎng)站開發(fā)已經(jīng)數(shù)十年,同時(shí)也從事過爬取、索引和分析數(shù)百萬個(gè)網(wǎng)站的工作。只需遵循一個(gè)黃金法則:永遠(yuǎn)不要以比你希望別人對(duì)待你的網(wǎng)站更激進(jìn)的方式加載其他網(wǎng)站。


  這并不難做到,但這些AI公司使用的爬蟲既低效又令人厭惡。


  作為一個(gè)網(wǎng)站所有者,這種行為讓我覺得他們對(duì)網(wǎng)絡(luò)的基本禮儀毫無尊重。而作為一名從事分布式數(shù)據(jù)采集的工程師,我更是被這些爬蟲的糟糕和低效深深冒犯了。


  至此,Tomchuk也分享了他想把這一經(jīng)歷公開的原因,他希望其他小型在線企業(yè)了解,發(fā)現(xiàn)AI爬蟲是否在抓取網(wǎng)站的版權(quán)內(nèi)容的唯一方法就是主動(dòng)檢查日志。他并不是唯一一個(gè)受爬蟲“侵害”的人,也絕非最后一個(gè)。


  Tomchuk警告道:“大多數(shù)網(wǎng)站甚至不知道自己被這些爬蟲抓取了。現(xiàn)在我們不得不每天監(jiān)控日志活動(dòng),以發(fā)現(xiàn)這些爬蟲?!?/p>


本文來源:36氪

文章轉(zhuǎn)載于其他網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系我們及時(shí)刪除!

9色韩| 九色porn蝌蚪| 久久男女做爰高清免费| 中文子幕黄色网站| www.综合久久| 人妻精品久久久久中文字幕一冢本| 伦理片| av免费在线一本| 成人免费一级a久久| 日本精品啪啪一区二区三区 | 国产精品久久久久久久久久三级| 亚洲色图 第一页| 大香蕉| 首播影院| 免费视频日韩簧片| 亚洲一线产区二线产区地图| 国精品无码一区二区三区在线观看| 宗合色五月| 亚洲一区二区网址| 成人伊人大香焦免费视频播放| 色六月激情丁香婷婷| 无码人妻精品一区二区三区久久| 国产精品毛片一区二区三区在线| 三门峡市| 图木舒克市| 搡老熟女中国老太| 人妻互换一二三区激情夏日彩春| 六十路の高齢熟女が| 欧美8888888| 欧美日韩免费一级片| 五月丁香国产日韩欧美另类| 你懂的在线网| 99久久久国产精品免费观看| 无码一区二区三区老色鬼| 色呦呦视频| 青青草社区| 黑人xxxx| 第一章少妇初尝云雨69章风| 日韩无码人妻| 在线视频你懂的好网站| 成人在线视频mv|