AI訓練語料被「榨乾」,OpenAI等巨頭的AI大道走向何方?

最熱文章
coverImg
來源: DepositPhotos

AI發展扶搖直上,快到當前全人類的庫存知識都難以跟上。為了應對AI模型所需訓練語料的匱乏,OpenAI、谷歌和Meta等巨頭不顧侵權和違規、耍花招來改進模型。


據《紐約時報》報道,早在2021年底,GPT-4的開發者OpenAI便面臨著訓練資源緊缺的問題。在開發最新的人工智慧係統時,人工智慧實驗室已經耗盡了網路上所有可靠的英文文本資源,而他們還需要更多資源。


研究機構Epoch表示,科技巨頭們的問題很緊急,它們使用資料的速度已經超過生產資料的速度,併最快會在2026年耗盡網路上所有高質量資料。


面對這一瓶頸,科技巨頭們開始想方設法來獲得訓練資源。OpenAI研發人員創建了一款名為Whisper的語音辨識工具,將流媒體Youtube影片中的音頻轉錄成新的對話文本,以使得他們的AI模型更加「人類化」。


但有三名知情人士表示,一些OpenAI員工是在「明知故犯」,這些員工已經討論過此舉可能會違反Youtube的規則。Youtube是谷歌旗下的,按規定不允許將網路上的影片用於獨立應用。


而據悉,OpenAI團隊迄今已轉錄了超100萬個小時的Youtube影片,且該公司總裁Greg Brockman親自參與了這一過程。這些由影片轉錄生成的文本被納入GPT-4的訓練係統中,成為了最新版本ChatGPT聊天機器人的基礎,推動其成為世界上最強大的AI模型。


無獨有偶,谷歌和Meta等科技巨頭也在紛紛「走捷徑」,甚至無視公司政策、網路規則和法律法規,來最大程度地獲取訓練資源。與OpenAI做法一樣,谷歌也轉錄自家流媒體平台Youtube視頻,但這本身仍可能侵犯了相關版權,因為這些影片是屬於創作者的。


對於OpenAI「偷」自家語料的做法,谷歌的態度略顯曖昧,一邊表示並不知情,一邊似乎默認容許這種行為,因為谷歌本身也在做這件事。知情人士稱,如果谷歌在OpenAI的問題上大驚小怪,公眾可能會對自己的做法提出強烈抗議,也就是說谷歌擔心自己「引火燒身」。


有趣的是,為了應對這一挑戰,谷歌隱私團隊還編寫了新條款,以便其可以利用這些網路資源來進行AI模型搭建和產品功能升級,如谷歌翻譯、Bard和雲端AI等。


據外媒報道的一份Meta內部會議記錄,該公司工程師和產品經理層討論過收購美國出版社Simon & Schuster以獲取長文本足療的計劃,也討論過從網路收集受版權保護的內容。他們認為,「與出版商、藝術家、音樂家和新聞業談授權問題所需的時間太多了。」


Meta高層表示,OpenAI似乎正在採用收版權保護的資料,而Meta可以遵循這一「市場先例」。


去年,超過10000個貿易團體、作者、公司和其他人是向美國版權局提交了有關人工智慧模型使用他們創意作品的意見,版權局正在準備就版權法如何在AI時代適用的指導意見。


電影製作人Justine Bateman表示,人工智慧模型在未經許可或付費的情況下獲取其內容,「這是美國最大的盜竊案。」


矽谷知名創投公司Andreessen Horowitz的代表律師Sy Damle認為,讓這些AI工具存在的唯一可行方法是,它們可以接受大量資料的訓練,而無需這些資料的許可。Damle稱,「所需資料規模時如此之大,以至於即使是集體許可也難以行得通。」

閱讀更多

  • 【財經縱覽】:伊朗最高領袖下令!WTI原油終結四連漲,輝達突破五萬億、英特爾飆逾23%
  • 6月小非農不及預期,勞動市場再降溫,降息又邁進一步?
  • 日本央行4月會議前瞻:升息或延至6月?警惕日幣匯率貶破160!
  • 香港比特幣現貨ETF要來了?外媒稱可能在本月推出
  • 黃金走勢:美伊談判難度升級、通脹警報拉響,黃金擊穿4700!
  • 美伊停火,澳幣匯率飆漲!未來走勢如何?
  • 注:如需轉載《AI訓練語料被「榨乾」,OpenAI等巨頭的AI大道走向何方?》請保留原文連結,更多資訊請訪問投資慧眼,或瀏覽www.mitrade.com

    * 本文內容僅代表作者個人觀點,讀者不應以本文作為任何投資依據。在做出任何投資決定之前,您應該尋求獨立財務顧問的建議,以確保您了解風險。差價合約(CFD)是槓桿性產品,有可能導致您損失全部資金。這些產品並不適合所有人,請謹慎投資。查閱詳情


    goTop
    quote
    相關文章
    placeholder
    半導體板塊持續上漲,散戶應該買入英特爾還是AMD?美東時間 4 月 23 日,英特爾 (INTC)公佈其最新季度財報,財報顯示,英特爾營收增長 7% 至 136 億美元,每股盈餘為 0.29 美元,超出預期,分析師此前平均預期營收為 124 億美元,每股盈餘為 0.01 美元。與此同時,英特爾預計第二季營收將在 138 億美元至 148 億美元之間,遠超分析師此前預期的 130 億美元。每股盈餘預計為 0.20 美元,高
    作者  TradingKey
    4 月 24 日 週五
    美東時間 4 月 23 日,英特爾 (INTC)公佈其最新季度財報,財報顯示,英特爾營收增長 7% 至 136 億美元,每股盈餘為 0.29 美元,超出預期,分析師此前平均預期營收為 124 億美元,每股盈餘為 0.01 美元。與此同時,英特爾預計第二季營收將在 138 億美元至 148 億美元之間,遠超分析師此前預期的 130 億美元。每股盈餘預計為 0.20 美元,高
    placeholder
    沃什聽證會來襲!新任聯準會主席能否成功上任? 2026能否降息?如果聽證會表現良好,沃什很可能接替鮑爾,在5月正式出任聯準會主席。
    作者  Alison Ho
    4 月 21 日 週二
    如果聽證會表現良好,沃什很可能接替鮑爾,在5月正式出任聯準會主席。
    placeholder
    美股走勢:系統性風險逼近臨界點!關鍵選擇可看它!投資者可關注AI產業鏈中「最好」的資產。一旦「最好」資產破位下跌,或意味危機全面開啟。輝達股價當前正處於172關鍵水準,予以重點關注。
    作者  Insights
    3 月 23 日 週一
    投資者可關注AI產業鏈中「最好」的資產。一旦「最好」資產破位下跌,或意味危機全面開啟。輝達股價當前正處於172關鍵水準,予以重點關注。
    placeholder
    【財經縱覽】:美伊衝突膠著!WTI原油四連漲、美元突破100,美股七巨頭較高點跌10%目前伊朗提出兩個結束戰爭條件,一是伊朗收回所有損失,二是美國離開波斯灣。
    作者  Insights
    3 月 15 日 周日
    目前伊朗提出兩個結束戰爭條件,一是伊朗收回所有損失,二是美國離開波斯灣。
    placeholder
    川普關稅捲土重來?風險資產或再次面臨重壓中美第6輪經貿磋商將於3月14日-17日舉行,市集密切關注其結果,看是否會再掀起金融市場巨震。
    作者  Alison Ho
    3 月 13 日 週五
    中美第6輪經貿磋商將於3月14日-17日舉行,市集密切關注其結果,看是否會再掀起金融市場巨震。
    實時行情報價
    名稱/代碼走勢圖漲跌幅/價格
    GOOG
    GOOG
    0.00%0.00
    MSFT
    MSFT
    0.00%0.00
    META
    META
    0.00%0.00
    NAS100
    NAS100
    0.00%0.00

    美股 相關文章

    • 2026記憶體概念股投資!看準這幾檔台股DRAM與美股儲存龍頭股
    • 甲骨文是做什麼的?台灣如何交易?甲骨文ORCL美股投資邏輯
    • 石油概念股大解析:2026油價循環下的5大類台股/美股標的
    • 美國股市電子盤是什麼?美股盤後交易時間、期貨電子盤報價與看盤教學
    • NVIDIA可以買嗎?輝達(NVDA)股票怎麽買?新手、小資族如何交易?
    • SNDK是做什麼的?台灣如何交易SanDisk?|SanDisk美股投資完整解析

    點擊看更多文章