Anthropic發佈Fable 5模型的安全防護措施及AI“越獄”行爲評估框架

來源 Jinse_news
金色財經報道,7月3日,Anthropic發佈一套評估人工智能“越獄”(jailbreak)行爲嚴重程度的擬議框架,並詳細介紹了已在全球上線的Claude Fable 5模型所採用的網絡安全防護措施。該公司將網絡安全相關使用場景劃分爲四類,從“禁止使用”到“無害用途”不等。被禁止的用途包括勒索軟件開發、惡意軟件開發以及網絡—物理基礎設施破壞等活動。在建立更完善的控制機制之前,對於滲透測試等具有“雙重用途”屬性的高風險活動將予以攔截。Anthropic提出的網絡越獄嚴重程度Cyber Jailbreak Severity評級體系,從CJS-0至CJS-4,共分五級,並依據四個維度進行評估。Anthropic還推出了HackerOne項目,邀請安全研究人員提交潛在的模型越獄案例。(新浪財經)
免責聲明:僅供參考。 過去的表現並不預示未來的結果。
goTop
quote