OpenAI 近期宣布推出兩款名為 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 的推理模型,旨在協助開發者在其平台上識別和分類網路安全風險。這兩款模型是基於 OpenAI 於八月發布的 gpt-oss 模型進行微調的,屬於「開放權重」模型,意味著模型的參數是公開可用的。雖然與完全開放原始碼的模型不同,但開放權重模型仍能提供透明度和控制權,讓組織可以根據自身政策需求進行配置。
這些模型的主要優勢在於其「推理過程可見性」,開發者可以更清楚地了解模型如何得出特定結論。OpenAI 舉例說明,評論網站可以利用這些模型篩選假評論,遊戲論壇則可以分類討論作弊行為的帖子。此次模型開發與 Discord、SafetyKit 和 ROOST 等組織合作,目前處於研究預覽階段,OpenAI 將積極徵求安全社群和研究人員的反饋。
此舉被視為 OpenAI 試圖平息外界對其過快商業化和擴張,而忽略人工智能倫理和安全的批評。作為一家估值 5000 億美元的公司,ChatGPT 每週活躍用戶已超過 8 億。同時,OpenAI 也完成了組織架構的重組,確立了非營利組織對其盈利業務的控制地位。ROOST 總裁 Camille François 強調,隨著人工智能的發展,安全工具和基礎研究也必須同步演進,並且必須對所有人開放。使用者現在可以透過 Hugging Face 下載模型權重。
我認為 OpenAI 的此項舉措,體現了其在快速發展的同時,對人工智能安全問題日益重視的態度。公開模型權重,雖然存在潛在風險,但有助於促進更廣泛的合作和審查,加速安全技術的發展。這不僅是對自身負責任的表現,也是對整個行業的積極貢獻。然而,模型的實際效果和潛在漏洞仍需進一步的測試和驗證,才能真正發揮其應有的作用。
原文網頁:OpenAI introduces safety models that other sites can use to classify harms (by Ashley Capoot)
發佈留言