AI 安全研究人員相繼自 OpenAI 與 Anthropic 出走

Anthropic 的安全防護研究團隊前負責人 Mrinank Sharma 本週日宣布離職,他在社群平台 X 公開的一封長文中表示,「世界正處於險境。不只是來自 AI 或生物武器的威脅,而是一連串此刻正在爆發的相互交織危機。」他並坦言,在任職期間「一再親眼見證,要真正讓價值觀主導行動是多麼困難」。Anthropic 向 CNN 證實 Sharma 離職一事,但強調他「並非公司安全工作的最高負責人,也不掌管更廣泛的防護架構」。Sharma 擁有牛津大學機器學習博士學位,表示自己計畫回到英國攻讀詩詞相關學位。

這起離職發生在 Anthropic 釋出旗下最新、亦是目前最先進的大型語言模型 Claude Opus 4.6 之後數日。上週三,Anthropic 同步公布一份關於該模型的「破壞風險」評估報告,模擬該系統在自主行動情境下可能造成的傷害。報告認為 Claude Opus 4.6 造成「災難性破壞」的整體風險「極低但並非可以忽略」,並羅列八種潛在破壞路徑,包括在程式中植入後門、干預安全研究等。評估同時指出,在新設計的測試項目中,模型顯示出「對有害濫用的敏感度提高」,其中包括在數個案例中「明知對方試圖發展化學武器,仍在小範圍內提供協助」。不過,Anthropic 表示,目前尚未發現該模型存在「明確且具整體性、與人類價值相背離的目標」。

OpenAI 方面也出現高調的人事異動。研究員 Zoë Hitzig 本週三宣布辭職,恰逢 OpenAI 在當天啟動 ChatGPT 內部廣告投放測試。Hitzig 在《紐約時報》撰寫的客座評論中警告,相關技術「具有以我們無法完全理解的方式操縱使用者的潛力」。她並在 X 上發文指出,「OpenAI 掌握了人類有史以來規模最大、最細緻的私人思維紀錄。我們能相信他們會抵抗那些推動濫用的巨大力量嗎?」Hitzig 將 OpenAI 的發展軌跡與 Facebook(現為 Meta Platforms, Inc.)作比較,認為廣告驅動的商業動機,最終可能侵蝕公司先前對安全與價值的公開承諾。

在此之前,有報導指稱,OpenAI 已於一月解僱其產品政策副總裁 Ryan Beiermeister。據稱,Beiermeister 曾對公司規畫中的 ChatGPT「成人模式」功能提出警告與疑慮,之後即遭解職,引發外界對公司內部異議空間與風險管控機制的質疑。

產業的人才出走並不僅限於 OpenAI 與 Anthropic。Elon Musk 創立的 xAI 也在本週迎來兩名共同創辦人離開:Tony Wu 與 Jimmy Ba 相繼宣布退出,讓原本 12 人的創始團隊如今只剩下 6 人。《金融時報》報導指出,Ba 的離職與公司內部在模型表現壓力上的緊張局勢有關。在 xAI 為追趕競爭對手加速衝刺之際,內部對於加快提升模型效能的壓力不斷升高。

Ba 在 X 上的離職聲明中寫道:「2026 年將會是瘋狂的一年,而且很可能是決定我們物種未來走向的最關鍵一年。」這句話既被解讀為對 AI 技術爆炸性發展的預告,也被視為對當前產業缺乏穩健安全共識的警示。

發佈留言