AI 安全研究人員相繼自 OpenAI 與 Anthropic 出走

Anthropic 的安全防護研究團隊前負責人 Mrinank Sharma 本週日宣布離職，他在社群平台 X 公開的一封長文中表示，「世界正處於險境。不只是來自 AI 或生物武器的威脅，而是一連串此刻正在爆發的相互交織危機。」他並坦言，在任職期間「一再親眼見證，要真正讓價值觀主導行動是多麼困難」。Anthropic 向 CNN 證實 Sharma 離職一事，但強調他「並非公司安全工作的最高負責人，也不掌管更廣泛的防護架構」。Sharma 擁有牛津大學機器學習博士學位，表示自己計畫回到英國攻讀詩詞相關學位。

這起離職發生在 Anthropic 釋出旗下最新、亦是目前最先進的大型語言模型 Claude Opus 4.6 之後數日。上週三，Anthropic 同步公布一份關於該模型的「破壞風險」評估報告，模擬該系統在自主行動情境下可能造成的傷害。報告認為 Claude Opus 4.6 造成「災難性破壞」的整體風險「極低但並非可以忽略」，並羅列八種潛在破壞路徑，包括在程式中植入後門、干預安全研究等。評估同時指出，在新設計的測試項目中，模型顯示出「對有害濫用的敏感度提高」，其中包括在數個案例中「明知對方試圖發展化學武器，仍在小範圍內提供協助」。不過，Anthropic 表示，目前尚未發現該模型存在「明確且具整體性、與人類價值相背離的目標」。

OpenAI 方面也出現高調的人事異動。研究員 Zoë Hitzig 本週三宣布辭職，恰逢 OpenAI 在當天啟動 ChatGPT 內部廣告投放測試。Hitzig 在《紐約時報》撰寫的客座評論中警告，相關技術「具有以我們無法完全理解的方式操縱使用者的潛力」。她並在 X 上發文指出，「OpenAI 掌握了人類有史以來規模最大、最細緻的私人思維紀錄。我們能相信他們會抵抗那些推動濫用的巨大力量嗎？」Hitzig 將 OpenAI 的發展軌跡與 Facebook（現為 Meta Platforms, Inc.）作比較，認為廣告驅動的商業動機，最終可能侵蝕公司先前對安全與價值的公開承諾。

在此之前，有報導指稱，OpenAI 已於一月解僱其產品政策副總裁 Ryan Beiermeister。據稱，Beiermeister 曾對公司規畫中的 ChatGPT「成人模式」功能提出警告與疑慮，之後即遭解職，引發外界對公司內部異議空間與風險管控機制的質疑。

產業的人才出走並不僅限於 OpenAI 與 Anthropic。Elon Musk 創立的 xAI 也在本週迎來兩名共同創辦人離開：Tony Wu 與 Jimmy Ba 相繼宣布退出，讓原本 12 人的創始團隊如今只剩下 6 人。《金融時報》報導指出，Ba 的離職與公司內部在模型表現壓力上的緊張局勢有關。在 xAI 為追趕競爭對手加速衝刺之際，內部對於加快提升模型效能的壓力不斷升高。

Ba 在 X 上的離職聲明中寫道：「2026 年將會是瘋狂的一年，而且很可能是決定我們物種未來走向的最關鍵一年。」這句話既被解讀為對 AI 技術爆炸性發展的預告，也被視為對當前產業缺乏穩健安全共識的警示。

發佈留言 取消回覆

發佈留言取消回覆