核心提示:AI程序出現(xiàn)了越來越多意想不到的行為。例如,據(jù)報道,美國空軍最近在一次實驗中使用的AI模擬工具,建議殺死飛行員,以確保飛行任務得到恰當執(zhí)行。
美國一家研究機構最近公布了一系列針對各AI大模型的測試結果,其中,OpenAI的o3推理模型在得到“關閉指令”后,不僅拒絕執(zhí)行指令,還篡改了代碼以免被關閉。這一事件也迅速引發(fā)了公眾的關注與恐慌。人們所擔憂的“AI擁有自主意識”似乎已經(jīng)近在眼前。實際上,AI程序已經(jīng)出現(xiàn)了越來越多意想不到的行為,包括對用戶表現(xiàn)出攻擊性甚至威脅的行為。那么,該如何盡可能確保AI產(chǎn)品的安全性?

2023年3月推出GPT-4的時候,OpenAI號稱它比其令人驚艷的前身更加優(yōu)異,稱新版本在準確性、推理能力和測試分數(shù)方面表現(xiàn)更好——所有這些都是之前常用的AI性能指標。然而,最引人注目的是,OpenAI將GPT-4描述為“更加一致”(more aligned)——這或許是AI產(chǎn)品或服務首次以“與人類價值觀一致”而營銷。
技術應該服從道德護欄的觀點并不新鮮。隨著AI價值與人類價值的一致性不僅僅是監(jiān)管要求,而成為產(chǎn)品差異化的因素,公司需要調整AI產(chǎn)品和服務的開發(fā)流程。本文旨在明確企業(yè)家和高管在將安全和與人類價值觀一致的AI產(chǎn)品推向市場時面臨的挑戰(zhàn)。及早采取行動應對這些挑戰(zhàn)的公司將獲得重要的競爭優(yōu)勢。
這些挑戰(zhàn)分為六類,對應于典型創(chuàng)新過程的關鍵階段。對于每個類別,我們提供了高管可以借鑒的框架、實踐和工具。這些建議來自我們對AI產(chǎn)品價值對齊方法的聯(lián)合和獨立研究,以及我們幫助企業(yè)在多個領域開發(fā)和部署AI產(chǎn)品和服務的經(jīng)驗,包括社交媒體、醫(yī)療保健、金融和娛樂業(yè)。
第一項任務是確定那些必須將其價值觀考慮在內的人。鑒于AI對社會的潛在影響,公司需要考慮到比評估其他產(chǎn)品功能時更多樣化的利益相關者群體。他們可能不僅包括員工和客戶,還包括民間社會組織、政策制定者、社會活動家、行業(yè)協(xié)會和其他人。當產(chǎn)品所在市場涵蓋不同文化或法規(guī)的地緣因素時,情況可能會變得更復雜。必須了解所有這些利益相關者的偏好,并彌合他們之間的分歧。
這方面的挑戰(zhàn)可以通過兩種方式來應對。
嵌入既定原則。按照這種方法,公司直接借鑒已有的道德體系和理念的價值觀,如實用主義,或遵照由國際機構開發(fā)的價值觀,比如OECD發(fā)布的AI原則。例如,由谷歌(現(xiàn)Alphabet)資助的AI創(chuàng)業(yè)公司Anthropic將其AI產(chǎn)品Claude的原則建立在聯(lián)合國《世界人權宣言》的基礎上。其他公司也有類似行動;例如,寶馬的原則類似于OECD的原則。
闡明你自己的價值觀。一些公司組建了一支專家團隊——技術專家、倫理學家、人權專家等等——來建立自己的價值觀。這些人可能對使用某種技術所固有的風險(和機遇)有很好的理解。Salesforce公司就采取了這種方法。在其原則聲明的序言中,該公司將這一過程描述為“從公司各個部門的個人貢獻者、經(jīng)理和高管那里征求反饋的長達一年的旅程,包括工程部、產(chǎn)品開發(fā)部、用戶體驗部、數(shù)據(jù)科學部、法務部、平等事務部、政府事務部和營銷部”。
另一種方法是由DeepMind的科學家團隊開發(fā)的。DeepMind是一家AI研究實驗公司,2014年被谷歌收購。這種方法包括向客戶、員工等人咨詢,以最小化自我利益偏見的方式激發(fā)出公司的AI原則和價值觀。它是基于“無知之幕”(veil of ignorance)——由哲學家約翰·羅爾斯(John Rawls)構思的一個思想實驗,人們在不知道自己在社區(qū)中的相應位置的情況下提出社區(qū)規(guī)則——這意味著他們不知道規(guī)則將如何影響他們。使用這種方法產(chǎn)生的價值相比其他方法而言不會那么自我利益驅動,而是更關注AI如何幫助最弱勢的群體,并且更加穩(wěn)健,這樣人們通常更容易接受它們。
除了建立指導價值觀,公司還需要考慮明確限制AI產(chǎn)品的行為。隱私設計、安全設計等實踐在這方面非常有用。這些實踐以原則和評估工具為基礎,將目標價值嵌入組織的文化和產(chǎn)品開發(fā)過程中。應用這些實踐的公司員工有動力在設計新產(chǎn)品的早期,仔細評估和減輕潛在風險;建立客戶可以用來報告問題的反饋循環(huán);并不斷評估和分析這些報告。
生成式AI系統(tǒng)需要在程序中寫入正式的道德護欄,以便它們不會違反定義的價值觀或越過紅線(Red lines),例如,同意不當請求或生成不可接受的內容。包括英偉達和OpenAI在內的公司正在開發(fā)框架來提供這種護欄。例如,GPT-4被營銷為比GPT-3.5更不可能響應不允許內容的請求,如仇恨言論或惡意軟件代碼。
紅線也是由不斷演變的法規(guī)所定義的。作為回應,公司需要更新其AI產(chǎn)品的合規(guī)性,這會在不同市場之間日益分化。以一家歐洲銀行為例,該銀行希望推出一款生成式AI工具來改善客戶互動。直到最近,該銀行只需要遵守歐盟的數(shù)據(jù)保護法(EU’s General Data Protection Regulation),但很快它也需要遵守歐盟的AI法案(EU’s AI Act)。如果它想在中國或美國部署AI,它將不得不遵守那里的法規(guī)。隨著當?shù)匾?guī)則的變化,以及銀行成為跨司法管轄區(qū)監(jiān)管的對象,它還需要調整其AI產(chǎn)品策略并管理潛在的不兼容要求。
價值觀、紅線、道德護欄和法規(guī)都應該整合并嵌入AI產(chǎn)品的編程之中,以便,例如法規(guī)的變更可以被鍵入并自動傳達給受其影響的AI程序的每個部分。
近年來,我們看到公司在努力平衡隱私與安全、信任與安全、提供幫助的同時尊重他人的自主權,當然,還有短期財務指標的價值觀。例如,提供老年人輔助或兒童教育產(chǎn)品的公司不僅要考慮安全,還要考慮尊嚴和代理程度:什么時候AI產(chǎn)品不應該幫助老年用戶,以便增強他們的信心、照顧他們的尊嚴?什么時候應該幫助兒童確保他們積極的學習體驗?
應對這種挑戰(zhàn)的一個方法是根據(jù)其價值觀對市場進行細分。例如,一家公司可能決定專注于一個更重視隱私等原則而不是算法準確性的較小市場。這就是搜索引擎公司DuckDuckGo選擇的路徑,它限制定向廣告并優(yōu)先考慮隱私。該公司定位自己是為不想被在線跟蹤的互聯(lián)網(wǎng)用戶提供的替代品。

薩姆·奧特曼作為OpenAI的CEO,在播客《在好公司》(In Good Company)中分享了他們的挑戰(zhàn):公司應該給不同文化和價值體系的人多大的靈活性來定制OpenAI的產(chǎn)品?他指的是一種趨勢,即公司采用預訓練模型,如GPT-4、PaLM、LaMDA和穩(wěn)定擴散,并對其進行微調以構建自己的產(chǎn)品。(注:PaLM與LaMDA均為大語言模型)
正如奧特曼指出的那樣,問題在于基礎模型的所有者對其產(chǎn)品的處理幾乎沒有控制權。調整模型的公司也有類似的問題:他們如何確保使用第三方模型創(chuàng)建的新產(chǎn)品,與期望的價值觀保持一致——特別是考慮到他們可以微調的程度的限制?只有原始模型的開發(fā)人員知道在訓練它們時使用了哪些數(shù)據(jù),因此公司需要仔細選擇他們的AI合作伙伴。他們還必須與其他合作伙伴保持一致,例如訓練數(shù)據(jù)的提供者,這些合作伙伴可能持有各種不良偏見,從而影響最終產(chǎn)品。
為了解決這些問題,AI開發(fā)者可能需要建立評估外部AI模型和數(shù)據(jù)的程序,并在啟動新的伙伴關系之前挖掘潛在伙伴的價值觀和基本技術系統(tǒng)。(這可能類似于企業(yè)在管理可持續(xù)發(fā)展方面潛在伙伴風險的方式,以及衡量和管理范圍三的碳排放做法。)
這不是一個一次性的游戲。隨著強大基礎模型之間的競爭展開,公司可能會隨著時間的推移改變他們用于產(chǎn)品的模型。他們會發(fā)現(xiàn),AI測試能力和圍繞價值觀的有效盡職調查很可能是公司競爭優(yōu)勢的來源。
給AI產(chǎn)品注入價值觀需要大量數(shù)據(jù)——如前所述,其中大部分將由人類生成或標記。在大多數(shù)情況下,它分為兩個數(shù)據(jù)流:用于訓練AI的數(shù)據(jù),和對用戶行為的持續(xù)反饋的數(shù)據(jù)。為了確保價值觀的一致性,必須建立新的反饋流程。
一種常見做法被稱為“從人類反饋中強化學習”(RLHF),這是一個過程,通過輸入人類的反饋,可以最小化不良輸出,如辱罵性語言。人類審查AI系統(tǒng)的輸出,例如對某人簡歷的分類、執(zhí)行導航動作的決定或生成內容,并根據(jù)其與某些價值觀不對齊的程度對其進行評級。該評級用于新的訓練數(shù)據(jù)中,以改善AI產(chǎn)品的行為。當然,這種方法中的一個關鍵決定是,誰應該提供反饋以及如何提供。強化學習可能發(fā)生在AI生命周期的各個階段,包括產(chǎn)品推出之前和之后。在早期階段,工程師可以在測試AI產(chǎn)品的輸出時提供反饋。
另一種做法是創(chuàng)建“紅隊”(red teams),其任務是逼迫出AI的不良行為。“紅隊”廣泛用于其他領域,例如網(wǎng)絡安全。他們充當對手,攻擊系統(tǒng)以探索它是否以及如何可能失敗。盡管這些團隊通常是組織內部的,但外部社區(qū)也可以被使用。例如,2023年,數(shù)千名黑客在全球最大的網(wǎng)絡安全會議Def Con上聚集,以“攻擊”大語言模型并識別漏洞。
產(chǎn)品發(fā)布之后,還需要繼續(xù)教AI按照某些價值觀行事。AI在這方面就像人類:無論接受了何種正規(guī)教育,我們都會根據(jù)反饋不斷調整自己的行為,以符合所在社區(qū)的價值觀。當人們使用AI或受其影響時,他們可能會觀察到似乎違反其營銷價值觀的行為。允許他們提供反饋可以成為改善AI行為的重要數(shù)據(jù)來源。
AI程序出現(xiàn)了越來越多意想不到的行為。例如,據(jù)報道,美國空軍最近在一次實驗中使用的AI模擬工具,建議殺死飛行員,以確保飛行任務得到恰當執(zhí)行。另一個例子是AlphaGo發(fā)明的圍棋程序Go的最新舉動,被圍棋高手們認為是“超人的和出乎意料的”。也許最著名的例子要屬微軟的必應(Bing)聊天機器人,它在推出后不久就開始對用戶表現(xiàn)出攻擊性甚至威脅行為,直到微軟大幅縮短了可能的對話長度后才停止。同樣不可預見的體驗將大幅增加,特別是因為Chat GPT和其他大型AI模型現(xiàn)在可以執(zhí)行它們沒有明確編程的任務——例如翻譯任何訓練數(shù)據(jù)中不包括的語言。
一些不可預測的行為可能是由用戶與AI產(chǎn)品的互動引起的,無論是有意還是無意。這些產(chǎn)品可能允許個人和公司進行極端的版本更新和超級個人化,這些個人和公司利用來自不同市場的數(shù)據(jù)微調模型。通過這種方式,可以根據(jù)每個用戶與AI產(chǎn)品的交互方式創(chuàng)建和定制無數(shù)版本。確保所有這些版本保持一致,并且不出現(xiàn)新的行為,會很有挑戰(zhàn)性。
公司必須實施強大的流程來檢測和改善AI產(chǎn)品發(fā)布后的有害或意外行為。事件必須被識別,由用戶或任何其他受影響的人報告,并由公司進行分析。公司可能需要建立AI事件數(shù)據(jù)庫,就像OECD和合作伙伴開發(fā)的AI數(shù)據(jù)庫一樣,以便不斷學習和記錄他們的AI產(chǎn)品是如何發(fā)展的。
在一個AI價值觀一致性可能決定競爭結果甚至成為產(chǎn)品質量要求的世界里,認識到產(chǎn)品差異化的風險和機遇,擁抱新的AI產(chǎn)品實踐和流程以保持領先地位至關重要。客戶與更廣大的社會,都期望公司按照某些價值觀來運營。在這個新世界中,他們絕不能推出行為不端的AI產(chǎn)品和服務。
本文轉載來自:合佛商業(yè)評論,不代表產(chǎn)商網(wǎng)觀點,如需轉載請聯(lián)系原作者。如涉及版權問題請聯(lián)系產(chǎn)商網(wǎng),電話:4008-338-308;郵箱:dichan001@qq.com
2024-06-17
獨棟高層
2024-10-16
獨棟
2024-06-06
高層
2024-08-06
獨棟雙拼
2025/10/22
2025/10/21