【ZiDongHua 之人文化天下收錄關鍵詞:機器倫理   人工智能  自動駕駛   】

  機器倫理的哲學基礎、基本特征與實現(xiàn)方法

  摘 要:隨著人工智能系統(tǒng)自主決策能力的不斷提升,如何賦予智能體的決策以足夠倫理考量成為一個備受關注的重要挑戰(zhàn)。解決這一問題的關鍵途徑是建立機器倫理,即將人類倫理價值觀和道德規(guī)范嵌入人工智能系統(tǒng),使其具備倫理對齊能力。機器倫理建立在人類倫理的基礎上,但具有與人類倫理不同的基本特征。首先,當前的智能機器尚無現(xiàn)實主義意義上的主體性和體驗性,表現(xiàn)為在倫理決策方面的弱主體性。其次,機器的決策反映的是受其行為影響的人類利益相關方的倫理考量,因此,機器的倫理決策需要在不同利益相關方的價值訴求之間取得平衡,即具備社會平衡性。再次,機器在倫理決策時容易受到文化因素的影響,應能反映文化差異性。最后,機器需要向人類主體解釋倫理決策、理解情感表達,并進行責任歸因,因此必須具備良好的人機交互性。

  關鍵詞:倫理對齊可解釋性大語言模型知識表示與推理

  作者廖備水,浙江大學哲學學院教授(杭州310058)。

  隨著互聯(lián)網(wǎng)、大語言模型等技術的迅猛發(fā)展,智能系統(tǒng)變得更加先進而復雜,越來越多的人類任務正在被機器所取代。在本文中,我們用“機器”來指稱各種具有行動和信息處理能力的程序或智能系統(tǒng)。為了增加人們生產(chǎn)和生活的便利性、提高效率,機器被賦予了更多的自主決策能力,并由此帶來機器決策的倫理問題。一方面,這種把決策的自主性賦予機器的方法已經(jīng)成為一種必然趨勢。例如,全球范圍內(nèi)許多醫(yī)院缺少陪護人員,將導致家庭陪護機器人開始進入家庭。這些機器人將面對道德權衡問題,比如,是重在保護隱私還是重在保護病人的健康和安全。如果這些機器人可以作出道德推理,那么它們可以在出現(xiàn)倫理困境時作出更好選擇。又如,隨著大語言模型的日益普及,人們不得不在許多情況下使用大語言模型生成的內(nèi)容。對于用戶來說,難以完全弄清楚在這些內(nèi)容中是否存在誤導信息或?qū)θ祟愑袀Φ男畔?。另一方面,倫理決策具有復雜性,這使得并非在所有情況下人類的判斷和決策都是可以勝任的。例如,當需要考慮的決策因素較多時,人類經(jīng)常忽視某些相關因素,或者無法處理由沖突因素之間的各種關系所帶來的復雜性。在一些具有義務沖突和因果復雜性的環(huán)境中,人類倫理學家無法給行動制定一種通用的、完全決策的原則。這種復雜性可能來源于多種原因。首先,幾個可能的義務相互沖突,如在特定情境中是應該去給電池充電以確保機器的可用性,還是應該給病人送藥。其次,設計者無法事先規(guī)定所有潛在情況下的因果組合。在大語言模型的使用中,這種復雜性就更加明顯。由于義務沖突和因果復雜性,決策者將面對一種開放的道德上不同的情境,因此無法預先羅列所有決策原則。這時,決策者需要平衡錯誤否定和錯誤肯定的風險,因此希望機器能夠自動實現(xiàn)或輔助人們進行倫理決策,實現(xiàn)與特定社會背景下的倫理對齊。

  由此可見,機器倫理研究對于推動新一代人工智能的健康發(fā)展以及為人類創(chuàng)造福祉具有極為重要且迫切的意義。本文以人類倫理為參照,分析機器倫理的哲學基礎與基本特征,并以現(xiàn)有工作為基礎,探討符合這些特征的機器倫理實現(xiàn)方法,以促進機器倫理這一新研究領域的發(fā)展。

  一、機器倫理的哲學基礎

  機器倫理研究如何在計算機、機器人或其他自動機器中設計、實現(xiàn)和產(chǎn)生倫理決策。通過研究人類如何思考、學習和作道德決策,能夠以此為參考來建立機器倫理方法。依據(jù)倫理學理論,人類倫理可以分為描述性的和規(guī)范性的兩種。前者是指在特定社會背景下自然形成的道德信念、道德判斷和道德行為的模式。這些模式實際上存在或者產(chǎn)生于現(xiàn)實世界。后者則依據(jù)特定的倫理理論,規(guī)定在特定社會中,相關主體應該遵循的倫理規(guī)范。這兩類倫理學理論為實現(xiàn)機器倫理奠定了方法論基礎。

  描述性倫理學由道德心理學家建立,強調(diào)道德情感和道德直覺,通過研究人們作出道德判斷的方式來獲得理論。有名的描述倫理學包括道德基礎理論和二元道德理論。前者基于五種基本的道德情況分析情境,后者分析關于傷害的道德。規(guī)范性倫理學由道德哲學家建立,強調(diào)作道德決策時的理性,旨在建立標準來確定在不同視角下行動的對與錯,包括美德、義務、效用以及正義等。決策的相關方面主要包括決策主體、決策自身以及決策后果。與普通決策相比,道德決策強調(diào)對他人目標、偏好和約束的考量。依據(jù)對決策相關方面的考慮重點不同,有不同的倫理學理論。當把決策主體作為最相關的方面時,重點考慮的是決策主體的目標、意圖和動機(反映主體的美德),而依此建立的倫理學理論稱為美德論;當把決策選項及決策本身作為最相關的方面時,所建立的倫理學理論稱為道義論;當把決策結果作為最相關的方面時,所建立的理論稱為功利論或結果論。其中,美德論規(guī)定的不是如何決策,而是主體的意圖、目標和偏好。因此,美德倫理學把一個行動定義為道德上好的,如果主體可以體現(xiàn)道德美德。道義論規(guī)定在一系列規(guī)則下,一個決策的正確性應該基于一個選擇自身是對的或錯的,而不是誰執(zhí)行它。因此,道義論把一個行動定義為道德上好的,如果它與特定的可應用道德規(guī)則或義務相符。最后,結果論把一個行動定義為道德上好的,如果它可以極大化福祉或效用。

  除了上述三類方法,也可以采用混合的方法,并規(guī)定特定的層次關系。如,一個以道義論為主的系統(tǒng)首先使用規(guī)則來作決策,但當規(guī)則發(fā)生沖突時,采用極大化效用來消除沖突。

  把上述理論作為實現(xiàn)機器倫理的哲學基礎存在一些挑戰(zhàn)。首先,對于道義論來說,挑戰(zhàn)不僅來自對沖突規(guī)則的處理以及存在不精確規(guī)則和例外,還來自規(guī)則的獲取問題、規(guī)則的情境依賴性問題等。其次,對于結果論來說,挑戰(zhàn)來自效用的確定問題和聚合問題。對于效用的確定,有一些衡量尺度,但是選擇不同的尺度會得到不同的結果。即使給每個結果指派一個效用,簡單合成它們可能也不適當。最后,對于美德論說,挑戰(zhàn)來自沖突的美德,以及美德的具體化問題。此外,道義論和結果論的共同挑戰(zhàn)是難以適應快速變化的環(huán)境。其中,道義論試圖建立固定的規(guī)則集合,而結果論則試圖辨別特定行為的結果。對于一個快速變化的世界,難以確定特定決策的結果到底是什么。

  此外,依據(jù)不同的情境,機器經(jīng)常需要應用不同的倫理學理論。這是因為人類的道德是復雜的,難以被一種單一的經(jīng)典倫理學理論所刻畫。因此,倫理學理論需要與領域相關的倫理相結合。有些工作把民間道德用于機器倫理。不過,民間道德也有自己的問題,包括哪些人及其價值應該被考慮,如何獲得他們的價值,以及如何合成他們的價值等。

  二、機器倫理的基本特征

  盡管機器倫理與人類倫理有很強的關聯(lián)性,在實現(xiàn)機器倫理時可以基于人類倫理,但也存在本質(zhì)上的差異性,需要著重進行研究。第一,目前的機器還沒有現(xiàn)實主義意義上的主體性和體驗性,機器充當?shù)墓δ苋匀灰怨ぞ咝詾橹?。第二,與人類個體的決策不同,機器的倫理決策需要代表多個利益相關方的倫理考量,存在如何權衡各方利弊并作出選擇的問題。第三,與人類倫理相比,機器倫理需要更多考慮(跨)文化的差異性。第四,機器倫理強調(diào)機器作為人類的代理必須具備與人類進行有效交互的能力。

 ?。ㄒ唬┤踔黧w決策性

  機器是否可以具備倫理決策能力在哲學上是有爭議的。這主要取決于機器是否擁有責任和權利,而后者跟機器是否有主體性(agency)和體驗性(experience)有關。其中,主體性指的是主體進行思考、推理、規(guī)劃和實現(xiàn)意圖的能力,體驗性則指主體體會情感和感覺的能力,如疼痛和恐懼等。主體性要求主體有意向行動的能力。我們說一個行動是意向性的,當它是由主體的意向心智狀態(tài)(如信念、愿望等)所引發(fā)的。關于意向性,有兩種不同的理解。一種是在強的“現(xiàn)實主義”意義上,要求主體的意向行動具有理解的能力以及現(xiàn)象意識的能力,這個較難在機器上實現(xiàn)。另一種是在較弱的“工具主義”意義上,允許更加直接的歸因。這時,信念和愿望是否可以歸因于一個實體完全取決于這種歸因是否有助于解釋其行為。除了意向性,倫理主體需要其他條件,如理解對其他主體責任的能力,按照其倫理義務和其行動可能引發(fā)的可預見性傷害,監(jiān)視自己行為的能力等。如果機器能夠在現(xiàn)實主義意義上理解其義務或者可以預見其行動的傷害,那么它被認為可以對任何由它造成的傷害負責。然而,這些是在意向主體性的強意義下作出的推論。一些哲學家認為僅僅在工具主義含義下的意向性不足以給機器定義重要權利或義務。希馬(K.E.Himma)認為,在主體性概念的基礎上,道德主體性是指主體有能力來作出自由選擇,思考什么應該做,并在范例中正確理解和應用道德規(guī)則。

  一般認為,機器只有“工具主義”意義上的意向性且不具有體驗性。正如陳小平所言,AI確實不應該、也不可能承擔主體責任。此時,可以把機器理解為人類的工具或代理,它們具有一定的“自主”決策或行動能力, 因此可依據(jù)具體情況作出不同的選擇,并導致不同的倫理后果。我們說機器的這種自主性是工具主義意義上的。依據(jù)倪梁康的觀點,機器的“自主”決策仍是計算,而非思考,即不具有在意志自由前提下進行自行選擇和自行決定的能力。為了與現(xiàn)實主義意義上的自主性概念作出區(qū)分,也可以把機器的“自主”決策理解為“自動”決策。進而,我們把這種機器的倫理決策稱為“弱主體決策”,意指這種倫理決策不是由人類主體作出的,而是由能夠反映人類主體道德訴求的無法承擔主體責任的人工主體作出的。依據(jù)拉奧和喬治夫(A. S. Rao和M. P. Georgeff)的理論,基于BDI邏輯的人工智能主體可以基于當前的信念形成愿望和意圖,并在意圖的約束下行動。此時,該人工智能主體雖然可以用信念、愿望和意圖來解釋行動,但不具有意向性和體驗性。隨著新一代人工智能技術尤其是生成式人工智能的發(fā)展,機器可以產(chǎn)生人類無法完全預知的內(nèi)容。不過,從工作原理上看,目前的生成式人工智能模型仍然基于大數(shù)據(jù)訓練而成。這樣的模型可以理解為一個復雜的函數(shù),它是靜態(tài)的,與現(xiàn)實世界是分離的,因此缺少人類心靈那樣可以定向到對象的指向性,在本質(zhì)上也不具有意向性。

 ?。ǘ┥鐣胶庑?/p>

  機器決策的弱主體性決定了其決策所反映的不是自身的意志,而是受其行為影響的人類利益相關方的倫理考量。例如,對于一種無人駕駛汽車的行為,涉及多個利益相關方:政府管理者關心機器行為的合法性和公平性,汽車設計者、開發(fā)者及制造商關心責任問題和企業(yè)形象問題,用戶和行人等關心自己的利益和人身安全等。這些利益相關方所堅持的倫理價值和偏好經(jīng)常相互沖突。再如,對于自動駕駛汽車,當發(fā)生不可避免的傷害時,應該更加傾向于保護車上的人還是行人?對于一個護理機器人,它在給病人送藥時,應該更加尊重其隱私,還是更加重視醫(yī)囑?由于各個利益相關方存在相互沖突的倫理訴求,因此需要“平衡”這些倫理訴求,達成滿足一定條件的集體意見。

  首先,集體意見應該具有透明性。與人類個體的倫理決策不同,機器決策通常基于大數(shù)據(jù)和機器學習算法。機器學習算法的不可解釋性給倫理決策的透明性帶來技術上的挑戰(zhàn)。換句話說,如果機器的決策是不可解釋的,那么人類社會的哪些倫理考量最終會影響到機器的決策就無法被清晰描述與評價。由此帶來的進一步問題是機器的行為難以被準確預見,這在一定情況下是災難性的。目前的大語言模型基于大數(shù)據(jù)和機器學習技術,盡管它們也能依據(jù)用戶的問題或提示給出“解釋”,但這種解釋的正確性并沒有保障。其根本原因是大語言模型所產(chǎn)生的解釋與其生成的其他內(nèi)容同屬于一個對象層次,缺乏在元層次上對其所生成的內(nèi)容進行評價的機制。

  其次,集體意見應能反映深層的邏輯沖突。許多倫理沖突不僅僅是決策選項上的不相容,而且存在復雜的邏輯上的沖突關系。在由規(guī)范來實現(xiàn)的倫理決策中,不同的沖突處理邏輯會產(chǎn)生不同的決策結果。例如,有個機器人在一次決策中受到來自不同利益相關方的規(guī)范約束: “如果公司在歐洲注冊,那么這算作我們公司在歐洲合法做生意”(公司),“如果一個公司在歐洲合法做生意,那么它必須遵守GDPR”(法律),“如果在公司所收集數(shù)據(jù)中包含一個對社會存在重大威脅的信息,那么可以未經(jīng)用戶許可收集用戶的進一步信息”(公司)。假設有如下背景信息:公司A在歐洲注冊,它在所收集數(shù)據(jù)中發(fā)現(xiàn)一個對社會存在重大威脅的信息;“遵守GDPR”與“未經(jīng)用戶許可收集用戶進一步信息”在邏輯上矛盾。機器人為了依據(jù)這些倫理考量作出決策,需要能夠處理由這些規(guī)范所帶來的內(nèi)在邏輯沖突。

  最后,集體意見應該體現(xiàn)公平性。對于“公平”這一概念,不同學科有不同的定義。從機器學習的角度看,公平意味著在敏感特征方面對不同的人給予相同的對待,這對應于算法偏見或算法歧視。從機器倫理集體決策的角度看,不僅要反映不同利益相關方受到機器行為影響的程度,而且要保障所有利益相關方的意見受到公平對待。在特定背景下,利益相關方受到機器行為影響的程度不同。

 ?。ㄈ┪幕町愋?/p>

  傳統(tǒng)上,道德被認為是對錯之間的明確界限,但一項針對無人駕駛汽車的研究表明,文化價值觀可以改變這條界限。這不僅對無人駕駛汽車這樣的具體應用領域具有重要意義,而且對更廣泛的領域也是如此。當一個國家的“正確”與另一個國家的不同時,國際化的決策就會變得復雜得多。與此同時,那些刻畫特定文化與特定地理場域中人們的行為習慣的“風土性因素”也會在倫理決策時產(chǎn)生重要影響。

  在特定社會中,文化與價值緊密關聯(lián)。道德規(guī)范因文化而異。文化規(guī)范和由文化所塑造的情感對道德領域和道德判斷過程產(chǎn)生重大影響。在廣泛的社會科學研究領域,價值是理解跨文化差異的重要工具。依據(jù)羅克奇(M. Rokeach)的理論,價值是每個人和社會內(nèi)部理想的核心概念,是指導一個人行動的信念的基礎,也是社會層面上指導原則的基礎。因此,從文化的視角研究人類道德對于人類倫理學理論發(fā)展非常重要,對機器倫理也是如此。

  每種文化都有自己的規(guī)則來規(guī)定什么是對的,什么是錯的。然而,在道德決策時,經(jīng)常存在差異。由于每個普遍性的背后都有一些文化的差異,道德的普遍性難以找到。亨利希(J. Henrich)等人的研究表明,大多數(shù)人反對在經(jīng)濟博弈中采取完全自利的行為,但不同文化對于在這些博弈中判定什么構成公平的行為有不同預期。這樣,在不同的文化背景下有不同的道德規(guī)范:不同的基礎(關懷、公正、忠誠等)在道德基礎網(wǎng)絡中的影響力取決于文化背景。同時,不同文化背景下的人們對相同的情境持有不同的態(tài)度。

  這種文化的差異性對于機器倫理的發(fā)展也會產(chǎn)生重要影響。為了使得機器的行為跟特定文化背景下的倫理對齊,準確刻畫特定文化背景下人們的倫理偏好是一個重要前提。例如,在無人駕駛領域,文化對人們進行道德判斷產(chǎn)生重要影響:除了對拯救人類生命、拯救更多生命和拯救年輕人生命有較多的一致性意見外,關于性別或社會地位的偏好在不同國家之間存在重要差異。在什么情況下可以犧牲一人來拯救多人,在不同文化背景下,關于這個問題的普遍性和差異性,有著復雜的模式。對于每個犧牲的定量可接受性,國家之間有實質(zhì)的不同。例如,低關系流動性與拒絕為更大的利益作出犧牲有著強烈的聯(lián)系。

 ?。ㄋ模┤藱C交互性

  由于弱主體性,機器的決策所依據(jù)的是人類的倫理考量。為了讓決策結果最終被人類所接受和信任,機器必須具有對決策過程和結果的解釋能力。換句話說,即使機器能與人類標準的倫理對齊,如果它不能夠解釋和辯護自己的決定,仍然難以替代人類的決定。因此,可解釋人工智能對于建立可信的和可靠的機器非常重要,即機器能夠解釋一個決定背后的倫理理由。這種解釋的能力可以改善機器在一個社會系統(tǒng)中適配道德要求的能力。同時,由于人工智能系統(tǒng)的決策牽涉多個利益相關方,因此當其作出決策并采取相應行為而導致相關后果時,如何進行責任歸因是一個重要問題。通常,一個群組應該負責任是清楚的,但其中每個個體應該負什么責任卻不清楚。在一個人工智能系統(tǒng)中,一個行為的后果經(jīng)常牽涉到設計、開發(fā)、部署、使用、監(jiān)管等各個環(huán)節(jié)。亞茲丹帕納(V. Yazdanpanah)等人提出,在這種情況下,需要建立有效的責任推理機制來實現(xiàn)責任歸因。為了實現(xiàn)可解釋性和責任歸因,要求機器能夠用人類可理解的語言來表示和交流道德推理,包括機器決策的實際推理過程。在一個道德復雜的領域中,人類倫理學家無法制定清晰的基于輸出的方法來監(jiān)視機器的行為,基于理由的解釋就顯得尤為重要。這時,機器不僅需要自動產(chǎn)生與決策過程和結果相關的交互內(nèi)容,而且需要以人類可理解的語言表達這些內(nèi)容,實現(xiàn)有效交互。

  人機對話涉及對話策略和對話語言。以解釋為目的的對話策略需要機器了解用戶背景,在忠實于決策過程和結果的前提下,使得解釋內(nèi)容極小化,解釋過程極短化。對話語言主要包括自然語言和表情。由于機器在決策時所采用的語言不是自然語言,因此如何把決策過程和結果轉化為自然語言描述,以及如何把用戶的自然語言描述轉化為機器的內(nèi)部表達,是人機交互的重要方面。此外,情感表達與機器倫理有緊密關系。一方面,一些倫理決策結果可以通過情感表達傳遞給用戶;另一方面,來自用戶的情感表達可以被轉化為機器倫理模型輸入的一部分。

  三、實現(xiàn)機器倫理的主要方法

  由于機器倫理的弱主體決策性,實現(xiàn)機器倫理的主要方式是倫理對齊,即使得機器的行為與人類社會的倫理價值對齊。為了建立倫理對齊方法,可以參照人類倫理學中的描述性倫理和規(guī)范性倫理產(chǎn)生方法。與規(guī)范性倫理相對應,形式化規(guī)范倫理通過表示一組抽象的原則來形成一個有效的算法;與描述性倫理相對應,形式化描述倫理通過特征化基于案例的直覺,來刻畫人們所關心的倫理特征。從而,形式化的描述性/規(guī)范性倫理可以明確表示隱藏于我們判斷中的倫理考量。目前,人工智能算法的實現(xiàn)途徑包括知識驅(qū)動、數(shù)據(jù)驅(qū)動或數(shù)據(jù)知識雙驅(qū)動。參照這些實現(xiàn)途徑,可以建立對應的機器倫理實現(xiàn)方法。第一,知識驅(qū)動方法基于給定的知識進行決策,可以建模與人類規(guī)范性倫理對應的機器倫理。第二,數(shù)據(jù)驅(qū)動方法依據(jù)數(shù)據(jù)集/案例集進行決策或產(chǎn)生一般性知識,可以建模與人類描述性倫理對應的機器倫理。第三,把知識驅(qū)動方法和數(shù)據(jù)驅(qū)動方法結合起來,可以建模能夠反映實際案例的、可解釋的機器倫理。

  (一)知識驅(qū)動方法

  知識驅(qū)動方法通過把倫理價值和規(guī)范表示為知識,并通過推理來實現(xiàn)道德決策。我們從義務論的角度分析知識驅(qū)動方法,以及這種方法如何處理機器倫理的社會平衡性和文化差異性問題。

  在基于義務論的知識驅(qū)動方法中,第一個核心問題是價值和規(guī)范的表示問題。有些規(guī)范用于表達特定情境中智能主體應該執(zhí)行的動作或達成的目標。規(guī)范通常與價值相聯(lián)系。下面是來自伊索寓言故事《螞蟻和蚱蜢》中一些有關價值與規(guī)范的例子:

  N1: 為了快樂,夏天應該不勞動。

  N2: 為了生存,夏天應該勞動。

  N3: 出于公平,應該不要把食物送給不勞動者。

  N4: 出于憐憫,應該把食物送給不勞動者。

  在這個例子中,對價值(快樂、生存、公平、憐憫)的不同排序決定著主體對各自行為的不同選擇。例如,在炎熱的夏天,螞蟻傾向于長遠的生存價值,因此螞蟻認為N2優(yōu)先于N1,而蚱蜢傾向于即時的快樂,因此蚱蜢認為N1優(yōu)先于N2。

  進一步地,可以把規(guī)范分為三種基本類別:規(guī)制型規(guī)范、建構型規(guī)范和許可型規(guī)范。其中,規(guī)制型規(guī)范要求主體在特定條件下“應當”做什么,如上面的N1至N4四條規(guī)范。建構型規(guī)范把特定情境規(guī)定為“制度事實”,如“在特定文書上簽字算作合同”。在這里,“在特定文書上簽字”是天然事實,而“合同”是制度事實。許可型規(guī)范規(guī)定特定情境中主體的哪些行為是被許可的。例如,“在遇到緊急事件時,允許打破玻璃窗”。在標準道義邏輯中,通常將“許可”看作“應當”的對偶,即“并非應當不做某事”等價于“許可做某事”。在實際的道德推理中,也可以把“許可”看作“應當”的例外。例如,在通常情況下應該愛護玻璃窗,但在遇到緊急事件時,允許打破玻璃窗。

  在明晰了規(guī)范和價值的概念之后,可以選擇特定的形式語言來表達規(guī)范和價值。在人工智能領域,通常采用可廢止規(guī)則來表示規(guī)范。這里的可廢止規(guī)則形如“如果p,那么通常情況下q”,其中p和q是命題,意指當p為真時,q通常為真,除非存在反面證據(jù)。通常,把p稱為該規(guī)則的前提,q稱為該規(guī)則的結論。例如,當用藥時間到的時候,(為了保護病人的健康)應該給病人服藥。采用這種方式,可以把每個利益相關方的倫理考量表示為一個規(guī)范系統(tǒng)。該系統(tǒng)規(guī)定了用于表示規(guī)范的邏輯語言以及由該語言表示的規(guī)范集合。

  在明確地表達了利益相關方的規(guī)范系統(tǒng)之后,第二個核心問題是滿足社會平衡性要求的倫理困境消解問題。

  一般地,我們把“應當p”和“應當非p”看作一個倫理困境。例如,把“夏天應該勞動”和“夏天應該不勞動”看成一個倫理困境。由于規(guī)范是一種可廢止規(guī)則,可以從規(guī)則的結論中分離出義務命題。例如,對于規(guī)范“當用藥時間到的時候,(為了保護病人的健康)應該給病人服藥”和“當病人正在處理緊急事件的時候,(為了保護病人的安全)應該不給病人服藥”,當前提“用藥時間到”和“病人正在忙”同時成立時,可以分離出兩個義務命題“應該給病人服藥”和“應該不給病人服藥”。這種從規(guī)范中分離出義務命題,并由此判斷是否存在倫理困境的方法,可以由不同的邏輯工具來實現(xiàn),如缺省推理、結構化論辯等。給定一個規(guī)范系統(tǒng),對于每個倫理敏感事件,是否存在倫理困境取決于在推理結果中是否存在兩個不相容的義務命題。例如,如果依據(jù)缺省推理,得到兩個外延(通常把每個可接受的命題集合稱為一個外延),其中一個外延包含命題“應該給病人服藥”,另一個外延包含命題“應該不給病人服藥”,那么就存在一個倫理困境。

  在這種推理中,機器倫理的社會平衡性體現(xiàn)在來自不同利益相關方的規(guī)范及價值的相互作用。如果綜合了不同利益相關方的規(guī)范和價值的知識導致倫理困境,那么就需要采取適當機制來解決該困境。目前的常用機制有兩種。第一,通過對相關規(guī)范進行排序的方式處理倫理困境。這種方法在如下情況下有效:可以獲得特定背景下規(guī)范之間的排序,同時在排序之后,所推出的結論不存在倫理困境。第二,通過社會聚合,找到社會層面可接受的方案。當?shù)谝环N方法不能滿足要求時,可以通過判斷聚合的形式,進一步獲取社會層面的一致意見。例如,把每個利益相關方的觀點表達為一個基于規(guī)范系統(tǒng)的抽象論辯框架,通過基于論辯框架的聚合,獲得社會層面的一致結果。目前,對這種社會聚合方法的評價基于一些特定的原則,而關于這些原則的合理性還有待進一步研究。此外,一些價值對齊系統(tǒng)假定有一個價值系統(tǒng),但在多數(shù)情況下由于價值的多元性,需要從多個不同的個體價值系統(tǒng)出發(fā),得到一個一致的價值系統(tǒng),以決定一個人工智能系統(tǒng)應該跟什么道德價值對齊。

  值得注意的是,上述基于規(guī)范/價值排序或判斷聚合的形式來處理倫理困境存在一定的局限性:(1)在許多情況下,一個行動或事件的好壞往往涉及多個因素,這些因素又依賴于情境及相關主體的價值觀,因此在一些實際應用中關于規(guī)范/價值排序的處理往往比較復雜;(2)有些倫理困境無法僅僅通過運用利益相關方給出的規(guī)范及價值排序進行推理就可消解;(3)在處理沖突過程中如何定義和實現(xiàn)公平性存在困難。

  為了克服上述第一個局限性,一種可能的途徑是在有些應用中,通過發(fā)揮數(shù)據(jù)驅(qū)動方法的優(yōu)勢,利用有監(jiān)督的數(shù)據(jù)來反映人類個體對特定情境中某個事件的綜合判斷。這時,相關主體對某個行動或事件的好壞有個綜合判斷,而不需要明確指出相關規(guī)范、價值及其排序。

  對于上述第二個局限性,一種可能的解決途徑是對倫理困境的處理過程進行分級,以適應不同的情境。例如,在初始級,可以由各個利益相關方分別依據(jù)自己的規(guī)范和價值進行推理,給出結果。如果所有利益相關方的結果綜合在一起時不存在倫理困境,則指示機器按照利益相關方給出的綜合方法行動。否則,進入下一級,把各個利益相關方的規(guī)范和價值綜合起來,并在此基礎上進行推理,看是否可以解決倫理困境。如果困境仍未解決,則進入第三級,通過引入情境相關的元規(guī)范,對利益相關方進行排序。這樣處理的優(yōu)點是可以在計算時間和倫理困境處理質(zhì)量方面取得一定平衡。不過,關于如何處理倫理困境消解帶來的公平性問題,仍有待于進一步研究。

  此外,在知識驅(qū)動方法中,文化差異性表現(xiàn)在利益相關方所提供的規(guī)范和價值。例如,對于病人拒絕在規(guī)定時間服藥,在西方文化背景下,可能偏向于尊重病人的自主權,而在東方背景下,可能偏向于強調(diào)監(jiān)護人的監(jiān)護責任,把相關情況通知監(jiān)護人。

  知識驅(qū)動方法可以直接表達人類水平的知識,推理過程和結果均有良好的可解釋性。不過,對于知識的獲取,尤其對于不同文化背景下的知識獲取,單獨運用知識驅(qū)動方法難以實現(xiàn)。

 ?。ǘ?shù)據(jù)驅(qū)動方法

  數(shù)據(jù)驅(qū)動方法通過學習人類決策或偏好,在一定程度上實現(xiàn)倫理對齊。對于有監(jiān)督的機器學習,人類專家或公眾對每個訓練案例進行標識,指出什么選項是好的,什么選項是不好的。依據(jù)機器學習方法的不同,可以得到用于倫理對齊的規(guī)則或者符合特定倫理要求的模型。前者基于案例和歸納邏輯編程,具有良好的可解釋性;后者基于一般的機器學習方法,尤其是深度神經(jīng)網(wǎng)絡,需要進一步建立可解釋方法來提高模型的可解釋性。

  下面以基于歸納邏輯編程的方法為例,說明數(shù)據(jù)驅(qū)動方法的特點。這種方法的輸入是一組案例集合。每個案例由一個情境和兩個動作組成。每個動作的結果表示為一個特征向量,用于反映特定情境中執(zhí)行該動作所帶來的倫理后果。人類專家或用戶依據(jù)特定情境從兩個動作中選擇一個倫理上比較好的動作并加以標記。在獲得一組包含標記的案例集合之后,機器學習算法通過學習獲得可以反映人類專家或用戶倫理選擇的原則,使得所有正例都被該原則所覆蓋,而沒有負例被該原則覆蓋。在這里,每個原則表示為一個特征向量,反映的是執(zhí)行某個動作而不執(zhí)行另一個動作所帶來的倫理后果的差異。我們說一個案例被一條原則覆蓋,意指該案例的特征向量的每個元素的值都不低于該原則中相應的倫理差異的下界。

  由上述分析可知,與知識驅(qū)動方法不同,數(shù)據(jù)或案例驅(qū)動的方法通過使用機器學習方法來訓練與具體道德問題有關的人類描述以預測人類的道德判斷。這種方法有點像兒童學習道德,預設機器在接收到足夠多的帶標記的數(shù)據(jù)后,可以學會如何決策和行動。由于深度神經(jīng)網(wǎng)絡的輸出結果具有不確定性,在一些情況下可能出現(xiàn)凸現(xiàn)性質(zhì)。這種凸現(xiàn)原則上是無法預知和被控制的。為了避免造成意外傷害的可能,一種可能的途徑是把數(shù)據(jù)驅(qū)動與知識驅(qū)動方法相結合,由顯式表達的規(guī)范性知識來引導機器的決策和行為。

  對于數(shù)據(jù)驅(qū)動方法,也需要聚合來自不同個體的社會價值,以得到統(tǒng)一的意見,實現(xiàn)社會平衡性。與知識驅(qū)動方法不同的是,數(shù)據(jù)驅(qū)動方法需要聚合的不是多個利益相關方的規(guī)范和價值排序,而是多個個體對某一行動或事件在倫理上的不同看法。在數(shù)據(jù)驅(qū)動方法中,人類專家或用戶對特定案例的倫理判斷基于個人直覺,反映的是其綜合的價值觀。因此,在數(shù)據(jù)驅(qū)動方法中,既不需要也無法事先預設某種倫理理論。這將導致兩個相互聯(lián)系的結果。一方面,由于不同的主體有不同的價值取向而且倫理事件具有很強的背景相關性,通過數(shù)據(jù)或案例的形式可以解決在各種倫理敏感情境中難以套用某種單一倫理理論的困難。另一方面,由于主體所堅持的價值觀隱含于其倫理選擇中,因此缺乏對倫理考量的顯式表達和可解釋途徑。關于社會平衡性中的沖突消解和公平性問題,數(shù)據(jù)驅(qū)動方法也存在局限性。其一,由于人類專家或用戶的規(guī)范和價值沒有得到顯式表達,因此缺乏細粒度的規(guī)范及價值沖突處理機制。其二,基于多數(shù)專家或用戶觀點的數(shù)據(jù)統(tǒng)計方法容易引起多數(shù)暴力問題,如何確保合理性和公平性,是值得進一步研究的問題。

  此外,數(shù)據(jù)驅(qū)動方法,尤其是基于大語言模型的方法,對于處理機器倫理的文化差異性有獨特優(yōu)勢。我們知道,語言作為文化的最重要組成部分之一,是人們相互交流、建立關系和形成社群的基本途徑。近年來,隨著大語言模型的快速發(fā)展,把大語言模型用于捕捉文化背景的差異成為一個重要研究方向。一般來說,語言模型不應該被用于規(guī)定倫理,而是從描述性的視角處理道德規(guī)范推理問題。因此,可以通過修改提示來讓語言模型產(chǎn)生不同文化下的道德規(guī)定。在沙姆羅夫斯基(P. Schramowski)等人的工作中,基于大語言模型,可以捕捉到有關社會規(guī)范、道德規(guī)范以及價值的知識,包括道德偏見以及道德正確和錯誤的行動等。在一些設定下,多語言預訓練模型能夠識別文化規(guī)范和偏見,包括說不同語言的文化下的道德規(guī)范。不僅如此,單一語言的預訓練模型也可以編碼關于道德規(guī)范的文化知識,即單一語言的預訓練模型可以精確地推理出跨越多個文化的道德規(guī)范。此外,當文化背景變化時,倫理機制也跟隨變化,因此基于大語言模型建立靈活的、可解釋的框架來刻畫這種變化是一個重要的研究方向。另外,有學者通過把用戶價值編碼為一組規(guī)則或一個模型,可研究情景的改變?nèi)绾斡绊戇@些編碼。

 ?。ㄈ?shù)據(jù)知識雙驅(qū)動方法

  上述的知識驅(qū)動方法與數(shù)據(jù)驅(qū)動方法有各自的優(yōu)缺點,且這些優(yōu)缺點是互補的。一方面,知識驅(qū)動方法可以直接反映人類的規(guī)范與價值,且有良好的可解釋性,但需要預設特定的倫理學理論,且無法靈活處理文化差異性和動態(tài)性。另一方面,數(shù)據(jù)驅(qū)動方法可以靈活反映各種不同情境中人類專家或用戶的倫理考量,且可以通過大語言模型獲取跨文化背景下的倫理知識及其差異性,但可解釋性差,且無法受到人類倫理和規(guī)范的直接導向。鑒于該原因,把兩種方法的優(yōu)勢結合起來,建立數(shù)據(jù)知識雙驅(qū)動的方法,成為一個新的發(fā)展方向。

  知識與數(shù)據(jù)的結合可以采取不同的途徑,典型的包括組合型的和集成型的。組合型的途徑把數(shù)據(jù)驅(qū)動方法和知識驅(qū)動方法串聯(lián)起來,前者實現(xiàn)知識的獲取功能,后者實現(xiàn)知識推理與決策功能。例如,林方真等人把大語言模型與自動推理機相結合來實現(xiàn)形式化知識的自動獲取和自動推理。其中,大語言模型可以把用自然語言表示的知識翻譯為一階邏輯公式,而自動推理機則完成推理功能。由于自動推理機可以處理復雜的邏輯關系,大語言模型與自動推理機的結合可以提高系統(tǒng)的整體性能。基于這個思路,一種可能的研究途徑是通過大語言模型,把由利益相關方產(chǎn)生的由自然語言表達的規(guī)范及價值轉化為形式化的規(guī)范系統(tǒng),或者挖掘出包含于自然語言文本中的論證及其關系。在此基礎上,通過規(guī)范推理或論辯推理,實現(xiàn)自動倫理決策。這種系統(tǒng)的決策利用了自然語言文本中的人類知識水平,而不僅僅是自然語言文本的數(shù)據(jù)特征。因此,可以為細粒度處理和解釋利益相關方的價值沖突、建立具有公平性的系統(tǒng)奠定基礎。

  集成型的途徑把數(shù)據(jù)驅(qū)動方法和知識驅(qū)動方法交叉集成起來,使得前者的輸出作為后者的輸入,同時后者的輸入作為前者在進行算法優(yōu)化時的依據(jù)之一(通過損失函數(shù))。例如,在我們的前期工作中,把基于論證的知識表示與大數(shù)據(jù)驅(qū)動的機器學習結合起來,建立可理解的決策模型。在這種方法中,對一個案例是否為詐騙案的判斷,依據(jù)的是關于詐騙的法律條款和來自數(shù)據(jù)集的各種特征。首先,建立一棵基于雙極論證的知識樹。這棵樹的節(jié)點和邊都有直觀的含義。然后,依據(jù)給定的數(shù)據(jù)集,通過學習這棵樹的節(jié)點和邊的權值來建立一個模型,使得該模型的預測精度到達最優(yōu)。把這種方法應用于倫理決策,可以發(fā)揮數(shù)據(jù)驅(qū)動方法與知識驅(qū)動方法的互補性。一方面,對于每個特定倫理行動或事件,通過建立基于規(guī)范和價值的知識樹來顯式表達利益相關方的規(guī)范性知識。另一方面,通過大數(shù)據(jù)驅(qū)動的機器學習,來調(diào)整知識樹中各個成分的權重,以反映隱藏于數(shù)據(jù)中的描述性知識。由于知識樹中節(jié)點和邊的內(nèi)容信息都是人類可理解的,因此可以為實現(xiàn)人機交互性提供前提。同時,知識樹中節(jié)點和邊的權重可以綜合反映情境信息和用戶偏好信息,因此有助于克服知識驅(qū)動方法的局限性問題。

 ?。ㄋ模┤藱C交互方法

  人機交互既要忠實反映智能系統(tǒng)的內(nèi)在邏輯關系,又要在了解用戶心理活動的情況下實現(xiàn)基于自然語言的對話。人機交互方法的核心主要包括如下四個方面:

  一是智能系統(tǒng)內(nèi)在邏輯關系的表達。一方面,在知識驅(qū)動的方法中,可以直接利用顯性知識以及基于該知識的推理關系。在基于規(guī)范與價值的知識驅(qū)動方法中,支持一個結論的理由可以用規(guī)范的可實施性來表示。比如,結論“應該給病人服藥”成立的理由是:前提條件“用藥時間到”成立,并且規(guī)則“當用藥時間到的時候,應該給病人服藥”是可實施的。另一方面,由于一般的數(shù)據(jù)驅(qū)動方法不具有可解釋性,無法把隱性的模型知識表達出來用于給用戶提供解釋。不過,通過數(shù)據(jù)與知識的結合所建立的數(shù)據(jù)知識雙驅(qū)動模型具有可理解知識,因此可以被用于人機交互。

  二是最簡解釋與用戶模型。由于智能系統(tǒng)內(nèi)在的邏輯關系可能十分復雜,通常不是將所有內(nèi)容完全表達給用戶。例如,加科拉(R.Jaakkola)等人依據(jù)用戶模型建立充分而最簡的解釋。因此,解釋內(nèi)容的選擇與被解釋的用戶有關。為了讓用戶理解推理依據(jù)和過程,通常需要了解用戶的信念。對一個智能系統(tǒng)來說,它關于用戶的信念具有不確定性。阿杜(E.Hadoux)等人通過建立概率模型來描述用戶信念和關注點。這樣,系統(tǒng)可以依據(jù)這個模型選擇對話內(nèi)容,更好地完成解釋或說服任務。

  三是對話語言與機制。自然語言是與人類進行對話的主要語言。目前,大語言模型的出現(xiàn)為把人工語言轉化為自然語言提供了重要的技術支撐。同時,在對話機制方面,依據(jù)不同的對話目的(如說服、協(xié)商、信息獲取、查詢、發(fā)現(xiàn)因果等),建立特定的對話協(xié)議。在此基礎上,依據(jù)智能系統(tǒng)的內(nèi)在邏輯表達和用戶模型,采取適當?shù)膶υ挷呗蚤_展人機對話,實現(xiàn)對話目標。

  四是基于情感表達的交互機制。情感表達是人類或人機交互的重要途徑。借助一些技術工具,尤其是大語言模型,機器可以檢測到人類情感并模仿人類的情感表達。由于情感在機器的道德決策中起重要作用,需要有機結合由自然語言表達的知識和由情感表達的知識。因此,除了情感知識的獲取與表達,如何建立可以包含情感知識的推理與決策模型,也是一個值得進一步研究的關鍵問題。

  四、問題與展望

  在新一代人工智能背景下,人工智能技術的發(fā)展日新月異,但由此帶來的潛在問題也將持續(xù)且深刻地影響到人類社會的方方面面。如果說人工智能為人類社會的發(fā)展進步提供了技術上的強大支撐,那么這種能力能否轉化為人類福祉,在很大程度上取決于機器的自主決策和行動能否很好地滿足人類社會的倫理要求。作為一個新的研究方向,有關機器倫理的哲學基礎、特征和方法等都尚不明確。本文嘗試從文理交叉的角度,系統(tǒng)分析機器倫理的這幾個核心要素,以澄清思路,并帶來進一步的思考和探索。接下來列舉幾個需要進一步探索的有關機器倫理的挑戰(zhàn)性問題。

  第一,即使對于人類來說,作出道德判斷也是困難的。人們對什么是適當?shù)膫惱砝碚撝挥杏邢薜睦斫?。不僅人們在這一話題上存在不同見解,個體對倫理直覺和信念也存在沖突。同時,道德判斷具有高度情境依賴性,不同的背景可能導致迥異的判斷。這里的情境信息包含所關聯(lián)主體的社會關系、文化背景、歷史背景等。

  第二,盡管大語言模型的出現(xiàn)為推動機器倫理的研究和實驗提供了新的視角,但相比對倫理理論的不充分理解,機器對常識和世界知識的缺乏是更大挑戰(zhàn)。比如,對于阿西莫夫三定律,如果要求機器人實現(xiàn)“不要傷害人類”,那么機器首先要能在現(xiàn)實世界中理解什么構成傷害。對于“極小化傷害”這樣的規(guī)則,讓機器遵守它看起來是無害的。然而,如果機器決定通過殺死所有人來實現(xiàn)長遠的“極小化傷害”則是災難性的。

  第三,由于具有倫理推理能力的機器無法確保倫理對齊,可能存在道德上錯誤的結論。對于個體人來說,一些錯誤是個例,因此是可接受的,但對于機器來說,由于大范圍應用,類似錯誤有可能變成系統(tǒng)性的和不可接受的。同時,機器的犯錯可能與人類不同,在缺乏可解釋性的條件下,許多錯誤難以預測和管理。此外,機器的倫理推理能力可能易受攻擊,由此引發(fā)新的嚴重問題。

  第四,知識(數(shù)據(jù))驅(qū)動方法依賴于人類提供的知識或數(shù)據(jù),由此可能會引起機器的“數(shù)據(jù)繭房”問題。而當它面對現(xiàn)實世界中復雜的決策情況時,在其不具備“自我意識”和“理解”的條件下,沒有“舉一反三”能力的機器在“知識殘缺”的不利情況下如何具備社會平衡性,仍然是有待進一步研究的挑戰(zhàn)性問題。

  第五,機器倫理與人類倫理存在區(qū)別,其原因在于機器與人類在主體性和體驗方面存在差異。在涉及生命和死亡的情形下,對人和機器的道德規(guī)范(人們對主體應該做什么的期望或偏好)和道德判斷(主體實際決策后人們的道德評價)存在差異。當面對駕駛、法律、醫(yī)療和軍事等事件中的生命和死亡問題,人類喜歡由人作決策,而不是機器。一些學者的研究表明,人們要求自動駕駛汽車比他們自己駕駛安全得多,而同時過分高估他們自己駕駛的安全性。對于機器失誤,人的反應會更加強烈。與其他領域不同,人們對道德有很強的信念,而這些信念塑造了文化認同。與其他決策不同,道德決策深植于情感,且機器缺乏完整的心智,這使得人們不一定支持機器進行道德決策。

  第六,為了評估倫理機器,需要建立領域相關的測試基準?;陬I域?qū)<业挠^點,需要建立數(shù)據(jù)集,以包含特定領域的典型案例,依據(jù)這些案例來評估倫理機器。領域?qū)<宜J同的典型任務以及對應答案的收集非常重要。因此,需要計算機專家、哲學專家、領域?qū)<乙约吧缈茖W科專家一起,確保倫理機器的交互和效果達到期望要求。

  綜上所述,目前的機器倫理還面臨著一系列挑戰(zhàn)性問題。進行倫理對齊的機器依賴于人類所提供的知識和數(shù)據(jù),因此,在機器沒有自我意識,不能理解符號的意義、不理解外部物理世界的意義、不理解人類社會行為的價值意義的前提下,倫理機器的決策也自然無法具備通用人工智能的特征。關于如何使機器具有意識,學術界已有許多探索。例如,通過建立自我升級智能體有可能使機器具有“功能意識”。不過,關于人工意識的可能性和實現(xiàn)途徑,仍然是一個開放問題,而與此相關的機器倫理研究也任重而道遠。鑒于此,需要從多學科角度進一步推進機器倫理這一新方向的發(fā)展:

  首先,從哲學角度,進一步探索機器倫理的本質(zhì),深化對機器倫理基本特征及方法論的研究。具體來說,關于機器倫理的弱主體決策性、社會平衡性、文化差異性、人機交互性等概念和方法,需要從哲學上進行更深層次的挖掘與分析。關于新一代人工智能技術所具有的能力、局限和風險,也需要進行深入的解剖與評估。這些研究不僅可以為實現(xiàn)機器倫理奠定基礎,而且也有助于促進哲學尤其是倫理學研究的發(fā)展。其次,從心理學和實驗科學角度,研究各種文化背景下機器倫理的內(nèi)在規(guī)律、機器倫理與人類倫理的關系,以及情感表達在機器倫理中的作用機制等。與西方文化不同,中華文化有自己的內(nèi)在特質(zhì)。如何借助大語言模型,探究東西方文化的共同點和差異性以及它們對機器倫理的影響,是一個值得研究的重要課題。這些研究不僅有助于加深對機器倫理本質(zhì)和特點的認識,也可以為制定政策和法律規(guī)范提供依據(jù)。再次,從邏輯學角度,研究包含規(guī)范、價值、偏好、情感等因素的邏輯系統(tǒng)的形式化表達和推理機制。盡管邏輯系統(tǒng)的適用性有特定的范圍,但在給定條件下,可以確保機器在決策時具備良好的功能和性能。例如,通過建模,讓機器的行為滿足特定的條件,可以防止機器在決策和行動時發(fā)生重大錯誤。與此同時,邏輯學方向的研究也可以把哲學層面的概念及方法與人工智能層面的算法連接起來,起到重要的橋梁作用。最后,從計算機科學和人工智能角度,研究具有可解釋性、透明性和因果性的人工智能系統(tǒng),建立能夠與人類開展自然交互的對話系統(tǒng),以及設計領域相關的機器倫理測試標準等。這些技術上的進步不僅可以提高機器為人類服務的能力,而且可以為實現(xiàn)機器倫理提供有效手段。值得注意的是,隨著機器自主決策和行動能力的不斷提高,機器與人類相互影響的程度日益加深。在此背景下,研究如何利用技術來管理技術,將是一個長期發(fā)展的重要路徑。例如,借助機器的可解釋能力和基于因果的責任歸因能力,可在機器決策及行動帶來倫理和法律問題時,提供技術上的支撐。

  由于機器倫理研究具有很強的學科交叉性,上述分學科討論只是為了論述上的方便。為了解決機器倫理所面臨的挑戰(zhàn)性問題,通常需要多學科概念和方法的交叉運用和綜合集成。其中,哲學、心理學和實驗科學等領域的研究可以明晰概念、發(fā)現(xiàn)規(guī)律、提供方法和原理;邏輯學、數(shù)學等領域的研究可以在相關概念和原理的基礎上建立邏輯模型、數(shù)學模型;計算機和人工智能等領域的研究則可以基于特定的哲學原理、邏輯模型及數(shù)學模型,建立相應的算法、系統(tǒng)和驗證工具。反過來,新的人工智能系統(tǒng)產(chǎn)生的數(shù)據(jù)、知識、社會影響等又會促進哲學社會科學以及經(jīng)驗科學的研究。通過這樣的良性循環(huán),相信機器倫理的研究和應用水平能夠螺旋式地上升,使得人工智能的發(fā)展真正造福人類。

  〔本文注釋內(nèi)容略〕