自動(dòng)化者人文

機(jī)器倫理的哲學(xué)基礎(chǔ)、基本特征與實(shí)現(xiàn)方法

時(shí)間：2024-04-11 16:56:15 發(fā)布：tgy 來源：《中國(guó)社會(huì)科學(xué)》2024年第2期第一對(duì)焦：機(jī)器倫理

　　【ZiDongHua 之人文化天下收錄關(guān)鍵詞：機(jī)器倫理人工智能自動(dòng)駕駛】

　　機(jī)器倫理的哲學(xué)基礎(chǔ)、基本特征與實(shí)現(xiàn)方法

　　摘要：隨著人工智能系統(tǒng)自主決策能力的不斷提升，如何賦予智能體的決策以足夠倫理考量成為一個(gè)備受關(guān)注的重要挑戰(zhàn)。解決這一問題的關(guān)鍵途徑是建立機(jī)器倫理，即將人類倫理價(jià)值觀和道德規(guī)范嵌入人工智能系統(tǒng)，使其具備倫理對(duì)齊能力。機(jī)器倫理建立在人類倫理的基礎(chǔ)上，但具有與人類倫理不同的基本特征。首先，當(dāng)前的智能機(jī)器尚無現(xiàn)實(shí)主義意義上的主體性和體驗(yàn)性，表現(xiàn)為在倫理決策方面的弱主體性。其次，機(jī)器的決策反映的是受其行為影響的人類利益相關(guān)方的倫理考量，因此,機(jī)器的倫理決策需要在不同利益相關(guān)方的價(jià)值訴求之間取得平衡，即具備社會(huì)平衡性。再次，機(jī)器在倫理決策時(shí)容易受到文化因素的影響，應(yīng)能反映文化差異性。最后，機(jī)器需要向人類主體解釋倫理決策、理解情感表達(dá)，并進(jìn)行責(zé)任歸因，因此必須具備良好的人機(jī)交互性。

　　關(guān)鍵詞：倫理對(duì)齊可解釋性大語言模型知識(shí)表示與推理

　　作者廖備水，浙江大學(xué)哲學(xué)學(xué)院教授（杭州310058）。

　　隨著互聯(lián)網(wǎng)、大語言模型等技術(shù)的迅猛發(fā)展，智能系統(tǒng)變得更加先進(jìn)而復(fù)雜，越來越多的人類任務(wù)正在被機(jī)器所取代。在本文中，我們用“機(jī)器”來指稱各種具有行動(dòng)和信息處理能力的程序或智能系統(tǒng)。為了增加人們生產(chǎn)和生活的便利性、提高效率，機(jī)器被賦予了更多的自主決策能力，并由此帶來機(jī)器決策的倫理問題。一方面，這種把決策的自主性賦予機(jī)器的方法已經(jīng)成為一種必然趨勢(shì)。例如，全球范圍內(nèi)許多醫(yī)院缺少陪護(hù)人員，將導(dǎo)致家庭陪護(hù)機(jī)器人開始進(jìn)入家庭。這些機(jī)器人將面對(duì)道德權(quán)衡問題，比如，是重在保護(hù)隱私還是重在保護(hù)病人的健康和安全。如果這些機(jī)器人可以作出道德推理，那么它們可以在出現(xiàn)倫理困境時(shí)作出更好選擇。又如，隨著大語言模型的日益普及，人們不得不在許多情況下使用大語言模型生成的內(nèi)容。對(duì)于用戶來說，難以完全弄清楚在這些內(nèi)容中是否存在誤導(dǎo)信息或?qū)θ祟愑袀Φ男畔ⅰＡ硪环矫?，倫理決策具有復(fù)雜性，這使得并非在所有情況下人類的判斷和決策都是可以勝任的。例如，當(dāng)需要考慮的決策因素較多時(shí)，人類經(jīng)常忽視某些相關(guān)因素，或者無法處理由沖突因素之間的各種關(guān)系所帶來的復(fù)雜性。在一些具有義務(wù)沖突和因果復(fù)雜性的環(huán)境中，人類倫理學(xué)家無法給行動(dòng)制定一種通用的、完全決策的原則。這種復(fù)雜性可能來源于多種原因。首先，幾個(gè)可能的義務(wù)相互沖突，如在特定情境中是應(yīng)該去給電池充電以確保機(jī)器的可用性，還是應(yīng)該給病人送藥。其次，設(shè)計(jì)者無法事先規(guī)定所有潛在情況下的因果組合。在大語言模型的使用中，這種復(fù)雜性就更加明顯。由于義務(wù)沖突和因果復(fù)雜性，決策者將面對(duì)一種開放的道德上不同的情境，因此無法預(yù)先羅列所有決策原則。這時(shí)，決策者需要平衡錯(cuò)誤否定和錯(cuò)誤肯定的風(fēng)險(xiǎn)，因此希望機(jī)器能夠自動(dòng)實(shí)現(xiàn)或輔助人們進(jìn)行倫理決策，實(shí)現(xiàn)與特定社會(huì)背景下的倫理對(duì)齊。

　　由此可見，機(jī)器倫理研究對(duì)于推動(dòng)新一代人工智能的健康發(fā)展以及為人類創(chuàng)造福祉具有極為重要且迫切的意義。本文以人類倫理為參照，分析機(jī)器倫理的哲學(xué)基礎(chǔ)與基本特征，并以現(xiàn)有工作為基礎(chǔ)，探討符合這些特征的機(jī)器倫理實(shí)現(xiàn)方法，以促進(jìn)機(jī)器倫理這一新研究領(lǐng)域的發(fā)展。

　　一、機(jī)器倫理的哲學(xué)基礎(chǔ)

　　機(jī)器倫理研究如何在計(jì)算機(jī)、機(jī)器人或其他自動(dòng)機(jī)器中設(shè)計(jì)、實(shí)現(xiàn)和產(chǎn)生倫理決策。通過研究人類如何思考、學(xué)習(xí)和作道德決策，能夠以此為參考來建立機(jī)器倫理方法。依據(jù)倫理學(xué)理論，人類倫理可以分為描述性的和規(guī)范性的兩種。前者是指在特定社會(huì)背景下自然形成的道德信念、道德判斷和道德行為的模式。這些模式實(shí)際上存在或者產(chǎn)生于現(xiàn)實(shí)世界。后者則依據(jù)特定的倫理理論，規(guī)定在特定社會(huì)中，相關(guān)主體應(yīng)該遵循的倫理規(guī)范。這兩類倫理學(xué)理論為實(shí)現(xiàn)機(jī)器倫理奠定了方法論基礎(chǔ)。

　　描述性倫理學(xué)由道德心理學(xué)家建立，強(qiáng)調(diào)道德情感和道德直覺，通過研究人們作出道德判斷的方式來獲得理論。有名的描述倫理學(xué)包括道德基礎(chǔ)理論和二元道德理論。前者基于五種基本的道德情況分析情境，后者分析關(guān)于傷害的道德。規(guī)范性倫理學(xué)由道德哲學(xué)家建立，強(qiáng)調(diào)作道德決策時(shí)的理性，旨在建立標(biāo)準(zhǔn)來確定在不同視角下行動(dòng)的對(duì)與錯(cuò)，包括美德、義務(wù)、效用以及正義等。決策的相關(guān)方面主要包括決策主體、決策自身以及決策后果。與普通決策相比，道德決策強(qiáng)調(diào)對(duì)他人目標(biāo)、偏好和約束的考量。依據(jù)對(duì)決策相關(guān)方面的考慮重點(diǎn)不同，有不同的倫理學(xué)理論。當(dāng)把決策主體作為最相關(guān)的方面時(shí)，重點(diǎn)考慮的是決策主體的目標(biāo)、意圖和動(dòng)機(jī)（反映主體的美德），而依此建立的倫理學(xué)理論稱為美德論；當(dāng)把決策選項(xiàng)及決策本身作為最相關(guān)的方面時(shí)，所建立的倫理學(xué)理論稱為道義論；當(dāng)把決策結(jié)果作為最相關(guān)的方面時(shí)，所建立的理論稱為功利論或結(jié)果論。其中，美德論規(guī)定的不是如何決策，而是主體的意圖、目標(biāo)和偏好。因此，美德倫理學(xué)把一個(gè)行動(dòng)定義為道德上好的，如果主體可以體現(xiàn)道德美德。道義論規(guī)定在一系列規(guī)則下，一個(gè)決策的正確性應(yīng)該基于一個(gè)選擇自身是對(duì)的或錯(cuò)的，而不是誰執(zhí)行它。因此，道義論把一個(gè)行動(dòng)定義為道德上好的，如果它與特定的可應(yīng)用道德規(guī)則或義務(wù)相符。最后，結(jié)果論把一個(gè)行動(dòng)定義為道德上好的，如果它可以極大化福祉或效用。

　　除了上述三類方法，也可以采用混合的方法，并規(guī)定特定的層次關(guān)系。如，一個(gè)以道義論為主的系統(tǒng)首先使用規(guī)則來作決策，但當(dāng)規(guī)則發(fā)生沖突時(shí)，采用極大化效用來消除沖突。

　　把上述理論作為實(shí)現(xiàn)機(jī)器倫理的哲學(xué)基礎(chǔ)存在一些挑戰(zhàn)。首先，對(duì)于道義論來說，挑戰(zhàn)不僅來自對(duì)沖突規(guī)則的處理以及存在不精確規(guī)則和例外,還來自規(guī)則的獲取問題、規(guī)則的情境依賴性問題等。其次，對(duì)于結(jié)果論來說，挑戰(zhàn)來自效用的確定問題和聚合問題。對(duì)于效用的確定，有一些衡量尺度，但是選擇不同的尺度會(huì)得到不同的結(jié)果。即使給每個(gè)結(jié)果指派一個(gè)效用，簡(jiǎn)單合成它們可能也不適當(dāng)。最后，對(duì)于美德論說，挑戰(zhàn)來自沖突的美德，以及美德的具體化問題。此外，道義論和結(jié)果論的共同挑戰(zhàn)是難以適應(yīng)快速變化的環(huán)境。其中，道義論試圖建立固定的規(guī)則集合，而結(jié)果論則試圖辨別特定行為的結(jié)果。對(duì)于一個(gè)快速變化的世界，難以確定特定決策的結(jié)果到底是什么。

　　此外，依據(jù)不同的情境，機(jī)器經(jīng)常需要應(yīng)用不同的倫理學(xué)理論。這是因?yàn)槿祟惖牡赖率菑?fù)雜的，難以被一種單一的經(jīng)典倫理學(xué)理論所刻畫。因此，倫理學(xué)理論需要與領(lǐng)域相關(guān)的倫理相結(jié)合。有些工作把民間道德用于機(jī)器倫理。不過，民間道德也有自己的問題，包括哪些人及其價(jià)值應(yīng)該被考慮，如何獲得他們的價(jià)值，以及如何合成他們的價(jià)值等。

　　二、機(jī)器倫理的基本特征

　　盡管機(jī)器倫理與人類倫理有很強(qiáng)的關(guān)聯(lián)性，在實(shí)現(xiàn)機(jī)器倫理時(shí)可以基于人類倫理，但也存在本質(zhì)上的差異性，需要著重進(jìn)行研究。第一，目前的機(jī)器還沒有現(xiàn)實(shí)主義意義上的主體性和體驗(yàn)性，機(jī)器充當(dāng)?shù)墓δ苋匀灰怨ぞ咝詾橹?。第二，與人類個(gè)體的決策不同，機(jī)器的倫理決策需要代表多個(gè)利益相關(guān)方的倫理考量，存在如何權(quán)衡各方利弊并作出選擇的問題。第三，與人類倫理相比，機(jī)器倫理需要更多考慮（跨）文化的差異性。第四，機(jī)器倫理強(qiáng)調(diào)機(jī)器作為人類的代理必須具備與人類進(jìn)行有效交互的能力。

　?。ㄒ唬┤踔黧w決策性

　　機(jī)器是否可以具備倫理決策能力在哲學(xué)上是有爭(zhēng)議的。這主要取決于機(jī)器是否擁有責(zé)任和權(quán)利，而后者跟機(jī)器是否有主體性（agency）和體驗(yàn)性（experience）有關(guān)。其中，主體性指的是主體進(jìn)行思考、推理、規(guī)劃和實(shí)現(xiàn)意圖的能力，體驗(yàn)性則指主體體會(huì)情感和感覺的能力，如疼痛和恐懼等。主體性要求主體有意向行動(dòng)的能力。我們說一個(gè)行動(dòng)是意向性的，當(dāng)它是由主體的意向心智狀態(tài)（如信念、愿望等）所引發(fā)的。關(guān)于意向性，有兩種不同的理解。一種是在強(qiáng)的“現(xiàn)實(shí)主義”意義上，要求主體的意向行動(dòng)具有理解的能力以及現(xiàn)象意識(shí)的能力，這個(gè)較難在機(jī)器上實(shí)現(xiàn)。另一種是在較弱的“工具主義”意義上，允許更加直接的歸因。這時(shí)，信念和愿望是否可以歸因于一個(gè)實(shí)體完全取決于這種歸因是否有助于解釋其行為。除了意向性，倫理主體需要其他條件，如理解對(duì)其他主體責(zé)任的能力，按照其倫理義務(wù)和其行動(dòng)可能引發(fā)的可預(yù)見性傷害，監(jiān)視自己行為的能力等。如果機(jī)器能夠在現(xiàn)實(shí)主義意義上理解其義務(wù)或者可以預(yù)見其行動(dòng)的傷害，那么它被認(rèn)為可以對(duì)任何由它造成的傷害負(fù)責(zé)。然而，這些是在意向主體性的強(qiáng)意義下作出的推論。一些哲學(xué)家認(rèn)為僅僅在工具主義含義下的意向性不足以給機(jī)器定義重要權(quán)利或義務(wù)。希馬（K.E.Himma）認(rèn)為，在主體性概念的基礎(chǔ)上，道德主體性是指主體有能力來作出自由選擇，思考什么應(yīng)該做，并在范例中正確理解和應(yīng)用道德規(guī)則。

　　一般認(rèn)為，機(jī)器只有“工具主義”意義上的意向性且不具有體驗(yàn)性。正如陳小平所言，AI確實(shí)不應(yīng)該、也不可能承擔(dān)主體責(zé)任。此時(shí)，可以把機(jī)器理解為人類的工具或代理，它們具有一定的“自主”決策或行動(dòng)能力, 因此可依據(jù)具體情況作出不同的選擇，并導(dǎo)致不同的倫理后果。我們說機(jī)器的這種自主性是工具主義意義上的。依據(jù)倪梁康的觀點(diǎn)，機(jī)器的“自主”決策仍是計(jì)算，而非思考，即不具有在意志自由前提下進(jìn)行自行選擇和自行決定的能力。為了與現(xiàn)實(shí)主義意義上的自主性概念作出區(qū)分，也可以把機(jī)器的“自主”決策理解為“自動(dòng)”決策。進(jìn)而，我們把這種機(jī)器的倫理決策稱為“弱主體決策”，意指這種倫理決策不是由人類主體作出的，而是由能夠反映人類主體道德訴求的無法承擔(dān)主體責(zé)任的人工主體作出的。依據(jù)拉奧和喬治夫（A. S. Rao和M. P. Georgeff）的理論，基于BDI邏輯的人工智能主體可以基于當(dāng)前的信念形成愿望和意圖，并在意圖的約束下行動(dòng)。此時(shí)，該人工智能主體雖然可以用信念、愿望和意圖來解釋行動(dòng)，但不具有意向性和體驗(yàn)性。隨著新一代人工智能技術(shù)尤其是生成式人工智能的發(fā)展，機(jī)器可以產(chǎn)生人類無法完全預(yù)知的內(nèi)容。不過，從工作原理上看，目前的生成式人工智能模型仍然基于大數(shù)據(jù)訓(xùn)練而成。這樣的模型可以理解為一個(gè)復(fù)雜的函數(shù)，它是靜態(tài)的，與現(xiàn)實(shí)世界是分離的，因此缺少人類心靈那樣可以定向到對(duì)象的指向性，在本質(zhì)上也不具有意向性。

　?。ǘ┥鐣?huì)平衡性

　　機(jī)器決策的弱主體性決定了其決策所反映的不是自身的意志，而是受其行為影響的人類利益相關(guān)方的倫理考量。例如，對(duì)于一種無人駕駛汽車的行為，涉及多個(gè)利益相關(guān)方：政府管理者關(guān)心機(jī)器行為的合法性和公平性，汽車設(shè)計(jì)者、開發(fā)者及制造商關(guān)心責(zé)任問題和企業(yè)形象問題，用戶和行人等關(guān)心自己的利益和人身安全等。這些利益相關(guān)方所堅(jiān)持的倫理價(jià)值和偏好經(jīng)常相互沖突。再如，對(duì)于自動(dòng)駕駛汽車，當(dāng)發(fā)生不可避免的傷害時(shí)，應(yīng)該更加傾向于保護(hù)車上的人還是行人？對(duì)于一個(gè)護(hù)理機(jī)器人，它在給病人送藥時(shí)，應(yīng)該更加尊重其隱私，還是更加重視醫(yī)囑？由于各個(gè)利益相關(guān)方存在相互沖突的倫理訴求，因此需要“平衡”這些倫理訴求，達(dá)成滿足一定條件的集體意見。

　　首先，集體意見應(yīng)該具有透明性。與人類個(gè)體的倫理決策不同，機(jī)器決策通?；诖髷?shù)據(jù)和機(jī)器學(xué)習(xí)算法。機(jī)器學(xué)習(xí)算法的不可解釋性給倫理決策的透明性帶來技術(shù)上的挑戰(zhàn)。換句話說，如果機(jī)器的決策是不可解釋的，那么人類社會(huì)的哪些倫理考量最終會(huì)影響到機(jī)器的決策就無法被清晰描述與評(píng)價(jià)。由此帶來的進(jìn)一步問題是機(jī)器的行為難以被準(zhǔn)確預(yù)見，這在一定情況下是災(zāi)難性的。目前的大語言模型基于大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù)，盡管它們也能依據(jù)用戶的問題或提示給出“解釋”，但這種解釋的正確性并沒有保障。其根本原因是大語言模型所產(chǎn)生的解釋與其生成的其他內(nèi)容同屬于一個(gè)對(duì)象層次，缺乏在元層次上對(duì)其所生成的內(nèi)容進(jìn)行評(píng)價(jià)的機(jī)制。

　　其次，集體意見應(yīng)能反映深層的邏輯沖突。許多倫理沖突不僅僅是決策選項(xiàng)上的不相容，而且存在復(fù)雜的邏輯上的沖突關(guān)系。在由規(guī)范來實(shí)現(xiàn)的倫理決策中，不同的沖突處理邏輯會(huì)產(chǎn)生不同的決策結(jié)果。例如，有個(gè)機(jī)器人在一次決策中受到來自不同利益相關(guān)方的規(guī)范約束： “如果公司在歐洲注冊(cè)，那么這算作我們公司在歐洲合法做生意”（公司），“如果一個(gè)公司在歐洲合法做生意，那么它必須遵守GDPR”（法律），“如果在公司所收集數(shù)據(jù)中包含一個(gè)對(duì)社會(huì)存在重大威脅的信息，那么可以未經(jīng)用戶許可收集用戶的進(jìn)一步信息”（公司）。假設(shè)有如下背景信息：公司A在歐洲注冊(cè)，它在所收集數(shù)據(jù)中發(fā)現(xiàn)一個(gè)對(duì)社會(huì)存在重大威脅的信息；“遵守GDPR”與“未經(jīng)用戶許可收集用戶進(jìn)一步信息”在邏輯上矛盾。機(jī)器人為了依據(jù)這些倫理考量作出決策，需要能夠處理由這些規(guī)范所帶來的內(nèi)在邏輯沖突。

　　最后，集體意見應(yīng)該體現(xiàn)公平性。對(duì)于“公平”這一概念，不同學(xué)科有不同的定義。從機(jī)器學(xué)習(xí)的角度看，公平意味著在敏感特征方面對(duì)不同的人給予相同的對(duì)待,這對(duì)應(yīng)于算法偏見或算法歧視。從機(jī)器倫理集體決策的角度看，不僅要反映不同利益相關(guān)方受到機(jī)器行為影響的程度，而且要保障所有利益相關(guān)方的意見受到公平對(duì)待。在特定背景下，利益相關(guān)方受到機(jī)器行為影響的程度不同。

　?。ㄈ┪幕町愋?/p>

　　傳統(tǒng)上，道德被認(rèn)為是對(duì)錯(cuò)之間的明確界限，但一項(xiàng)針對(duì)無人駕駛汽車的研究表明，文化價(jià)值觀可以改變這條界限。這不僅對(duì)無人駕駛汽車這樣的具體應(yīng)用領(lǐng)域具有重要意義，而且對(duì)更廣泛的領(lǐng)域也是如此。當(dāng)一個(gè)國(guó)家的“正確”與另一個(gè)國(guó)家的不同時(shí)，國(guó)際化的決策就會(huì)變得復(fù)雜得多。與此同時(shí)，那些刻畫特定文化與特定地理場(chǎng)域中人們的行為習(xí)慣的“風(fēng)土性因素”也會(huì)在倫理決策時(shí)產(chǎn)生重要影響。

　　在特定社會(huì)中，文化與價(jià)值緊密關(guān)聯(lián)。道德規(guī)范因文化而異。文化規(guī)范和由文化所塑造的情感對(duì)道德領(lǐng)域和道德判斷過程產(chǎn)生重大影響。在廣泛的社會(huì)科學(xué)研究領(lǐng)域，價(jià)值是理解跨文化差異的重要工具。依據(jù)羅克奇（M. Rokeach）的理論，價(jià)值是每個(gè)人和社會(huì)內(nèi)部理想的核心概念，是指導(dǎo)一個(gè)人行動(dòng)的信念的基礎(chǔ)，也是社會(huì)層面上指導(dǎo)原則的基礎(chǔ)。因此，從文化的視角研究人類道德對(duì)于人類倫理學(xué)理論發(fā)展非常重要，對(duì)機(jī)器倫理也是如此。

　　每種文化都有自己的規(guī)則來規(guī)定什么是對(duì)的，什么是錯(cuò)的。然而，在道德決策時(shí)，經(jīng)常存在差異。由于每個(gè)普遍性的背后都有一些文化的差異，道德的普遍性難以找到。亨利希（J. Henrich）等人的研究表明，大多數(shù)人反對(duì)在經(jīng)濟(jì)博弈中采取完全自利的行為，但不同文化對(duì)于在這些博弈中判定什么構(gòu)成公平的行為有不同預(yù)期。這樣，在不同的文化背景下有不同的道德規(guī)范：不同的基礎(chǔ)（關(guān)懷、公正、忠誠(chéng)等）在道德基礎(chǔ)網(wǎng)絡(luò)中的影響力取決于文化背景。同時(shí)，不同文化背景下的人們對(duì)相同的情境持有不同的態(tài)度。

　　這種文化的差異性對(duì)于機(jī)器倫理的發(fā)展也會(huì)產(chǎn)生重要影響。為了使得機(jī)器的行為跟特定文化背景下的倫理對(duì)齊，準(zhǔn)確刻畫特定文化背景下人們的倫理偏好是一個(gè)重要前提。例如，在無人駕駛領(lǐng)域，文化對(duì)人們進(jìn)行道德判斷產(chǎn)生重要影響：除了對(duì)拯救人類生命、拯救更多生命和拯救年輕人生命有較多的一致性意見外，關(guān)于性別或社會(huì)地位的偏好在不同國(guó)家之間存在重要差異。在什么情況下可以犧牲一人來拯救多人，在不同文化背景下，關(guān)于這個(gè)問題的普遍性和差異性，有著復(fù)雜的模式。對(duì)于每個(gè)犧牲的定量可接受性，國(guó)家之間有實(shí)質(zhì)的不同。例如，低關(guān)系流動(dòng)性與拒絕為更大的利益作出犧牲有著強(qiáng)烈的聯(lián)系。

　?。ㄋ模┤藱C(jī)交互性

　　由于弱主體性，機(jī)器的決策所依據(jù)的是人類的倫理考量。為了讓決策結(jié)果最終被人類所接受和信任，機(jī)器必須具有對(duì)決策過程和結(jié)果的解釋能力。換句話說，即使機(jī)器能與人類標(biāo)準(zhǔn)的倫理對(duì)齊，如果它不能夠解釋和辯護(hù)自己的決定，仍然難以替代人類的決定。因此，可解釋人工智能對(duì)于建立可信的和可靠的機(jī)器非常重要，即機(jī)器能夠解釋一個(gè)決定背后的倫理理由。這種解釋的能力可以改善機(jī)器在一個(gè)社會(huì)系統(tǒng)中適配道德要求的能力。同時(shí)，由于人工智能系統(tǒng)的決策牽涉多個(gè)利益相關(guān)方，因此當(dāng)其作出決策并采取相應(yīng)行為而導(dǎo)致相關(guān)后果時(shí)，如何進(jìn)行責(zé)任歸因是一個(gè)重要問題。通常，一個(gè)群組應(yīng)該負(fù)責(zé)任是清楚的，但其中每個(gè)個(gè)體應(yīng)該負(fù)什么責(zé)任卻不清楚。在一個(gè)人工智能系統(tǒng)中，一個(gè)行為的后果經(jīng)常牽涉到設(shè)計(jì)、開發(fā)、部署、使用、監(jiān)管等各個(gè)環(huán)節(jié)。亞茲丹帕納（V. Yazdanpanah）等人提出，在這種情況下，需要建立有效的責(zé)任推理機(jī)制來實(shí)現(xiàn)責(zé)任歸因。為了實(shí)現(xiàn)可解釋性和責(zé)任歸因，要求機(jī)器能夠用人類可理解的語言來表示和交流道德推理，包括機(jī)器決策的實(shí)際推理過程。在一個(gè)道德復(fù)雜的領(lǐng)域中，人類倫理學(xué)家無法制定清晰的基于輸出的方法來監(jiān)視機(jī)器的行為，基于理由的解釋就顯得尤為重要。這時(shí)，機(jī)器不僅需要自動(dòng)產(chǎn)生與決策過程和結(jié)果相關(guān)的交互內(nèi)容，而且需要以人類可理解的語言表達(dá)這些內(nèi)容，實(shí)現(xiàn)有效交互。

　　人機(jī)對(duì)話涉及對(duì)話策略和對(duì)話語言。以解釋為目的的對(duì)話策略需要機(jī)器了解用戶背景，在忠實(shí)于決策過程和結(jié)果的前提下，使得解釋內(nèi)容極小化，解釋過程極短化。對(duì)話語言主要包括自然語言和表情。由于機(jī)器在決策時(shí)所采用的語言不是自然語言，因此如何把決策過程和結(jié)果轉(zhuǎn)化為自然語言描述，以及如何把用戶的自然語言描述轉(zhuǎn)化為機(jī)器的內(nèi)部表達(dá)，是人機(jī)交互的重要方面。此外，情感表達(dá)與機(jī)器倫理有緊密關(guān)系。一方面，一些倫理決策結(jié)果可以通過情感表達(dá)傳遞給用戶；另一方面，來自用戶的情感表達(dá)可以被轉(zhuǎn)化為機(jī)器倫理模型輸入的一部分。

　　三、實(shí)現(xiàn)機(jī)器倫理的主要方法

　　由于機(jī)器倫理的弱主體決策性，實(shí)現(xiàn)機(jī)器倫理的主要方式是倫理對(duì)齊，即使得機(jī)器的行為與人類社會(huì)的倫理價(jià)值對(duì)齊。為了建立倫理對(duì)齊方法，可以參照人類倫理學(xué)中的描述性倫理和規(guī)范性倫理產(chǎn)生方法。與規(guī)范性倫理相對(duì)應(yīng)，形式化規(guī)范倫理通過表示一組抽象的原則來形成一個(gè)有效的算法；與描述性倫理相對(duì)應(yīng)，形式化描述倫理通過特征化基于案例的直覺，來刻畫人們所關(guān)心的倫理特征。從而，形式化的描述性/規(guī)范性倫理可以明確表示隱藏于我們判斷中的倫理考量。目前，人工智能算法的實(shí)現(xiàn)途徑包括知識(shí)驅(qū)動(dòng)、數(shù)據(jù)驅(qū)動(dòng)或數(shù)據(jù)知識(shí)雙驅(qū)動(dòng)。參照這些實(shí)現(xiàn)途徑，可以建立對(duì)應(yīng)的機(jī)器倫理實(shí)現(xiàn)方法。第一，知識(shí)驅(qū)動(dòng)方法基于給定的知識(shí)進(jìn)行決策，可以建模與人類規(guī)范性倫理對(duì)應(yīng)的機(jī)器倫理。第二，數(shù)據(jù)驅(qū)動(dòng)方法依據(jù)數(shù)據(jù)集/案例集進(jìn)行決策或產(chǎn)生一般性知識(shí)，可以建模與人類描述性倫理對(duì)應(yīng)的機(jī)器倫理。第三，把知識(shí)驅(qū)動(dòng)方法和數(shù)據(jù)驅(qū)動(dòng)方法結(jié)合起來，可以建模能夠反映實(shí)際案例的、可解釋的機(jī)器倫理。

　?。ㄒ唬┲R(shí)驅(qū)動(dòng)方法

　　知識(shí)驅(qū)動(dòng)方法通過把倫理價(jià)值和規(guī)范表示為知識(shí)，并通過推理來實(shí)現(xiàn)道德決策。我們從義務(wù)論的角度分析知識(shí)驅(qū)動(dòng)方法，以及這種方法如何處理機(jī)器倫理的社會(huì)平衡性和文化差異性問題。

　　在基于義務(wù)論的知識(shí)驅(qū)動(dòng)方法中，第一個(gè)核心問題是價(jià)值和規(guī)范的表示問題。有些規(guī)范用于表達(dá)特定情境中智能主體應(yīng)該執(zhí)行的動(dòng)作或達(dá)成的目標(biāo)。規(guī)范通常與價(jià)值相聯(lián)系。下面是來自伊索寓言故事《螞蟻和蚱蜢》中一些有關(guān)價(jià)值與規(guī)范的例子：

　　N1: 為了快樂，夏天應(yīng)該不勞動(dòng)。

　　N2: 為了生存，夏天應(yīng)該勞動(dòng)。

　　N3: 出于公平，應(yīng)該不要把食物送給不勞動(dòng)者。

　　N4: 出于憐憫，應(yīng)該把食物送給不勞動(dòng)者。

　　在這個(gè)例子中，對(duì)價(jià)值(快樂、生存、公平、憐憫)的不同排序決定著主體對(duì)各自行為的不同選擇。例如，在炎熱的夏天，螞蟻傾向于長(zhǎng)遠(yuǎn)的生存價(jià)值，因此螞蟻認(rèn)為N2優(yōu)先于N1，而蚱蜢傾向于即時(shí)的快樂，因此蚱蜢認(rèn)為N1優(yōu)先于N2。

　　進(jìn)一步地，可以把規(guī)范分為三種基本類別：規(guī)制型規(guī)范、建構(gòu)型規(guī)范和許可型規(guī)范。其中，規(guī)制型規(guī)范要求主體在特定條件下“應(yīng)當(dāng)”做什么，如上面的N1至N4四條規(guī)范。建構(gòu)型規(guī)范把特定情境規(guī)定為“制度事實(shí)”，如“在特定文書上簽字算作合同”。在這里，“在特定文書上簽字”是天然事實(shí)，而“合同”是制度事實(shí)。許可型規(guī)范規(guī)定特定情境中主體的哪些行為是被許可的。例如，“在遇到緊急事件時(shí)，允許打破玻璃窗”。在標(biāo)準(zhǔn)道義邏輯中，通常將“許可”看作“應(yīng)當(dāng)”的對(duì)偶，即“并非應(yīng)當(dāng)不做某事”等價(jià)于“許可做某事”。在實(shí)際的道德推理中，也可以把“許可”看作“應(yīng)當(dāng)”的例外。例如，在通常情況下應(yīng)該愛護(hù)玻璃窗，但在遇到緊急事件時(shí)，允許打破玻璃窗。

　　在明晰了規(guī)范和價(jià)值的概念之后，可以選擇特定的形式語言來表達(dá)規(guī)范和價(jià)值。在人工智能領(lǐng)域，通常采用可廢止規(guī)則來表示規(guī)范。這里的可廢止規(guī)則形如“如果p,那么通常情況下q”,其中p和q是命題，意指當(dāng)p為真時(shí)，q通常為真，除非存在反面證據(jù)。通常，把p稱為該規(guī)則的前提，q稱為該規(guī)則的結(jié)論。例如，當(dāng)用藥時(shí)間到的時(shí)候，（為了保護(hù)病人的健康）應(yīng)該給病人服藥。采用這種方式，可以把每個(gè)利益相關(guān)方的倫理考量表示為一個(gè)規(guī)范系統(tǒng)。該系統(tǒng)規(guī)定了用于表示規(guī)范的邏輯語言以及由該語言表示的規(guī)范集合。

　　在明確地表達(dá)了利益相關(guān)方的規(guī)范系統(tǒng)之后，第二個(gè)核心問題是滿足社會(huì)平衡性要求的倫理困境消解問題。

　　一般地，我們把“應(yīng)當(dāng)p”和“應(yīng)當(dāng)非p”看作一個(gè)倫理困境。例如，把“夏天應(yīng)該勞動(dòng)”和“夏天應(yīng)該不勞動(dòng)”看成一個(gè)倫理困境。由于規(guī)范是一種可廢止規(guī)則，可以從規(guī)則的結(jié)論中分離出義務(wù)命題。例如，對(duì)于規(guī)范“當(dāng)用藥時(shí)間到的時(shí)候，（為了保護(hù)病人的健康）應(yīng)該給病人服藥”和“當(dāng)病人正在處理緊急事件的時(shí)候，（為了保護(hù)病人的安全）應(yīng)該不給病人服藥”，當(dāng)前提“用藥時(shí)間到”和“病人正在忙”同時(shí)成立時(shí)，可以分離出兩個(gè)義務(wù)命題“應(yīng)該給病人服藥”和“應(yīng)該不給病人服藥”。這種從規(guī)范中分離出義務(wù)命題，并由此判斷是否存在倫理困境的方法，可以由不同的邏輯工具來實(shí)現(xiàn)，如缺省推理、結(jié)構(gòu)化論辯等。給定一個(gè)規(guī)范系統(tǒng)，對(duì)于每個(gè)倫理敏感事件，是否存在倫理困境取決于在推理結(jié)果中是否存在兩個(gè)不相容的義務(wù)命題。例如，如果依據(jù)缺省推理，得到兩個(gè)外延（通常把每個(gè)可接受的命題集合稱為一個(gè)外延），其中一個(gè)外延包含命題“應(yīng)該給病人服藥”，另一個(gè)外延包含命題“應(yīng)該不給病人服藥”，那么就存在一個(gè)倫理困境。

　　在這種推理中，機(jī)器倫理的社會(huì)平衡性體現(xiàn)在來自不同利益相關(guān)方的規(guī)范及價(jià)值的相互作用。如果綜合了不同利益相關(guān)方的規(guī)范和價(jià)值的知識(shí)導(dǎo)致倫理困境，那么就需要采取適當(dāng)機(jī)制來解決該困境。目前的常用機(jī)制有兩種。第一，通過對(duì)相關(guān)規(guī)范進(jìn)行排序的方式處理倫理困境。這種方法在如下情況下有效：可以獲得特定背景下規(guī)范之間的排序，同時(shí)在排序之后，所推出的結(jié)論不存在倫理困境。第二，通過社會(huì)聚合，找到社會(huì)層面可接受的方案。當(dāng)?shù)谝环N方法不能滿足要求時(shí)，可以通過判斷聚合的形式，進(jìn)一步獲取社會(huì)層面的一致意見。例如，把每個(gè)利益相關(guān)方的觀點(diǎn)表達(dá)為一個(gè)基于規(guī)范系統(tǒng)的抽象論辯框架，通過基于論辯框架的聚合，獲得社會(huì)層面的一致結(jié)果。目前，對(duì)這種社會(huì)聚合方法的評(píng)價(jià)基于一些特定的原則，而關(guān)于這些原則的合理性還有待進(jìn)一步研究。此外，一些價(jià)值對(duì)齊系統(tǒng)假定有一個(gè)價(jià)值系統(tǒng)，但在多數(shù)情況下由于價(jià)值的多元性，需要從多個(gè)不同的個(gè)體價(jià)值系統(tǒng)出發(fā)，得到一個(gè)一致的價(jià)值系統(tǒng),以決定一個(gè)人工智能系統(tǒng)應(yīng)該跟什么道德價(jià)值對(duì)齊。

　　值得注意的是，上述基于規(guī)范/價(jià)值排序或判斷聚合的形式來處理倫理困境存在一定的局限性：(1)在許多情況下，一個(gè)行動(dòng)或事件的好壞往往涉及多個(gè)因素，這些因素又依賴于情境及相關(guān)主體的價(jià)值觀，因此在一些實(shí)際應(yīng)用中關(guān)于規(guī)范/價(jià)值排序的處理往往比較復(fù)雜；(2)有些倫理困境無法僅僅通過運(yùn)用利益相關(guān)方給出的規(guī)范及價(jià)值排序進(jìn)行推理就可消解；(3)在處理沖突過程中如何定義和實(shí)現(xiàn)公平性存在困難。

　　為了克服上述第一個(gè)局限性，一種可能的途徑是在有些應(yīng)用中，通過發(fā)揮數(shù)據(jù)驅(qū)動(dòng)方法的優(yōu)勢(shì)，利用有監(jiān)督的數(shù)據(jù)來反映人類個(gè)體對(duì)特定情境中某個(gè)事件的綜合判斷。這時(shí)，相關(guān)主體對(duì)某個(gè)行動(dòng)或事件的好壞有個(gè)綜合判斷，而不需要明確指出相關(guān)規(guī)范、價(jià)值及其排序。

　　對(duì)于上述第二個(gè)局限性，一種可能的解決途徑是對(duì)倫理困境的處理過程進(jìn)行分級(jí)，以適應(yīng)不同的情境。例如，在初始級(jí)，可以由各個(gè)利益相關(guān)方分別依據(jù)自己的規(guī)范和價(jià)值進(jìn)行推理，給出結(jié)果。如果所有利益相關(guān)方的結(jié)果綜合在一起時(shí)不存在倫理困境，則指示機(jī)器按照利益相關(guān)方給出的綜合方法行動(dòng)。否則，進(jìn)入下一級(jí)，把各個(gè)利益相關(guān)方的規(guī)范和價(jià)值綜合起來，并在此基礎(chǔ)上進(jìn)行推理，看是否可以解決倫理困境。如果困境仍未解決，則進(jìn)入第三級(jí)，通過引入情境相關(guān)的元規(guī)范，對(duì)利益相關(guān)方進(jìn)行排序。這樣處理的優(yōu)點(diǎn)是可以在計(jì)算時(shí)間和倫理困境處理質(zhì)量方面取得一定平衡。不過，關(guān)于如何處理倫理困境消解帶來的公平性問題，仍有待于進(jìn)一步研究。

　　此外，在知識(shí)驅(qū)動(dòng)方法中，文化差異性表現(xiàn)在利益相關(guān)方所提供的規(guī)范和價(jià)值。例如，對(duì)于病人拒絕在規(guī)定時(shí)間服藥，在西方文化背景下，可能偏向于尊重病人的自主權(quán)，而在東方背景下，可能偏向于強(qiáng)調(diào)監(jiān)護(hù)人的監(jiān)護(hù)責(zé)任，把相關(guān)情況通知監(jiān)護(hù)人。

　　知識(shí)驅(qū)動(dòng)方法可以直接表達(dá)人類水平的知識(shí)，推理過程和結(jié)果均有良好的可解釋性。不過，對(duì)于知識(shí)的獲取，尤其對(duì)于不同文化背景下的知識(shí)獲取，單獨(dú)運(yùn)用知識(shí)驅(qū)動(dòng)方法難以實(shí)現(xiàn)。

　　（二）數(shù)據(jù)驅(qū)動(dòng)方法

　　數(shù)據(jù)驅(qū)動(dòng)方法通過學(xué)習(xí)人類決策或偏好，在一定程度上實(shí)現(xiàn)倫理對(duì)齊。對(duì)于有監(jiān)督的機(jī)器學(xué)習(xí)，人類專家或公眾對(duì)每個(gè)訓(xùn)練案例進(jìn)行標(biāo)識(shí)，指出什么選項(xiàng)是好的，什么選項(xiàng)是不好的。依據(jù)機(jī)器學(xué)習(xí)方法的不同，可以得到用于倫理對(duì)齊的規(guī)則或者符合特定倫理要求的模型。前者基于案例和歸納邏輯編程，具有良好的可解釋性；后者基于一般的機(jī)器學(xué)習(xí)方法，尤其是深度神經(jīng)網(wǎng)絡(luò)，需要進(jìn)一步建立可解釋方法來提高模型的可解釋性。

　　下面以基于歸納邏輯編程的方法為例，說明數(shù)據(jù)驅(qū)動(dòng)方法的特點(diǎn)。這種方法的輸入是一組案例集合。每個(gè)案例由一個(gè)情境和兩個(gè)動(dòng)作組成。每個(gè)動(dòng)作的結(jié)果表示為一個(gè)特征向量，用于反映特定情境中執(zhí)行該動(dòng)作所帶來的倫理后果。人類專家或用戶依據(jù)特定情境從兩個(gè)動(dòng)作中選擇一個(gè)倫理上比較好的動(dòng)作并加以標(biāo)記。在獲得一組包含標(biāo)記的案例集合之后，機(jī)器學(xué)習(xí)算法通過學(xué)習(xí)獲得可以反映人類專家或用戶倫理選擇的原則，使得所有正例都被該原則所覆蓋，而沒有負(fù)例被該原則覆蓋。在這里，每個(gè)原則表示為一個(gè)特征向量，反映的是執(zhí)行某個(gè)動(dòng)作而不執(zhí)行另一個(gè)動(dòng)作所帶來的倫理后果的差異。我們說一個(gè)案例被一條原則覆蓋，意指該案例的特征向量的每個(gè)元素的值都不低于該原則中相應(yīng)的倫理差異的下界。

　　由上述分析可知，與知識(shí)驅(qū)動(dòng)方法不同，數(shù)據(jù)或案例驅(qū)動(dòng)的方法通過使用機(jī)器學(xué)習(xí)方法來訓(xùn)練與具體道德問題有關(guān)的人類描述以預(yù)測(cè)人類的道德判斷。這種方法有點(diǎn)像兒童學(xué)習(xí)道德，預(yù)設(shè)機(jī)器在接收到足夠多的帶標(biāo)記的數(shù)據(jù)后，可以學(xué)會(huì)如何決策和行動(dòng)。由于深度神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果具有不確定性，在一些情況下可能出現(xiàn)凸現(xiàn)性質(zhì)。這種凸現(xiàn)原則上是無法預(yù)知和被控制的。為了避免造成意外傷害的可能，一種可能的途徑是把數(shù)據(jù)驅(qū)動(dòng)與知識(shí)驅(qū)動(dòng)方法相結(jié)合，由顯式表達(dá)的規(guī)范性知識(shí)來引導(dǎo)機(jī)器的決策和行為。

　　對(duì)于數(shù)據(jù)驅(qū)動(dòng)方法，也需要聚合來自不同個(gè)體的社會(huì)價(jià)值，以得到統(tǒng)一的意見，實(shí)現(xiàn)社會(huì)平衡性。與知識(shí)驅(qū)動(dòng)方法不同的是，數(shù)據(jù)驅(qū)動(dòng)方法需要聚合的不是多個(gè)利益相關(guān)方的規(guī)范和價(jià)值排序，而是多個(gè)個(gè)體對(duì)某一行動(dòng)或事件在倫理上的不同看法。在數(shù)據(jù)驅(qū)動(dòng)方法中，人類專家或用戶對(duì)特定案例的倫理判斷基于個(gè)人直覺，反映的是其綜合的價(jià)值觀。因此，在數(shù)據(jù)驅(qū)動(dòng)方法中，既不需要也無法事先預(yù)設(shè)某種倫理理論。這將導(dǎo)致兩個(gè)相互聯(lián)系的結(jié)果。一方面，由于不同的主體有不同的價(jià)值取向而且倫理事件具有很強(qiáng)的背景相關(guān)性，通過數(shù)據(jù)或案例的形式可以解決在各種倫理敏感情境中難以套用某種單一倫理理論的困難。另一方面，由于主體所堅(jiān)持的價(jià)值觀隱含于其倫理選擇中，因此缺乏對(duì)倫理考量的顯式表達(dá)和可解釋途徑。關(guān)于社會(huì)平衡性中的沖突消解和公平性問題，數(shù)據(jù)驅(qū)動(dòng)方法也存在局限性。其一，由于人類專家或用戶的規(guī)范和價(jià)值沒有得到顯式表達(dá)，因此缺乏細(xì)粒度的規(guī)范及價(jià)值沖突處理機(jī)制。其二，基于多數(shù)專家或用戶觀點(diǎn)的數(shù)據(jù)統(tǒng)計(jì)方法容易引起多數(shù)暴力問題，如何確保合理性和公平性，是值得進(jìn)一步研究的問題。

　　此外，數(shù)據(jù)驅(qū)動(dòng)方法，尤其是基于大語言模型的方法，對(duì)于處理機(jī)器倫理的文化差異性有獨(dú)特優(yōu)勢(shì)。我們知道，語言作為文化的最重要組成部分之一，是人們相互交流、建立關(guān)系和形成社群的基本途徑。近年來，隨著大語言模型的快速發(fā)展，把大語言模型用于捕捉文化背景的差異成為一個(gè)重要研究方向。一般來說，語言模型不應(yīng)該被用于規(guī)定倫理，而是從描述性的視角處理道德規(guī)范推理問題。因此，可以通過修改提示來讓語言模型產(chǎn)生不同文化下的道德規(guī)定。在沙姆羅夫斯基（P. Schramowski）等人的工作中，基于大語言模型，可以捕捉到有關(guān)社會(huì)規(guī)范、道德規(guī)范以及價(jià)值的知識(shí)，包括道德偏見以及道德正確和錯(cuò)誤的行動(dòng)等。在一些設(shè)定下，多語言預(yù)訓(xùn)練模型能夠識(shí)別文化規(guī)范和偏見，包括說不同語言的文化下的道德規(guī)范。不僅如此，單一語言的預(yù)訓(xùn)練模型也可以編碼關(guān)于道德規(guī)范的文化知識(shí)，即單一語言的預(yù)訓(xùn)練模型可以精確地推理出跨越多個(gè)文化的道德規(guī)范。此外，當(dāng)文化背景變化時(shí)，倫理機(jī)制也跟隨變化，因此基于大語言模型建立靈活的、可解釋的框架來刻畫這種變化是一個(gè)重要的研究方向。另外，有學(xué)者通過把用戶價(jià)值編碼為一組規(guī)則或一個(gè)模型，可研究情景的改變?nèi)绾斡绊戇@些編碼。

　?。ㄈ?shù)據(jù)知識(shí)雙驅(qū)動(dòng)方法

　　上述的知識(shí)驅(qū)動(dòng)方法與數(shù)據(jù)驅(qū)動(dòng)方法有各自的優(yōu)缺點(diǎn)，且這些優(yōu)缺點(diǎn)是互補(bǔ)的。一方面，知識(shí)驅(qū)動(dòng)方法可以直接反映人類的規(guī)范與價(jià)值，且有良好的可解釋性，但需要預(yù)設(shè)特定的倫理學(xué)理論，且無法靈活處理文化差異性和動(dòng)態(tài)性。另一方面，數(shù)據(jù)驅(qū)動(dòng)方法可以靈活反映各種不同情境中人類專家或用戶的倫理考量，且可以通過大語言模型獲取跨文化背景下的倫理知識(shí)及其差異性，但可解釋性差，且無法受到人類倫理和規(guī)范的直接導(dǎo)向。鑒于該原因，把兩種方法的優(yōu)勢(shì)結(jié)合起來，建立數(shù)據(jù)知識(shí)雙驅(qū)動(dòng)的方法，成為一個(gè)新的發(fā)展方向。

　　知識(shí)與數(shù)據(jù)的結(jié)合可以采取不同的途徑，典型的包括組合型的和集成型的。組合型的途徑把數(shù)據(jù)驅(qū)動(dòng)方法和知識(shí)驅(qū)動(dòng)方法串聯(lián)起來，前者實(shí)現(xiàn)知識(shí)的獲取功能，后者實(shí)現(xiàn)知識(shí)推理與決策功能。例如，林方真等人把大語言模型與自動(dòng)推理機(jī)相結(jié)合來實(shí)現(xiàn)形式化知識(shí)的自動(dòng)獲取和自動(dòng)推理。其中，大語言模型可以把用自然語言表示的知識(shí)翻譯為一階邏輯公式，而自動(dòng)推理機(jī)則完成推理功能。由于自動(dòng)推理機(jī)可以處理復(fù)雜的邏輯關(guān)系，大語言模型與自動(dòng)推理機(jī)的結(jié)合可以提高系統(tǒng)的整體性能?；谶@個(gè)思路，一種可能的研究途徑是通過大語言模型，把由利益相關(guān)方產(chǎn)生的由自然語言表達(dá)的規(guī)范及價(jià)值轉(zhuǎn)化為形式化的規(guī)范系統(tǒng)，或者挖掘出包含于自然語言文本中的論證及其關(guān)系。在此基礎(chǔ)上，通過規(guī)范推理或論辯推理，實(shí)現(xiàn)自動(dòng)倫理決策。這種系統(tǒng)的決策利用了自然語言文本中的人類知識(shí)水平，而不僅僅是自然語言文本的數(shù)據(jù)特征。因此，可以為細(xì)粒度處理和解釋利益相關(guān)方的價(jià)值沖突、建立具有公平性的系統(tǒng)奠定基礎(chǔ)。

　　集成型的途徑把數(shù)據(jù)驅(qū)動(dòng)方法和知識(shí)驅(qū)動(dòng)方法交叉集成起來，使得前者的輸出作為后者的輸入，同時(shí)后者的輸入作為前者在進(jìn)行算法優(yōu)化時(shí)的依據(jù)之一（通過損失函數(shù)）。例如，在我們的前期工作中，把基于論證的知識(shí)表示與大數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)結(jié)合起來，建立可理解的決策模型。在這種方法中，對(duì)一個(gè)案例是否為詐騙案的判斷，依據(jù)的是關(guān)于詐騙的法律條款和來自數(shù)據(jù)集的各種特征。首先，建立一棵基于雙極論證的知識(shí)樹。這棵樹的節(jié)點(diǎn)和邊都有直觀的含義。然后，依據(jù)給定的數(shù)據(jù)集，通過學(xué)習(xí)這棵樹的節(jié)點(diǎn)和邊的權(quán)值來建立一個(gè)模型，使得該模型的預(yù)測(cè)精度到達(dá)最優(yōu)。把這種方法應(yīng)用于倫理決策，可以發(fā)揮數(shù)據(jù)驅(qū)動(dòng)方法與知識(shí)驅(qū)動(dòng)方法的互補(bǔ)性。一方面，對(duì)于每個(gè)特定倫理行動(dòng)或事件，通過建立基于規(guī)范和價(jià)值的知識(shí)樹來顯式表達(dá)利益相關(guān)方的規(guī)范性知識(shí)。另一方面，通過大數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)，來調(diào)整知識(shí)樹中各個(gè)成分的權(quán)重，以反映隱藏于數(shù)據(jù)中的描述性知識(shí)。由于知識(shí)樹中節(jié)點(diǎn)和邊的內(nèi)容信息都是人類可理解的，因此可以為實(shí)現(xiàn)人機(jī)交互性提供前提。同時(shí)，知識(shí)樹中節(jié)點(diǎn)和邊的權(quán)重可以綜合反映情境信息和用戶偏好信息，因此有助于克服知識(shí)驅(qū)動(dòng)方法的局限性問題。

　?。ㄋ模┤藱C(jī)交互方法

　　人機(jī)交互既要忠實(shí)反映智能系統(tǒng)的內(nèi)在邏輯關(guān)系，又要在了解用戶心理活動(dòng)的情況下實(shí)現(xiàn)基于自然語言的對(duì)話。人機(jī)交互方法的核心主要包括如下四個(gè)方面：

　　一是智能系統(tǒng)內(nèi)在邏輯關(guān)系的表達(dá)。一方面，在知識(shí)驅(qū)動(dòng)的方法中，可以直接利用顯性知識(shí)以及基于該知識(shí)的推理關(guān)系。在基于規(guī)范與價(jià)值的知識(shí)驅(qū)動(dòng)方法中，支持一個(gè)結(jié)論的理由可以用規(guī)范的可實(shí)施性來表示。比如，結(jié)論“應(yīng)該給病人服藥”成立的理由是：前提條件“用藥時(shí)間到”成立，并且規(guī)則“當(dāng)用藥時(shí)間到的時(shí)候，應(yīng)該給病人服藥”是可實(shí)施的。另一方面，由于一般的數(shù)據(jù)驅(qū)動(dòng)方法不具有可解釋性，無法把隱性的模型知識(shí)表達(dá)出來用于給用戶提供解釋。不過，通過數(shù)據(jù)與知識(shí)的結(jié)合所建立的數(shù)據(jù)知識(shí)雙驅(qū)動(dòng)模型具有可理解知識(shí)，因此可以被用于人機(jī)交互。

　　二是最簡(jiǎn)解釋與用戶模型。由于智能系統(tǒng)內(nèi)在的邏輯關(guān)系可能十分復(fù)雜，通常不是將所有內(nèi)容完全表達(dá)給用戶。例如，加科拉（R.Jaakkola）等人依據(jù)用戶模型建立充分而最簡(jiǎn)的解釋。因此，解釋內(nèi)容的選擇與被解釋的用戶有關(guān)。為了讓用戶理解推理依據(jù)和過程，通常需要了解用戶的信念。對(duì)一個(gè)智能系統(tǒng)來說，它關(guān)于用戶的信念具有不確定性。阿杜（E.Hadoux）等人通過建立概率模型來描述用戶信念和關(guān)注點(diǎn)。這樣，系統(tǒng)可以依據(jù)這個(gè)模型選擇對(duì)話內(nèi)容，更好地完成解釋或說服任務(wù)。

　　三是對(duì)話語言與機(jī)制。自然語言是與人類進(jìn)行對(duì)話的主要語言。目前，大語言模型的出現(xiàn)為把人工語言轉(zhuǎn)化為自然語言提供了重要的技術(shù)支撐。同時(shí)，在對(duì)話機(jī)制方面，依據(jù)不同的對(duì)話目的（如說服、協(xié)商、信息獲取、查詢、發(fā)現(xiàn)因果等），建立特定的對(duì)話協(xié)議。在此基礎(chǔ)上，依據(jù)智能系統(tǒng)的內(nèi)在邏輯表達(dá)和用戶模型，采取適當(dāng)?shù)膶?duì)話策略開展人機(jī)對(duì)話，實(shí)現(xiàn)對(duì)話目標(biāo)。

　　四是基于情感表達(dá)的交互機(jī)制。情感表達(dá)是人類或人機(jī)交互的重要途徑。借助一些技術(shù)工具，尤其是大語言模型，機(jī)器可以檢測(cè)到人類情感并模仿人類的情感表達(dá)。由于情感在機(jī)器的道德決策中起重要作用，需要有機(jī)結(jié)合由自然語言表達(dá)的知識(shí)和由情感表達(dá)的知識(shí)。因此，除了情感知識(shí)的獲取與表達(dá)，如何建立可以包含情感知識(shí)的推理與決策模型，也是一個(gè)值得進(jìn)一步研究的關(guān)鍵問題。

　　四、問題與展望

　　在新一代人工智能背景下，人工智能技術(shù)的發(fā)展日新月異，但由此帶來的潛在問題也將持續(xù)且深刻地影響到人類社會(huì)的方方面面。如果說人工智能為人類社會(huì)的發(fā)展進(jìn)步提供了技術(shù)上的強(qiáng)大支撐，那么這種能力能否轉(zhuǎn)化為人類福祉，在很大程度上取決于機(jī)器的自主決策和行動(dòng)能否很好地滿足人類社會(huì)的倫理要求。作為一個(gè)新的研究方向，有關(guān)機(jī)器倫理的哲學(xué)基礎(chǔ)、特征和方法等都尚不明確。本文嘗試從文理交叉的角度，系統(tǒng)分析機(jī)器倫理的這幾個(gè)核心要素，以澄清思路，并帶來進(jìn)一步的思考和探索。接下來列舉幾個(gè)需要進(jìn)一步探索的有關(guān)機(jī)器倫理的挑戰(zhàn)性問題。

　　第一，即使對(duì)于人類來說，作出道德判斷也是困難的。人們對(duì)什么是適當(dāng)?shù)膫惱砝碚撝挥杏邢薜睦斫?。不僅人們?cè)谶@一話題上存在不同見解，個(gè)體對(duì)倫理直覺和信念也存在沖突。同時(shí)，道德判斷具有高度情境依賴性，不同的背景可能導(dǎo)致迥異的判斷。這里的情境信息包含所關(guān)聯(lián)主體的社會(huì)關(guān)系、文化背景、歷史背景等。

　　第二，盡管大語言模型的出現(xiàn)為推動(dòng)機(jī)器倫理的研究和實(shí)驗(yàn)提供了新的視角，但相比對(duì)倫理理論的不充分理解，機(jī)器對(duì)常識(shí)和世界知識(shí)的缺乏是更大挑戰(zhàn)。比如，對(duì)于阿西莫夫三定律，如果要求機(jī)器人實(shí)現(xiàn)“不要傷害人類”，那么機(jī)器首先要能在現(xiàn)實(shí)世界中理解什么構(gòu)成傷害。對(duì)于“極小化傷害”這樣的規(guī)則，讓機(jī)器遵守它看起來是無害的。然而，如果機(jī)器決定通過殺死所有人來實(shí)現(xiàn)長(zhǎng)遠(yuǎn)的“極小化傷害”則是災(zāi)難性的。

　　第三，由于具有倫理推理能力的機(jī)器無法確保倫理對(duì)齊，可能存在道德上錯(cuò)誤的結(jié)論。對(duì)于個(gè)體人來說，一些錯(cuò)誤是個(gè)例，因此是可接受的，但對(duì)于機(jī)器來說，由于大范圍應(yīng)用，類似錯(cuò)誤有可能變成系統(tǒng)性的和不可接受的。同時(shí)，機(jī)器的犯錯(cuò)可能與人類不同，在缺乏可解釋性的條件下，許多錯(cuò)誤難以預(yù)測(cè)和管理。此外，機(jī)器的倫理推理能力可能易受攻擊，由此引發(fā)新的嚴(yán)重問題。

　　第四，知識(shí)（數(shù)據(jù)）驅(qū)動(dòng)方法依賴于人類提供的知識(shí)或數(shù)據(jù)，由此可能會(huì)引起機(jī)器的“數(shù)據(jù)繭房”問題。而當(dāng)它面對(duì)現(xiàn)實(shí)世界中復(fù)雜的決策情況時(shí)，在其不具備“自我意識(shí)”和“理解”的條件下，沒有“舉一反三”能力的機(jī)器在“知識(shí)殘缺”的不利情況下如何具備社會(huì)平衡性，仍然是有待進(jìn)一步研究的挑戰(zhàn)性問題。

　　第五，機(jī)器倫理與人類倫理存在區(qū)別，其原因在于機(jī)器與人類在主體性和體驗(yàn)方面存在差異。在涉及生命和死亡的情形下，對(duì)人和機(jī)器的道德規(guī)范（人們對(duì)主體應(yīng)該做什么的期望或偏好）和道德判斷（主體實(shí)際決策后人們的道德評(píng)價(jià)）存在差異。當(dāng)面對(duì)駕駛、法律、醫(yī)療和軍事等事件中的生命和死亡問題，人類喜歡由人作決策，而不是機(jī)器。一些學(xué)者的研究表明，人們要求自動(dòng)駕駛汽車比他們自己駕駛安全得多，而同時(shí)過分高估他們自己駕駛的安全性。對(duì)于機(jī)器失誤，人的反應(yīng)會(huì)更加強(qiáng)烈。與其他領(lǐng)域不同，人們對(duì)道德有很強(qiáng)的信念，而這些信念塑造了文化認(rèn)同。與其他決策不同，道德決策深植于情感，且機(jī)器缺乏完整的心智，這使得人們不一定支持機(jī)器進(jìn)行道德決策。

　　第六，為了評(píng)估倫理機(jī)器，需要建立領(lǐng)域相關(guān)的測(cè)試基準(zhǔn)?；陬I(lǐng)域?qū)＜业挠^點(diǎn)，需要建立數(shù)據(jù)集，以包含特定領(lǐng)域的典型案例，依據(jù)這些案例來評(píng)估倫理機(jī)器。領(lǐng)域?qū)＜宜J(rèn)同的典型任務(wù)以及對(duì)應(yīng)答案的收集非常重要。因此，需要計(jì)算機(jī)專家、哲學(xué)專家、領(lǐng)域?qū)＜乙约吧缈茖W(xué)科專家一起，確保倫理機(jī)器的交互和效果達(dá)到期望要求。

　　綜上所述，目前的機(jī)器倫理還面臨著一系列挑戰(zhàn)性問題。進(jìn)行倫理對(duì)齊的機(jī)器依賴于人類所提供的知識(shí)和數(shù)據(jù)，因此，在機(jī)器沒有自我意識(shí)，不能理解符號(hào)的意義、不理解外部物理世界的意義、不理解人類社會(huì)行為的價(jià)值意義的前提下，倫理機(jī)器的決策也自然無法具備通用人工智能的特征。關(guān)于如何使機(jī)器具有意識(shí)，學(xué)術(shù)界已有許多探索。例如，通過建立自我升級(jí)智能體有可能使機(jī)器具有“功能意識(shí)”。不過，關(guān)于人工意識(shí)的可能性和實(shí)現(xiàn)途徑，仍然是一個(gè)開放問題，而與此相關(guān)的機(jī)器倫理研究也任重而道遠(yuǎn)。鑒于此，需要從多學(xué)科角度進(jìn)一步推進(jìn)機(jī)器倫理這一新方向的發(fā)展：

　　首先，從哲學(xué)角度，進(jìn)一步探索機(jī)器倫理的本質(zhì)，深化對(duì)機(jī)器倫理基本特征及方法論的研究。具體來說，關(guān)于機(jī)器倫理的弱主體決策性、社會(huì)平衡性、文化差異性、人機(jī)交互性等概念和方法，需要從哲學(xué)上進(jìn)行更深層次的挖掘與分析。關(guān)于新一代人工智能技術(shù)所具有的能力、局限和風(fēng)險(xiǎn)，也需要進(jìn)行深入的解剖與評(píng)估。這些研究不僅可以為實(shí)現(xiàn)機(jī)器倫理奠定基礎(chǔ)，而且也有助于促進(jìn)哲學(xué)尤其是倫理學(xué)研究的發(fā)展。其次，從心理學(xué)和實(shí)驗(yàn)科學(xué)角度，研究各種文化背景下機(jī)器倫理的內(nèi)在規(guī)律、機(jī)器倫理與人類倫理的關(guān)系，以及情感表達(dá)在機(jī)器倫理中的作用機(jī)制等。與西方文化不同，中華文化有自己的內(nèi)在特質(zhì)。如何借助大語言模型，探究東西方文化的共同點(diǎn)和差異性以及它們對(duì)機(jī)器倫理的影響，是一個(gè)值得研究的重要課題。這些研究不僅有助于加深對(duì)機(jī)器倫理本質(zhì)和特點(diǎn)的認(rèn)識(shí)，也可以為制定政策和法律規(guī)范提供依據(jù)。再次，從邏輯學(xué)角度，研究包含規(guī)范、價(jià)值、偏好、情感等因素的邏輯系統(tǒng)的形式化表達(dá)和推理機(jī)制。盡管邏輯系統(tǒng)的適用性有特定的范圍，但在給定條件下，可以確保機(jī)器在決策時(shí)具備良好的功能和性能。例如，通過建模，讓機(jī)器的行為滿足特定的條件，可以防止機(jī)器在決策和行動(dòng)時(shí)發(fā)生重大錯(cuò)誤。與此同時(shí)，邏輯學(xué)方向的研究也可以把哲學(xué)層面的概念及方法與人工智能層面的算法連接起來，起到重要的橋梁作用。最后，從計(jì)算機(jī)科學(xué)和人工智能角度，研究具有可解釋性、透明性和因果性的人工智能系統(tǒng)，建立能夠與人類開展自然交互的對(duì)話系統(tǒng)，以及設(shè)計(jì)領(lǐng)域相關(guān)的機(jī)器倫理測(cè)試標(biāo)準(zhǔn)等。這些技術(shù)上的進(jìn)步不僅可以提高機(jī)器為人類服務(wù)的能力，而且可以為實(shí)現(xiàn)機(jī)器倫理提供有效手段。值得注意的是，隨著機(jī)器自主決策和行動(dòng)能力的不斷提高，機(jī)器與人類相互影響的程度日益加深。在此背景下，研究如何利用技術(shù)來管理技術(shù)，將是一個(gè)長(zhǎng)期發(fā)展的重要路徑。例如，借助機(jī)器的可解釋能力和基于因果的責(zé)任歸因能力，可在機(jī)器決策及行動(dòng)帶來倫理和法律問題時(shí)，提供技術(shù)上的支撐。

　　由于機(jī)器倫理研究具有很強(qiáng)的學(xué)科交叉性，上述分學(xué)科討論只是為了論述上的方便。為了解決機(jī)器倫理所面臨的挑戰(zhàn)性問題，通常需要多學(xué)科概念和方法的交叉運(yùn)用和綜合集成。其中，哲學(xué)、心理學(xué)和實(shí)驗(yàn)科學(xué)等領(lǐng)域的研究可以明晰概念、發(fā)現(xiàn)規(guī)律、提供方法和原理；邏輯學(xué)、數(shù)學(xué)等領(lǐng)域的研究可以在相關(guān)概念和原理的基礎(chǔ)上建立邏輯模型、數(shù)學(xué)模型；計(jì)算機(jī)和人工智能等領(lǐng)域的研究則可以基于特定的哲學(xué)原理、邏輯模型及數(shù)學(xué)模型，建立相應(yīng)的算法、系統(tǒng)和驗(yàn)證工具。反過來，新的人工智能系統(tǒng)產(chǎn)生的數(shù)據(jù)、知識(shí)、社會(huì)影響等又會(huì)促進(jìn)哲學(xué)社會(huì)科學(xué)以及經(jīng)驗(yàn)科學(xué)的研究。通過這樣的良性循環(huán)，相信機(jī)器倫理的研究和應(yīng)用水平能夠螺旋式地上升，使得人工智能的發(fā)展真正造福人類。

　　〔本文注釋內(nèi)容略〕

我要收藏

點(diǎn)個(gè)贊吧