從檢測(cè)癌癥到?jīng)Q定誰(shuí)接受崗位面試,AI系統(tǒng)在很多問(wèn)題上都能做得比人類更快、更準(zhǔn)確、更可靠、更公正。不過(guò)AI也經(jīng)歷了無(wú)數(shù)次失敗,有時(shí)甚至是致命的失敗。AI的日益普及也意味著失敗不僅會(huì)影響個(gè)人,還會(huì)影響數(shù)百萬(wàn)人。
AI界正在越來(lái)越多地記錄這些失敗,以監(jiān)控它們可能帶來(lái)的風(fēng)險(xiǎn)。“幫助用戶了解這些系統(tǒng)的工作原理及其意義的信息往往很少。”AI、算法和自動(dòng)化事件與爭(zhēng)議存儲(chǔ)庫(kù)的創(chuàng)始人查理•鮑納爾(Charlie Pownall)說(shuō),“我認(rèn)為這直接影響了人們對(duì)這些系統(tǒng)的信任和信心。導(dǎo)致各組織機(jī)構(gòu)不愿意深入了解AI事件或爭(zhēng)議中到底發(fā)生了什么的原因可能有很多,而不僅僅是潛在的法律風(fēng)險(xiǎn),但如果從可信的角度來(lái)看,這樣做對(duì)他們最有利。”
部分問(wèn)題在于,驅(qū)動(dòng)很多AI系統(tǒng)的神經(jīng)網(wǎng)絡(luò)技術(shù)可能會(huì)以某種方式崩潰,這對(duì)研究人員來(lái)說(shuō)仍然是個(gè)謎。加州大學(xué)伯克利分校的計(jì)算機(jī)科學(xué)家丹•亨德里克斯(Dan Hendrycks)說(shuō):“AI擅長(zhǎng)解決哪些問(wèn)題尚不可預(yù)知,因?yàn)槲覀冞€不太了解智能本身。”
以下是7個(gè)AI失敗的例子,以及它們揭示了當(dāng)前AI的哪些弱點(diǎn)??茖W(xué)家們正在討論解決其中一些問(wèn)題的可能方法;其他問(wèn)題目前尚無(wú)法解釋,或者從哲學(xué)角度講,可能完全缺乏任何結(jié)論性解決方案。
01. 脆弱性
拍一張校車(chē)的照片,然后翻轉(zhuǎn)照片使其側(cè)面著地,就像在現(xiàn)實(shí)世界發(fā)生事故時(shí)那樣。2018年的一項(xiàng)研究發(fā)現(xiàn),在通常能夠正確識(shí)別正面朝上的校車(chē)的最先進(jìn)的AI系統(tǒng)中,平均有97%的系統(tǒng)無(wú)法識(shí)別出旋轉(zhuǎn)后的校車(chē)。
阿拉巴馬州奧本大學(xué)的計(jì)算機(jī)科學(xué)家阮安(Anh Nguyen,音)說(shuō):“它們會(huì)信心十足地說(shuō)校車(chē)是一輛掃雪車(chē)。”他說(shuō),AI無(wú)法完成“甚至我3歲的兒子也能完成的”心理旋轉(zhuǎn)任務(wù)。
這種失敗就是一個(gè)脆弱性例子。AI通常“只能識(shí)別它以前見(jiàn)過(guò)的模式”,阮安說(shuō)。“如果向它展示一種新模式,它就很容易上當(dāng)。”
惱人的AI脆弱性案例很多。將貼紙貼在停車(chē)標(biāo)志上會(huì)使AI誤讀。改變圖像上的一個(gè)像素就能讓AI將馬認(rèn)作青蛙。99.99%的神經(jīng)網(wǎng)絡(luò)會(huì)確信多色靜電是一張獅子的圖像。以肉眼無(wú)法察覺(jué)的方式修改醫(yī)學(xué)圖像后,AI系統(tǒng)會(huì)100%地誤診為癌癥。諸如此類。
亨德里克斯說(shuō),有一種方法可能會(huì)讓AI更強(qiáng)大地應(yīng)對(duì)此類失敗,那就是讓它們盡可能多地暴露在令人困惑的“對(duì)抗性”例子中。然而,它們?nèi)钥赡茉诤币?jiàn)的“黑天鵝”事件中失敗。“新冠病毒或經(jīng)濟(jì)衰退這樣的黑天鵝問(wèn)題,即使是人類也很難解決,這可能不是ML特有的問(wèn)題。”他指出。
02. 固有偏見(jiàn)
AI越來(lái)越多地被用于支持重大決策,例如誰(shuí)能獲得貸款、刑期長(zhǎng)短以及誰(shuí)先獲得醫(yī)療衛(wèi)生服務(wù)。人們希望AI能夠比人類更加公正地做出決策,但很多研究發(fā)現(xiàn),如果訓(xùn)練這些AI所使用的數(shù)據(jù)存在偏見(jiàn),那么可能會(huì)導(dǎo)致集體自動(dòng)歧視,給社會(huì)帶來(lái)巨大風(fēng)險(xiǎn)。
例如,2019年,科學(xué)家發(fā)現(xiàn)美國(guó)在全國(guó)部署的一個(gè)醫(yī)療算法中存在種族偏見(jiàn),影響了數(shù)百萬(wàn)美國(guó)人。該AI的設(shè)計(jì)初衷是確定哪些患者能享受重癥監(jiān)護(hù)計(jì)劃帶來(lái)的益處,但它卻常規(guī)地將更健康的白人患者納入此類計(jì)劃,讓他們排在了病情更嚴(yán)重的黑人患者前面。
加州大學(xué)伯克利分校的研究人員齊亞德•奧博邁爾(Ziad Obermeyer)是一名醫(yī)生,他和同事發(fā)現(xiàn),該算法錯(cuò)誤地認(rèn)為醫(yī)療費(fèi)用高的人是病得最重、最需要照顧的人。然而,由于系統(tǒng)的種族歧視,“黑人患者在需要醫(yī)療衛(wèi)生服務(wù)時(shí)更不太可能得到服務(wù),因此也不太可能產(chǎn)生費(fèi)用,”他解釋道。
在與軟件開(kāi)發(fā)人員合作后,奧博邁爾及其同事幫助設(shè)計(jì)了一種新的算法,通過(guò)分析其他變量,減少了84%的偏見(jiàn)。他說(shuō):“還需要做更多工作,但要打敗偏見(jiàn)并非不可能。”他們最近撰寫(xiě)了一份指南,概述了政府、企業(yè)和其他組織可以實(shí)施的一些基本步驟,以發(fā)現(xiàn)和防止其當(dāng)前和未來(lái)使用的軟件中存在偏見(jiàn)。相關(guān)步驟囊括:識(shí)別其使用的所有算法、了解該軟件的理想目標(biāo)及其在實(shí)現(xiàn)目標(biāo)方面的表現(xiàn)、必要時(shí)對(duì)AI進(jìn)行再訓(xùn)練,以及建立一個(gè)高級(jí)監(jiān)督機(jī)構(gòu)。
03. 災(zāi)難性遺忘
深度偽造(deepfake)是指人工生成高度真實(shí)的虛假圖像和視頻(通常有關(guān)名人、政客和其他公眾人物),這種情況在互聯(lián)網(wǎng)和社交媒體上越來(lái)越普遍,它們能夠欺騙性地描繪人們說(shuō)了或做了并未真正發(fā)生過(guò)的事情,從而造成巨大傷害。為了開(kāi)發(fā)出能夠識(shí)別深度偽造的AI,韓國(guó)成均館大學(xué)的計(jì)算機(jī)科學(xué)家沙羅茲•塔里克(Shahroz Tariq)及其同事創(chuàng)建了一個(gè)網(wǎng)站,人們可以上傳圖像來(lái)檢查圖像的真實(shí)性。
起初,研究人員訓(xùn)練了他們的神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別一種深度偽造。然而,幾個(gè)月后又出現(xiàn)了很多新型的深度偽造,在他們訓(xùn)練AI來(lái)識(shí)別這些新型深度偽造時(shí),AI很快就忘記了如何識(shí)別舊的深度偽造。
這是一個(gè)災(zāi)難性遺忘的例子,AI可能會(huì)在學(xué)習(xí)新信息后突然完全忘記以前知道的信息,基本上是用新知識(shí)覆蓋過(guò)去的知識(shí)。“人工神經(jīng)網(wǎng)絡(luò)的記憶力很差。”塔里克說(shuō)。
AI研究人員正在尋找各種策略來(lái)防止災(zāi)難性遺忘,這樣神經(jīng)網(wǎng)絡(luò)就可以像人類一樣,毫不費(fèi)力地持續(xù)學(xué)習(xí)。有一種簡(jiǎn)單的技術(shù),那就是為每一個(gè)新任務(wù)創(chuàng)建一個(gè)專門(mén)的神經(jīng)網(wǎng)絡(luò),例如,把貓與狗或蘋(píng)果與橘子區(qū)分開(kāi)來(lái),“但這顯然是不可擴(kuò)展的,因?yàn)榫W(wǎng)絡(luò)的數(shù)量會(huì)隨著任務(wù)的數(shù)量而線性增加。”英格蘭牛津大學(xué)的ML研究員薩姆•凱斯勒(Sam Kessler)說(shuō)。
在訓(xùn)練其AI識(shí)別新型深度偽造時(shí),塔里克及其同事探索了另一種方法,即向它提供少量關(guān)于它是如何識(shí)別舊類型深度偽造的數(shù)據(jù),這樣它就不會(huì)忘記如何識(shí)別它們了。塔里克說(shuō),這實(shí)際上就像考試前復(fù)習(xí)課本的章節(jié)小結(jié)一樣。
然而,AI也許并不是總能獲得過(guò)去的知識(shí),比如,處理醫(yī)療記錄等私人信息時(shí)。塔里克及同事希望能制造一種不依賴先前任務(wù)數(shù)據(jù)的AI。他們讓它自己訓(xùn)練如何發(fā)現(xiàn)新型深度偽造,同時(shí)也從另一個(gè)AI那里學(xué)習(xí)如何識(shí)別舊類型的深度偽造。他們發(fā)現(xiàn),在識(shí)別社交媒體上經(jīng)常分享的低質(zhì)量深度偽造方面,這種“知識(shí)精煉”策略的準(zhǔn)確率約為87%。
04. 可解釋性
為什么AI會(huì)懷疑某個(gè)人可能是罪犯或患有癌癥?對(duì)這類以及其他高風(fēng)險(xiǎn)預(yù)測(cè)的解釋會(huì)產(chǎn)生很多法律、醫(yī)學(xué)和其他后果。長(zhǎng)期以來(lái),AI是如何得出結(jié)論的一直仿佛是一個(gè)神秘的黑匣子,很多人都試圖解釋AI的內(nèi)部運(yùn)作方式。“然而,我最近的研究表明,可解釋性領(lǐng)域有點(diǎn)陷入僵局。”奧本大學(xué)的阮安說(shuō)。
阮安及其同事研究了研究人員為解釋人工智決策(例如,是什么決定了火柴棍的圖像是火柴棍,是火焰還是木棍?)而開(kāi)發(fā)的7種不同技術(shù)。他們發(fā)現(xiàn)這些方法有很多都“非常不穩(wěn)定”。阮安說(shuō):“它們每次都能給你不同的解釋。”
此外,雖然一種歸因方法可能適用于一組神經(jīng)網(wǎng)絡(luò),“但它可能在另一組神經(jīng)網(wǎng)絡(luò)上完全失敗。”阮安補(bǔ)充道。他說(shuō),可解釋性的未來(lái)可能需要為正確解釋建立數(shù)據(jù)庫(kù)。然后,歸因方法可以進(jìn)入這些知識(shí)庫(kù),“并搜索可能解釋決策依據(jù)的事實(shí)。”他說(shuō)。
05. 量化不確定性
2016年,在佛羅里達(dá)州北部,一輛開(kāi)啟了自動(dòng)駕駛系統(tǒng)的特斯拉Model S汽車(chē)與其前方一輛左轉(zhuǎn)的卡車(chē)相撞,導(dǎo)致駕駛員死亡,這是報(bào)告的第一個(gè)與自動(dòng)駕駛系統(tǒng)有關(guān)的死亡案例。特斯拉的官方日志表明,無(wú)論是自動(dòng)駕駛系統(tǒng)還是駕駛員“都沒(méi)有在明亮的天空下注意到貨運(yùn)卡車(chē)白色的一側(cè),因此沒(méi)有踩剎車(chē)。”
有一個(gè)辦法也許能幫助特斯拉、優(yōu)步和其他公司避免此類災(zāi)難,即提高其汽車(chē)在計(jì)算和處理不確定性方面的表現(xiàn)。目前,AI“非常確信,即便它們大錯(cuò)特錯(cuò)”,牛津大學(xué)的凱斯勒說(shuō)。如果算法做出了一個(gè)決定,“我們應(yīng)該充分地了解它對(duì)這個(gè)決定有多大信心,特別是對(duì)于醫(yī)療診斷或自動(dòng)駕駛汽車(chē)來(lái)說(shuō),如果它非常不確定,那么人類可以介入并給出(他們)自己對(duì)形勢(shì)的判斷或評(píng)估。”
例如,澳大利亞迪肯大學(xué)的計(jì)算機(jī)科學(xué)家穆盧德•阿卜杜爾(Moloud Abdar)及其同事在AI將皮膚癌圖像歸為惡性或良性,或者黑色素瘤或非黑色素瘤時(shí),應(yīng)用了幾種不同的不確定性量化技術(shù)。研究人員發(fā)現(xiàn),這些方法有助于防止AI做出過(guò)于自信的診斷。
自動(dòng)駕駛汽車(chē)在量化不確定性方面依然存在挑戰(zhàn),因?yàn)槟壳暗牟淮_定性量化技術(shù)通常比較耗時(shí),“而汽車(chē)無(wú)法等待,”阿卜杜爾說(shuō),“我們需要更快的辦法。”
06. 常識(shí)
南加州大學(xué)計(jì)算機(jī)科學(xué)家任翔(Xiang Ren,音)說(shuō),AI缺乏常識(shí),即根據(jù)人們通常認(rèn)為理所當(dāng)然的廣泛日常知識(shí)背景,得出可接受的合理結(jié)論的能力。他說(shuō):“如果不充分重視這些模型的實(shí)際學(xué)習(xí)內(nèi)容,那么它們就會(huì)學(xué)習(xí)一些導(dǎo)致其發(fā)生故障的捷徑。”
例如,科學(xué)家可能會(huì)用仇恨言論異常多的地方的數(shù)據(jù)來(lái)訓(xùn)練AI識(shí)別仇恨言論,比如白人至上主義論壇。然而,當(dāng)這個(gè)軟件暴露在現(xiàn)實(shí)世界中時(shí),它可能認(rèn)識(shí)不到黑人和同性戀者可能比其他群體更經(jīng)常地使用“黑人”和“同性戀”這兩個(gè)詞。“即使一個(gè)帖子引用了一篇不帶任何感情色彩提到猶太人、黑人或同性戀的新聞文章,它也可能被錯(cuò)誤地歸為仇恨言論。”任翔說(shuō)。對(duì)比之下,“當(dāng)一個(gè)形容詞被用在仇恨語(yǔ)境時(shí),人類通讀整個(gè)句子就能識(shí)別出來(lái)。”
此前的研究表明,最先進(jìn)的AI能夠以高達(dá)90%左右的準(zhǔn)確率得出關(guān)于世界的邏輯推斷,這表明它們正在常識(shí)方面取得進(jìn)步。然而,在測(cè)試這些模型時(shí),任翔及其同事發(fā)現(xiàn),即使是最好的AI,生成邏輯連貫的句子的準(zhǔn)確率也不到32%。當(dāng)談到發(fā)展常識(shí)能力時(shí),他說(shuō):“最近我們AI界非常關(guān)心的一件事是,利用更全面的檢查表來(lái)從多個(gè)維度查看模型的行為。”
07. 數(shù)學(xué)
雖然傳統(tǒng)計(jì)算機(jī)很擅長(zhǎng)處理數(shù)字,但AI“在數(shù)學(xué)方面卻出人意料地糟糕”,加州大學(xué)伯克利分校的亨德里克斯說(shuō)。“你的模型可能是最新、最強(qiáng)大的,能使用數(shù)百個(gè)GPU來(lái)訓(xùn)練,但它們?nèi)匀徊蝗缧湔溆?jì)算器可靠。”
例如,亨德里克斯及其同事用數(shù)十萬(wàn)個(gè)數(shù)學(xué)問(wèn)題訓(xùn)練了AI,并給出逐步解答。然而,在用1.25萬(wàn)道高中數(shù)學(xué)競(jìng)賽題測(cè)試時(shí),“它的準(zhǔn)確率只有5%左右。”他說(shuō)。對(duì)比之下,一位3次獲得國(guó)際數(shù)學(xué)奧林匹克比賽金牌的選手“在沒(méi)有計(jì)算器的情況下”解答這些問(wèn)題的準(zhǔn)確率達(dá)90%。
如今的神經(jīng)網(wǎng)絡(luò)可以學(xué)會(huì)解決幾乎每一種問(wèn)題,“只要你給它足夠的數(shù)據(jù)和足夠的資源,但數(shù)學(xué)問(wèn)題不行。”亨德里克斯說(shuō)。他表示,科學(xué)中的很多問(wèn)題都需要大量的數(shù)學(xué)知識(shí),因此目前AI的這一弱點(diǎn)可能會(huì)限制它在科學(xué)研究中的應(yīng)用。
目前尚不清楚為什么AI在數(shù)學(xué)方面表現(xiàn)不佳。有一種可能是,神經(jīng)網(wǎng)絡(luò)是像人腦一樣以高度并行的方式來(lái)處理問(wèn)題的,而數(shù)學(xué)問(wèn)題通常需要一系列的步驟來(lái)解答,因此AI處理數(shù)據(jù)的方式可能不適合這類任務(wù),“就像人類通常無(wú)法在頭腦中進(jìn)行大量計(jì)算一樣。”亨德里克斯說(shuō)。然而,AI在數(shù)學(xué)方面的糟糕表現(xiàn)“仍然是一個(gè)小眾話題,這個(gè)問(wèn)題沒(méi)有多少吸引力”,他補(bǔ)充道。