The Alignment Problem

AI 驚人的發展讓人想像各種厲害的應用,但只要有玩過生成式AI,體會過所謂的「AI幻覺」(AI hallucination),應該可以理解為什麼關於人工智慧的安全性,是這麼重要的議題。包含這個科技的透明度,公平性,安全性,是否與人類共同認定的價值一致?都是這本書想要探討的話題。

我想起小時候看的迪士尼電影「幻想曲」。劇情就是米老鼠作為魔法師的學徒,在幾次嘗試魔法之後發現這股強大的力量可以做許多有趣的事情,甚至讓他有一種呼風喚雨的感覺。但不多久之後,這個魔法開始進入失控的階段,原本以為是魔法主人的這個學徒,突然狼狽的被魔法創造出來的混亂和災難所淹沒。現在人工智慧的發展隱約也呼應著這樣的預言故事。我們發現這個黑箱魔法生出來的東西有令人驚艷的效果,可是也發現我們創造出來的這個黑箱魔法所帶來的結果不見得是我們真實想要的。

#人工智慧是開路先鋒還是照妖鏡

書中舉例分享的是在美國好幾個州裡面使用的人工智慧工具來決定哪一些受刑人可以假釋。在這樣的分析當中發現了遠超過正常比例的有色人種被判斷不符合假釋的條件,而即使是已經有再犯紀錄的白人受刑者,卻可以輕易通過這樣的考驗。

除了假釋的人選判斷之外,現在也是有所聞大企業使用A I來決定雇用的人選,而發現這個選擇面試者的演算法極度的歧視。這個根本的問題當然就是胃進去的大數據本身就已經內建這樣的數據量的偏差。可以看到A I模型並不是魔法,只是更快速而強烈的彰顯我們創造它時,本來就帶著的偏見。

理解這樣子的背景之後,要解決資料本身的完整性和平均代表各種族群,是很不容易的收集工作。特別是監督式學習的A I非常像是黑箱魔法一般,讓人很難解釋他到底為什麼會計算到某一種結果。許多的研究案例當中都要追溯回去原始的資料才能看出為什麼電腦會有如此的誤判。其中一個經典的案例就是皮膚科的醫生用人工智慧去判斷哪些病患皮膚的照片有成為癌症的可能。當有一名病患帶著身上的黑點來求問的時候,醫生非常強烈的感覺這會是皮膚癌的徵兆,但AI模型不管怎麼樣都是判斷沒有問題。最後他們發現這個模型針對照片上有量尺的時候才會判斷為可能是癌症。而追究其原因,當然就是訓練的資料當中往往已經確定是標注為癌症的照片,常常都是伴隨著量尺在圖片當中。

可喜的是現在開始有一些人研究各種介入和機器與員工判斷混合的模型,雖然不是效率最好的,但因為知道最終想要達成的理想而可以讓這個科技不要完全的失控。

#機器學習真的在學我們想教的嗎

機器學習在過去數十年來,都是伴著伴隨著行為心理學與腦神經各種跨領域之間而發展的。過去有許多教導動物的方式,都成為機器學習在早期模仿的對象。我們也不知不覺的認為透過獎勵機制的優化,就可以達成最佳學習效果的目的。但是單純從獎勵機制來創造模型,往往也會有意想不到的錯誤結果。例如在一個遊戲當中機器被賦予最大化分數的時候,很快就會出現無止境原地打轉,只為了得分的情況。書中還有一名心理學家,曾經試著用獎勵行為在自己的孩子身上。他讓四歲的女兒每次能夠帶兩歲,弟弟去上廁所時得到一個餅乾。女兒很快地就負擔起這個責任。但心理學家意外的發現女兒為了得到更多的餅乾,會不停的讓弟弟一直喝水(當然他就立刻停止這個實驗了。)。

但是在行為心理學更多去探討人類學習的方式的時候,發現並不完全是這麼回事。他們發現人類有內建的好奇心,即便是沒有獎勵機制仍然會想要探索,並且對於意想不到的嘗試結果會感到特別的星期和被吸引。「好奇心」是目前無法在機器學習當中能夠創造出來的,也往往是人們能夠真正開創新局帶來突破的主要原因。

#模仿遊戲能理解真正的意圖嗎

現在在各種網路上的行為,透過各種軌跡和入境的分析,都讓人感覺機器比我們還更了解自己想要什麼。但我們真的放心讓機器做我們的代理人去做各種生活中的決定嗎?

在所有行為心理學家的研究當中,發現人類有超乎其他動物的一種模仿能力。但是各種實驗同時也發現一個問題,就是當人模仿一個專家的時候,因為缺乏專家已經有的經驗以及不知道他為什麼會做這樣的判斷,所以光是模仿表面的行為,有時候不但無法達到同樣的結果,甚至有東施效顰的效果。所以模仿者需要知道他最後想達成的目的,並且能過濾所需要學習的東西,才能得到想要的結果。套用在機器學習上,這還有很長的一段路要走。

同時在非常年幼的孩子就可以猜測到他人的意圖,並且在能力範圍當中會主動地協助。不管是模仿的行為,或是猜測他人的意圖,在現在的研究看起來似乎都是能夠幫助人們建立群體合作的重要方式。

我很喜歡書中最後的結論,就是講到真實世界最大的一個特質— 許許多多的未知數。因此當我們想要尋找完美的AI模型來替我們做出決策時,非常的需要知道我們餵養的資料是如此的有限,因此所創造出來的模型不過就是反映我們的有限,以及我們對未知的無法掌控。機器學習蓬勃發展的未來當中,人類需要學習的還有太多了。

書中最後鏡頭轉向1952年,BBC在採訪幾位知名專家關於電腦運算能力的未來。當中有神經科學家,數學和密碼學家,哲學家,以及資訊科學始祖之一的圖靈 (Alan Turing)。圖靈跟主持人描述在教導機器的過程當中,如何像是父母在教導孩子一般,不停嘗試各種新方法,並且他如何看到機器逐漸的學會這些任務。

主持人問他說。「所以到底是機器在學習,還是你在學習呢?」

圖靈停頓了一下,說「我想,我和機器是同步一起在學習吧!」

Leave a Reply