人工孿生智慧:是善,抑或是惡?

文/王啟樺


圖片來源:https://cmte.ieee.org/futuredirections/2017/09/27/can-we-have-a-digital-twin/

 前言


本文以近年來逐漸普遍的新型態人工智慧技術--人工孿生智慧 (Artificial Twintelligence)為題,淺談其正在對人類社會造成的善與惡。人工孿生智慧是由數位孿生(Digital Twin),合成數據 (Synthetic Data)以及可信任人工智慧(Trustworthy Artificial Intelligence) 交叉所形成的新興資料科學科技,已經以飛快的速度影響美國百工百業的工作實況。首節介紹人工孿生智慧之善,數位孿生臨床試驗,縮短藥物研發週期以幫助更多患者重返健康;接著揭露人工孿生智慧之惡,數位孿生金融詐欺,偷盜人們數位身份以詐欺政府補助與金融服務,蠶食人們於現代數位世界之間的社會信任;以及它們背後所需要的數學知識。

 人工孿生智慧之善:數位孿生臨床試驗-合成控制組


首先,筆者介紹人工孿生智慧之善的應用-臨床試驗-合成控制組 (Synthetic Control Arm)。此項技術是近期於美國醫藥界逐漸熱門的臨床醫學新範式。其原理是利用人工智慧技術,複製模擬出患者的數位孿生(Digital twin)。而數位孿生患者可用於治療藥物的臨床試驗中,控制組的模擬,以加速藥物試驗的整體流程,讓患者早日使用最新醫學成果的結晶。

臨床試驗是研究機構與醫院,以人為試驗對象的研究。由於各種治療方式,藥物藥品,醫療器材在動物試驗的結果不一定能提供人體實驗結果很好的預測,在廣泛使用治療流程以前,需要以人體做臨床試驗。其中,研究人員需要收集足夠的資訊與證據,特別是安全性與有效性的面向,才能正確判斷新治療方式對病患的適用性。臨床試驗實務上有兩個主要問題:試驗需要大量患者,而患者擔心得到安慰劑療程而非新療程。

基於人工孿生智慧科技的新技術,合成控制組(Synthetic Control Arm),能夠有效解決上述臨床試驗實務上的兩個主要問題。前者使臨床試驗需要耗費數年才有足夠證據支持療程效果,而後者是患者選擇不參加或中斷臨床試驗的原因。有鑒於臨床試驗成本高昂以及可用數位資料的增加,美國食品藥物管理局(FDA)已經開始考慮批准基於合成控制組技術的藥物研發流程。如果正式通過,那這將是醫藥研制產業一個重要的新里程碑。

合成控制組是一種更安全,更節省時間,更節省金錢的新型臨床試驗方法。傳統臨床試驗,需要從試驗招募的患者中,將患者隨機分配至控制組以及對照組。為了取得統計上足夠有效的臨床證據,傳統臨床試驗的招募過程時常需要等待大量的時間招募足夠數量滿足條件的患者。而新型基於合成控制組的方法,則利用了患者病歷以及健康數據來合成控制組。這些健康數據的來源可以非常廣泛,包括電子健康紀錄、疾病紀錄、歷史臨床試驗紀錄、醫藥理賠紀錄、健身紀錄、以及家庭醫療設備的紀錄。這項新技術,能夠有效加快控制組患者的「招募」,也就是透過合成對照組患者的數據孿生,來加快臨床試驗的進展。臨床試驗進展加速對藥物研發是極大的福音,利用合成控制組技術提高效率,減少延遲,降低試驗成本,可加速藥物上市,並讓藥物升級流程更加迅速。

合成控制組也可以讓參與臨床試驗的患者更加積極治療。個體患者常常會因為得知痊癒後較差或者當前療程效果不樂觀,造成擔憂而退出臨床試驗。這個特色也因此能降低「招募」的難度。利用基於合成控制組的混合實驗設計模式為受監管的臨床試驗提供風險更小的替代方案,並且可以更好判斷繼續試驗所可能帶來的長期風險。此外,合成控制組也能夠消除解盲前訊息暴露的風險,因為控制組的合成患者與對照組的實際患者,並無交流痊癒後結果的可能。合成控制組的方法,在罕見疾病更能發揮其人工孿生智慧的特色,加速相關治療方案的批准過程。

 人工孿生智慧之惡:數位孿生金融詐欺-合成身份詐欺


接下來,筆者介紹人工孿生智慧之惡的應用-金融詐欺-合成身份詐欺 (Synthetic Identity Fraud)。此項技術是近期美國金融科技界逐漸增長的詐欺新範式。其原理是利用人工智慧技術,複製模擬出用戶(信用卡持卡人,債權人)的數位孿生(Digital twin)。而數位孿生用戶被用於提交假的申請,向放款標準低、借貸快速的新興金融科技產業進行詐欺。美國政府曾遭受合成身份詐欺大量新冠肺炎失業者的補助款。

[資料來源:https://www.justice.gov/usao-sdfl/pr/defendant-pleads-guilty-stealing-24-million-covid-19-relief-money-through-fraud-scheme

數位身分可以定義為「線上存在的個人或組織的資訊主體」;然而,實際上很少人能了解並保護自己的數位身分。數位身分可以使用在我們的社交媒體資料中,也可以使用在我們的信用紀錄歷史中,也可以使用在我們的生理健康數據中。這種廣泛度讓惡意使用者有了機會,將暴露於網路的數位身分用於金融犯罪目的。人們雖然擔心個人資訊被盜用,卻也沒有有效的方式在網路世界保護自己的身份。舊有的驗證方式,包含密碼,安全問題,數位簽名等,在現代的人工智慧進展下,變得脆弱容易攻破。數位身分是一把雙面刃。一方面,數位身分可以讓消費者或者員工安全地執行線上與線下的工作;然而,數位身分也可能被惡意濫用,影響個人工作與社會安全。當有惡意人士使用真實與虛假來創造假資料,就會成為合成身份詐欺。在美國,犯罪者能利用偷來的社會安全碼(SSN)搭配假姓名,假出生年月日,假地址,以合成新身份。這樣的合成身份能提交大量的借貸、小額信用卡、失業補助等申請,來獲取不法所得。

基於人工孿生智慧科技的新技術,合成身份詐欺 (Synthetic Identity Fraud),能夠有效欺騙自動放款的人工智慧算法,造成社會大量損失。合成身份詐欺是當下增長最快的金融犯罪類型,其中主要的方式包含盜用他人個人資訊與謊報自己個人資訊。此類詐欺能夠成功的原因,是因為現行的詐欺偵測人工智慧,在其訓練的過程中,並無經歷過基於合成身份詐欺的惡意行為。如何利用合成數據的方式改善詐欺偵測人工智慧的性能,是目前實務上很重要的科學研究主題。

在盜用他人個人資訊類型的合成身份詐欺,犯罪者在暗網上購買遭竊取的真人個人資訊。另外,身分也可能來自兒童、牢犯、流浪漢、老年人等無法積極捍衛自己身份使用權力的人群。接著結合人工孿生智慧技術,利用一個個人資訊來製造多重合成身份。犯罪者會利用幾個月的時間累積這些合成身份的信用紀錄,接著提出高額借貸,接著破產讓金融科技服務提供者求償無門。這種詐欺技術被用於詐欺政府福利補助,設立人頭帳戶洗錢,以及其他金融犯罪行為。更有甚者,能夠利用Deepfake技術製造假臉,以欺騙網路借貸的生物識別系統。另一類合成身份詐欺的技術是謊報個人資訊。此時犯罪者會使用不屬於自己的社會安全碼,配合真實姓名,真實出生日期,真實聯絡方式。犯罪者接著利用自動程式進行一系列盜用身份的金融犯罪,造成被偷盜者個人的社會信用破產。

如何保護我們自己本身的數位孿生(Digital twins)?近期個人隱私意識於全球抬頭,人們漸漸開始不再願意全權授權個人於網路活動產生的數據給科技巨頭。公權力方面各國政府也開始建立如GDPR(General Data Protection Regulation; 通用資料保護規則)和CCPA(California Consumer Privacy Act; 加州消費者隱私保護法)等關於個人數位隱私的規章,以監管規範科技巨擘對數據的使用。此外,基於區塊鏈等新技術,也獲得逐漸增加的關注與信任,筆者相信2030年的世界,人們對於個人數位身分的認同文化就會足夠成熟,人們不再隨意放任Google或Facebook驗證我們的身份以使用網路服務,也不再委託Visa或Mastercard等金融公司評價信用,而是回到「身份自主權」,積極執行個人數位身份的隱私權與使用權。

 人工孿生智慧的數理基礎


人工孿生智慧是目前最先進的工程技術。筆者在此以有效欺騙自動放款的人工智慧算法為例,簡述此項科技相關的數理基礎與工作原理。

首先,欺騙自動放款的人工智慧涉及的工程技術,稱為「生成對抗網絡(Generative Adversarial Network; GAN) 」。生成對抗網路是一種非監督的機器學習訓練模式。其原理是讓兩個人工智慧相互博弈,直到完成我們所需要的任務表現。 簡單的說,可以想像有兩個AI,分別扮演「偽造者」與「鑑定員」的角色。一方面,偽造者AI的任務,是利用成功獲得貸款的真實身份,想辦法製造出「能通過檢查獲得貸款的合成身份」; 另一方面,鑑定員AI的任務,是利用確定的合成身份,想辦法鑑定出「嘗試詐欺合成身份」與「真實存在身份」之間的差異。偽造者AI與鑑定員AI互相博弈對抗的過程中,就能逐漸訓練出品質很高的假身份資料產生模型,進而詐欺市面上各種金融自動放貸系統。

偽造者AI的數學基礎,是「機率統計」領域。在上面的例子中,偽造者AI利用「成功獲得貸款的真實身份」的樣本,在各種特徵上的統計分佈,來學習「成功獲得貸款的真實身份」背後的機率分佈模型。完成偽造者AI以後,它就掌握了生成「品質很高的假資料」的機率分佈模型。「機率統計」的基礎,是數學系的「數學分析」相關的知識。

鑑定員AI的數學基礎,則是「數學最優化」領域。在上面的例子中,鑑定員AI想各種辦法減低「通過審查的假資料數量」。其中的關鍵,是利用「真實存在身份」與「合成假身份」所對應的機率模型,建構關於自動放貸系統被詐欺的風險函數以後,利用各種數學最優化領域內的演算法,來訓練鑑定員AI以增加其分辨真假資料的能力。當鑑定員AI訓練好以後,它也分不出真假的合成身份就會是「品質很高的假資料」也就最適合去詐欺實際的自動放貸系統。「數學最優化」的基礎,也是數學系的「數學分析」相關的知識。

閱讀上面的數學原理後,讀者是否開始感覺到數學分析,也就是微積分,高等微積分,泛函分析,機率論,統計學,其實是很有用途的數學領域呢?掌握基礎數學,我們就有一條具體能實踐的路,來理解每年最新科技的進展。因此筆者很鼓勵年輕的學生能多學習數學分析相關的課程,讓自己在這個快速變化的時代有足夠的基礎自學跟上潮流。

 結語


人們的善意與惡意,透過當代的人工智慧科技,被自動化、巨大化,成為人類健康的守護者,也成為人類信任的威脅者。筆者認為我們需要逐漸提高保護個人數據的意識,審慎考慮每一次個人數據的分享與使用,讓我們個人自己的數位孿生,能為善而不作惡。

人工孿生智慧:你認為是善,或是惡呢?
 




王啟樺
美國普渡大學統計系博士候選人