亚洲久本草在线中文字幕,国产亚洲一卡2卡3卡4卡网站,善良的小峓子在线观看中文翻译

隱私保護：AI實現(xiàn)醫(yī)療保健臨床數(shù)據(jù)匿名化

2022-09-05 09:06 至頂網(wǎng)軟件與服務(wù)頻道

導(dǎo)讀：醫(yī)療保健無疑是受數(shù)據(jù)泄露影響最大的行業(yè)之一，每起數(shù)據(jù)泄露事件平均造成920萬美元損失。

醫(yī)療保健無疑是受數(shù)據(jù)泄露影響最大的行業(yè)之一，每起數(shù)據(jù)泄露事件平均造成920萬美元損失。在此類違規(guī)案例當(dāng)中，最常暴露在風(fēng)險之下的信息類型正是敏感客戶數(shù)據(jù)。

面對突如其來的新冠疫情，我們已經(jīng)親眼見證創(chuàng)紀錄級別的數(shù)據(jù)泄露事件。IBM最近的一份報告發(fā)現(xiàn)，數(shù)據(jù)泄露的成本也在急劇攀升。

制藥和醫(yī)療保健企業(yè)均需要在保護患者數(shù)據(jù)的前提下，按照嚴苛的指導(dǎo)要求組織運營。因此，任何違規(guī)行為都可能引發(fā)高昂代價。例如，在整個藥物發(fā)現(xiàn)階段，企業(yè)需要收集、處理和存儲個人身份信息（PII），而在試驗結(jié)束并提交臨床申請時，必須在所公布的結(jié)果中注意保護患者隱私。

歐洲藥品管理局（EMA）0070號法規(guī)和加拿大衛(wèi)生部出臺的《公開發(fā)布臨床信息》規(guī)定，均對數(shù)據(jù)匿名化提出了具體建議，希望盡量降低利用結(jié)果還原患者身份信息的風(fēng)險。

除了倡導(dǎo)數(shù)據(jù)隱私之外，這些法規(guī)還要求共享試驗數(shù)據(jù)，確保社區(qū)能夠以此為基礎(chǔ)開展工作。但這無疑讓企業(yè)陷入了兩難境地。

所以，制藥企業(yè)到底如何在數(shù)據(jù)隱私與透明度之間求取平衡，同時又能及時、經(jīng)濟且高效地發(fā)布研究結(jié)果？事實證明，AI技術(shù)能夠承擔(dān)起提交過程中超過97%的工作量，大大減輕企業(yè)的運營負擔(dān)。

臨床研究結(jié)果（CSR）匿名化為何如此困難？

在實施臨床提交匿名化的過程中，企業(yè)主要面臨三大核心挑戰(zhàn)：

1.非結(jié)構(gòu)化數(shù)據(jù)難于處理：臨床試驗數(shù)據(jù)當(dāng)中，有很大一部分屬于非結(jié)構(gòu)化數(shù)據(jù)。研究結(jié)果中包含大量文本數(shù)據(jù)、掃描圖片和表格，處理效率低下。研究報告動輒上千頁，從其中識別出敏感信息就如同大海撈針。而且，沒有任何標準化技術(shù)培訓(xùn)解決方案能夠自動執(zhí)行這類處理工作。

2.手動過程既繁瑣又容易出錯：如今，制藥企業(yè)需要雇用數(shù)百名員工對臨床研究提交進行匿名處理。整個團隊需要經(jīng)歷超過25個復(fù)雜步驟，典型的摘要文檔就可能需要長達45天的處理周期。而且在手動檢查幾千頁材料時，枯燥的過程往往極易引發(fā)錯誤。

3.監(jiān)管指南的開放性解釋：雖然法規(guī)中提出不少詳細建議，但細節(jié)仍然不夠完備。例如，加拿大衛(wèi)生部的《公開發(fā)布臨床信息》規(guī)定就要求身份信息的還原風(fēng)險應(yīng)低于9%，卻并沒有詳細介紹具體的風(fēng)險計算方法。

下面，我們將從解決問題的角度，設(shè)想能夠處理這類匿名化需求的具體方案。

利用增強分析識別人類語言中的敏感信息

以下三大要素，有助于建立技術(shù)驅(qū)動型的匿名化解決方案：

a)用于自然語言處理（NLP）的AI語言模型

如今，AI已經(jīng)能夠像藝術(shù)家那樣創(chuàng)作，也能像醫(yī)生那樣診斷。深度學(xué)習(xí)技術(shù)已經(jīng)推動AI取得諸多進步，而AI語言模型正是其中一股中堅力量。作為專司處理人類語言的算法分支，AI語言模型特別擅長檢測命名實體，例如患者姓名、社保號碼和郵政編碼。

不知不覺當(dāng)中，這些強大的AI模型已經(jīng)滲透到公共領(lǐng)域的各個角落，并受到公開文檔的規(guī)?；?xùn)練。除了知名的維基百科之外，包含40000名患者脫敏數(shù)據(jù)的MIMIC-III v1.4數(shù)據(jù)庫也成為訓(xùn)練AI模型的寶貴資源。當(dāng)然，為了提高模型性能，還需要由領(lǐng)域?qū)＜腋鶕?jù)內(nèi)部臨床試驗報告，對模型開展后續(xù)重新訓(xùn)練。

b)通過人機回圈設(shè)計提高準確率

加拿大衛(wèi)生部提出的9%風(fēng)險閾值標準，可以大致轉(zhuǎn)化為95%左右的模型準確度要求（一般用召回率或精確度來衡量）。AI算法能夠查看大量數(shù)據(jù)并運行多輪訓(xùn)練周期來提高自身準確度。然而，單靠技術(shù)改進還不足以為臨床應(yīng)用做好準備，這些模型還需要人的引導(dǎo)與支持。

為了解決臨床試驗數(shù)據(jù)的主觀性并改善產(chǎn)出結(jié)果，分析解決方案在設(shè)計上要求與人類協(xié)同工作——這就是所謂增強智能。即將人類視為人機回圈中的一部分，他們不僅負責(zé)數(shù)據(jù)標記和模型訓(xùn)練，同時要在解決方案生效后定期提供反饋。通過這種方式，模型的準確度和產(chǎn)出性能都將有所提升。

c)以協(xié)同方式解決問題

我們假設(shè)某項研究共涉及1000名患者，其中980名來自美國本土，其余20人來自南美洲。那么，是否需要對這20位患者的數(shù)據(jù)進行編輯（涂黑）或匿名化處理？是否有必要在同一國家或洲內(nèi)選擇患者樣本？攻擊者可能會以哪些方式把這些匿名化信息同年齡、郵政編碼等數(shù)據(jù)結(jié)合起來，最終還原患者身份？

很遺憾，這些問題并沒有標準答案。為了更清楚地解釋臨床提交指南，制藥商、臨床研究組織（CRO）、技術(shù)解決方案供應(yīng)商和學(xué)術(shù)界的研究人員需要聯(lián)合起來、協(xié)同處理。

AI驅(qū)動的匿名化方法

有了以上幾條基本思路，接下來就是把它們拼湊成完整的解決方案流程。而整個匿名化方案中的各項技術(shù)，應(yīng)當(dāng)基于我們已經(jīng)在工作中使用的實際方法。

臨床研究報告中包含各種結(jié)構(gòu)化數(shù)據(jù)（數(shù)字與身份實體，例如人口統(tǒng)計信息和地址條目），以及我們之前討論過的各種非結(jié)構(gòu)化數(shù)據(jù)元素。必須妥善處理，才能防止惡意黑客將這些內(nèi)容還原為敏感的命名實體。結(jié)構(gòu)化數(shù)據(jù)相對易于處理，但AI算法還需要攻克非結(jié)構(gòu)化數(shù)據(jù)這道難關(guān)。

因此，首先使用光學(xué)字符識別（OCR）或計算機視覺等技術(shù)，將非結(jié)構(gòu)化數(shù)據(jù)（通常為掃描圖像或PDF等格式）轉(zhuǎn)換為可讀形式。之后，將AI算法應(yīng)用于文檔以檢測個人身份信息。為了提升算法性能，用戶可以分享對樣本結(jié)果的反饋，幫助系統(tǒng)了解該如何處理這些置信度較低的分析內(nèi)容。

AI驅(qū)動的匿名化方法

在匿名化完成之后，還須評估相應(yīng)的身份還原風(fēng)險。這項工作通常需要參考人群背景，再結(jié)合來自其他類似試驗的數(shù)據(jù)來共同完成。風(fēng)險評估會通過一組元素著重識別三大風(fēng)險場景——檢察官、記者和營銷人員。這三群群體會從自身需求出發(fā)，嘗試對患者信息加以還原。

在風(fēng)險水平達到規(guī)定建議的9%之前，匿名化流程會持續(xù)引入更多業(yè)務(wù)規(guī)則和算法改進，嘗試以重復(fù)循環(huán)的方式增強效能。再通過與其他技術(shù)應(yīng)用的集成并建立機器學(xué)習(xí)運營（ML Ops）流程，整個匿名化方案就可以被納入實際工作流當(dāng)中。

比算法更艱難的挑戰(zhàn)——數(shù)據(jù)質(zhì)量

對制藥企業(yè)來說，這樣的匿名化解決方案能夠?qū)⑻峤恢芷诳s短達97%。更重要的是，這種半自動化工作流程既提高了效率，同時又保證有人類參與其中。但是，構(gòu)建AI驅(qū)動型匿名化解決方案面臨的最大挑戰(zhàn)又是什么？

其實與大多數(shù)數(shù)據(jù)科學(xué)實踐一樣，這項工作的最大阻礙并不是用于識別命名實體的AI算法，而是如何將研究報告轉(zhuǎn)換為可供AI處理的高質(zhì)量數(shù)據(jù)。對于格式不同、樣式和結(jié)構(gòu)各異的文檔，相應(yīng)的內(nèi)容攝取管道經(jīng)常會無所適從。

因此，AI匿名化解決方案需要不斷微調(diào)以適應(yīng)新的文檔編碼格式，或者準確檢測出圖片/表格掃描件中的起始和結(jié)束位置。很明顯，這方面工作才是AI匿名化當(dāng)中最耗費時間和精力的領(lǐng)域。

臨床研究的匿名化新挑戰(zhàn)

隨著技術(shù)的快速進步，臨床研究的匿名化難度會不會持續(xù)降低、更加高效？雖然AI驅(qū)動型解決方案確實令人眼前一亮，但后續(xù)還將有新的挑戰(zhàn)需要關(guān)注。

首先，通過社交媒體、設(shè)備使用情況和線上跟蹤等方式收集到的消費者數(shù)據(jù)，正大大提升身份還原的風(fēng)險。攻擊者可以將這些公開信息同臨床研究數(shù)據(jù)相結(jié)合，準確識別出患者的身份。更令人擔(dān)憂的是，惡意黑客在AI成果的運用上非常積極，甚至有可能搶在制藥企業(yè)的行動之前。

最后，法規(guī)也在持續(xù)演變，著力適應(yīng)特定國家/地區(qū)的實踐態(tài)勢。也許很快就會有國家公布臨床提交匿名化的具體法規(guī)，這必將增加企業(yè)保持合規(guī)的復(fù)雜性和成本負擔(dān)。但所謂前途是光明的、道路是曲折的，AI技術(shù)的發(fā)展成熟至少為整個行業(yè)帶來了攻克難題的希望曙光。

隱私保護：AI實現(xiàn)醫(yī)療保健臨床數(shù)據(jù)匿名化

相關(guān)閱讀