Umělá inteligence je v práci s daty pacientů diskrétní
Vědci v posledních letech učinili obrovský pokrok ve schopnosti vyvíjet algoritmy umělé inteligence, které dokáží analyzovat údaje pacientů a nabízet nové způsoby diagnostiky a nejlepší varianty léčby. Úspěch těchto algoritmů však plně závisí na přístupu ke zdravotním údajům, což vyvolává obavy o soukromí pacientů. Podle studie Massachusettského technologického institutu (MIT) je však toto riziko v porovnání s přínosem pro pacienta zanedbatelné.
Algoritmy umělé inteligence, jejichž účelem je analýza zdravotních údajů pacienta s cílem stanovení diagnózy či nejvhodnější personalizované léčby, pracují s daty, která byla zbavena všech údajů, pomocí nichž by bylo možné zpětně pacienta identifikovat. Jakákoli teoretická možnost spojení těchto dat s konkrétním pacientem však stále vzbuzuje obavy.
Tým výzkumníků z MIT pod vedením hlavního vědeckého pracovníka institutu Lea Anthonyhy Celiho se proto ve své studii pokusil toto potenciální riziko zpětné identifikace blíže prozkoumat. „Souhlasíme s tím, že existuje určité riziko pro soukromí pacientů, ale existuje také riziko nesdílení dat. Když se údaje nesdílejí, dochází k újmě, což je třeba brát v úvahu,“ uvedl šéf výzkumu MIT, podle nějž dosavadní zjištění naznačují, že potenciální riziko pro soukromí pacientů je výrazně vyváženo přínosem pro pacienty, kteří mají nezpochybnitelný prospěch z lepší diagnostiky a léčby. Leo Anthony Celi zároveň doufá, že tyto soubory dat budou v blízké budoucnosti dostupnější a budou zahrnovat i rozmanitější skupinu pacientů.
AI v analýze rizik obstála, problém je jinde
Nemocnice a další instituce budují ve snaze objevit nové způsoby diagnostiky a léčby rozsáhlé databáze záznamů obsahujících množství informací o kardiovaskulárních či onkologických onemocněních, makulární degeneraci, onemocnění covid‑19 a mnoha dalších. Leo Anthony Celi spolu s dalšími výzkumníky z Laboratoře pro počítačovou fyziologii MIT vytvořili několik veřejně dostupných databází, včetně databáze MIMIC (Medical Information Mart for Intensive Care), kterou využili k vývoji algoritmů, jež by měly lékařům pomoci činit lepší lékařská rozhodnutí. Data z MIMIC pak podle MIT využila i řada dalších výzkumných skupin. Podobné databáze ale prý vznikají po celém světě.
Data vkládaná do těchto typů databází se podle MIT obvykle nejprve očistí od určitých typů identifikačních údajů – jmen, adres či telefonních čísel pacientů. To proto, aby pacienti nemohli být zpětně identifikováni, a nebylo tak ohroženo jejich soukromí. Protože přetrvávající obavy o ochranu soukromí zpomalují vývoj těchto veřejných databází, rozhodl se Celi se svým týmem zjistit, jak velké riziko pro pacienty veřejné databáze skutečně představují. Výzkumníci nejprve prozkoumali databáze vědeckých článků PubMed s cílem najít jakékoli zmínky o opětovné identifikaci pacientů z těchto veřejných databází. Žádné nenašli.
Svou rešerši tedy rozšířili a pomocí globální databáze zpráv Media Cloud a analytického nástroje s otevřeným zdrojem prozkoumali zmínky v médiích za období od září 2016 do září 2021. Takto prověřili přes deset tisíc amerických mediálních publikací, ani tak nenašli jediný případ opětovné identifikace pacienta.
Při svém pátrání však zjistili, že ve stejném období byly odcizeny skrze úniky dat zdravotní záznamy bezmála 100 milionů lidí. Přitom tato data měla být bezpečně uložena. Skutečné riziko pro soukromí pacientů tedy nepředstavují algoritmy umělé inteligence pracující s daty zbavenými výše zmíněných identifikátorů, ale kybernetická bezpečnost. „Samozřejmě je dobré mít obavy o soukromí pacientů a riziko opětovné identifikace, ale toto riziko, i když není nulové, je ve srovnání s problémem kybernetické bezpečnosti zanedbatelné,“ zdůraznil pro MIT News Leo Anthony Celi.
Lepší zastoupení menšin
Data jsou všechno, bez nich není naplňování potenciálu umělé inteligence možné a lékaři jsou slepí. Do budoucna je proto podle výzkumníků z MIT nezbytné rozšířit sdílení „deidentifikovaných“ zdravotních údajů tak, aby byly více zahrnuty i menšinové skupiny, které jsou dle Celiho ve Spojených státech amerických tradičně nedostatečně zastoupeny. „S umělou inteligencí nemůžeme pokročit, pokud se nevypořádáme s předsudky, které se skrývají v našich souborech dat. Když vedeme debatu o ochraně soukromí, nikdo neslyší hlas lidí, kteří nejsou zastoupeni,“ upozorňuje Celi. Vyžadování souhlasu pacientů se sdílením dat podle výzkumníků z MIT problém bezpečnosti neřeší. Celi proto se svým týmem doporučuje spíše posilovat stávající ochranná opatření. Jedna z nových strategií, kterou Celi popsal pro MIT News, spočívá v takovém sdílení dat, aby data nebylo možné stáhnout a aby všechny dotazy, které jsou v databázi prováděny, mohli sledovat její správci. „To, co prosazujeme, je provádění analýzy dat ve velmi bezpečném prostředí, abychom vyloučili všechny nekalé hráče, kteří se snaží data využít z nějakých jiných důvodů než ke zlepšení zdravotního stavu populace,“ uzavírá hlavní vědecký pracovník MIT.