Эскулап. Поддельные кости

Как врачи-рентгенологи, так и ИИ-программы испытывают трудности в выявлении «дипфейковых» рентгеновских снимков.

Искусственный интеллект (ИИ) семимильными шагами входит во все сферы нашей жизни, и здравоохранение — не исключение.

Сгенерированные ИИ-изображения уже используются во многих странах в качестве обучающих материалов для студентов, для наполнения баз данных по редким патологиям и для машинного обучения.

Для того, чтобы «натренировать» ИИ распознавать патологии, требуются тысячи изображений, однако собрать такое количество клинических случаев зачастую просто невозможно. В таком случае, высокоточные сгенерированные изображения, или по-другому «дипфейки», позволяют заполнить брешь в нехватке реальных снимков и избежать бюрократической волокиты, связанной с их получением и публикацией.

Несмотря на практическую пользу дипфейков, врачи все больше переживают из-за проблем, связанных с безопасностью и достоверностью данных, поскольку грань между реальным изображением и «подделкой» стирается.

Чтобы понять, насколько хорошо специалисты и существующие мультимодальные большие языковые модели (MLLM) могут отличать сгенерированные рентгенограммы от подлинных клинических изображений, недавно провели исследование, в котором участвовали 17 рентгенологов с опытом работы от 0 до 40 лет.

Оценка проводилась в три этапа:

1. Оценка 154 снимков вслепую, без разглашения цели исследования. Одна половина снимков была подлинной, а вторая — сгенерирована ChatGPT (GPT-4o).

2. Оценка проводилась повторно, но уже после раскрытия цели; ту же задачу поручили нескольким MLLM.

3. Оценка 110 рентгенограмм грудной клетки (половина сгенерирована программой RoentGen*, вторая половина — подлинные) рентгенологами и моделями MLLM.

Лишь 7 рентгенологов на первом этапе заподозрили наличие дипфейков среди снимков.

На втором этапе врачи обнаруживали сгенерированные изображения в среднем с точностью 74,8%, различные MLLM справлялись с задачей в 59,1–85,1% случаев.

На третьем этапе точность распознавания «поддельных» рентгеновских снимков грудной клетки рентгенологами и MLLM оказалась схожа: врачи делали правильный выбор примерно в 70% ситуаций, тогда как показатель ИИ-моделей варьировался от 51,8% до 89,1%.

Таким образом, ни одна MLLM, даже ChatGPT-4o, использованная для создания дипфейк-снимков, не смогла обнаружить все сгенерированные изображения. Но и рентгенологам, в сою очередь, не удалось определить все 100% дипфейков.

Эти результаты говорят о том, что необходимо лучше обучать и врачей, и программы ИИ распознавать «подделки».

Злоупотребление дипфейками может приводить к их использованию в мошеннических целях, судебных разбирательствах или к манипулированию информацией. И тот факт, что каждый пятый сгенерированный ИИ рентгеновский снимок избежал обнаружения экспертами, подчеркивает эту уязвимость.

*RoentGen — органоспецифическая диффузионная модель, обученная для генерации рентгенограмм грудной клетки.

MLLM (англ. Multimodal large language model) — мультимодальная большая языковая модель; ИИ — искусственный интеллект.

https://pubs.rsna.org/doi/10.1148/radiol.252094#fig2

Поддельные кости

Читайте также

Фибрилляция предсердий: фокус на пожилых пациентов

Биксонимания — болезнь, которая лечится отключением интернета

ИИ-врачи? Еще учиться и учиться!

Микророботы наступают

Врачи теряют квалификацию из-за ИИ

И здесь подумают за тебя