Автоматическая обработка естественного языка (англ. Natural Language Processing, NLP) в медицине используется в трех типах задач:

1. административная поддержка
2. клинические рекомендации
3. медицинские исследования

Административная поддержка

Работу с бумагами часто называют одним из факторов выгорания врачей. В США на заполнение электронной документации (англ. electronic health record, EHR) врачи тратят в среднем 5,9 часа из 11,4 часа рабочего времени каждый день. Почти половину этого времени занимает оформление административной документации, заполнение заказов и выставление счета [1].

С помощью NLP жизнь врачей, которым нужно заполнять массу бумаг, упрощается. Для этого используются голосовые помощники и программы для извлечения информации из неструктурированных врачебных записей.

Клинические рекомендации

Один из важнейших справочников врача — это клинические рекомендации, или протоколы лечения, которые регулярно пересматриваются и обновляются. (в России с ними можно ознакомиться на специальном сайте Минздрава [2]).

Для обновления клинических рекомендаций и работы с ними применяются такие инструменты NLP как:
1. Алгоритм Doc2Vec [3]. Он используется для векторной репрезентации клинических документов (сравнивает и отмечает изменения в клинических рекомендациях и отчетах лабораторий).
2. Извлечение именованных сущностей. Применяется для создания унифицированной медицинской терминологии. Для этого из электронных врачебных записей, отчетов лабораторий, эпикризов пациентов извлекаются наименования диагнозов, процедур и симптомов.
3. Модели sequence-to-sequence. С их помощью клинические понятия и диагнозы сопоставляются с клиническими рекомендациями.
4. Глубокое обучение с подкреплением. Может применяться для разработки машинных инструкций на естественном языке (например, для роботов-ассистентов хирургов).

В качестве входных данных используются неструктурированные клинические рекомендации. Алгоритм собирает их в единую базу данных. Затем полученная информация размечается. Диагнозы классифицируются в соответствии с кодами МКБ-10 [4].

Пример результата работы алгоритма, используемого компанией McKinsey & Company

Алгоритмы NLP могут также использоваться и для постановки или уточнения диагноза [5].

Исследования

Хорошие новости для зоозащитников и просто тех, кто любит зверей: возможно, в будущем алгоритмы станут заменой опытам на животных.

Альтернативой опытам на животных считается метод аналогий, когда исследователи прогнозируют токсичность вещества на основе уже известных свойств похожих элементов. Для оптимизации этого процесса ученые два года собирали токсикологическую базу данных, которая содержит информацию о структуре и свойствах десяти тысяч химических соединений.

В недавнем исследовании ученые из Johns Hopkins Bloomberg School of Public Health показали, что алгоритмы, использующие большие базы данных по химическим веществам, могут прогнозировать токсичность нового вещества лучше, чем результаты стандартных опытов на животных. Алгоритм, который разработала команда исследователей, в среднем дал точность в 80%—95% в воспроизведении согласованного результата опытов на животных. Повторение опытов на животных дало точность в 78%—96% [5].

Источники

1. Tethered to the EHR: Primary Care Physician Workload Assessment Using EHR Event Log Data and Time-Motion Observations
2. Рубрикатор клинических рекомендаций
3. A gentle introduction to Doc2Vec
4. Natural language processing in healthcare
5. Natural language processing of clinical notes for identification of critical limb ischemia
6. Machine Learning of Toxicological Big Data Enables Read-Across Structure Activity Relationships (RASAR) Outperforming Animal Test Reproducibility