© pixabay.com

Ученые Университета Пенсильвании научились предсказывать уровень смертности от болезней сердечно-сосудистой системы в разных округах американских штатов. Предсказания работают на основе автоматического анализа твитов, написанных жителями — и выдают результаты лучше, чем при использовании медицинской статистики для той же местности (ожирение, курение, повышенное давление).

Предсказанная смертность от болезней сердечно-сосудистой системы на основе медицинской статистики и Twitter

Алгоритм выделяет в текстах сообщений слова и словосочетания, связанные с разными типами положительных (радость, удовольствие) и отрицательных (гнев, злость, раздражение) эмоций. Извлекаются также лексика, указывающая на то, что человек состоит в отношениях, трудоустроен, имеет профессиональную квалификацию… Как и следовало ожидать, отрицательные эмоции, проблемы с отношениями и устройством на работу положительно коррелируют с уровнем смертности от инфарктов и инсультов.

Алгоритм выделяет в текстах сообщений слова и словосочетания, связанные с разными типами положительных (радость, удовольствие) и отрицательных (гнев, злость, раздражение) эмоций. Извлекаются также лексика, указывающая на то, что человек состоит в отношениях, трудоустроен, имеет профессиональную квалификацию… Как и следовало ожидать, отрицательные эмоции, проблемы с отношениями и устройством на работу положительно коррелируют с уровнем смертности от инфарктов и инсультов.

Облака слов с положительной и отрицательной корреляцией по отношению к уровню смертности

Подробности есть в статье на медиуме.