Проверка государственной статистики на вшивость: повышаем дата-грамотность

Дата-грамотность (data literacy) — это элементарные навыки критики данных, умение их читать и делать правильные выводы. Разбираемся, что это такое на примере статистики заболеваемости педикулезом в России.

В России вши традиционно считаются детской болезнью. Проверим народное мнение на государственных данных. Статистику по паразитарным заболеваниям в России собирает Роспотребнадзор и публикует на межведомственной статистической платформе (ЕМИСС)[1].

Первые впечатления — стереотипы о педикулезе ошибочны, вшей чаще находят у взрослых. 

Но нельзя просто брать данные и делать выводы. Сначала нужно сделать несколько предварительных шагов.

1. Шаг первый: определяем методологию сбора данных

Прежде всего нужно понять, с чем мы имеем дело — с генеральной совокупностью, репрезентативной выборкой или же с данными, собранными с систематической ошибкой. Если вы не знаете, что это такое посмотрите в нашем глоссарии.

Все государственные данные собирают по формам статистического наблюдения, федерального или ведомственного. Формы можно найти на сайтах Росстата и ЕМИСС или на порталах, публикующих законодательные акты (поскольку любая форма утверждается каким-то приказом).

Нам нужна форма «Сведения об инфекционных и паразитарных заболеваниях» [2]. Из нее мы узнаем, что данные собираются по регионам, по общей заболеваемости, отдельно по детям (до 14 лет) и несовершеннолетним (до 18), а также сельским жителям. По полу, например, разреза нет, поэтому мы не узнаем, кто чаще вшивеет — мальчики или девочки.

Главное, что это данные о выявленных заболеваниях, их полнота и качество зависит от местных органов Роспотребнадзора и от самих граждан, которые должны регулярно проходить медосмотры. То есть в идеале у нас должна быть генеральная совокупность, но в реальности до этого далеко.

2. Шаг второй: проверяем датасет на ошибки

Данные государственной статистики редко бывают идеальными, они даже редко бывают в действительно машиночитаемых форматах. Например, на ЕМИСС датасеты выгружаются в виде таблиц Excel, но с объединенными ячейками и не всегда корректными типами данных: число может выгрузится как текст и наоборот. Выгруженные таблицы приходится править вручную.

Кроме технической проверки желательно сверить суммы. Наш набор позволяет это сделать — там есть и данные по регионам, и отдельно по России в целом.

В таблице видно небольшое расхождение за 2014-й. Это из-за данных по Крыму и Севастополю. В разрезе по регионам этих данных нет, но в общей сумме они учтены. Этот момент, кстати, не указан в паспорте набора данных на ЕМИСС.

3. Шаг третий: нормируем данные

Мы не можем сравнивать абсолютные числа: несовершеннолетних в России в четыре раза меньше, чем взрослых, а в москвичей в триста раз больше, чем в жителей Ненецкого автономного округа. Поэтому мы умножаем абсолютные значения на 100 тысяч и делим на среднегодовую численность населения. Именно такое нормирование принято в медицинской статистике. Численность населения возьмем на Витрине данных Росстата.

4. Шаг четвертый: проверяем на выбросы

Прежде чем строить «правильный» график, посмотрим данные в разрезе регионов и поищем аномально высокие или низкие значения.

Обычно для этого требуются простейшие инструменты описательной статистики — среднеквадратическое отклонение и квартили, но в нашем случае достаточно просто взглянуть на данные.

В Москве заболеваемость вшами среди взрослых в 35 раз выше, чем по стране, а в ковидные годы — в 50-55 [3].

Можно предположить, что это из-за того, что в самом большом мегаполисе страны выше доля бездомных людей, а местная санитарная служба работает лучше и точнее. И, действительно, согласно ежегодным докладам московского Роспотребнадзора, доля бездомных, страдающих от вредных членистоногих, составляет 97-99% [4]. В Санкт-Петербурге, кстати, не больше 70%.

Московская аномалия настолько велика, что видна даже на абсолютных значениях. С 2010 года две трети всех больных педикулезом — это взрослые бездомные столицы.

Формально Роспотребнадзор прав — бездомные такие же граждане России, как и школьники Москвы и Магадана, но сравнивать их в рамках нашей задачи некорректно. Поэтому просто вычтем из данных по заболеваемости и населению значения Москвы и Санкт-Петербурга и пересчитаем показатель. Разница будет очень заметной.

Характерно, что «полный» показатель среди взрослых вырос в «ковидные» годы — пандемия не уменьшила ни саму заболеваемость, ни выявляемость среди бездомных, тогда как дети сидели дома или, по крайней мере, реже попадали на осмотр.

В принципе, мы могли оставить данные по Москве, но взять среднее от относительных показателей на 100 тысяч по регионам. Это допустимо, так как данные уже нормированы. Картина будет примерно такая же.

5. Итог: создаем «правильный» график

У нас есть все данные для графика, и все закончилось хорошо — мы смогли привести данные в порядок и ответить на вопрос, кто чаще разводит вшей.

Но иногда бывает по-другому. Например, на ЕМИСС есть датасет «Общее количество происшествий при использовании газа в быту» [5], за который отвечает Минстрой. Если посмотрим на значения по регионам, то окажется, что 70% всех случаев приходится на Астраханскую и Самарскую области. Такими данными лучше не пользоваться.

Впрочем, если мы посмотрим на вшивость детей по регионам, то увидим еще ряд особенностей.

На графике видно, что в топ по заболеваемости педикулезом попадают Магаданская и Еврейская автономная области, Ненецкий и Чукотский округа. 

Малонаселенные регионы в топе, вероятно, из-за малого количества школьников. Педикулез — заболевание командное, вспышка в одной школе может изменить всю картину. Самая низкая заболеваемость — в Чеченской республике, Ингушетии и Дагестане. Возможно, что там подобные диагнозы считаются неприличными и их просто не ставят.

К сожалению, данные государственной статистики иногда искажается именно на низовом уровне, региональные власти или ведомства таким образом сглаживают реальные проблемы. В этом случае, навыки критики данных не помогут восстановить истинную картину, но помогут понять, что здесь что-то не так.

Источники

[1] https://fedstat.ru/indicator/38208 — Роспотребнадзор унаследовал функции советской Государственной санитарно-эпидемиологической службы, поэтому за данные по инфекционным и паразитарным болезням отвечает именно он, а не Минздрав.

[2] https://www.fedstat.ru/form/10289

[3] По хорошему, среднее значение нужно считать без аномальной Москвы, в этом случае заболеваемость внутри МКАД будет выше в 60 раз, чем за ним, а в ковидный 2021 — в 150.

[4] https://77.rospotrebnadzor.ru/index.php/doc/infdoc — по полноте и качеству отчетов московский Роспотребнадзор на одном из первых мест в России.

[5] https://fedstat.ru/indicator/60724