Генеральная совокупность
Давайте разберемся, на что в первую очередь обращать внимание перед началом любой исследовательской или аналитической работы, какие вообще данные следует использовать,
Для начала нам нужно четко обозначить, для какого множества объектов мы хотели бы получить результаты экспериментов или исследований. То есть, что мы будем считать генеральной совокупностью нашего исследования.
Генеральная совокупность — это множество всех объектов, относительно которых предполагается делать выводы в рамках конкретного исследования. Генеральную совокупность составляют все объекты, которые отвечают всем заранее заданным параметрам.
Почему это важно? Разберем на конкретных примерах.
Пример 1
Хотим узнать средний рост у космонавтов, находившихся в космическом полете более 180 дней.
Так как под такое описание подходит небольшая группа людей (а именно космонавты, которые пробыли в полете более 180 дней), мы можем провести исследование с участием всех представителей этого класса. Они и будут составлять генеральную совокупность нашего исследования.
Пример 2
Хотим изучить, какой мультфильм является самым любимым у детей до 5 лет, живущих в Москве.
В данной ситуации абсолютно все дети в возрасте до 5 лет, которые живут в Москве, будут представлять генеральную совокупность для нашего исследования.
Очевидно, что в исследовании из Примера 1 мы можем измерить рост каждого космонавта и получить желаемый результат.
В Примере 2 все становится несколько затруднительнее: теоретически мы, конечно, можем опросить каждого ребенка из Москвы в возрасте до 5 лет, но это сложно реализуемая затея.
Что тогда делать? Можно взять только определенную часть генеральной совокупности, то есть сформировать выборку для исследования, а затем обобщить результаты, полученные на этой выборке, на всю генеральную совокупность.
Выборка и репрезентативность
Собрать выборку можно бесконечным количеством способов. Если говорить о нашем «детском опросе», то можно опросить только четырёхлетних детей, которые посещают курсы японского языка. Однако понятно, что в таком случае мы получим результаты, которые маловероятно можно обобщить на генеральную совокупность.
Как же собрать «хорошую» выборку, то есть, такую выборку, чтобы она отражала все свойства нашей генеральной совокупности? В Примере 2 необходимо задать вопрос о любимом мультике представителям всех «категорий» нашей генеральной совокупности в равных пропорциях, то есть помнить про разный возраст, пол и другие характеристик детей. Точность и полнота признаков, которые можно извлечь из выборки, называют её репрезентативностью.
Репрезентативная выборка — это такая выборка, в которой все основные признаки генеральной совокупности, из которой извлечена данная выборка, представлены приблизительно в той же пропорции или с той же частотой, что и в этой генеральной совокупности.
Как выбирать?
Есть несколько способов собрать репрезентативную выборку.
Простая случайная выборка (simple random sample)
Случайным образом выбираем объекты нашей генеральной совокупности. При этом чем больше случайных объектов выбираем, тем лучше наша выборка отражает свойства генеральной совокупности
На Примере 2: Идем на детскую площадку и опрашиваем всех, кто там есть. В результате получится, что среди опрошенных будут дети разного пола и возраста в разной пропорции. Например, мы спросили о любимом мультфильме мальчика пяти лет, девочку трех лет, девочку четырех лет, мальчика двух лет и.т.д.
Стратифицированная выборка (stratified sample)
- Разделяем нашу генеральную совокупность на группы (страты) на основе определенного признака/признаков.
- Чтобы эти группы были равновероятно представлены в выборке, берем случайным образом элементы из каждой группы с равной вероятностью.
На Примере 2: делим детей по возрасту и полу, «идем» в группу «мальчики 5 лет» , случайно опрашиваем представителя данной группы, потом идет ко множеству «девочки 3 лет», случайно опрашиваем представительницу этой группы и т.д.
В таблице суммируются принципиальные различия между случайной и стратифицированной выборками:
Простая случайная выборка | Стратифицированная выборка |
Выбираем элементы из генеральной совокупности случайным образом | Выбираем элементы из каждой группы (страты) |
Чем больше берем элементов из генеральной совокупности, тем лучше наша выборка отражает особенности генеральной совокупности | Мы уже на основе определенных признаков разделили нашу генеральную совокупность, добавляем в каждую подгруппу по примерно равному количеству элементов. Так наша выборка будет хорошо отражать особенности генеральной совокупности |
Групповая выборка (cluster sample)
- Делим нашу генеральную совокупность на группы, но эти группы должны быть относительно похожи между собой (в качестве примера можем взять районы Москвы и считать, что в них примерно одинаковое число жителей)
- Выбираем только некоторые группы, которые нас интересуют.
- Из выбранных групп выбираем случайным образом элементы.
Чтобы еще лучше понять, чем отличается стратифицированная выборка от групповой, рассмотрим таблицу:
Стратифицированная выборка | Групповая выборка |
Выбираем элементы из каждой группы (страты) | Выбираем элементы только из выбранных групп (страт) |
Внутри группы элементы однородны, а между группами элементы различаются | В пределах группы элементы разнородны, но при этом все группы имеют схожесть |
Схема выборки для всех групп одна | Схема выборки нужна только для выбранных групп |
Повышает точность | Повышает эффективность выборки, уменьшая стоимость |
Сбор репрезентативной выборки — это нетривиальная задача, которая включает в себя выбор метода сбора и параметров сбора (например, подбор страт). Аккуратно собранная выборка — обязательное условие для проведения дальнейшего исследования. Использование нерепрезентативных данных приводит к ложным или неполным выводам, поэтому крайне важно обращать внимание, на каких данных проводилось то или иное исследование.