Главная / Интересное / Репрезентативность выборочной совокупности. Репрезентативность - что это за процесс? Ошибка репрезентативности

Репрезентативность выборочной совокупности. Репрезентативность - что это за процесс? Ошибка репрезентативности

Репрезентативность выборки

Наименование параметра	Значение
Тема статьи:	Репрезентативность выборки
Рубрика (тематическая категория)	Психология

Требования к выборке

К выборке применяется ряд обязательных требований, определенных, прежде всего, целями и задачами исследования. Планирование эксперимента должно включать в себя учет, как объёма выборки, так и ряда ее особенностей. Так, в психологических исследованиях важно требование однородности выборки. Оно означает, что психолог, изучая, к примеру, подростков, не может, включать в эту же выборку взрослых людей. Напротив, исследование, выполненное методом возрастных срезов, принципиально предполагает наличие разновозрастных испытуемых. При этом и в данном случае должна соблюдаться однородность выборки, но уже по другим критериям, в первую очередь таким, как возраст, пол. Основаниями для формирования однородной выборки могут служить разные характеристики, такие, как уровень интеллекта͵ национальность, отсутствие определенных заболеваний и т.д., исходя из целей исследования.

В общей статистике имеется понятие повторной и безповторной выборки, или, иначе говоря, выборки с возвратом и без возврата. В качестве примера приводится, как правило, выбор шара, доставаемого из какой-либо емкости. В случае выборки с возвратом каждый выбранный шар опять возвращается в емкость и, следовательно, должна быть выбран снова. При бесповторном выборе однажды выбранный шар откладывается в сторону и больше не может участвовать в выборке. В психологических исследованиях можно найти аналоги подобного рода способам организации выборочного исследования, поскольку психологу нередко приходится несколько раз тестировать одних и тех же испытуемых при помощи одной и той же методики. При этом, строго говоря, повторной в данном случае является процедура тестирования. Выборка испытуемых при полной тождественности состава в случае повторных исследований всегда будет иметь некоторые отличия, обусловленные функциональной и возрастной изменчивостью, присущей всем людям. Подобная выборка по характеру проведения процедуры является повторной, хотя смысл термина здесь, очевидно, иной, чем в случае с шарами.

Важно подчеркнуть, что все требования, предъявляемые к любой выборке, сводятся к тому, что на ее базе психологом должна быть получена наиболее полная, неискаженная информация об особенностях генеральной совокупности, из которой взята эта выборка. Иными словами, выборка должна как можно более полно отражать характеристики изучаемой генеральной совокупности.

Состав экспериментальной выборки должен представлять (моделировать) генеральную совокупность, поскольку выводы, полученные в эксперименте, предполагается в дальнейшем перенести на всю генеральную совокупность. По этой причине выборка должна обладать особым качеством - репрезентативностью, позволяющим распространить полученные на ней выводы на всю генеральную совокупность.

Репрезентативность выборки очень важна, тем не менее, по объективным причинам соблюдать её крайне сложно. Так, хорошо известен факт, что от 70% до 90% всех психологических исследований поведения человека проводились в США в 60-х годах XX века с испытуемыми-студентами колледжей, причем большинство из них были студентами психологами. В лабораторных исследованиях, выполняемых на животных, наиболее распространенным объектом изучения являются крысы. По этой причине неслучайно психологию называли раньше ʼʼнаукой о студентах-второкурсниках и белых крысахʼʼ. Студенты психологических колледжей составляют всего 3% от общей численности населения США. Очевидно, что выборка студентов нерепрезентативна в качестве модели, претендующей на представительство всего населения страны.

Репрезентативная выборка, или, как еще говорят, представительная выборка, - это такая выборка, в которой все основные признаки генеральной совокупности представлены приблизительно в той же пропорции и с той же частотой, с которой данный признак выступает в данной генеральной совокупности. Иными словами, репрезентативная выборка представляет собой меньшую по размеру, но точную модель той генеральной совокупности, которую она должна отражать. В той степени, в какой выборка является репрезентативной, выводы, основанные на изучении этой выборки, можно с большой долей уверенности считать применимыми ко всей генеральной совокупности. Это распространение результатов принято называть генерализуемостью.

В идеале репрезентативная выборка должна быть такой, чтобы каждая из базовых изучаемых психологом характеристик, черт, особенностей личности и т.п. была бы представлена в ней пропорционально этим же особенностям в генеральной совокупности. Согласно этим требованиям процедура формирования выборки должна иметь внутреннюю логику, способную убедить исследователя, что при сравнении с генеральной совокупностью она действительно окажется репрезентативной, представительной.

В своей конкретной деятельности психолог действует следующим образом: устанавливает подгруппу (выборку) внутри генеральной совокупности, подробно изучает эту выборку (проводит с ней экспериментальную работу), а затем, в случае если это позволяют результаты статистического анализа, распространяет полученные выводы на всю генеральную совокупность. Это и есть основные этапы работы психолога с выборкой.

Начинающий психолог должен иметь в виду часто повторяющуюся ошибку: каждый раз, когда он осуществляет сбор любых данных любым методом и из любого источника, у него всегда появляется соблазн распространить свои выводы на всю генеральную совокупность. Для того чтобы избежать подобной ошибки, нужно не просто обладать здравым смыслом, но, прежде всего, хорошо владеть основными понятиями математической статистики.

Репрезентативность выборки - понятие и виды. Классификация и особенности категории "Репрезентативность выборки" 2017, 2018.

Познакомимся с тремя понятиями, которые необходимо знать любому, кто так или иначе соприкасается с социологическими исследованиями: генеральная совокупность, выборочная совокупность (выборка), репрезентативность.

Генеральная совокупность – это все единицы определенного программой объекта исследования. Если мы говорим о всероссийском опросе общественного мнения, это будет все взрослое население России. Или все московские студенты, если мы возьмемся провести среди них опрос. Или все беспризорные дети Калуги, если мы собираемся предпринять социсследование на эту тему.

Выборочная совокупность (выборка) – это часть генеральной совокупности, которую мы будет непосредственно исследовать, то есть это те люди, к которым мы обратимся с вопросами интервью или с анкетами; те материалы, которые мы будет изучать методом контент-анализа и т. п.

Иногда выборка равна генеральной совокупности (например, в случае, когда мы опрашиваем всех студентов первого курса факультета журналистики МГУ). Но обычно она меньше, иногда в несколько десятков и сотен раз. При этом практика социологических исследований доказала, что в общенациональных исследованиях достаточно выбрать для опросов 1,5–2 тысячи человек. Если выборка хорошо, правильно, репрезентативно сформирована, то она может дать объективную информацию о мнении всех россиян.

Итак, главное – это правильно сформировать выборку. Объем выборки зависит от целей исследования, специфики и степени однородности объекта исследования, дробности групп, которые предстоит изучить, и планируемой степени ее репрезентативности. Что же означает это магическое и самое важное в эмпирической социологии понятие – «репрезентативность»?

Репрезентативность – это соответствие, адекватность выборочной совокупности (выборки) по основным характеристикам генеральной совокупности. Если в структуре населения 55 % женщин и 45 %; мужчин, то и в выборке должно быть такое же соотношение. То же самое можно сказать о возрасте, профессии, типе поселения и т. п. Короче, конфигурация выборки должна совпадать с конфигурацией генеральной совокупности. Это можно изобразить на таком рисунке (рис. 8).

Самое главное в социологическом исследовании – репрезентативность выборки, потому что именно с этим связана точность и объективность полученных результатов.

Выборка может формироваться разными путями. Но основных типов два репрезентативные и нерепрезентативные выборки.

Репрезентативные выборки

Вероятностная, или случайная, выборка строится на том, что любой из объектов генеральной совокупности имеет равную вероятность попасть в выборочную совокупность. Есть несколько подвидов вероятностной выборки.

1. Систематический отбор. Он весьма популярен и часто применяется в социсследованиях. Это значит, что в зависимости от величины выборки отбирается из генеральной совокупности каждый n -ый (6, 20, 45 и т. п.) объект. Например, мы опрашиваем взрослое население одного из избирательных участков. Берем избирательные списки. Предположим, в них будет 10 000 человек. А нам нужна выборка в 500 человек. Делим число 10 000 генеральной совокупности на число 500 выборки, получаем 20. Значит, из списков будем выбирать каждого двадцатого избирателя.

Предположим, что нам нужно опросить по телефону москвичей и выяснить у них, какую в данный момент они смотрят передачу по телевизору. Берем справочную телефонную книгу, считаем, сколько в ней номеров, делим это количество на то число, которое нам надо опросить, и получаем шаг, при котором мы будет вести систематический отбор номеров.

То же самое можно делать с домами на улицах, если мы будем опрашивать наших реципиентов дома. Например, на четной стороне улицы заходим в каждый пятый дом. И так далее.

2. Отбор по принципу лотереи или жребия . Этот способ вам хорошо знаком, когда вы бросаете в шапку, вазу, ящик, например, все улицы Москвы и выбираете 20, на которых будете проводить исследование. Так же могут быть выбраны регионы, населенные пункты, почтовые отделения и т. п.

3. Отбор методом случайных чисел . Для этого составляются специальные математические таблицы случайных чисел по количеству выборочной совокупности и выбирается объект, который промаркирован предварительно этой цифрой.

Квотная выборка формируется в соответствии с квотами (то есть объектами, имеющими определенный признак по полу, возрасту, месту жительства и т. п.), которые в процентном отношении соответствуют генеральной совокупности. Предположим, что мы исследуем население небольшого города и знаем, какое в нем процентное соотношение молодых, людей средних лет и пожилых, мужчин и женщин, работающих и пенсионеров. Мы должны отобрать для опроса людей с этими характеристиками в таком же процентном соотношении. Эта выборка по степени репрезентативности близка к вероятностной.

Стратифицированная выборка отличается от квотной тем, что искусственно, в связи с целями исследования, формируются слои, страты, которые подлежат изучению и, как правило, в количественном отношении они равны. Страты должны быть более однородными, чем вся совокупность. Например, мы изучаем читателей разных изданий: «АиФ», «Известий», «Труда», «Комсомольской правды», «МК» и формируем равные страты читателей разных изданий, предположим, по 200 человек.

Районированная выборка обычно используется при исследовании районов, часто с применением географической карты, схемы населенных пунктов и т. п., из которых выбираются определенные единицы для исследования. Например, выбираются области из разных географических зон России, или округа Москвы. Иногда применяется так называемая методика географического креста, когда выбираются точки на горизонтали и вертикали этого географического креста. Так формировалась выборка в исследованиях общественного мнения в 60-е годы в Институте общественного мнения при «Комсомольской правде».

Серийная, гнездовая, кластерная выборка работает не с единицами, а с гнездами, однородными группами (семья, производственная бригада, студенческая группа, болельщики футбольного матча, телезрители, которые смотрят ТВ в одной комнате, городские районы и т. п.). Обычно в таком случае проводится сплошной опрос.

Между временным рядом и случайной выборкой существуют принципиальные различия. Во-первых, элементы случайной выборки являются статистически независимыми, а элементы временного ряда - нет, т.к. во временном ряде можно проследить тенденцию развития и прогнозировать значения на будущее. Во-вторых, члены временного ряда не являются одинаково распределенными. В-третьих, у случайной выборки математическое ожидание, дисперсия, среднеквадратическое отклонение являются постоянными, в отличии от временного ряда, который отражает динамику развития какого-либо признака во времени, в связи с чем могут меняться во времени и числовые характеристики.

Репрезентативность выборки - это соответствие характеристик выборки характеристикам генеральной совокупности. Репрезентативность выборки определяет на сколько можно переносить выводы, сделанные по исследуемой выборке, на генеральную совокупность. Для обеспечения высокой репрезентативности выборки необходимо обеспечить большой объем выборки и наличие в ней, элементов из всех групп генеральной совокупности. Для достижения высокой репрезентативности временного ряда необходимо анализировать достаточно продолжительный объем данных, изменяющихся во времени, т.к. например, наличие данные о часовом газопотреблении за 1 января в течение нескольких лет не позволит прогнозировать объем газопотребления за другие даты. Т.е. для обеспечения репрезентативности временного ряда необходимо обеспечить наличие ряда наблюдений, в различные периоды времени.

Репрезентативность выборки определяется в первую очередь ее объемом. К тому же отбор показателей должен осуществляться из однородных групп, причем вероятность попадания любого элемента генеральной совокупности в выборку должна быть одинаковой для всех элементов. В свою очередь на объем выборки влияет способ осуществления отбора. Объем выборки определяется рядом факторов: объем генеральной совокупности, t-критерий Стьюдента, дисперсия выборки, предельная ошибка выборки и т.д. В случае временного ряда репрезентативность достигается наличием информации по разным временным периодам.

На мой взгляд, при исследовании всего временного ряда в целом удобно осуществлять типический отбор, разбив генеральную совокупность на группы, соответствующие одним суткам. И затем для каждых суток по дате выберем случайным образом одно из часовых потреблений. По полученному ряду нельзя будет судить о суточных колебаниях газопотребления, но общую тенденцию проследить будет возможно.

В нашем же случае, при исследовании относительно стабильной области газопотребления, наоборот, больший интерес составляют суточные колебания, поэтому, выборку будем осуществлять из подгрупп соответствующих одному времени потребления.

Таким образом, выберем в качестве базовой 25%-ю выборку генеральной совокупности, т.е. выберем из каждой группы часовых значений 0,25*52=13 значений случайным образом. Пронумеруем все даты (52 шт.), и с помощью функции СЛУЧМЕЖДУ(1;52) определим по 13 значений каждой часовой группы.

Рисунок 18 - Определение номеров элементов, включаемых в выборку

Т.к. функция СЛУЧМЕЖДУ() пересчитывает значения после каждого операции, сохраним найденные значения в формате чисел без формулы.

Рисунок 19 - Формирование 25%-й выборки

Переместим сформированную выборку на отдельный лист.

Рисунок 20 - Сформированная базовая выборка

Основными характеристиками типической выборки являются объем выборки, выборочная средняя, выборочная дисперсия, средняя из внутригрупповых дисперсий, а также средняя и предельная ошибки выборки. В виду того, что все группы равны по числу наблюдений, среднюю из внутригрупповых дисперсий рассчитываем как среднюю арифметическую простую. Внутригрупповые и выборочную дисперсии найдем с помощью функции ДИСП().

Для типического повторного отбора средняя ошибка равна:

Для типического повторного отбора предельная ошибка равна:

Значение t-критерия Стьюдента находится по специальным таблицам. При вероятности 99,7% t=3.

Таблица 6 - Характеристики базовой выборки

Разделим базовую выборку на две подвыборки: первая будет охватывать значения от 0:00 до 11:00 включительно, вторая от 12:00 до 23:00 включительно. Гистограммы будем строить по алгоритму, рассмотренному на прошлом занятии. Для построения гистограмм определим количество и ширину интервалов для базовой выборки, а для подвыборок частоты будем определять по границам интервалов базовой выборки для наглядности изображения гистограмм.

Таблица 7 - Данные для построения гистограмм

Интервал
	нижняя граница	верхняя граница	базовая выборка	подвыборка 1	подвыборка 2

Уже глядя на таблицу можно сказать о том, что законы распределения базовой выборки и подвыборок будут отличаться. Что подтверждает предположения, выдвинутые в п.1 и 2 о различиях между выборкой и временным рядом и репрезентативности данных временного ряда.

Рисунок 21 - Гистограмма по базовой выборке и по подвыборкам

Внешний вид диаграмм по базовой выборке и по подвыборкам 1 и 2 различается. В первых интервалах частоты по базовой выборке ближе к частотам подвыборки 1, в последних - подвыборки 2. Это связано с тем, что до 11:00 объем часового газопотребления меньше, чем после 11:00. Данная гистограмма прекрасно иллюстрирует различие между выборкой и временным рядом и статистическую зависимость элементов временных рядов. Законы распределения всех трех рассматриваемых элементов различны.

Найдем характеристики двух подвыборок.

Таблица 8 - Характеристики подвыборок

Характеристики подвыборок	Подвыборка 1 до 11:00	Подвыборка 2 с 12:00
Значение		Значение	Изменение значения относительно характеристик базовой выборки
Выборочная средняя
Выборочная дисперсия
Средняя из внутригрупповых дисперсий
Объем выборки
Ошибки выборки

предельная

Выборочная средняя в первой и второй подвыборках отличаются от средней базовой выборки на -4,23% и +4,23% соответственно. Этот факт подтверждает возможность изменения характеристик во временных рядах по времени.

Выборочная дисперсия во второй подвыборке меньше дисперсии базовой выборки на 55,56%. Данное различие является очень существенным.

Сокращение объема выборки обусловлено разбиением базовой выборки на две равные части.

Ошибки выборки в двух подвыборках значительно выше ошибок базовой выборки.

Определим доверительные интервалы для математических ожиданий базовой выборки и двух подвыборок с помощью функции ДОВЕРИТ.

Таблица 9 - Определение границ доверительных интервалов для математического ожидания

Изобразим схематически доверительные вероятности для математических ожиданий трех рассматриваемых выборок.

Рисунок 22 - Схематическое изображение доверительных интервалов математических ожиданий базовой выборки и подвыборок

Доверительные интервалы не пересекаются между собой, следовательно вероятность равенства математических ожиданий базовой выборки и какой-либо из подвыборок равна 0. Рассчитаем для математического ожидания каждой подвыборки доверительный интервал, используя стандартное отклонение базовой выборки.

Таблица 10 - Расчет новых доверительных интервалов

Для первой подвыборки доверительный интервал изменился незначительно, т.к. стандартное отклонение первой подвыборки близко к стандартному отклонению базовой выборки. Для второй подвыборки доверительный интервал увеличился почти в два раза, что обусловлено аналогичным увеличением задаваемого стандартного отклонения. Расширение доверительного интервала связано с увеличением стандартного отклонения, которое характеризует разброс случайной величины относительно среднего значения. Увеличивается стандартное отклонение, следовательно, увеличивается разброс, что приводит к расширению границ доверительного интервала. Также косвенно обосновать расширение доверительного интервала возможно по правилу трех сигм, которое утверждает: вероятность того, что случайная величина отклонится от своего математического ожидание на величину, большую чем утроенное среднее квадратичное отклонение, практически равна нулю. Чем больше значение стандартного отклонения, тем шире интервал колебаний случайной величины, и следовательно, тем шире доверительный интервал для математического ожидания. Значительное увеличение ошибок выборки и отсутствие пересечений в доверительных интервалах базовой выборки и подвыборок делают данные подвыборки не репрезентативной с точки зрения исследования всего временного ряда динамики часового газопотребления. Данные подвыборки могут быть использованы для анализа и прогноза газопотребления в различное время суток с 0:00 до 11:00 и с 12:00 до 23:00. По такому же принципу можно было сформировать подвыборки и прогнозировать часовое газопотребление в стабильный период в дневное и ночное время. В главе была изучена возможность использования части временного ряда вместо целого при анализе и прогнозе. Значительное увеличение ошибок выборки и отсутствие пересечений в доверительных интервалах базовой выборки и подвыборок делают данные подвыборки не репрезентативной с точки зрения исследования всего временного ряда динамики часового газопотребления. Данные подвыборки могут быть использованы для анализа и прогноза газопотребления в различное время суток с 0:00 до 11:00 и с 12:00 до 23:00. По такому же принципу можно было сформировать подвыборки и прогнозировать часовое газопотребление в стабильный период в дневное и ночное время.

Свойство выборки, благодаря которому результаты выборочного исследовании позволяют делать выводы о генеральной совокупности и эмпирическом объекте в целом, называется репрезентативностью.

Репрезентативность (представительность) выборки - это способность выборки воспроизводить определенные характеристики генеральной совокупности в пределах допустимых погрешностей. Выборку называют репрезентативной, если результат измерения определенного параметра для данной выборки совпадает с учетом допустимой погрешности с известным результатом измерения генеральной совокупности. Если выборочное измерение отклоняется от известного параметра генеральной совокупности больше выбранного уровня погрешности, то такая выборка считается нерепрезентативной.

Предложенное определение прежде всего устанавливает связь между выборочной и генеральной совокупностью исследования. Именно генеральную совокупность представляет выборка, и только на генеральную совокупность могут быть распространены выявленные в выборочном исследовании тенденции. Теперь должно быть понятно, почему ранее такое внимание было уделено задачам корректного определения генеральной совокупности и ее описания в исследовательской документации и публикациях. Выборка не может представлять иную совокупность, отличную от той, из которой фактически проводился отбор единиц для измерения. Если исследователь заблуждается относительно фактических границ генеральной совокупности, то его выводы будут некорректны. Если он по ошибке или намеренно расширяет или искажает границы генеральной совокупности в отчетных материалах, публикациях, презентациях по результатам исследования, то это вводит в заблуждение пользователей и может рассматриваться в качестве фальсификации результатов.

Проверка репрезентативности осуществляется посредством сравнения отдельных параметров выборки и генеральной совокупности. Распространенным заблуждением является существование репрезентативных выборок «вообще».

Репрезентативность или нерепрезентативность выборки может быть установлена исключительно в отношении отдельных переменных. Более того, одна и та же выборка может быть репрезентативна по одним параметрам и нерепрезентативна - по другим.

Как правило, в профессиональном дискурсе социологов репрезентативность представляется как дихотомическое свойство - выборка либо репрезентативна, либо нет. Но это не вполне корректный подход. В действительности выборка может одни параметры генеральной совокупности воспроизводить более точно, а другие - менее точно. Поэтому корректнее (хотя с практической точки зрения и менее удобно) вести речь о мере репрезентативности конкретной выборки по конкретным параметрам.

Как и в случае с выборкой в целом, ключевым моментом в определении репрезентативности выборки является обоснование погрешности, в пределах которой выборка признается репрезентативной для целей исследования. Возможно и обратное - фиксация размера фактических ошибок и констатация факта, что выборка представляет генеральную совокупность с определенными погрешностями. И опять-таки ключевую роль в этом играет характер использования результатов исследования. Следовательно, одна и та же выборка может быть признана достаточно репрезентативной для одних целей (например, для прогноза явки избирателей на предстоящих выборах), но недостаточно репрезентативной для других (например, для определения рейтингов кандидатов и прогноза результатов голосования).

По каким параметрам следует проверять репрезентативность выборки? Во-первых, таких параметров в большинстве исследовательских ситуаций немного. Ведь сопоставить результаты выборочного измерения с данными о генеральной совокупности можно только при наличии последних. А исследования проводятся потому, что таких данных как раз не хватает. Поэтому еще на этапе моделирования объекта и последующей разработки инструментария целесообразно предусмотреть измерение одного или нескольких контрольных параметров, по которым доступны данные, характеризующие генеральную совокупность. Это создаст необходимую эмпирическую базу для проверки репрезентативности.

Во-вторых, нужно стремиться проверять репрезентативность выборки по параметрам, имеющим существенное значение для предметной области исследования. В современной практике широкое распространение получил контроль репрезентативности по основным демографическим параметрам - полу, возрасту, образованию и пр. Эти данные, как правило, доступны для любого территориального объекта, так как фиксируются во время переписей населения и впоследствии пересчитываются статистическими учреждениями с применением обоснованных математических моделей. По этой причине обязательное включение нескольких демографических переменных в «паспортичку» стало общепринятой профессиональной нормой. Однако такая практика может быть отнесена к разряду наивных и подвергнута обоснованной критике. Дело в том, что основные и общедоступные для сравнения демографические параметры далеко не всегда играют роль структурирующих факторов в отношении предметов социологических исследований. Их природа сама по себе не является социальной, а влияние на объекты исследований часто достаточно опосредованно. Поэтому репрезентативные по демографическим параметрам выборки на деле могут скрывать значительные проблемы в виде системных ошибок и неконтролируемых смещений. Напротив, демографическая репрезентативность эффективных с точки зрения целей и задач исследования выборок может оказаться невысокой.

Вот интересный пример из практики. В 2009 г. одна из исследовательских компаний, работающих на Урале, выполнила опрос в г. Ки- зеле Пермского края. В ходе проведения полевых работ исследователи столкнулись с серьезными препятствиями для набора предусмотренной планом исследования выборки - отсутствием достаточного количества доступных респондентов, ухудшением погодных условия. Судя по всему, исследовательская компания не была в полной мере готова к осуществлению работ в таком масштабном проекте. Ее производственные мощности работали на пределе возможностей, чтобы в течение недели обеспечить опрос 6000 респондентов на достаточно обширной территории. В результате фактическая выборка во многих местах проведения опроса была, по признанию самих исследователей, наполнена всеми, кого удалось привлечь к участию в исследовании. Установленные техническим заданием демографические квоты были нарушены в большинстве районов опроса. В некоторых районах искажение пропорций наполнения выборки по отношению к квотному заданию достигали для отдельных категорий населения 2,5 раза, что фактически ставило под сомнение сам факт применения квотной выборки. Казалось, заказчик исследования имеет все основания для предъявления обоснованных претензий к исследователям.

Однако проведенная по поручению арбитражного суда экспертиза установила, что такие значительные искажения квот и, соответственно, явная нерепрезентативность полученной выборки по основным демографическим параметрам практически не привели к искажению данных исследования! Путем перевзешивания массива данных эксперты получили эффект репрезентативной по контролируемым параметрам выборки. Практически все проверенные экспертами частотные распределения данных показали статистически не значимые различия между результатами обработки фактического и перевзвешенного массивов. Де-факто это означает, что, несмотря на грубейшие нарушения технологии опроса и практическое игнорирование квотных заданий, исследователи предоставили заказчику те же самые данные, на которые он мог рассчитывать, если бы процедуры формирования выборки были полностью соблюдены и демографическая репрезентативность была обеспечена.

Как такое могло произойти? Ответ прост - использованные для контроля репрезентативности демографические параметры практически не имели (и это подтвердил корреляционный анализ) влияния на предметные переменные исследования - оценки населением социально- экономического положения и параметры его общественно-политической активности. К тому же размер выборки был весьма велик относительно генеральной совокупности (фактически исследование охватывало четверть взрослого населения муниципального округа), что в результате действия закона больших чисел привело к стабилизации наблюдаемых распределений задолго до того, как требуемое число респондентов было опрошено.

Практический вывод из этой поучительной истории состоит в том, что усилия и ресурсы следует направлять на обеспечение и контроль репрезентативности в отношении таких параметров выборки, которые, как предполагает исследователь, оказывают существенное влияние на предмет исследования. Это означает, что параметры для контроля репрезентативности должны выбираться специально для каждого исследовательского проекта соответственно его предметной специфике. Например, оценки социально-экономического положения всегда сильно связаны с реальным благосостоянием семьи респондента, его позициями на рынке труда и в бизнес-сфере. Соответственно, именно эти параметры целесообразно использовать для контроля репрезентативности. Другое дело, что получить объективные данные, характеризующие по ним генеральную совокупность, может быть непросто. Здесь нужен творческий подход и, возможно, компромисс. Например, уровень благосостояния можно проконтролировать по наличию автомобиля в семье респондента, ведь статистика зарегистрированных автомашин в регионе может быть доступна.

Интересно, что в исследовательских отчетах и публикациях практически всегда упоминаются именно репрезентативные выборки. Неужели нерепрезентативные выборки настолько редки? Конечно нет. Выборок, которые являются проблемными с точки зрения репрезентативности по тем или иным параметрам, в исследовательской практике встречается достаточно. Скорее их даже больше, чем выборок, репрезентативность которых может быть оценена не формально (по демографическим параметрам), а по существу. Однако их публичное упоминание в профессиональной социологической среде, к сожалению, табуировано. И никто из исследователей не готов признать, что репрезентативность его выборки по существенным для предметной области измерения параметрам проблематична либо не проверяема.

На самом деле обнаружение признаков нерепрезентативности выборки не является катастрофой. Во-первых, существующие технологии «ремонта» (перевзвешивания) выборки во многих случаях позволяют полностью исключить эффект нерепрезентативности относительно беспокоящего социолога или его клиента параметра. Суть метода перевзвешивания состоит в присваивании различным категориям наблюдений (в случае опроса - респондентов) определенных весовых коэффициентов , компенсирующих недостаточное или избыточное фактическое представительство данных категорий в выборке. В дальнейшем эти веса учитываются при проведении всех расчетных операций с массивом данных, что позволяет получать распределения, полностью соответствующие сбалансированному (соответствующему расчетным квотам) массиву данных. Современные статистические программы, такие как БРвв, позволяют производить расчеты с учетом весовых коэффициентов в автоматическом режиме, что делает эту процедуру достаточно легкой для исполнения.

Во-вторых, даже если получить «хорошую» репрезентативную выборку не получается, «умеренной» репрезентативности может оказаться достаточно для решения многих исследовательских задач. Напомним, что репрезентативность - это скорее мера соответствия, чем дихотомический маркер. И только отдельные исследовательские задачи - в основном связанные с точным прогнозированием определенных событий - требуют от выборок действительно высокой (статистически подтвержденной) репрезентативности.

Например, для того, чтобы прогнозировать рыночную долю нового продукта в маркетинговом исследовании требуется выборка, охватывающая и репрезентирующая потенциальных клиентов. Однако чаще всего маркетологи не имеют достаточных данных о том, кто на самом деле образует круг их клиентов, тем более - потенциальный. В этой ситуации проверить репрезентативность выборки вообще невозможно - ведь неизвестно, какие параметры она должна воспроизводить. Тем не менее многие маркетинговые задачи успешно решаются, так как для выявления клиентских предпочтений, реакции на рекламные материалы, анализа отзывов на новый продукт статистически репрезентативные выборки не нужны - достаточно обеспечить охват типичной клиентуры, которую легко найти прямо в магазинах. Нерепрезентативные выборки вполне подходят для решения поисковых задач, выявления сильно выраженных тенденций, анализа специфики отдельных категорий (представленных маленькими самостоятельными подвыборками), сравнения таких категорий между собой (двумерный анализ), анализа взаимосвязей между переменными и других задач, в которых точность полученных статистических распределений имеет второстепенное значение.

Репрезентативность выборки

Конечной целью изучения выборочной совокупности всегда является получение информации о генеральной совокупности. Для этого выборочное исследование должно удовлетворять определенным условиям. Одно из главных условий - репрезентативность (представительность) выборки . Как обсуждалось ранее, выделяют качественную и количественную репрезентативность.

Случайность, гарантирующая качественную (структурную) репрезентативность статистических исследований, достигается выполнением ряда условий формирования выборочных групп (совокупностей):

1. Каждый член генеральной совокупности должен иметь равную вероятность попасть в выборку.

2. Отбор единиц наблюдения из генеральной совокупности необходимо проводить независимо от изучаемого признака. Если отбор проводится целенаправленно, то и при этом необходимо соблюдать условия независимости распределения изучаемого признака.

3. Отбор должен проводиться из однородных групп.

Соблюдение условий, гарантирующих максимальную близость выборочной и генеральной совокупностей, обеспечивается специальными способами отбора. В зависимости от способа формирования различают следующие выборки:

1. Выборки, не требующие разделения генеральной совокупности на части (собственно, случайная повторная или бесповторная выборка).

2. Выборки, требующие разбиения генеральной совокупности на части (механическая, типическая или типологическая выборки, когортная, парно-сопряженная выборки).

Собственно, случайная выборка формируется случайным отбором - наудачу. В основе случайного отбора лежит перемешивание. Например: выбор шара в спортлото после перемешивания всех шаров, выбор выигрышных номеров лотереи, случайный выбор карточек больных для исследования и т.п. Иногда используют случайные числа, получаемые из таблиц случайных чисел или с помощью генераторов случайных чисел. Согласно этим числам из заранее пронумерованного массива генеральной совокупности выбираются единицы наблюдения с номерами, соответствующими выпавшим случайным числам.

При составлении случайной выборки после того, как объект выбран, и все необходимые данные о нем зарегистрированы, можно поступать двояко: объект можно вернуть, или не вернуть в генеральную совокупность. В соответствии с этим выборку называют повторной (объект возвращается в генеральную совокупность) или бесповторной (объект не возвращается в генеральную совокупность). Поскольку в большинстве статистических исследований разница между повторной и бесповторной выборками практически отсутствует, то априорно принимается условие, что выборка повторная.

Репрезентативность выборочной совокупности. Репрезентативность - что это за процесс? Ошибка репрезентативности

Репрезентативные выборки

Репрезентативность выборки

Восстановление пароля