Материалы сайта
Это интересно
Выборочные наблюдения (лекции и методические указания)
4.3. Ошибки выборочного отбора Разность между показателями выборочной и генеральной совокупности называется ошибкой выборки. Ошибки выборки подразделяются на ошибки регистрации и ошибки репрезентативности. Ошибки регистрации возникают из-за неправильных или неточных сведений. Источниками таких ошибок могут быть непонимание существа вопроса, невнимательность регистратора, пропуск или повторный счет некоторых единиц совокупности, описки при заполнении формуляров и т.д. Среди ошибок регистрации выделяются систематические, обусловленные причинами, действующими в каком-то одном направлении и искажающими результаты работы (например, округление цифр, тяготение к полным пятеркам, десяткам и т.д.), и случайные, проявляющиеся в различных направлениях, уравновешивающие друг друга и лишь изредка дающие заметный суммарный итог. Расхождение между значениями изучаемого признака выборочной и генеральных совокупностей является ошибкой репрезентативности (представи- тельности). Она может быть случайной и систематической. Случайная возникает в силу того, что выборочное статистическое наблюдение является несплошным наблюдением, и выборка недостаточно точно воспроизводит (репрезентирует) генеральную совокупность. Систематические ошибка репрезентативности возникают из-за неправильного, тенденциозного отбора единиц, при котором нарушается основной принцип научно организованной выборки - принцип случайности. При определении величины репрезентативной ошибки предполагается, что ошибка регистрации равна нулю. Определение ошибки производится по формулам ошибки выборочной доли и ошибки выборочной средней. Систематическая ошибка репрезентативности возникает вследствие нарушения правил отбора единиц генеральной совокупности, в частности принципа беспристрастного, непреднамеренного отбора. Систематическая ошибка может привести к полной непригодности результатов наблюдений. Рассмотрим на примере, насколько отличаются выборочные и генеральные показатели по данным об успеваемости студентов (две 10%-е выборки): |Оценка |Число студентов, чел | | |Генеральная |Первая выборка |Вторая выборка | | |совокупность | | | |2 | 100 | 9 | 12 | |3 |300 |27 |29 | |4 |520 |54 |52 | |5 |80 |10 |7 | |Итого |1000 |100 |100 | Средний балл для генеральной совокупности [pic] по первой выборке [pic] по второй выборке [pic] Доля студентов, получивших оценки "4" и "5": по генеральной совокупности [pic] по первой выборке [pic] по второй выборке [pic] Разность между показателями выборочной и генеральной совокупности является случайной ошибкой репрезентативности (ошибкой выборки). Ошибки репрезентативности: [pic] [pic] [pic] [pic] Как видно из расчетов, выборочная средняя и выборочная доля являются случайными величинами, которые могут принимать различные значения в зависимости от того, какие единицы совокупности попали в выборку. 4.3.1. Ошибка выборочной средней Ошибка выборочной средней представляет собой расхождение (разность) между выборочной средней [pic] и генеральной средней [pic], возникающее вследствие несплошного выборочного характера наблюдения. Величина ошибки выборочной средней определяется как предел отклонения [pic]от [pic], гарантируемый с заданной вероятностью: [pic] где [pic] – гарантийный коэффициент, зависящий от вероятности [pic] , с которой гарантируется невыход разности [pic] за пределы [pic]; [pic] – средняя ошибка выборочной средней. Значения гарантийного коэффициента [pic] и соответствующие им вероятности [pic] приведены в табл.4.1. Обычно вероятность принимается равной 0,9545 или 0,9973, а [pic] при этом равно соответственно 2 и 3. Таблица 4.1 Значения гарантийного коэффициента [pic] |[pic] |[pic] |[pic] |[pic] |[pic] |[pic] | |1,00 |0,6827 |1,70 |0,9109 |2,40 |0,9836 | |1,10 |0,7287 |1,80 |0,9281 |2,50 |0,9876 | |1,20 |0,7699 |1,90 |0,9426 |2,60 |0,9907 | |1,30 |0,8064 |2,00 |0,9545 |2,70 |0,9931 | |1,40 |0,8385 |2,10 |0,9643 |2,80 |0,9949 | |1,50 |0,8664 |2,20 |0,9722 |2,90 |0,9963 | |1,60 |0,8904 |2,30 |0,9786 |3,00 |0,9973 | Н.В.Смирнов, И.В.Дунин-Барковский. Курс теории вероятностей и математической статистики для технических приложений. - М.: Наука, 1965. 512 с. Стр.173 Средняя ошибка определяется как среднее квадратическое отклонение средней величины в генеральной совокупности (средней генеральной) [pic] В математической статистике доказывается, что величина средней квадратической стандартной ошибки простой случайной повторной выборки может быть определена по формуле [pic] где [pic]- дисперсия признака в генеральной совокупности. Дисперсия суммы независимых величин равна сумме дисперсий слагаемых [pic] Если все величины Xi имеют одинаковую дисперсию, то [pic] Тогда дисперсия средней [pic] Тогда средняя ошибка при определении средней [pic] Между дисперсиями в генеральной и выборочной совокупностях существует следующее соотношение: [pic] где [pic]– дисперсия признака в выборке. Если n достаточно велико, то [pic] близко к единице и дисперсию в генеральной совокупности можно заменить на дисперсию в выборке. Тогда средняя ошибка средней в генеральной совокупности может быть как среднее квадратическое отклонение средней величины в выборочной совокупности (средней выборочной) Средняя ошибка выборочной средней [pic] Значения средней ошибки выборки определяются по формуле [pic] где [pic] – дисперсия в генеральной совокупности. Между дисперсиями в генеральной и выборочной совокупностях существует следующее соотношение: [pic] где [pic]– дисперсия в выборке. Если n достаточно велико, то [pic] близко к единице и дисперсию в генеральной совокупности можно заменить на дисперсию в выборке. При повторном отборе средняя ошибка определяется следующим образом: [pic] где [pic] – средняя величина дисперсии количественного признака [pic], которая рассчитывается по формуле средней арифметической невзвешенной [pic] или средней арифметической взвешенной [pic] где fi – статистический вес. Формулы расчета средней ошибки выборочной средней для различных, наиболее часто используемых способов отбора выборочной совокупности приведены в табл.4.2. Таблица 4.2 Формулы расчета средних ошибок выборочной доли и выборочной средней | | | |Метод отбора |Средняя ошибка | |выборки | | | | | | | |выборочной доли |выборочной средней | | | | | |Механический или |[pic] |[pic] | |собственно–случай| | | |ный повторный | | | |отбор | | | | | | | |Механический или |[pic] |[pic] | |собственно–случай| | | |ный бесповторный | | | |отбор | | | |Серийный отбор |[pic] |[pic] | |при повторном | | | |отборе | | | |равновеликих | | | |серий | | | | | | | |Серийный отбор |[pic] |[pic] | |при бесповторном | | | |отборе | | | |равновеликих | | | |серий | | | | | | | |Типический отбор |[pic] |[pic] | |при повторном | | | |случайном отборе | | | |внутри групп, | | | |пропорциональном | | | |объему групп | | | |Типический отбор |[pic] |[pic] | |при бесповторном | | | |случайном отборе | | | |внутри групп, | | | |пропорциональном | | | |объему групп | | | где N – численность генеральной совокупности; [pic] – межсерийная дисперсия выборочной доли; r – число отобранных серий; R – число серий в генеральной совокупности; [pic] – средняя из групповых дисперсий выборочной доли; [pic] – дисперсия признака x в выборке; [pic] – межсерийная дисперсия выборочных средних; [pic] – средняя из групповых дисперсий выборочной средней. При бесповторном оборе с каждой отобранной единицей или серией вероятность отбора оставшихся единиц или серий повышается, при этом средняя ошибка выборочной средней уменьшается по сравнению с повторным отбором и имеет следующий вид: для механического или собственно случайного бесповторного отбора [pic] При достаточно большом объеме совокупности N можно воспользоваться формулой [pic] для серийного бесповторного отбора равновеликих серий [pic] При достаточно большом числе серий в генеральной совокупности R можно воспользоваться формулой [pic] для типического отбора с бесповторным случайном отборе внутри групп, пропорциональном объему групп [pic][pic]. Межсерийная дисперсия выборочных средних [pic] и средняя из выборочных дисперсий типических групп [pic] вычисляются следующим образом: [pic] [pic] где [pic] – среднее значение показателя в j – й серии; [pic] – дисперсия признака x в j – й типической группе; nj – число единиц в j –й типической группе. И.Г.Венецкий, В.И.Венецкая. Основные математико-статистические понятия и формулы в экономическом анализе. - М.: Статистика, 1974. 279 с. Средние ошибки выборки при типическом методе отбора, пропорциональном объему групп и колеблемости признака в группе приведены в табл.3 Таблица 3 Формулы расчета средних ошибок выборочной средней и выборочной доли при типическом методе отбора | | | |Метод отбора |Средняя ошибка | |выборки | | | | | | | |выборочной доли |выборочной средней | | | | | |повторный |[pic] |[pic] | |случайный отбор | | | |внутри групп, | | | |непропорциональный| | | |объему групп | | | | |[pic] |[pic] | |бесповторный | | | |случайный отбор | | | |внутри групп, | | | |непропорциональный| | | |объему групп | | | |повторный |[pic] |[pic] | |случайный отбор | | | |внутри групп, | | | |пропорциональный | | | |колеблемости | | | |признака в группах| | | |бесповторный | | | |случайный отбор |[pic] |[pic] | |внутри групп, | | | |пропорциональный | | | |колеблемости | | | |признака в группах| | | | | | | где Nj – число единиц в j –й типической группе; nj – число отобранных единиц в j –й типической группе; [pic] – выборочная дисперсия признака x в j – й типической группе (дисперсия признака в выборке из j – й типической группы); [pic] – выборочная дисперсия доли в j – й типической группе (дисперсия доли в выборке из j – й типической группы); [pic] – среднее квадратическое отклонение признака x в выборке из j – й типической группе; Средние ошибки выборки при комбинированной выборке с равновеликими сериями приведены в табл.4 Таблица 4 Формулы расчета средних ошибок выборки при комбинированной выборке с равновеликими сериями | | | |Метод |Средняя ошибка | |отбора | | |выборки | | | | | | | |выборочной доли |выборочной средней | | |[pic] |[pic] | | | | | |повтор-н| | | |ый отбор| | | |серий | | | | | | | |бесповто|[pic] |[pic] | |рный | | | |отбор | | | |серий | | | где [pic] - общее число единиц в отобранных сериях ([pic] ); n - выбранное число единиц, подвергающихся обследованию, из отобранных серий. При многоступенчатом отборе на каждой ступени отбора может быть найдена своя средняя ошибка. При отборе, например, [pic] крупных групп из генеральной совокупности средняя ошибка выборки - [pic]; при отборе [pic] мелких групп из крупных средняя ошибка выборки - [pic]; при отборе [pic] отдельных единиц совокупности из мелких групп средняя ошибка выборки - [pic]. Если численность групп одинаковая, то средняя ошибка, как для средней, так и для доли, трехступенчатого отбора может быть определена по формуле [pic] Предельная ошибка выражается следующим образом: [pic] и зависит от вариации изучаемого признака в генеральной совокупности, объема и доли выборки, способа отбора единиц из генеральной совокупности и от величины вероятности, с которой гарантируются результаты выборочного наблюдения. Средняя величина количественного признака в генеральной совокупности определяется с у четом предельной ошибки выборочной средней [pic] Иногда для определения размеров предельной ошибки величина [pic] определяется из эмпирической формулы (И.Г.Венецкий, В.И.Венецкая. Основные математико-статистические понятия и формулы в экономическом анализе. - М.: Статистика, 1974. 279 с. - стр.188) [pic] 4.3.2. Ошибка выборочной доли Выборочная доля представляет собой отношение числа единиц, обладающих данным признаком или данным его значением ( m ) к общему числу единиц выборочной совокупности ( n ) [pic] (Эту статистическую характеристику не следует путать с долей выборки, являющейся отношением числа единиц выборочной совокупности к числу единиц генеральной совокупности). Ошибка выборочной доли представляет собой расхождение (разность) между долей в выборочной совокупности ( w ) и долей в генеральной совокупности ( p ), возникающее вследствие несплошного характера наблюдения. Величина ошибки выборочной доли определяется как предел отклонения w от p , гарантируемый с заданной вероятностью: [pic] где [pic] – гарантийный коэффициент, зависящий от вероятности [pic] , с которой гарантируется невыход разности w –p за пределы [pic]; [pic] – средняя ошибка выборочной доли. Средняя ошибка выборочной доли определяется по формуле [pic] Или, как было доказано выше, [pic] где [pic] – дисперсия доли в генеральной совокупности (дисперсия генеральной доли); [pic] – дисперсия доли в выборке (дисперсия выборочной доли). Приведенная формула средней ошибки выборочной доли применяется при повторном отборе. Для определения дисперсии альтернативного признака допустим, что общее число единиц совокупности равно n . Число единиц, обладающих данным признаком - f , тогда число единиц, не обладающих данным признаком, равно n-f . Ряд распределения качественного (альтернативного) признака |Значение переменной |Частота повторений | |1 |f | | |n-f | |0 | | |Итого |n | Средняя арифметическая такого ряда равна: [pic] то есть равна относительной частолте (частости) появления данного признака, которую можно обозначить через p , тогда [pic] Таким образом, доля единиц, обладающих данным признаком равна p ; соответственно доля единиц, не обладающих данным признаком, равна q ; p+q =1. Тогда дисперсия альтернативного признака определяется по формуле [pic] Для показателя доли альтернативного признака в выборке (выборочной доли) дисперсия определяется по формуле [pic] При бесповторном отборе численность генеральной совокупности сокращается, поэтому дисперсия умножается на коэффициент [pic] Формулы расчета средних ошибок выборочной доли для различных способов отбора единиц из генеральной совокупности приведены в табл. 4.2; 3 и 4. Дисперсии в формулах расчета средних ошибок выборочной доли в табл.4.2. рассчитываются следующим образом: – межсерийная дисперсия выборочной доли [pic] где wj – выборочная доля в j –й серии; [pic] – средняя величина доли во всех сериях; – средняя из групповых дисперсий [pic] где wj – выборочная доля в j –й типической группе; nj – число единиц в j –й типической группе; k – число типических групп. Для случая, когда доля (частость) даже приблизительно неизвестна, можно произвести "грубый" расчет средней ошибки выборки для доли, используя в расчете максимальную величину дисперсии доли, равную 0,25. Тогда для повторного отбора [pic] бесповторного отбора [pic] Предельное значение ошибки выборочной доли определяется по следующей формуле: [pic] Величина средней ошибки выборочной доли [pic]зависит от доли изучаемого признака в генеральной совокупности, числа наблюдений и способа отбора единиц из генеральной совокупности для наблюдения, а величина предельной ошибки [pic] зависит еще и от величины вероятности [pic], с которой гарантируются результаты выборочного наблюдения. Распространение выборочных данных на генеральную совокупность производится с учетом доверительных интервалов. Доля альтернативного признака в генеральной совокупности равна[pic] Пример Сущность процесса случайного отбора и основные свойства простой повторной выборки можно показать на условном примере. Генеральная совокупность состоит из трех единиц ( N = 3 ), например |Порядковый номер рабочего |1 |2 |3 |4 | |Тарифный разряд, xi |3 |4 |4 |5 | Генеральная средняя [pic]разряд; генеральная дисперсия [pic] доля рабочих в генеральной совокупности, имеющих 4 тарифный разряд [pic] Задача. Определить параметры генеральной совокупности ( средний разряд, дисперсию и долю рабочих с тарифным разрядом, равным 4) по результатам проведения простой случайной повторной выборки объемом 2 единицы ( n = 2 ). В данном примере с одинаковой степенью вероятности могла бы появиться любая из 16 возможных комбинаций единиц, то есть любая из 16 возможных выборок. Результаты 16 выборок приведены в табл. 1 Таблица 1 |Номер |Номера |Значения |Выборочная |Отклонение |Выбо- | |выборки |единиц, |признака по |средняя |выборочной |рочная | | |входящих в |данным |[pic] |средней от |доля | | |выборку |выборки | |генеральной |[pic] | | | | | |средней [pic] | | |1 |1; 1 |3; 3 |3,0 |-1,0 |0,0 | |2 |1; 2 |3; 4 |3,5 |-0,5 |0,5 | |3 |1; 3 |3; 4 |3,5 |-0,5 |0,5 | |4 |1; 4 |3; 5 |4,0 | 0,0 |0,0 | |5 |2; 1 |4; 3 |3,5 |-0,5 |0,5 | |6 |2; 2 |4; 4 |4,0 | 0,0 |1,0 | |7 |2; 3 |4; 4 |4,0 | 0,0 |1,0 | |8 |2; 4 |4; 5 |4,5 |+0,5 |0,5 | |9 |3; 1 |4; 3 |3,5 |-0,5 |0,5 | |10 |3; 2 |4; 4 |4,0 | 0,0 |1,0 | |11 |3; 3 |4; 4 |4,0 | 0,0 |1,0 | |12 |3; 4 |4; 5 |4,5 |+0,5 |0,5 | |13 |4; 1 |5; 3 |4,0 | 0,0 |0,0 | |14 |4; 2 |5; 4 |4,5 |+0,5 |0,5 | |15 |4; 3 |5; 4 |4,5 |+0,5 |0,5 | |16 |4; 4 |5; 5 |5,0 |+1,0 |0,0 | Возможные варианты значений выборочных средних и отклонения их от генеральной средней представлены в виде ряда распределения (табл.2) Таблица 2 |Выборочные |Число выборок |Отклонение |Вероятность появления | |средние |с данной |выборочной |данного значения | |разряды |выборочной |средней от |выборочной средней (или | |рабочих |средней |генеральной |величины отклонения | |[pic] |fj |средней |выборочной средней от | | | |[pic] |генеральной) | |3,0 | 1 |-1,0 |0,0625 | |3,5 | 4 |-0,5 |0,2500 | |4,0 | 6 | 0,0 |0,3750 | |4,5 | 4 |+0,5 |0,2500 | |5,0 | 1 |+1,0 |0,0625 | |Итого |16 | |1,0000 | В распределении величин выборочных средних и их отклонений наблюдаются определенные закономерности. 1. Из возможных результатов случайной повторной выборки наиболее вероятны такие, при которых величина выборочной средней будет близка к величине генеральной средней. Таким образом, чем больше величина случайной ошибки выборки, тем менее вероятно появление такой ошибки. 2. В примере не встречаются ошибки больше единицы по абсолютной величине, т.е. всегда существует предел расхождений между выборочной и генеральной средней. По данным табл.2, где представлены все возможные варианты выборочных средних и их отклонения от генеральной средней, определяется величина стандартной ошибки выборки [pic] Однако на практике исследователь оперирует данными какой-то одной конкретной выборки, а поэтому указанным способом определить стандартную ошибку средней невозможно. Среднюю ошибку можно определить по формуле, используя величину дисперсии в генеральной совокупности (в данном примере генеральная дисперсия признака равна 0,5) [pic] Распределение выборочной доли представлено в табл.3 Таблица 3 |Выборочная |Число выборок |Отклонение | | | |доля |с данной |выборочной | | | |[pic] |выборочной |доли от |[pic] |[pic] | | |долей |генеральной | | | | |fj |[pic] | | | |0,0 |4 |-0,5 |0,0 |1,0 | |0,5 |8 | 0,0 |4,0 |0,0 | |1,0 |4 |+0,5 |4,0 |1,0 | |Итого |16 | |8,0 |2,0 | В среднем для всех возможных вариантов выборок величина выборочной доли совпадает с долей признака в генеральной совокупности [pic] Средняя квадратическая ошибка доли в генеральной совокупности [pic] Среднюю квадратическую ошибку доли в генеральной совокупности можно определить, используя долю признака в генерального совокупности ( p = 0,5), [pic] В формулы средних ошибок выборки [pic] ; [pic] входят дисперсии признака и доли в генеральной совокупности, величины которых, как правило, при проведении выборочного наблюдения неизвестны. Поэтому для расчета средних ошибок выборки приходится использовать выборочные дисперсии в качестве оценки генеральной совокупности.