Пример готовой курсовой работы по предмету: Статистика
Содержание
Задача 10. С целью изучения тесноты связи между стоимостью товарной продукции в оптовых ценах и себестоимостью товарной продукции:
1) Измерьте тесноту связи между этими показателями с помощью: а) линейного коэффициента корреляции и б) коэффициента ранговой корреляции Спирмена.
2) Рассчитайте доверительный интервал для коэффициента корреляции при доверительной вероятности 0,90.
3) Проверьте гипотезу о значимости коэффициента корреляции.
4) Оцените уравнение линейной парной регрессии Y=a 0+a 1×X;
5) Постройте диаграмму рассеяния и линию уравнения линейной регрессии;
6) Спрогнозируйте себестоимость товарной продукции, объем прибыли и рентабельность продаж, если планируемый объем товарной продукции в следующем году 510.
7) Рассчитайте доверительные интервалы для полученных прогнозов себестоимости товарной продукции, объема прибыли и рентабельности продаж при доверительной вероятности 0,90.
8) Представьте зависимость между себестоимостью и стоимостью товарной продукции с помощью: а) уравнения параболы Y=a 0+a 1×X+a 2×X2, б) степенной функции Y=a 0×Xа 1, в) логарифмической функции Y=a 0+a 1×ln(X), г) экспоненциальной функции Y=a 0×eа 1×X и д) уравнения гиперболы .
9) Рассчитайте значения коэффициента детерминации R2 для каждого варианта аппроксимации.
10) Обоснуйте c помощью коэффициента детерминации R2 какое из уравнений более точно описывает зависимость между изучаемыми показателями.
Замечание. Для решения этой задачи рекомендуется использовать какое-либо программное обеспечение статистического анализа данных. В частности, электронные таблицы Microsoft Excel обладают всем необходимым инструментарием для решения данной задачи.
Выдержка из текста
Значения t-критерия Стьюдента
при доверительной вероятности 0,90, 0,95 и 0,99
Число степе-ней сво-боды Доверительная
вероятность Число сте-пеней сво-боды Доверительная
вероятность
0,90 0,95 0,99 0,90 0,95 0,99
4 2,1318 2,7765 4,6041 20 1,7247 2,0860 2,8453
5 2,0150 2,5706 4,0321 21 1,7207 2,0796 2,8314
6 1,9432 2,4469 3,7074 22 1,7171 2,0739 2,8188
7 1,8946 2,3646 3,4995 23 1,7139 2,0687 2,8073
8 1,8595 2,3060 3,3554 24 1,7109 2,0639 2,7970
9 1,8331 2,2622 3,2498 25 1,7081 2,0595 2,7874
10 1,8125 2,2281 3,1693 26 1,7056 2,0555 2,7787
11 1,7959 2,2010 3,1058 27 1,7033 2,0518 2,7707
12 1,7823 2,1788 3,0545 28 1,7011 2,0484 2,7633
13 1,7709 2,1604 3,0123 29 1,6991 2,0452 2,7564
14 1,7613 2,1448 2,9768 30 1,6973 2,0423 2,7500
15 1,7531 2,1315 2,9467 40 1,6839 2,0211 2,7045
16 1,7459 2,1199 2,9208 50 1,6759 2,0086 2,6778
17 1,7396 2,1098 2,8982 60 1,6706 2,0003 2,6603
18 1,7341 2,1009 2,8784 100 1,6602 1,9840 2,6259
19 1,7291 2,0930 2,8609 ¥ 1,6449 1,9600 2,5758
Приложение 2
Методические указания для решения задачи 10
Воспользуемся электронными таблицами Microsoft Excel. Рассмотрим решения данной задачи для данных (10 наблюдений), приведенных на рис. П 1.
Рис. П 1
1а) Для расчета линейного коэффициента корреляции rXY в ячейке F7 использована ста-тистическая функция
=КОРРЕЛ(C2:L2;C3:L3)
1б) Для расчета коэффициента ранговой корреляции Спирмена rS предварительно необ-ходимо найти ранги элементов выборки. Для этого в ячейку С 4 введите статистическую фор-мулу =РАНГ(C2;$C2:$L2;1), а затем размножьте ее в диапазон C4:L5.
В ячейку F8 введите формулу =КОРРЕЛ(C4:L4;C5:L5)
2) Чтобы рассчитать доверительный интервал для линейного коэффициента корреляции, необходимо выполнить z-преобразование Фишера
.
В ячейку F9 введите формулу =ФИШЕР(F7)
В ячейке F10 вычисляется среднеквадратическое отклонение для величины z по формуле
,
где n – объем выборки. Так как величина z имеет закон распределения близкий к нормально-му, поэтому для нахождения коэффициента доверия t в ячейке F11 можно использовать функ-цию обратного нормального распределения =НОРМОБР(0,975;0;1) , где .
Границы доверительного интервала для z рассчитываются по формуле
z ± t×sS.
Для пересчета доверительного интервала для z в доверительный интервал для коэффи-циента корреляции rXY используют обратное z-преобразование
3) Для оценки значимости коэффициента корреляции rXY применяется t-критерий Стью-дента. При этом определяется фактическое значение t-критерия по формуле
.
Вычисленное значение t-критерия сравнивается с критическим значение tКР, которое бе-рется из таблицы 4 при числе степеней свободы d.f.=n-2=10-2=8 и доверительной вероятности 0,95. Для вычисления критическим значение tКР в ячейке F17 использована формула =СТЬЮДРАСПОБР(1-0,95;10-2)
Если ½t½>tКР, то величина коэффициента корреляции признается существенной. В дан-ном случае t-критерий Стьюдента подтверждает значимость коэффициента корреляции.
4) Чтобы оценить уравнение линейной парной регрессии Y=a 0+a 1X найдем значения па-раметров a 0 и a
1. Для этого в ячейку F18 введена формула =ОТРЕЗОК(C3:L3;C2:L2), а в ячей-ку F19 введена формула = НАКЛОН (C3:L3;C2:L2)
5) Для построения диаграммы рассеяния выделите диапазон ячеек А 2:К 3 и нажмите кнопку Мастер диаграмм на панели инструментов. В диалоговом окне Мастер диа-грамм (шаг 1 из 4):тип диаграммы задайте Тип графика Точечная, Вид Точечная диаграмма позволяет сравнить пары значений. Нажмите кнопку Далее. В следующем окне (шаг
2. нажмите кнопку Далее.
На шаге 3 на вкладке Заголовки задайте Название диаграммы Точечная диаграмма, Ось Х (категорий) Стоимость ТП, Ось Y (значений) Себестоимость ТП. На вкладке Ле-генда сбросьте флажок Добавить легенду. Нажмите кнопку Далее.
В последнем окне (шаг
4. нажмите кнопку Готово.
Чтобы добавить на диаграмму линию уравнения линейной регрессии, выделите маркеры на точечной диаграмме, а затем выполните команду меню Диаграмма→Добавить линию тренда… В окне Линия тренда на вкладке Тип укажите тип линии тренда Линейная. На вкладке Параметры установите флажки показывать уравнение на диаграмме и поместить на диаграмму величину достоверности аппроксимации (R^2).
Нажмите кнопку ОК. На диаграмме добавится линии тренда, а также уравнение этой линии и коэффициент детерми-нации R2 для данного варианта аппроксимации, характеризующий достоверность аппрокси-мации.
6) Спрогнозируем показатель Y (прогноз обозначим как ), если показатель X примет значение 125.
= a 0+a 1×
Для расчета прогноза в ячейку F20 можно ввести формулу =F18+F19*125 либо фор-мулу =ПРЕДСКАЗ(125;C3:L3;C2:L2) либо формулу =ТЕНДЕНЦИЯ(C3:L3;C2:L2;125;1),
которая является более универсальной и часто используется при прогнозировании.
7) Доверительный интервал для прогноза Y находят по формуле
,
где t – коэффициент доверия, определяемый по распределению Стьюдента (рассчитан ранее в ячейке F17);
– стандартная ошибка для оценки ;
– средняя арифметическая показателя X.
.
Для расчета средней арифметической в ячейке F21 использована формула =СРЗНАЧ(C2:L2)
Для расчета суммы квадратов отклонений от средней в ячейке F22 использована фор-мула =КВАДРОТКЛ(C2:L2)
Для вычисления множителя в ячейке F23 использована формула =КОРЕНЬ(1+1/10+(125-F21)^2/F22)
Для расчета среднеквадратического отклонения в ячейку F24 введена формула =ИНДЕКС(ЛИНЕЙН(C3:L3;C2:L2;1;1);3;2)
Замечание. Статистическая функция ЛИНЕЙН возвращает параметры линейной аппроксимации данных. Функция ЛИНЕЙН возвращает параметры в виде массива значений. Искомое значение расположено в треть-ей строке, во втором столбце. Для получения доступа к элементу массива использована функция ИНДЕКС.
В ячейку F25 введена формула =F20-F17*F24*F23
8) По аналогии с п.5 можно добавить другие линии тренда.
В списке доступных линий тренда Microsoft Excel отсутствует уравнение гиперболы. Для оценивания уравнения гиперболы введем преобразованный показатель Х’=1/Х в диапазон С 27:L27. Чтобы добавить на диаграмму рассеяния точки, соответствующие уравнению гипер-болы, щелкните правой кнопкой мыши по диаграмме и выберите в контекстном меню пункт Исходные данные… В окне Исходные данные щелкните по вкладке Ряд, затем нажмите кнопку Добавить. Для Ряд 2 задайте следующие данные: Значения Х C2:L2 Значения Y C30:L30
9) Значения коэффициента детерминации R2 для различных вариантов аппроксимации можно вывести на диаграмму рассеяния. Однако для уравнения гиперболы его необходимо рассчитать.
,
где – средняя арифметическая показателя Y.
– оценка уравнения регрессии в i-ой точке;
SSD – обусловленная регрессией сумма квадратов;
SST – полная сумма квадратов.
В ячейку F31 введена формула =КВАДРОТКЛ(C30:L30)
В ячейку F32 введена формула =КВАДРОТКЛ(C3:L3)
Более удобным способом нахождения коэффициента детерминации R2 является исполь-зование формулы
=ИНДЕКС(ЛИНЕЙН(C3:L3;C27:L27;1;1);3;1),
которая не требует промежуточных вычислений SSD и SST.
10) Показатель R2 часто используется в качестве критерия для выбора наилучшего урав-нения регрессии. Чем выше значение R2, тем большую долю разброса относительно среднего можно «объяснить» регрессией.
Приведем полученные значения R2 для рассмотренных нами уравнений регрессии: ли-нейная регрессия R2=0,7073; уравнение параболы R2=0,8185; степенная функция R2=0,6639, логарифмическая функция R2=0,6164; экспоненциальная функция R2=0,7479 и уравнение ги-перболы R2=0,5111.
Отсюда можно сделать вывод, что наилучшим уравнением регрессии является либо па-рабола, либо экспонента. Однако визуально на диаграмме рассеяния более предпочтительно выглядят линейная регрессия и степенная функция.
К сожалению, в данном случае проявился известный недостаток показателя R2 – он часто увеличивается с ростом числа параметров в уравнении регрессии, поэтому для параболы было получено наибольшее значение показателя R2. Другая проблема, с которой мы столкнулись – это малый объем выборки. По
1. наблюдениям сложно делать однозначный вывод о наилуч-шем уравнении регрессии.
Для получения более обоснованных выводов о виде уравнения регрессии необходимо было бы провести дополнительные наблюдения. Также можно было бы использовать другие критерии выбора наилучшего уравнения регрессии (например, модифицированный R2, крите-рий Маллоуса Ср и другие).
Список использованной литературы
Методическое указание по выполнению
контрольной работы по статистике (Новосибирский государственный технический университет)