Содержание

Содержание

Задача № 8 …………………………………………………………………… 3

Рассмотрим анализ множественной регрессии для 50 штатов, который объясняет количество новых рабочих мест исходя из количества новых фирм и процента быстро развивающихся компаний. Используются следующие переменные: «новые рабочие места» (в тысячах), «новые фирмы» (фактическое количество фирм), и «процент быстрых» (в процентных единицах; таким образом, например, 3,15% представляется числом 3,15).

Результаты множественной регрессии представлены в следующей таблице:

Влияние на новые рабочие места 95%-й доверительный интервал Проверка гипотез Стандартная ошибка коэффициента t-статистика

Переменная Коэффициент регрессии От До Значимый? Стандартная ошибка оценки Значение t

Константа -144,76 -282,96 -6,57 Да 68,6944 -2,11

Новые фирмы 0,0991 0,0825 0,1157 Да 0,0082 12,04

Процент быстрых 78,62 20,04 137,19 Да 29,1152 2,70

Анализируемыеданныевзятыиз “Ratings the States 1987: New Jobs, New Companies, and the Climate for Growth”, INC, October 1987, p.77.

Уравнение регрессии имеет следующий вид:

новые рабочие места = -144,764 + 0,0999109 * (новые фирмы) + 78,61557 * (процент быстрых)

S_e = 133,7854 – стандартная ошибка оценки переменной

R^2 = 0,81 – коэффициент детерминации

Какая приблизительно часть вариации количества созданных новых рабочих мест между различными штатами объясняется количеством новых фирм и процентом быстро развивающихся фирм?

Объясняют ли переменные «Новые фирмы» и «Процент быстрых» значимую долю изменчивости переменной «Новые рабочие места»? Поясните свой ответ.

Найдите прогнозируемое значение переменной «Новые рабочие места» и остаток для штата Вашингтон при условии, что для этого штата «Новые рабочие места» = 242 (тысяч), «Новые фирмы» = 1741 и «Процент быстрых» = 2,44%.

О чем свидетельствует коэффициент регрессии 0,0991 для «Новых фирм»?

Оказывает ли, по вашему мнению, процент быстро развивающихся фирм влияние на создание новых рабочих мест – с учетом поправки на количество новых компаний? Поясните свой ответ.

Кратко опишите (в письменном виде), что нового вы узнали о создании новых рабочих мест в результате проведенного анализа множественной регрессии.

Задача № 12………………………………………………………………….. 4

В приводимой ниже таблице представлены некоторые результаты анализа множественной регрессии, объясняющей сумму денег, расходуемых на приобретение кухонного оборудования для приготовления пищи в домашних условиях (Y), исходя из величины дохода (X_1), уровня образования (X_2) и величины расходов на приобретение спортивного инвентаря (X_3). Все «денежные» переменные представляют общие суммы (в долларах) за прошедший год; уровень образования указан в количестве лет учебы. Рассматривается 20 наблюдений.

Столбец Коэффициент регрессии Стандартная ошибка коэффициента t — статистика

Сдвиг -9,26247 13,37258 -0,69265

X_1 0,001373 0,000191 7,18848

X_2 10,76225 0,798748 13,47390

X_3 0,005484 0,025543 0,214697

S_e = 16,11 R^2 = 0,942

Уравнение регрессии имеет следующий вид:

Y = -9,26 + 0,00137*X_1 + 10,8*X_2 + 0,00548*X_3

Сколько, по вашему мнению, будет тратить человек на приобретение кухонного оборудования для приготовления пищи, если он зарабатывает $25000 в год, проучился 14 лет и потратил в прошлом году $292 на приобретение спортивного инвентаря?

Насколько удачно данное уравнение регрессии объясняет затраты на приобретение оборудования для приготовления пищи дома? В частности, на какой показатель в представленных здесь результатах следует обратить внимание и является ли он статистически значимым?

С какой приблизительно точностью (в долларах за год) можно прогнозировать затраты на приобретение оборудования для приготовления пищи дома применительно к людям, охваченным настоящим исследованием?

Для каждой из трех Х-переменных укажите, оказывает ли она значимое влияние на затраты, связанные с приобретением оборудования для приготовления пищи дома (с учетом поправки на другие Х-переменные).

Задача № 15………………………………………………………………….. 6

В следующей таблице представлена компьютерная распечатка части анализа, объясняющего конечную стоимость того или иного проекта на основе наиболее удачного выбора руководством фирмы величины затрат на оплату труда и сырье в момент подачи предложения о заключении контракта на выполнение этого проекта (подсчет производился на основе 25 недавно заключенных контрактов). Все переменные измеряются в долларах.

Коэффициенты корреляции

Затраты Оплата работников

Оплата работников 0,684

Стоимость сырья 0,713 0,225

Уравнение регрессии имеет следующий вид:

Затраты = 13975 + 1,18*(оплата работников) + 1,64*(стоимость сырья)

Независимая переменная Коэффициент регрессии Стандартная ошибка оценки t — статистика P

Константа 13975 4286 3,26 0,004

Оплата работников 1,1806 0,2110 5,59 0,000

Стоимость сырья 1,6398 0,2748 5,97 0,000

S_e = 3860 R^2 = 0,797 R_adj^2 = 0,778

Дисперсионный анализ

Источник DF SS MS F P

Регрессия 2 1286267776 643133888 43,17 0,000

Ошибка 22 327775808 14898900

Итого 24 1614043648

Источник DF SEQ SS

Оплата работников 1 755914944

Стоимость сырья 1 530352896

Какой процент вариации затрат объясняется информацией, доступной руководству фирмы в момент подачи предложения о заключении контракта?

С какой примерно точностью мы можем прогнозировать затраты, если нам известны другие переменные?

Найдите прогнозируемые затраты на выполнение проекта, оплата труда для которого планируется в размере $9000, а затраты на сырье — $20000.

Является ли значимым F-тест? О чем он свидетельствует?

Оказывает ли стоимость сырья существенное влияние на затраты?

Интерпретируйте применительно к предыдущему примеру коэффициент регрессии для размера оплаты труда, оценив среднее значение конечных затрат на каждый доллар, планируемый руководством фирмы на оплату труда по соответствующему проекту.

Задача № 18………………………………………………………………….. 8

Сменив поставщиков, вы надеетесь, что стандартное отклонение важнейшего исходного компонента удастся снизить с 0,62 до 0,38 (в среднем). Основываясь на результатах множественной регрессии из предыдущего примера, ответьте на следующий вопрос: на какое снижение уровня брака следует рассчитывать, если вы все же решите сменить поставщиков? (Уровень брака измеряется в процентных единицах; таким образом, «брак» = 5,3 соответствует 5,3% бракованных изделий).

Задача № 22………………………………………………………………….. 8

Ценообразование, как правило, — непростая задача. Заниженная цена обычно способствует повышению объема продаж, однако прибыль в расчете на одну продажу в этом случае оказывается ниже. Завышенная цена обеспечивает более высокую прибыль в расчете на одну продажу, однако в целом объем продаж снижается. Обычно фирма стремится выбрать такую цену, которая максимизирует общую прибыль, однако при этом следует учитывать существование значительной неопределенности в отношении спроса. В следующей таблице представлены гипотетические результаты исследования прибыли на сопоставимых тестовых рынках одинакового размера, где меняется лишь цена.

Цена Прибыль

8 6486

9 10928

10 15805

11 13679

12 12758

13 9050

14 5702

15 -109

1) Составьте уравнение регрессии в следующей форме:

прогнозируемая прибыль = a + b*(цена).

2) Проверьте, значима ли данная регрессия. Можно ли считать логически обоснованным полученный вами результат?

3) С какой примерно точностью (в долларах) можно прогнозировать прибыль на основании цены, если воспользоваться предложенным здесь способом?

4) Проанализируйте диагностическую диаграмму и выясните, присутствует ли в ней еще какая-нибудь структура, которая помогла бы объяснить прибыль на основании цены. Опишите структуру, которую вам удалось выявить.

5) Создайте еще одну Х-переменную, используя квадрат цены, и составьте уравнение множественной регрессии для прогнозирования прибыли, исходя из цены и ее квадрата.

6) С какой примерно точностью (в долларах) можно прогнозировать прибыль на основании цены, если воспользоваться двумя указанными выше Х-переменными?

7) Проверьте, объясняют ли взятые вместе цена и ее квадрат значимую долю вариации прибыли.

8) Найдите цену, при которой прогнозируемая прибыль достигает максимума. Сравните полеченное значение с ценой, при которой наблюдаемая прибыль достигла наивысшего значения.

Задача № 24………………………………………………………………….. 12

В следующей таблице приведена информация о тарифах на размещение рекламы в журналах.

Издание Y, тариф (одна страница цветной рекламы), долл. Х_1, планируемая аудитория, тыс. чел. Х_2, процент мужчин Х_3, медиана дохода семьи

Audubon 25 315 1 645 51,1 38 787

BetterHomes&Gardens 198 000 34 797 22,1 41 933

BusinessWeek 103 300 4 760 68,1 63 667

Cosmopolitan 94 100 15 452 17,3 44 237

Elle 55 540 3 735 12,5 47 211

Entrepreneur 40 355 2 476 60,4 47 579

Esquire 51 559 3 037 71,3 44 715

FamilyCircle 147 500 24 539 13 38 759

FirstForWomen 28 059 3 856 3,6 43 850

Forbes 59 340 4 191 68,8 66 606

Fortune 60 800 3 891 68,8 58 402

Glamour 85 080 10 891 7,8 46 331

GolfDigest 98 760 6 250 78,9 61 323

GoodHousekeeping 166 080 25 306 12,6 38 335

Gourmet 49 640 4 484 29,6 57 060

HarpersBazaar 52 805 2 621 11,5 44 992

Inc. 70 825 2 166 66,9 72 493

Kiplinger'sPersonalFinance 46 580 3 332 65,1 63 876

LadiesHomeJournal 127 000 17 040 6,8 38 442

Life 63 750 14 220 46,9 41 770

Mademoiselle 55 910 4 804 8 46 694

MarthaStewartLiving 93 328 4 849 16,6 61 890

McCall's 113 120 16 301 7,6 33 823

Money 98 250 9 805 60,6 60 549

MotorTrend 79 800 5 281 88,5 48 739

NationalGeographic 159 345 32 158 53 44 326

NaturalHistory 20 180 1 775 45 41 499

Newsweek 148 800 20 720 53,5 53 025

Parents' Magazine 72 820 12 064 18,2 39 369

PC Computing 40 675 4 606 67 57 916

People 125 000 33 668 34 46 171

PopularMechanics 78 685 9 036 86,9 40 802

Reader'sDigest 193 000 51 925 42,4 38 060

Redbook 95 785 13 212 8,9 41 156

RollingStone 78 920 8 638 59,8 43 212

Runner'sWorld 36 850 2 078 62,9 60 222

ScientificAmerican 37 500 2 704 70 62 372

Seventeen 71 115 5 738 17 37 034

Ski 32 480 2 249 64,5 58 629

SmartMoney 42 900 2 224 63,4 57 170

Smithsonian 73 075 8 253 47,9 50 872

SoapOperaDigest 35 070 7 227 10,3 31 835

SportsIllustrated 162 000 21 602 78,8 45 897

Sunset 56 000 5 276 38,7 52 524

Teen 53 250 3 057 15,4 42 640

TheNewYorker 62 435 3 223 48,9 49 672

Time 162 000 22 798 52,4 49 166

TrueStory 17 100 3 582 12,2 15 734

TV Guide 146 400 40 917 42,8 37 396

U.S. News & World Report 98 644 9 825 57,5 52 018

VanityFair 67 890 4 307 27,7 52 189

Vogue 63 900 8 434 12,9 44 242

Woman'sDay 137 000 22 747 6,7 38 463

WorkingWoman 87 500 3 312 6,3 44 674

YM 73 270 3 109 14,4 43 696

Среднее значение 83534 10913 39,7 47710

Стандартное отклонение 45446 11212 25,9 10225

Размер выборки n=55

ДанныевзятыизMediamarkResearchMagazineQualitative Audiences Report, Spring 1996; и SDRS Consumer Magazine Advertising Source, July 1997, Volume 79, Number 7.

Выполните регрессионный анализ приведенных данных и ответьте, какая из Х-переменных наименее полезна с точки зрения обеспечения величины тарифа на размещение рекламы в журналах? Поясните свой ответ.

Выполните еще раз регрессионный анализ, отбросив эту Х-переменную.

Сравните следующие результаты без использования указанной Х-переменной с результатами в случае ее использования: F-тест, R^2, коэффициенты регрессии и t-статистики.

Задача № 32………………………………………………………………….. 16

Задача № 32.

☼В задаче 27 для предсказания стоимости перевозок используется объем продаж и количество заказов (☼WARECOST.XLS).

1) Выполните анализ остатков и оцените адекватность выбранной модели.

2) Постройте график распределения остатков по месяцам. Наблюдается ли какая-либо закономерность? Объясните свой ответ.

3) Вычислите статистику Дурбина — Уотсона.

4) Наблюдается ли положительная автокорреляция между остатками, если уровень значимости равен 0,05?

Задача № 38………………………………………………………………….. 19

В задаче 7 для предсказания длительности эксплуатации нового вида кроссовок используется степень амортизации и уровень износостойкости. Результаты приведены в сводной таблице дисперсионного анализа.

Источник Количество степеней свободы (df) Сумма квадратов (SS) Среднеквадратичное значение (дисперсия) (MS) F — статистика p — значение

Регрессия 2 12,6102030 6,30510 97,69 0,0001

Ошибка 12 10,77453 0,00454

Всего 14 13,38473

1) Определите, существует ли статистически значимая зависимость между переменной Y и двумя независимыми переменными при уровне значимости, равном 0,05.

2) Объясните смысл p – значения.

Задача № 44………………………………………………………………….. 20

Рассмотрим модель множественной регрессии, характеризующуюся следующим параметрами:

n = 25, b_1 = 4, b_2 = 3, S_b1 = 1,2, S_b2 = 0,8

Какая из переменных имеет наибольший наклон, измеренный в единицах t–статистики?

Постройте 95%-ный доверительный интервал, содержащий наклон генеральной совокупности β_1.

Существует ли статистически значимая зависимость между переменной Yи каждой из объясняющих переменных при уровне значимости, равном 0,05? Укажите, какую из независимых переменных следует включить в модель регрессии.

Задача № 49………………………………………………………………….. 21

☼В задаче 30 для предсказания общего количества часов простоя за неделю использовалось общее количество человеко-часов в рабочей неделе (продолжительность работы в офисе) и общее количество часов, отработанных сотрудниками вне центральной станции (часы, проведенные на выезде). Решите в среде SPSS задачу построения модели множественной линейной регрессии для данных из файла ☼STANDBY.XLS.

1) Постройте 95%-ный доверительный интервал, содержащий наклон генеральной совокупности откликов, зависящих от количества часов, проведенных на телевизионной станции и на выезде.

2) Существует ли статистически значимая зависимость между переменной Yи каждой их объясняющих переменных при уровне значимости, равном 0,05? Укажите, какую из независимых переменных следует включить в модель регрессии.

Задача № 53………………………………………………………………….. 22

☼ В задаче 28 для предсказания расхода топлива на милюпути использовалось количество лошадиных сил и вес автомобиля. Решите в среде SPSSзадачу построения модели множественной линейной регрессии для данных из файла ☼AUTO.XLS.

Существует ли статистически значимая зависимость между переменной Y и каждой из объясняющих переменных при уровне значимости, равном 0,05? Укажите, какую из независимых переменных следует включить в модель регрессии.

Вычислите коэффициенты частной смешанной корреляции r_y1.2^2и r_y2.1^2. Объясните их смысл.

Задача № 58………………………………………………………………….. 24

☼Менеджер по маркетингу в компании, владеющей крупной сетью супермаркетов, желает оценить влияние расстояния между полками, а также их местоположение на объем продаж корма для домашних животных. Для анализа создана случайная выборка, состоящая из 12 приблизительно одинаковых магазинов (☼PETFOOD.XLS).

Магазин Расстояние между полками, Х (футы) Местоположение Еженедельный объем продаж, Y (тыс.дол.)

1 5 Сзади 0,16

2 5 Спереди 0,22

3 5 Сзади 0,14

4 10 Сзади 0,19

5 10 Сзади 0,24

6 10 Спереди 0,26

7 15 Сзади 0,23

8 15 Сзади 0,27

9 15 Спереди 0,28

10 20 Сзади 0,26

11 20 Сзади 0,29

12 20 Спереди 0,31

Сформулируйте уравнение множественной регрессии.

Объясните смысл наклонов отклика в этой модели.

Предскажите среднее значение ежемесячных продаж корма в магазине, внутри которого стеллаж расположены на расстоянии 8 футов друг от друга в глубине торгового зала. Постройте 95%-ные доверительные интервалы для математического ожидания и предсказанного значения отклика.

Выполните анализ остатков и оцените адекватность модели.

Существует ли статистически значимая зависимость между объемом продаж и двумя объясняющими переменными при уровне значимости, равном 0,05?

Являются ли объясняющие переменные статистически значимыми при уровне значимости, равном 0,05? Какую модель регрессии следует применить для решения задачи?

Постройте 95%-ный доверительный интервал, содержащий наклон объема продаж относительно расстояния между стеллажами и их положения внутри торгового зала.

Объясните смысл коэффициента множественной смешанной корреляцииr_(Y.12)^2. Вычислите скорректированный коэффициент r_(Y.12)^2.

Вычислите коэффициент частной множественной корреляции и объясните его смысл.

Какое предположение о наклоне отклика следует сделать при решении этой задачи?

Включите в модель эффект взаимодействия, установив уровень значимости равным 0,05. Вносит ли этот эффект статистически значимый вклад в построенную модель регрессии? Сравните точность модели с включенным эффектом взаимодействия с точностью исходной модели без него.

Задача № 65………………………………………………………………….. 31

☼В задаче 29 для предсказания объема продаж использовались затраты на рекламу по радио и телевидению, а также в газетах. Постройте регрессионную модель, учитывающую взаимодействие между затратами на рекламу на радио и телевидении и затратами на рекламу в газетах (☼ADRADTV.XLS).

1) Определите, имеет ли взаимодействие между затратами на рекламу на радио и телевидении и затратами на рекламу в газетах, существенное влияние на объем продаж при уровне значимости, равном 0,05.

2) Какую модель регрессии следует применить для решения задачи 29?

Задача № 77………………………………………………………………….. 32

☼Продолжайте использовать прогнозы годовой заработной платы служащих исходя из их возраста и стажа работы.

1) Найдите прогнозируемую годовую заработную плату и ошибку прогнозирования для служащего под номером 33 и сравните полученный результат с его фактической годовой заработной платой.

2) Найдите прогнозируемую годовую заработную плату и ошибку прогнозирования для служащего с номером 52 и сравните полученный результат с его фактической годовой заработной платой.

3) Найдите прогнозируемую годовую заработную плату и ошибку прогнозирования для самого высокооплачиваемого служащего и сравните полученный результат с его фактической годовой заработной платой. О чем свидетельствуют результаты этого сравнения?

4) Найдите прогнозируемую годовую заработную плату и ошибку прогнозирования для самого низкооплачиваемого служащего и сравните полученный результат с его фактической годовой заработной платой. О чем свидетельствуют результаты этого сравнения?

Задача № 80………………………………………………………………….. 34

☼Теперь проанализируйте влияние уровня подготовки служащего на его годовую заработную плату с поправками на его возраст и стаж работы и без таких поправок.

1) Найдите среднюю годовую заработную плату для каждого из трех уровней подготовки и сравните полученные результаты.

2) Найдите уравнение множественной регрессии для прогнозирования годовой заработной платы исходя из возраста, стажа работы и уровня подготовки служащего, воспользовавшись индикаторными переменными для уровня подготовки. Используйте уровень A в качестве базы и не используйте соответствующую индикаторную переменную.

3) Проанализируйте и интерпретируйте коэффициент регрессии для каждой индикаторной переменной, которая соответствует одному из уровней подготовки.

4) Оказывает ли уровень подготовки служащего значимое влияние на его годовую заработную плату – с поправкой на возраст служащего и его стаж работы?

5) Сравните и обсудите среднюю разницу в заработной плате между уровнями подготовки A и C – как с поправкой на возраст и стаж работы, так и без нее.

Выдержка из текста

Решение задач при помощи spss по дисциплине "Анализ данных"

Тема : «Множественная регрессия».

с подробным описанием и графиками!

сдана на отлично!

Список использованной литературы

лекции

Похожие записи