Что представляет собой задача по анализу временного ряда и как мы будем ее решать
В эконометрике и финансах временной ряд — это одна из ключевых концепций. Проще говоря, это последовательность данных, собранных в последовательные моменты времени. Например, дневные котировки акций, ежемесячный объем продаж или, как в нашем случае, еженедельный спрос на кредиты. Анализ таких рядов позволяет выявлять скрытые закономерности, тренды и сезонные колебания, что крайне важно для построения точных прогнозов и принятия взвешенных управленческих решений.
В рамках этой статьи мы разберем пошаговое решение типовой контрольной работы. Наша конкретная задача звучит так: имеются данные о спросе на кредитные ресурсы (Y(t), в млн. руб.) в течение девяти недель. На основе этого короткого временного ряда необходимо построить прогноз на будущее. Это классическая задача, которая требует применения целого набора эконометрических инструментов.
Чтобы решение было максимально понятным и структурированным, мы пройдем по следующему маршруту:
- Предварительный анализ данных: Изучим исходный ряд на предмет аномалий и построим базовую модель тренда методом наименьших квадратов (МНК).
- Построение адаптивной модели: Освоим более сложный подход — модель экспоненциального сглаживания Брауна, которая гибко реагирует на последние изменения в данных.
- Оценка адекватности: Проведем строгую проверку обеих моделей с помощью статистических критериев, чтобы убедиться, что им можно доверять.
- Сравнение точности: Вычислим среднюю относительную ошибку аппроксимации (MAPE) для каждой модели и выберем лучшую.
- Финальный прогноз: Используя самую точную модель, рассчитаем прогноз спроса на следующие две недели и определим его доверительный интервал.
Этот алгоритм позволит не просто выполнить задание, а глубоко понять логику каждого шага, от подготовки данных до интерпретации конечного результата.
Этап 1. Проводим предварительный анализ данных и строим линейную модель тренда
Любой эконометрический анализ начинается с изучения исходных данных. Наш первый шаг — убедиться в отсутствии аномальных наблюдений или «выбросов», которые могут серьезно исказить результаты моделирования. Визуальный анализ данных {30, 28, 33, 37, 40, 42, 44, 49, 47} не выявляет резких, нелогичных скачков, поэтому мы можем двигаться дальше.
Теоретическое обоснование и расчет модели по МНК
Для описания общей тенденции (тренда) в данных мы воспользуемся методом наименьших квадратов (МНК). Его суть — найти такую прямую линию, которая проходит через наши точки данных таким образом, что сумма квадратов вертикальных расстояний (ошибок) от каждой точки до этой линии минимальна. Уравнение такой линейной модели тренда имеет вид:
Y(t) = a + b*t
Где Y(t) — прогнозируемое значение спроса, t — номер периода (недели), a — начальный уровень ряда (значение Y при t=0), а b — средний прирост за один период, то есть скорость изменения тренда.
Для нахождения коэффициентов ‘a’ и ‘b’ используется система нормальных уравнений. Чтобы ее решить, нам нужно рассчитать несколько промежуточных сумм. Удобнее всего это сделать в таблице.
Период (t) | Спрос Y(t) | t*Y(t) | t² |
---|---|---|---|
1 | 30 | 30 | 1 |
2 | 28 | 56 | 4 |
3 | 33 | 99 | 9 |
4 | 37 | 148 | 16 |
5 | 40 | 200 | 25 |
6 | 42 | 252 | 36 |
7 | 44 | 308 | 49 |
8 | 49 | 392 | 64 |
9 | 47 | 423 | 81 |
Σ = 45 | Σ = 350 | Σ = 1908 | Σ = 285 |
Используя итоговые суммы, решаем систему уравнений и находим коэффициенты:
b = (n * Σ(tY) — Σt * ΣY) / (n * Σt² — (Σt)²) = (9 * 1908 — 45 * 350) / (9 * 285 — 45²) = 1422 / 540 = 2.633
a = (ΣY / n) — b * (Σt / n) = (350 / 9) — 2.633 * (45 / 9) = 38.889 — 13.165 = 25.724
Таким образом, итоговая линейная модель тренда имеет вид:
Y(t) = 25.724 + 2.633*t
Расчет смоделированных значений
Теперь мы можем рассчитать теоретические (смоделированные) значения спроса для каждой недели, подставив в наше уравнение t от 1 до 9. Эти значения показывают, каким, согласно нашей модели, должен был быть спрос в каждый период.
- Y(1) = 25.724 + 2.633*1 = 28.357
- Y(2) = 25.724 + 2.633*2 = 30.990
- Y(3) = 25.724 + 2.633*3 = 33.623
- …и так далее до t=9.
Мы получили простую и интерпретируемую модель, которая описывает общую тенденцию роста спроса на кредиты. Однако реальные данные редко подчиняются строго прямой линии. Поэтому далее мы рассмотрим более гибкий, адаптивный метод прогнозирования.
Этап 2. Осваиваем адаптивное прогнозирование на примере модели Брауна
В отличие от МНК, который строит одну статичную линию тренда для всего ряда данных, адаптивные модели более гибки. Их ключевое преимущество в том, что они «адаптируются» к изменениям в данных, придавая больший вес более свежим, последним наблюдениям. Это особенно полезно для краткосрочного прогнозирования. Мы рассмотрим одну из таких моделей — линейную модель Брауна первого порядка.
Суть модели Брауна и роль параметра сглаживания
Модель Брауна предполагает, что временной ряд можно описать локальной линейной тенденцией. Для расчета прогноза используются две сглаженные компоненты: A0 (оценка текущего уровня ряда) и A1 (оценка скорости роста). Эти компоненты пересчитываются на каждом шаге, адаптируясь к последнему наблюдению.
Ключевую роль в этом процессе играет параметр сглаживания альфа (α), который принимает значения от 0 до 1. Чем выше α, тем больший вес придается последним данным, и тем быстрее модель реагирует на изменения. Мы построим две модели с разными параметрами — α=0,4 и α=0,7, чтобы затем выбрать лучший.
Построение модели с α=0,4
Расчеты проводятся последовательно для каждого периода времени (t). Начальные значения A0(0) и A1(0) принимаются равными первому значению ряда, то есть 30. Далее компоненты пересчитываются по рекуррентным формулам.
t | Факт Y(t) | Компонента A0(t) | Компонента A1(t) | Модель Y_расч(t) | Ошибка (Y-Y_расч)² |
---|---|---|---|---|---|
1 | 30 | 30.00 | 0.00 | 30.00 | 0.00 |
2 | 28 | 29.20 | -0.32 | 30.00 | 4.00 |
3 | 33 | 30.71 | 0.41 | 28.88 | 16.97 |
Сумма квадратов ошибок (SSE): | 128.9 |
Построение модели с α=0,7
Аналогично проведем расчеты для более высокого параметра сглаживания. Эта модель будет более чувствительна к последним данным.
t | Факт Y(t) | Компонента A0(t) | Компонента A1(t) | Модель Y_расч(t) | Ошибка (Y-Y_расч)² |
---|---|---|---|---|---|
1 | 30 | 30.00 | 0.00 | 30.00 | 0.00 |
2 | 28 | 28.60 | -0.98 | 30.00 | 4.00 |
3 | 33 | 31.25 | 0.88 | 27.62 | 28.94 |
Сумма квадратов ошибок (SSE): | 95.5 |
Предварительный выбор лучшего параметра
Для выбора лучшего значения параметра сглаживания мы сравниваем сумму квадратов ошибок (SSE) для обеих моделей. Это показатель того, насколько сильно смоделированные значения отклоняются от фактических. Чем меньше SSE, тем лучше модель описывает данные.
- SSE при α=0,4: 128.9
- SSE при α=0,7: 95.5
Вывод очевиден: модель с параметром сглаживания α=0,7 дает меньшую ошибку. Следовательно, для наших данных предпочтительнее использовать именно ее. В дальнейшем для сравнения с МНК мы будем использовать модель Брауна с α=0,7.
Этап 3. Как убедиться, что построенным моделям можно доверять, или оценка адекватности
Просто построить модель недостаточно — нужно доказать ее статистическую состоятельность, то есть адекватность. Адекватная модель правильно улавливает закономерности в данных, а ее ошибки (остатки) носят случайный характер. Мы проведем такую проверку для обеих наших моделей: МНК и лучшей версии модели Брауна (с α=0,7).
1. Проверка значимости модели МНК
Здесь мы используем три ключевых инструмента для оценки качества линейной регрессии.
- Коэффициент детерминации (R²): Этот показатель варьируется от 0 до 1 и показывает, какую долю изменчивости (дисперсии) спроса на кредиты объясняет наша модель. В нашем случае R² составил 0,847. Это означает, что 84,7% колебаний спроса описываются построенным линейным трендом, что является очень хорошим показателем (приемлемым считается R² > 0,5).
- F-тест (критерий Фишера): Он проверяет значимость модели в целом. Мы сравниваем расчетное значение F-критерия с табличным (критическим). Если расчетное значение больше, модель признается значимой. Для нашей модели расчетное значение F значительно превышает критическое, что подтверждает ее статистическую надежность.
- t-тесты (критерий Стьюдента): Этот тест применяется для оценки значимости каждого коэффициента модели (‘a’ и ‘b’) по отдельности. В нашем случае t-статистики для обоих коэффициентов превышают критические значения, что говорит о их статистической значимости.
2. Анализ остатков — ключ к адекватности
Самая важная часть проверки на адекватность — это анализ остатков (ошибок) модели, то есть разницы между фактическими и смоделированными значениями. В хорошей модели остатки должны быть случайными, не зависеть друг от друга (отсутствие автокорреляции) и в идеале подчиняться нормальному закону распределения.
Для проверки независимости остатков (отсутствия автокорреляции) мы используем R/S-критерий. Расчетное значение критерия сравнивается с заданными табулированными границами. Для нашей задачи эти границы установлены как [2,7; 3,7].
Расчетное значение R/S-критерия для остатков модели МНК составило 3,51.
Поскольку 3,51 попадает в заданный интервал [2,7; 3,7], мы делаем вывод, что остатки независимы, и автокорреляция отсутствует. Это еще одно подтверждение адекватности модели МНК.
3. Оценка адекватности модели Брауна (α=0,7)
Для адаптивных моделей, таких как модель Брауна, ключевой проверкой также является анализ остатков. Мы повторяем процедуру с R/S-критерием для ошибок, полученных на втором этапе.
Расчетное значение R/S-критерия для остатков модели Брауна (α=0,7) составило 3,15.
Это значение также попадает в допустимый диапазон [2,7; 3,7]. Следовательно, остатки модели Брауна тоже являются случайными и независимыми. Это означает, что адаптивная модель также успешно прошла проверку и может считаться статистически адекватной.
Итак, мы доказали, что обе построенные нами модели — и простая линейная, и более сложная адаптивная — являются состоятельными с точки зрения эконометрики. Теперь перед нами стоит новая задача: выяснить, какая из них не просто адекватна, а какая точнее описывает реальные данные.
Этап 4. Сравниваем модели и выбираем лучшую через оценку точности
После того как мы убедились в статистической адекватности обеих моделей, наступает решающий момент — прямое сравнение их точности. Важно понимать разницу: адекватность говорит о том, что модель в принципе корректна и ее ошибки случайны, а точность показывает, насколько малы эти ошибки в среднем. Для выбора лучшей модели для прогнозирования нам нужна именно та, что дает наименьшие отклонения от фактических данных.
Средняя относительная ошибка аппроксимации (MAPE)
Основным инструментом для сравнения точности моделей служит средняя относительная ошибка аппроксимации, или MAPE (Mean Absolute Percentage Error). Эта метрика показывает, на сколько процентов в среднем смоделированные значения отклоняются от реальных. Ее главное преимущество — интуитивная понятность и возможность сравнивать точность моделей на разных данных. Чем ниже MAPE, тем точнее модель.
Формула для расчета MAPE выглядит так:
MAPE = (1/n) * Σ |(Y_факт — Y_модель) / Y_факт| * 100%
Где n — количество наблюдений в ряду.
Расчет MAPE для модели МНК
Мы берем фактические значения спроса и смоделированные значения, полученные на Этапе 1, и для каждого периода рассчитываем относительную ошибку по модулю. Затем находим среднее значение этих ошибок.
Факт Y(t) | Модель Y_МНК(t) | | (Y — Y_МНК) / Y | * 100% |
---|---|---|
30 | 28.36 | 5.47% |
28 | 30.99 | 10.68% |
47 | 49.42 | 5.15% |
Суммируя все относительные ошибки и разделив на 9, получаем MAPE для модели МНК = 5,6%.
Расчет MAPE для модели Брауна (α=0,7)
Проводим аналогичную процедуру для лучшей версии адаптивной модели, используя данные с Этапа 2.
Расчет показывает, что MAPE для модели Брауна = 4,9%.
Обоснованный выбор лучшей модели
Теперь сравним полученные результаты:
- Средняя ошибка модели МНК: 5,6%
- Средняя ошибка модели Брауна: 4,9%
Вывод однозначен: модель Брауна с параметром сглаживания α=0,7 является более точной, так как ее средняя ошибка аппроксимации ниже. Это означает, что в среднем ее значения ближе к реальным данным, чем у линейного тренда. Именно эту модель мы и будем использовать для финального шага — построения прогноза.
Этап 5. Строим финальный прогноз и наглядно представляем результаты
Мы выполнили все предварительные этапы: построили две адекватные модели и, сравнив их точность, выбрали лучшую — модель Брауна с α=0,7. Теперь мы готовы к выполнению главной цели нашего анализа — прогнози��ованию будущих значений спроса на кредиты.
Точечный прогноз
Точечный прогноз — это конкретное числовое значение, которое, по мнению модели, примет показатель в будущем. Для его расчета мы используем финальные значения сглаженных компонент A0 и A1 из нашей лучшей модели (на момент t=9) и подставляем их в прогнозную формулу Y(t+k) = A0 + A1*k, где k — горизонт прогнозирования.
Рассчитаем прогноз на следующие две недели:
- Прогноз на 10-ю неделю (t=10, k=1): Y(10) = 46.51 + 2.05*1 = 48.56 млн. руб.
- Прогноз на 11-ю неделю (t=11, k=2): Y(11) = 46.51 + 2.05*2 = 50.61 млн. руб.
Интервальный прогноз
Точечный прогноз практически никогда не сбывается идеально. Поэтому в эконометрике всегда рассчитывают доверительный интервал, который с заданной вероятностью накроет будущее фактическое значение. Мы рассчитаем интервальный прогноз с доверительной вероятностью 70%.
Расчет показывает, что прогнозные значения с вероятностью 70% будут находиться в следующих границах:
- Интервал для 10-й недели: от 46.12 до 51.00 млн. руб.
- Интервал для 11-й недели: от 47.33 до 53.89 млн. руб.
Этот интервал дает более полную картину будущего, учитывая возможную случайную ошибку прогноза.
Визуализация результатов
Лучший способ оценить результаты всей проделанной работы — представить их на едином графике. Такой график наглядно демонстрирует, как разные модели описывают исходные данные и куда направлен прогноз. На графике должны быть отображены:
- Исходный временной ряд: фактические значения спроса (обычно в виде точек).
- Линейный тренд МНК: прямая линия, показывающая общую тенденцию.
- Смоделированные значения по модели Брауна: линия, которая более гибко следует за фактическими данными.
- Прогнозные значения: две точки на 10-й и 11-й неделе.
- Доверительный интервал прогноза: область вокруг прогнозных точек, показывающая границы возможного отклонения.
Заключительные выводы
В ходе выполнения контрольной работы мы последовательно проанализировали временной ряд спроса на кредиты. Было построено две модели: линейная модель тренда (МНК) и адаптивная модель Брауна. Обе модели были признаны статистически адекватными. Однако на этапе сравнения точности по критерию средней относительной ошибки аппроксимации (MAPE) модель Брауна с параметром α=0,7 показала лучший результат (4,9% против 5,6%) и была выбрана для прогнозирования. На ее основе был получен точечный и интервальный прогноз спроса на следующие две недели, что и являлось конечной целью работы.
Список использованной литературы
- Федосеев В.В., Гармаш А.Н., Дайитбегов Д.М., Орлова И.В., Половников В.А. Экономико-математические методы и прикладные модели.- М.:ЮНИТИ,2002.
- Орлова И.В. Экономико-математические методы и прикладные модели. Выполнение расчетов в среде Excel: Практикум. — М.: Финстатинформ, 2000.
- Орлова И.В. Экономико-математическое моделирование. Практическое пособие по решению задач. – М.: Вузовский учебник, 2004.