Índice
Índice
Modelos
Sobreajuste
del Modelo
Validación
del Modelo
Incorrelación
de los errores
Datos
Modelo con todos los datos
Bibliografía
En
esta oportunidad trataremos de pronosticar la cantidad de pasajeros
transportados por la Empresa Lan Chile, en la ruta Santiago – Isla de Pascua a
través de un modelo ARIMA. Para lo anterior contamos con una serie de tiempo
que parte en el mes de enero de 1990 y termina en junio de 2001, es decir 138
observaciones.
Dejaremos
los últimos datos de la serie como periodo de validación, es decir el último
semestre quedará reservado para efectos de comprobación de la capacidad
predictiva del modelo.
A
continuación se entrega un cuadro con las estadísticas básicas
correspondientes a 132 observaciones.
Podemos
ver que mensualmente, en promedio se han transportado 1.752 pasajeros (ida y
vuelta) en la ruta bajo estudio. También, la cantidad más baja de pasajeros
corresponde a 431 en junio de 1992 y la más alta a 4.612 en febrero de 2000.
Por otro lado, el 50% de las observaciones se encuentra sobre los 1.559
pasajeros transportados.
Para
analizar la serie temporal de pasajeros transportados se utilizará la metodología
Box-Jenkins que es un procedimiento de análisis estadístico para ajustar a una
serie un tipo especial de modelos, denominados ARIMA (Autorregresive Integrated
Moving Average) Dicho análisis consta de las siguientes fases o etapas:
- Identificación
de la estructura del modelo: decidir qué transformación aplicar a la serie
observada para convertir el proceso subyacente en estacionario y determinar
la estructura del proceso estacionario resultante. Se debe resaltar que
algunas series de tiempo son estacionarias y no es necesario hacer
transformación alguna.
- Estimación
de los parámetros del modelo para el proceso estacionario.
- Diagnosis
del modelo: Comprobar si se satisface la hipótesis de que los residuos
obtenidos son una realización de un proceso de ruido blanco.
La
primera etapa en el proceso de modelamiento o identificación del modelo
univariante de una serie temporal, consiste en comprobar si esta es estacionaria
en media y en varianza. Si además los datos de la serie están recogidos con
una periodicidad inferior a un año (en el caso de la cantidad de pasajeros se
trata de datos mensuales) tendremos que comprobar también si es estacionaria
estacionalmente. En el caso que la serie no sea estacionaria, ya sea en varianza
o en media, habrá que aplicarle las transformaciones necesarias para que lo
sea.
En
el gráfico de secuencia de la página anterior se puede observar que al parecer
la serie no es estacionaria en varianza. Se puede ver que en los inicios de la
serie hay un tipo de dispersión, en cambio a medida que se avanza en el tiempo,
más o menos en la mitad y sobre todo al final de la serie, la dispersión de
los datos es mucho mayor, lo que muestra indicios de no estacionariedad en
varianza. Para detectar si la varianza de la serie es constante, es decir si no
cambia con el tiempo, agruparemos las observaciones por años y aplicaremos la
prueba de Levene para la homogeneidad de varianzas. Dado que el periodo de
ajuste comprende desde 1900 hasta 2000, ambos años inclusive, dispondremos de
10 grupos con 12 observaciones cada uno. La prueba de Levene permitirá
contrastar la hipótesis nula de que no existen diferencias significativas entre
las varianzas de la serie pasajeros en los 10 grupos definidos. A continuación
se muestra una tabla con los resultados y después un Box Plot o gráfico de
cajas.
Utilizando
la Prueba de Homogeneidad de Varianza de Levene, llegamos a la conclusión que
no se puede aceptar al 5% la hipótesis nula de que las varianzas son las mismas
a lo largo de los años. A la misma conclusión se llega observando el gráfico
de caja. Uno se estaría preguntando, ¿si se llega a la misma conclusión, por
qué no sólo hacer el gráfico? La respuesta es sencilla, el gráfico sólo nos
da una referencia de lo que puede estar pasando, pero la respuesta definitiva la
da la Prueba de Levene.
En
el gráfico anterior, de nivel y dispersión nos podemos dar cuenta que a medida
que pasa el tiempo, la varianza va aumentando, incluso la pendiente de la recta
de regresión para la nube de puntos representada es 0,4. En todo caso, vuelvo a
repetir, la confirmación de la falta de estabilidad de la varianza nos la
proporciona el p-valor asociado a la prueba de Levene
Se
vuelve a hacer la prueba pero ahora se le pide que transforme los datos
aplicando logaritmo natural. Ahora es posible aceptar la hipótesis nula. En
otras palabras, aplicando logaritmo natural, el problema de la falta de
estabilidad de la varianza desaparece. Por lo que de ahora en adelante, se
utilizará en la modelización el logaritmo natural de la cantidad de pasajeros.
La
serie de datos también tiene que ser estacionaria en media, para comprobar lo
anterior veremos algunos gráficos.
Se
observa una clara tendencia alcista en los datos, lo que es el principal síntoma
de no estacionariedad en media. Por otro lado, fíjense que hay algunos valores
por debajo de la media y otros por sobre la media, lo que también indica no
estacionariedad en media. La media es la línea negra.
El
gráfico anterior nos muestra el correlograma de la serie, específicamente la
función de autocorrelación. Nótese como los picos van descendiendo
paulatinamente a cero, al memos los primeros 4 rezagos de la serie están fuera
de los límites de confianza, otra evidencia de que la serie no es estacionaria
en media.
También
al observar el estadístico de Ljung-Box (LB) para los primeros 36 rezagos se
concluye que la serie no es estacionaria en media, todos los p-valores
correspondientes a los rezagos mayores a 1 hasta el 36 son cero.
Seguramente
el lector se debe estar cuestionando el hecho de que descienden lentamente a
cero y si ya ha estudiado o visto otros modelos ARIMA, en éste no es tan
patente como aquellos, porque tiene una pequeña particularidad que se verá más
adelante y que tiende a hacer no tan patente la visualización de la falta de
estacionariedad y es que presenta una falta de estacionariedad también
estacionalmente.
Para
lograr la estacionariedad en media se procederá a diferenciar una vez la serie.
Ahora
se observa que la serie ya no se va reduciendo paulatinamente a cero. Pero sí
se observa más claramente la comentada falta de estacionariedad estacional. Fíjense
como los rezagos 12, 24 y 36 se van reduciendo paulatinamente a cero, lo que
estaría señalando que al parecer la serie tampoco es estacionaria
estacionalmente.
Para
estar más seguro de lo anterior se hará un correlograma de la función de
autocorrelación mostrando sólo los rezagos múltiplos de 12.
Ahora
sí se aprecia claramente que la serie no es estacionaria estacionalmente, por
lo tanto será necesaria hacer también una diferenciación estacional.
Esperamos
que después de todas estas transformaciones, llámese aplicación de logaritmos
naturales y diferenciaciones, se muestre la estructura o la caja negra que
genera la serie.
Se
recuerda que la serie para hacerla estacionaria en varianza y en media, fue
necesaria aplicarle logaritmo natural, hacerle una diferenciación a la parte no
estacional y una diferenciación a la parte estacional. Esa es la serie que se
seguirá aplicando desde ahora y para la cual buscaremos su identificación.
Para
lograr lo anterior necesitamos 2 tipos de gráficos, la función de
autocorrelación de nos muestra la presencia o no de las medias móviles del
modelo (MA) y la función de autocorrelación parcial, que nos muestra la
posible presencia de autocorrelaciones (AR)
Función
de Autocorrelación
Función
de Autocorrelación Parcial
Observando
los gráficos anteriores se aprecia que la función de autocorrelación parcial
desciende paulatinamente a cero y que la función de autocorrelación, después
del primer rezago se cae abruptamente a cero, lo que podría estar señalando un
proceso de generación MA1.
Por
otra parte, observando la parte estacional de la serie, en el gráfico de
autocorrelación parcial, se aprecia que los rezagos caen paulatinamente a cero,
al menos se observa eso en los rezagos 12 y 24, en cambio en la función de
autocorrelación el único rezago que cae fuera de los límites de confianza es
el número 12 y después siempre sus múltiplos se encuentran dentro de los límites
de confianza. Lo anterior nos dice que el proceso más apropiado es un MA1 para
la parte estacional de la serie.
Modelos
ARIMA
(0,1,1) x (0,1,1) s
La
nomenclatura anterior es una de las maneras de identificación de modelos ARIMA.
El primer paréntesis señala la estructura no estacional de la serie, en
particular señala que a la serie se le ha efectuado una diferenciación o se ha
integrado, para hacerla estacionaria (de ahí viene la I de ARIMA) y que el
modelo tiene un regresor de media móvil de primer orden MA1.
En
el segundo paréntesis se denota la parte estacional de la serie. Se debe señalar
que no todos los modelos arima tienen un segundo paréntesis, este lo tiene por
que utiliza datos menores al año y por que éstos, al parecer, son parte de la
caja negra que genera la serie y que estamos interesados en identificar.
Volviendo a nuestra descripción, la parte estacional originalmente era no
estacionaria, por eso se tuvo que diferenciar una vez y también el regresor del
modelo es MA1, específicamente SMA1 (la S es por estacionalidad)
Datos
Error
estándar : 0,18428
Log Likelihood : 27,9600
AIC : -51,9201
SBC
: -46,3618
|
Regresores
|
B
|
SE
B
|
T
– RATIO
|
PROB.
|
|
MA1
|
0,6192
|
0,07169
|
8,6376
|
0,0000000
|
|
SMA1
|
0,7551
|
0,09133
|
8,2681
|
0,0000000
|
El
cuadro anterior muestra los estadísticos más importantes del modelo, lo que
nos interesa en estos modelos es que sus regresores sean estadísticamente
significativos, y eso nos lo señala la última columna. Los p-valores asociados
a cada uno de los regresores es cero, en otras palabras a un 5% nivel de
significancia se puede rechazar la hipótesis nula de que son cero.
Sobreajuste del Modelo
El
hecho de que el modelo identificado sea adecuado no debe hacer descartar la
posibilidad de que otro modelo algo más complejo pueda ajustarse mejor a la
serie observada. Para comprobar si algún modelo se ajusta mejor conviene
utilizar la técnica del sobreajuste. El sobreajuste consiste en estimar cada
uno de los modelos obtenidos al aumentar en una unidad cada uno de los órdenes
p, q, P y Q
Por
lo tanto, si el modelo candidato recién calculado es
ARIMA
(0,1,1) x (0,1,1)s
Los
sobreajustes serán:
1) ARIMA (1,1,1) x (0,1,1)s
2) ARIMA (0,1,2) x (0,1,1)s
3) ARIMA (0,1,1) x (1,1,1)s
4) ARIMA (0,1,1) x (0,1,2)s
Después
de hacer los cálculos, se concluye:
El
regresor AR1 del modelo 1 no era significativo
El
regresor del modelo 2 no era significativo
Los
regresores SMA1 y SMA2 del modelo 4 no eran significativos
Por
lo tanto los modelo 1,2 y 4 fueron rechazados. El modelo 3 sí tuvo un buen
resultado.
Datos
Modelo 3 ARIMA (0,1,1) x (1,1,1)s
Error
estándar : 0,18077
Log
Likelihood : 29,3181
AIC
: -52,6362
SBC
: -44,2988
|
Regresores
|
B
|
SE
B
|
T – RATIO
|
PROB.
|
|
MA1
|
0,6374
|
0,07036
|
9,0590
|
0,00000
|
|
SAR1
|
0,2817
|
0,15143
|
1,8605
|
0,06534
|
|
SMA1
|
0,8995
|
0,24349
|
3,6944
|
0,00000
|
El
único detalle que tiene este modelo es con relación al regresor de
autocorrelación de primer orden de la parte estacional, el cual no es
significativo al 5% pero sí al 10%.
Ya
tenemos 2 modelos candidatos, ahora veremos cual de los 2 es mejor. Para saberlo
nos fijaremos en cómo los modelos se ajustan a los datos al periodo de ajuste
(enero de 1990 a diciembre de 2000) y al periodo de validación (enero 2001 a
junio 2001)
Se
utilizarán los errores de cada uno de los modelos para generar el estadístico
RMS (Desviación típica de los errores), cuanto menor sea la RMS mejor se
ajustará el modelo correspondiente.
|
|
|
ERR Mod_1
|
ERR Mod_2
|
|
RMS
|
P.
Ajuste
|
0,1933
|
0,1918
|
|
|
P.
Validación
|
0,1507
|
0,1571
|
Si
uno sólo se fija en el periodo de ajuste el segundo modelo, éste presenta un
mejor ajuste, sin embargo al comparar el periodo de validación el primer modelo
presenta un ajuste mucho mejor. Por lo tanto, tomando el principio de
parsimonia, se tomará como modelo definitivo al primero. Por otro lado, debemos
recordar que el segundo modelo contenía un regresor que no era estadísticamente
significativo al 5% nivel de significancia.
Validación del Modelo
Hemos
supuesto que la serie histórica de pasajeros tiene memoria, hemos tratado de
descubrir cuál es la caja negra que genera la serie bajo análisis. Si el
modelo que se ha desarrollado es la caja negra, los residuos del modelo deberían
cumplir una serie de características.
Estas
características o la validación consistirá en comprobar que la serie errores
tiene media cero, que es estable en varianzas, que sus observaciones están
incorrelacionadas y que procede de una distribución normal. En otras palabras
que sea un ruido blanco.
En
el gráfico anterior se muestra el histograma de los residuos del modelo
definitivo. Se puede ver que la media de los residuos es de 0,03. En el segundo
cuadro se muestran algunas estadísticas de la misma variable, lo más
rescatable que si se analiza el intervalo de confianza de la media, se aprecia
que el mismo incluye el cero. Por lo tanto, se estaría cumpliendo con el
supuesto de que el residuo del modelo presenta media igual a cero.
En
los gráficos anteriores se muestran los gráficos de caja para los residuos
agrupados por años. También se muestra la prueba de Levene, de acuerdo a la
significancia (última columna) no hay suficiente evidencia para rechazar la hipótesis
nula de homogeneidad de varianzas en los 10 grupos. De acuerdo a lo anterior, se
estaría cumpliendo con el supuesto.
Incorrelación de los errores
En
ambos gráficos se puede apreciar que ninguno de los picos queda fuera del
intervalo de confianza, por lo tanto los errores estarían incorrelacionados
unos con otros. El estadístico de Ljung-Box hasta el rezago 16 tienen p-valores
cercanos a la unidad con lo que se estaría señalando que no están
correlacionados.
Normalidad
Para
contrastar la Normalidad de los errores se recurre a la Prueba No Paramétrica
de Kolmogorov-Smirnov. Según el p-valor no hay suficiente evidencia para
rechazar la hipótesis nula de que los errores provienen de una distribución
normal.
Ya
se tiene el modelo definitivo, el mismo tiene residuos que cumplen con todos los
supuestos de los Modelos ARIMA. Por lo tanto se procederá a hacer una proyección.
Ahora se tomarán todos los datos, es decir los datos del ajuste y los datos de
validación, en otras palabras la serie comienza en enero de 1990 y termina en
junio de 2001. De esta manera se podrán comparar los datos verdaderos y las
proyecciones que hace el modelo.
Datos Modelo con todos los datos
Error
estándar : 0,18351
Log
Likelihood : 30,3807
AIC
: -56,7614
SBC
: -51,1047
|
Regresores
|
B
|
SE
B
|
T – RATIO
|
PROB.
|
|
MA1
|
0,6294
|
0,06933
|
9,0785
|
0,0000000
|
|
SMA1
|
0,7425
|
0,08624
|
8,6098
|
0,0000000
|
Ahora
que se han incluido todos los datos disponibles se aprecia que los regresores
son muy parecidos a los del modelo que sólo incluían los del periodo de
validación.
Por
otra parte, los errores estándares de estos regresores son menores que el otro
modelo, lo que señala que el hecho de haber incluido todos los datos no ha
deteriorado la capacidad predictiva del modelo.
En
las páginas siguientes se muestran cuadros con las proyecciones hechas por el
modelo ARIMA, como asimismo un gráfico, los datos verdaderos, con las
proyecciones y sus respectivos intervalos de confianza al 95%.
En
los 3 últimos gráficos se han mostrado las proyecciones de pasajeros que
viajarán en la ruta entre Santiago e Isla de Pascua para todo el año 2001.
Nótese
en el gráfico la cercanía de las proyecciones con los datos reales para el
primer semestre del año 2001.
Por
último se incluyen los intervalos de confianza al 95% para las proyecciones del
segundo semestre del año.
Bibliografía
Pérez,
César (2001). Técnicas Estadísticas con SPSS. Prentice
Hall
Visauta, B. (1997). Análisis
Estadístico con SPSS para Windows. McGraw Hill
Pindyck, R & Rubinfeld, R.
(2001). Econometría
modelos y pronósticos. McGraw Hill
Holton, J & Barry Keating. (1996).
Previsiones en los negocios. Irwin
Gujarati,
Damodar. (1997). Econometría. Mc Graw Hill
Marín,
G., Labeaga, J.& Mochón, F. (1997) Introducción a la Econometría.
Prentice Hall
Ferrán
Aranaz, Magdalena (2001) SPSS para Windows Análisis Estadístico. Prentice may
Pérez
Amaral, Amorós González & Relloso Pereda (1995) Ejercicios de Econometría
Empresarial. McGraw Hill
Hanke
J & Reitsch A (1996) Pronósticos en los Negocios. Prentice Hall
Material
Preparado por
Gabriel Cornejo
Gabrielcornejo@emol.com