00:00:00
bueno lo siguiente que podemos probar es
00:00:04
tratar de ajustar un modelo de regresión
00:00:07
lineal pero agregando un regreso si es
00:00:11
interesante porque intuitivamente nos
00:00:13
damos cuenta que tenemos dos
00:00:15
posibilidades la primera es que ese
00:00:17
regreso se ha conocido en el futuro o
00:00:20
para llegar a ser digamos una variable
00:00:22
de control como por ejemplo hay
00:00:24
promociones o no hay promociones
00:00:26
entonces si las voy a poner entonces si
00:00:28
agregó ese regreso puedo proyectar
00:00:32
distintos escenarios por ejemplo para el
00:00:34
futuro y usar eso para predecir pero hay
00:00:37
otra posibilidad que es que este regreso
00:00:40
no se pueda conocer como por ejemplo en
00:00:43
este caso que vamos a usar la cantidad
00:00:45
luego en el mundo de la estadística
00:00:47
muchas veces los modelos se usan para
00:00:50
entender las relaciones que existieron
00:00:53
entre las variables y para hacer una
00:00:55
especie de análisis forense y no tanto
00:00:57
para tratar de predecir el futuro
00:00:59
entonces en ese sentido puede tener
00:01:02
puede tener lógica
00:01:05
un regreso como por ejemplo la cantidad
00:01:07
que nos ayude a explicar por qué el
00:01:10
precio tomó la dinámica que tomo
00:01:14
entonces vamos a agregar además de el
00:01:19
timing de que vamos a agregar el
00:01:22
logaritmo de la cantidad y vamos a
00:01:26
sitiar un modelo con ordinario lista
00:01:30
square the stars models
00:01:34
corremos el samba y podemos ver algunos
00:01:37
estadísticos como en la calle que este
00:01:40
para tratar de evaluar si necesitamos
00:01:44
sacar o dejar la cantidad de regreso y
00:01:48
podemos evaluar el valor de cada uno de
00:01:52
los regresos vemos que el time index
00:01:55
sigue siendo sumamente
00:01:57
significativo este
00:02:00
y que es justamente el logaritmo del
00:02:03
precio también es una variable
00:02:05
significativa aunque con una
00:02:07
probabilidad un poco más ajustada
00:02:12
vamos ahora a
00:02:13
predecir
00:02:21
y vamos a usar el modelo para calcular
00:02:24
el error cuadrática medio
00:02:28
para este modelo con el agregado de la
00:02:33
cantidad como regreso obviamente el
00:02:36
error cuadrática medio baja siempre
00:02:38
siempre siempre que agregamos una
00:02:40
variable a un modelo y entrenamos y
00:02:43
evaluamos sobre los mismos datos va a
00:02:46
bajar la pregunta es si baja
00:02:48
significativamente o no en este caso
00:02:51
todo parecería indicar que si estaría
00:02:55
bajando significativamente porque es
00:02:57
justamente el regreso nos dio
00:03:00
un rechazo de la hipótesis nula de que
00:03:03
podría llegar a valer cero
00:03:05
el beta correspondiente a la cantidad
00:03:16
si lo tenemos ahora todos los modelos
00:03:19
vemos que el modelo que incluye una
00:03:21
cantidad sigue un poco mejor los
00:03:25
movimientos de la curva y nos da algunas
00:03:29
correlaciones más interesantes con los
00:03:32
momentos álgidos de aumento del precio
00:03:39
pasando al siguiente modelo vamos a
00:03:41
probar con el random watch se acuerdan
00:03:43
de este modelo que era un caso especial
00:03:46
de los modelos are de los modelos auto
00:03:48
regresivos este es el caso donde la
00:03:51
variable pero decimos que vale
00:03:54
exactamente lo que válido en el período
00:03:56
anterior más un error estadístico con
00:03:59
media 0 y varianza constante con lo cual
00:04:02
si tenemos que hacer una predicción que
00:04:05
decimos si el error tiene media cero
00:04:07
bueno
00:04:07
valero hoy lo mismo que valió a ser
00:04:10
valer mañana lo mismo que valió hoy si
00:04:14
la forma de calcular y te -1 en pandas
00:04:19
es utilizando el método shift el método
00:04:22
shift es muy útil a la hora de hacer la
00:04:25
chs de las series si a la hora de
00:04:27
calcular el término suroeste menos 2
00:04:29
también el tema zoom o el tema 2 si por
00:04:32
default shift nos va a dar el t menos 1
00:04:35
pero también podemos pasarle un
00:04:37
parámetro para obtener el de los dos el
00:04:40
tema 1
00:04:41
el nivel que querramos obviamente el
00:04:44
primero está en nulo porque no tenemos
00:04:46
un valor anterior y a partir de los
00:04:48
siguientes ya podemos calcular
00:04:55
vemos que están fuertemente
00:04:58
correlacionados lo que paciente con lo
00:05:01
que pasa en temas unos y por eso vemos
00:05:03
que una fuertísima correlación entre
00:05:06
este shift y el logaritmo del precio y
00:05:10
el shift uno de largo del precio y el
00:05:12
logaritmo del precio
00:05:15
entonces lo que podemos hacer es
00:05:18
calcular también la diferencia primera
00:05:21
así y guardarlo en este prime módulo dif
00:05:24
para los que no tienen una formación
00:05:26
matemática por ahí la primera diferencia
00:05:28
suena como algo muy técnico pero es algo
00:05:31
tan simple cuando estamos hablando de
00:05:32
este tipo de datos continuos es algo tan
00:05:34
simple como t menos de menos 1 si
00:05:37
simplemente si el mes pasado el pp y fue
00:05:41
10 y este mes es 13 la diferencia es 3 y
00:05:46
eso es lo que yo voy a tratar de modelar
00:05:47
que este mes subió 3 que el mes que
00:05:49
viene que hay 2 que el presidente sube 1
00:05:52
sí eso es la diferencia la
00:05:54
diferenciación simplemente ver cómo
00:05:56
están variando las cosas y hacia qué
00:05:58
lado se están moviendo
00:06:01
entonces vamos a ver esta
00:06:04
primera diferencia
00:06:11
y vamos a calcular esta variable price
00:06:15
rando
00:06:20
y vamos a
00:06:22
comparar ambas y vemos que su
00:06:26
llamativamente digamos este esta primera
00:06:30
diferencia con el precio del perdón en
00:06:34
esta variable shift contra el logaritmo
00:06:37
del precio es sorprendentemente cercanas
00:06:41
y el random watch termina resultando una
00:06:44
bastante buena aproximación si si bien
00:06:47
hay momentos donde parecen cerca pero
00:06:49
hay un salto muy grande sin embargo en
00:06:52
el mayor parte vemos que es una muy
00:06:55
buena aproximación de lo que va a valer
00:06:57
y esto es algo que se dice mucho de casi
00:06:59
todos los activos financieros al final
00:07:02
la mejor manera de saber cuánto vale en
00:07:05
cada día es preguntarse cuánto valieron
00:07:07
ayer
00:07:09
y es muy difícil ganarle a ese tipo de
00:07:13
pronósticos y así que este random book
00:07:17
nos da un error cuadrática medida de 323
00:07:22
que es muchísimo más bajo que los
00:07:24
modelos lineales que veníamos
00:07:26
construyendo la fíjense que el random
00:07:29
book es un modelo muy miope no es un
00:07:32
modelo que si bien predice bien ve un
00:07:34
solo periodo hacia adelante y a
00:07:36
diferencia de los modelos lineales no
00:07:38
tiene ninguna capacidad explicativa ni
00:07:40
ninguna capacidad de
00:07:42
proyectarse hacia adelante por eso si
00:07:46
bien es un muy buen modelo o un baseline
00:07:49
como para ver cuán lejos del rango que
00:07:52
estamos este hay que tomarlo con pinzas
00:07:56
y nuestro modelo supera al random wok
00:07:59
definitivamente estamos modelando algo
00:08:01
muy interesante sobre todo cuando se
00:08:04
trata de precios o activos
00:08:09
entonces vamos a ver aplicarnos todos y
00:08:12
si la verdad es que el random wok se
00:08:14
pega mucho a los valores reales
00:08:19
bueno entonces vamos a repasar lo que
00:08:22
era la estacionalidad usando estos
00:08:24
gráficos bien sencillos si se acuerdan
00:08:27
de las tres condiciones la media de la
00:08:29
serie no debe ser una función del tiempo
00:08:32
tiene que ser una media constante si
00:08:34
entonces si la media ms constante es
00:08:37
creciente tengo una serie como esta roja
00:08:39
no estacionaria problemas la varianza
00:08:42
tiene que ser constante en el tiempo si
00:08:45
fíjense que si bien estas series se
00:08:47
mantienen la media
00:08:48
primero la varianza es más chicas pues
00:08:51
es más grande y después vuelve a ser
00:08:52
mucho más chica entonces esta es una
00:08:53
serie tampoco
00:08:55
estacionaria
00:08:57
y además la covarianza del primer
00:09:00
término sea la auto covarianza dor del 1
00:09:02
también tiene que ser constante si no
00:09:05
puede ser una función del tiempo así que
00:09:07
aquí el primero determina por mucho al
00:09:11
segundo después cambia esta dinámica y
00:09:15
después vuelve a hacer grandes y
00:09:17
entonces esto es de nuevo no
00:09:20
estacionario sí porque cada
00:09:23
periodo es influenciado por el periodo
00:09:26
anterior de manera variable si pareciera
00:09:29
ser que al principio tiene un efecto
00:09:31
después va cayendo y después sube ese
00:09:34
efecto entonces no es una serie
00:09:36
estacionaria
00:09:42
bien que podemos hacer para que una
00:09:45
serie sea estacionaria podemos
00:09:48
descomponer la por ejemplo en en
00:09:52
tendencia y estacionalidad y retirar la
00:09:56
tendencia podemos calcular el logaritmo
00:09:59
podemos trabajar la d con distintas
00:10:03
transformaciones matemáticas para que
00:10:05
pase a ser una serie estacionaria cuando
00:10:08
antes no lo era no lo era
00:10:13
entonces vamos a ver estos modelos un
00:10:15
poco más avanzados para pronósticos como
00:10:18
por ejemplo la media móvil si la media
00:10:23
móvil sería no confundir con el mar de
00:10:26
ánimas y la media móvil es simplemente
00:10:30
calcular un promedio ponderado y pando
00:10:33
están bien tiene un método para resolver
00:10:36
esto de manera sencilla que es el método
00:10:37
rolling donde le podemos pasar una
00:10:40
ventana si de la cantidad de períodos
00:10:43
que queremos que promedien y
00:10:46
al calcular toda esa ventana rodantes y
00:10:49
toda esa ventana de 12 periodos atrás
00:10:51
podemos aplicar de cualquier
00:10:53
transformación matemática en este caso
00:10:55
la media
00:10:59
fíjense que la media móvil de 12
00:11:02
periodos hacia atrás no nos da
00:11:05
obviamente nada para los primeros 12
00:11:07
períodos pero a partir de ahí se pega
00:11:10
aceptablemente bien al verdadero valor
00:11:12
de la serie sí pero obviamente no
00:11:16
estamos moderando bien la estacionalidad
00:11:18
porque estamos justamente
00:11:20
desestacionalizando lo estamos quitando
00:11:23
todo lo que es la estacionalidad para
00:11:25
quedarnos con los verdaderos cambios de
00:11:28
alguna manera de la tendencia para
00:11:30
estamos quitando toda esa estacionalidad
00:11:31
que es propia de que diciembre
00:11:34
típicamente tenga un comportamiento
00:11:36
diferente al comportamiento de enero
00:11:42
calculamos entonces el
00:11:45
exponencial de esta media móvil si de
00:11:49
doce períodos
00:11:51
y agregamos a nuestro avatar frame de
00:11:54
modelos
00:11:55
las predicciones que pudimos hacer y
00:11:58
cómo ven tenemos 518 volvemos a un valor
00:12:02
parecido al que nos daba el modelo
00:12:05
lineal
00:12:10
si lo grafica mos bueno tenemos todos
00:12:13
los modelos en contraste y como vemos el
00:12:15
random work es el que mejor se sigue
00:12:18
pegando a las paredes a los valores
00:12:20
originales con todas estas salvedades
00:12:23
que es un modelo miope que no da cuenta
00:12:25
ni de la estacionalidad ni del cambio de
00:12:27
tendencia sino que simplemente nos
00:12:30
permite predecir un periodo hacia
00:12:32
adelante
00:12:39
vamos a ver entonces ahí más y vamos a
00:12:42
ver
00:12:43
un modelo auto regresivo y con media
00:12:47
móvil y además la que nos indica que
00:12:51
vamos a estar trabajando con alguna
00:12:53
diferencia de la serie que nos permita
00:12:56
justamente convertirla en una serie
00:12:58
estacionaria