ARIMA - Machine Learning - Clase. 9 - Parte 4

00:13:06
https://www.youtube.com/watch?v=dsOTAmZAxLM

Ringkasan

TLDRThe video explores the application of linear regression models and the potential of incorporating a regression to project scenarios for better prediction outcomes. There's emphasis on understanding relationships between variables for forensic analysis rather than future prediction. It discusses ordinary least squares for model fitting and the importance of significant variables like timing and log of quantity. The random walk model is introduced as a special autoregressive model, showing effectiveness in predicting financial assets' movements by assuming a future value similar to a past value with random error. Although it has lower mean squared errors, it has limited explanatory capabilities. Finally, the video delves into stationary series, outlining methods to make a series stationary and discusses advanced forecasting models like moving averages and autoregressive integrated moving averages (ARIMA) to better understand trends without seasonal dependencies.

Takeaways

  • 📈 Linear regression models can improve with added regressions to project multiple future scenarios.
  • 🤔 Regression models may explain past variable relationships rather than predict future events accurately.
  • 📉 Random walk models predict next period values by assuming they are the same as the previous period with some random error.
  • 🔍 Statistical analysis is effective in understanding collaborations between different variables in a dataset.
  • 📊 Random walks often outperform linear models in prediction but don't explain beyond immediate future.
  • 📉 Random walks have low mean squared errors, making them suitable for predicting asset values closely.
  • 💡 ARIMA models help in forecasting by considering trends minus seasonal fluctuations.
  • 🔄 Making a series stationary helps in predictions by removing time-dependent variability.
  • 🚶 Random walk is a basic but powerful model to set a baseline in financial predictions.
  • 📊 Mean squared error is key in evaluating model performance.

Garis waktu

  • 00:00:00 - 00:05:00

    The speaker introduces the concept of fitting a linear regression model by adding regression variables to explore their impact. They discuss two possibilities: using regression to understand future scenarios (known variables like promotions) or using it as a control variable to explain past price dynamics (unknown variables like quantity). The plan is to include quantity and its logarithm in a model and evaluate its effectiveness. The speaker finds that adding quantity as a regression variable decreases the mean squared error significantly, suggesting a strong correlation, and improves the model's ability to track price movements.

  • 00:05:00 - 00:13:06

    The speaker then discusses the Random Walk model, explaining it as a special case of auto-regressive models where a variable's value is predicted based on its previous value plus a statistical error. They highlight the ease of predicting with such models using the 'shift' method in pandas. By examining correlation between the shifted and original price, they find Random Walk a surprisingly good approximation, with a lower error compared to linear models. However, they emphasize it as a short-sighted model, lacking explanatory power for future projections, though it closely matches real values. The speech then transitions to exploring stationary series, defining conditions like constant mean and variance, and decomposing series into trends for stationarity using transformations. This introduces more advanced forecasting models like moving averages and exponential adjustments, contrasting their performance against each other and the Random Walk model.

Peta Pikiran

Mind Map

Video Tanya Jawab

  • What is the benefit of adding a regression to a linear model?

    Adding a regression to a linear model can allow for projecting multiple scenarios into the future and provide better predictions by explaining past dynamics.

  • How does a random walk model work?

    A random walk model assumes that the variable's value is equal to its previous value plus a random error term.

  • Why is a random walk model considered effective for financial data?

    Random walk models are effective because they often closely predict financial asset values by assuming tomorrow's value is similar to today's.

  • What is the significance of the log of quantity in a regression model?

    The log of quantity can serve as a significant variable, showing correlations that help explain price dynamics.

  • How does the random walk model compare to linear models?

    The random walk model often yields lower mean squared errors than linear models but lacks explanatory power for future trends.

Lihat lebih banyak ringkasan video

Dapatkan akses instan ke ringkasan video YouTube gratis yang didukung oleh AI!
Teks
es
Gulir Otomatis:
  • 00:00:00
    bueno lo siguiente que podemos probar es
  • 00:00:04
    tratar de ajustar un modelo de regresión
  • 00:00:07
    lineal pero agregando un regreso si es
  • 00:00:11
    interesante porque intuitivamente nos
  • 00:00:13
    damos cuenta que tenemos dos
  • 00:00:15
    posibilidades la primera es que ese
  • 00:00:17
    regreso se ha conocido en el futuro o
  • 00:00:20
    para llegar a ser digamos una variable
  • 00:00:22
    de control como por ejemplo hay
  • 00:00:24
    promociones o no hay promociones
  • 00:00:26
    entonces si las voy a poner entonces si
  • 00:00:28
    agregó ese regreso puedo proyectar
  • 00:00:32
    distintos escenarios por ejemplo para el
  • 00:00:34
    futuro y usar eso para predecir pero hay
  • 00:00:37
    otra posibilidad que es que este regreso
  • 00:00:40
    no se pueda conocer como por ejemplo en
  • 00:00:43
    este caso que vamos a usar la cantidad
  • 00:00:45
    luego en el mundo de la estadística
  • 00:00:47
    muchas veces los modelos se usan para
  • 00:00:50
    entender las relaciones que existieron
  • 00:00:53
    entre las variables y para hacer una
  • 00:00:55
    especie de análisis forense y no tanto
  • 00:00:57
    para tratar de predecir el futuro
  • 00:00:59
    entonces en ese sentido puede tener
  • 00:01:02
    puede tener lógica
  • 00:01:05
    un regreso como por ejemplo la cantidad
  • 00:01:07
    que nos ayude a explicar por qué el
  • 00:01:10
    precio tomó la dinámica que tomo
  • 00:01:14
    entonces vamos a agregar además de el
  • 00:01:19
    timing de que vamos a agregar el
  • 00:01:22
    logaritmo de la cantidad y vamos a
  • 00:01:26
    sitiar un modelo con ordinario lista
  • 00:01:30
    square the stars models
  • 00:01:34
    corremos el samba y podemos ver algunos
  • 00:01:37
    estadísticos como en la calle que este
  • 00:01:40
    para tratar de evaluar si necesitamos
  • 00:01:44
    sacar o dejar la cantidad de regreso y
  • 00:01:48
    podemos evaluar el valor de cada uno de
  • 00:01:52
    los regresos vemos que el time index
  • 00:01:55
    sigue siendo sumamente
  • 00:01:57
    significativo este
  • 00:02:00
    y que es justamente el logaritmo del
  • 00:02:03
    precio también es una variable
  • 00:02:05
    significativa aunque con una
  • 00:02:07
    probabilidad un poco más ajustada
  • 00:02:12
    vamos ahora a
  • 00:02:13
    predecir
  • 00:02:21
    y vamos a usar el modelo para calcular
  • 00:02:24
    el error cuadrática medio
  • 00:02:28
    para este modelo con el agregado de la
  • 00:02:33
    cantidad como regreso obviamente el
  • 00:02:36
    error cuadrática medio baja siempre
  • 00:02:38
    siempre siempre que agregamos una
  • 00:02:40
    variable a un modelo y entrenamos y
  • 00:02:43
    evaluamos sobre los mismos datos va a
  • 00:02:46
    bajar la pregunta es si baja
  • 00:02:48
    significativamente o no en este caso
  • 00:02:51
    todo parecería indicar que si estaría
  • 00:02:55
    bajando significativamente porque es
  • 00:02:57
    justamente el regreso nos dio
  • 00:03:00
    un rechazo de la hipótesis nula de que
  • 00:03:03
    podría llegar a valer cero
  • 00:03:05
    el beta correspondiente a la cantidad
  • 00:03:16
    si lo tenemos ahora todos los modelos
  • 00:03:19
    vemos que el modelo que incluye una
  • 00:03:21
    cantidad sigue un poco mejor los
  • 00:03:25
    movimientos de la curva y nos da algunas
  • 00:03:29
    correlaciones más interesantes con los
  • 00:03:32
    momentos álgidos de aumento del precio
  • 00:03:39
    pasando al siguiente modelo vamos a
  • 00:03:41
    probar con el random watch se acuerdan
  • 00:03:43
    de este modelo que era un caso especial
  • 00:03:46
    de los modelos are de los modelos auto
  • 00:03:48
    regresivos este es el caso donde la
  • 00:03:51
    variable pero decimos que vale
  • 00:03:54
    exactamente lo que válido en el período
  • 00:03:56
    anterior más un error estadístico con
  • 00:03:59
    media 0 y varianza constante con lo cual
  • 00:04:02
    si tenemos que hacer una predicción que
  • 00:04:05
    decimos si el error tiene media cero
  • 00:04:07
    bueno
  • 00:04:07
    valero hoy lo mismo que valió a ser
  • 00:04:10
    valer mañana lo mismo que valió hoy si
  • 00:04:14
    la forma de calcular y te -1 en pandas
  • 00:04:19
    es utilizando el método shift el método
  • 00:04:22
    shift es muy útil a la hora de hacer la
  • 00:04:25
    chs de las series si a la hora de
  • 00:04:27
    calcular el término suroeste menos 2
  • 00:04:29
    también el tema zoom o el tema 2 si por
  • 00:04:32
    default shift nos va a dar el t menos 1
  • 00:04:35
    pero también podemos pasarle un
  • 00:04:37
    parámetro para obtener el de los dos el
  • 00:04:40
    tema 1
  • 00:04:41
    el nivel que querramos obviamente el
  • 00:04:44
    primero está en nulo porque no tenemos
  • 00:04:46
    un valor anterior y a partir de los
  • 00:04:48
    siguientes ya podemos calcular
  • 00:04:55
    vemos que están fuertemente
  • 00:04:58
    correlacionados lo que paciente con lo
  • 00:05:01
    que pasa en temas unos y por eso vemos
  • 00:05:03
    que una fuertísima correlación entre
  • 00:05:06
    este shift y el logaritmo del precio y
  • 00:05:10
    el shift uno de largo del precio y el
  • 00:05:12
    logaritmo del precio
  • 00:05:15
    entonces lo que podemos hacer es
  • 00:05:18
    calcular también la diferencia primera
  • 00:05:21
    así y guardarlo en este prime módulo dif
  • 00:05:24
    para los que no tienen una formación
  • 00:05:26
    matemática por ahí la primera diferencia
  • 00:05:28
    suena como algo muy técnico pero es algo
  • 00:05:31
    tan simple cuando estamos hablando de
  • 00:05:32
    este tipo de datos continuos es algo tan
  • 00:05:34
    simple como t menos de menos 1 si
  • 00:05:37
    simplemente si el mes pasado el pp y fue
  • 00:05:41
    10 y este mes es 13 la diferencia es 3 y
  • 00:05:46
    eso es lo que yo voy a tratar de modelar
  • 00:05:47
    que este mes subió 3 que el mes que
  • 00:05:49
    viene que hay 2 que el presidente sube 1
  • 00:05:52
    sí eso es la diferencia la
  • 00:05:54
    diferenciación simplemente ver cómo
  • 00:05:56
    están variando las cosas y hacia qué
  • 00:05:58
    lado se están moviendo
  • 00:06:01
    entonces vamos a ver esta
  • 00:06:04
    primera diferencia
  • 00:06:11
    y vamos a calcular esta variable price
  • 00:06:15
    rando
  • 00:06:20
    y vamos a
  • 00:06:22
    comparar ambas y vemos que su
  • 00:06:26
    llamativamente digamos este esta primera
  • 00:06:30
    diferencia con el precio del perdón en
  • 00:06:34
    esta variable shift contra el logaritmo
  • 00:06:37
    del precio es sorprendentemente cercanas
  • 00:06:41
    y el random watch termina resultando una
  • 00:06:44
    bastante buena aproximación si si bien
  • 00:06:47
    hay momentos donde parecen cerca pero
  • 00:06:49
    hay un salto muy grande sin embargo en
  • 00:06:52
    el mayor parte vemos que es una muy
  • 00:06:55
    buena aproximación de lo que va a valer
  • 00:06:57
    y esto es algo que se dice mucho de casi
  • 00:06:59
    todos los activos financieros al final
  • 00:07:02
    la mejor manera de saber cuánto vale en
  • 00:07:05
    cada día es preguntarse cuánto valieron
  • 00:07:07
    ayer
  • 00:07:09
    y es muy difícil ganarle a ese tipo de
  • 00:07:13
    pronósticos y así que este random book
  • 00:07:17
    nos da un error cuadrática medida de 323
  • 00:07:22
    que es muchísimo más bajo que los
  • 00:07:24
    modelos lineales que veníamos
  • 00:07:26
    construyendo la fíjense que el random
  • 00:07:29
    book es un modelo muy miope no es un
  • 00:07:32
    modelo que si bien predice bien ve un
  • 00:07:34
    solo periodo hacia adelante y a
  • 00:07:36
    diferencia de los modelos lineales no
  • 00:07:38
    tiene ninguna capacidad explicativa ni
  • 00:07:40
    ninguna capacidad de
  • 00:07:42
    proyectarse hacia adelante por eso si
  • 00:07:46
    bien es un muy buen modelo o un baseline
  • 00:07:49
    como para ver cuán lejos del rango que
  • 00:07:52
    estamos este hay que tomarlo con pinzas
  • 00:07:56
    y nuestro modelo supera al random wok
  • 00:07:59
    definitivamente estamos modelando algo
  • 00:08:01
    muy interesante sobre todo cuando se
  • 00:08:04
    trata de precios o activos
  • 00:08:09
    entonces vamos a ver aplicarnos todos y
  • 00:08:12
    si la verdad es que el random wok se
  • 00:08:14
    pega mucho a los valores reales
  • 00:08:19
    bueno entonces vamos a repasar lo que
  • 00:08:22
    era la estacionalidad usando estos
  • 00:08:24
    gráficos bien sencillos si se acuerdan
  • 00:08:27
    de las tres condiciones la media de la
  • 00:08:29
    serie no debe ser una función del tiempo
  • 00:08:32
    tiene que ser una media constante si
  • 00:08:34
    entonces si la media ms constante es
  • 00:08:37
    creciente tengo una serie como esta roja
  • 00:08:39
    no estacionaria problemas la varianza
  • 00:08:42
    tiene que ser constante en el tiempo si
  • 00:08:45
    fíjense que si bien estas series se
  • 00:08:47
    mantienen la media
  • 00:08:48
    primero la varianza es más chicas pues
  • 00:08:51
    es más grande y después vuelve a ser
  • 00:08:52
    mucho más chica entonces esta es una
  • 00:08:53
    serie tampoco
  • 00:08:55
    estacionaria
  • 00:08:57
    y además la covarianza del primer
  • 00:09:00
    término sea la auto covarianza dor del 1
  • 00:09:02
    también tiene que ser constante si no
  • 00:09:05
    puede ser una función del tiempo así que
  • 00:09:07
    aquí el primero determina por mucho al
  • 00:09:11
    segundo después cambia esta dinámica y
  • 00:09:15
    después vuelve a hacer grandes y
  • 00:09:17
    entonces esto es de nuevo no
  • 00:09:20
    estacionario sí porque cada
  • 00:09:23
    periodo es influenciado por el periodo
  • 00:09:26
    anterior de manera variable si pareciera
  • 00:09:29
    ser que al principio tiene un efecto
  • 00:09:31
    después va cayendo y después sube ese
  • 00:09:34
    efecto entonces no es una serie
  • 00:09:36
    estacionaria
  • 00:09:42
    bien que podemos hacer para que una
  • 00:09:45
    serie sea estacionaria podemos
  • 00:09:48
    descomponer la por ejemplo en en
  • 00:09:52
    tendencia y estacionalidad y retirar la
  • 00:09:56
    tendencia podemos calcular el logaritmo
  • 00:09:59
    podemos trabajar la d con distintas
  • 00:10:03
    transformaciones matemáticas para que
  • 00:10:05
    pase a ser una serie estacionaria cuando
  • 00:10:08
    antes no lo era no lo era
  • 00:10:13
    entonces vamos a ver estos modelos un
  • 00:10:15
    poco más avanzados para pronósticos como
  • 00:10:18
    por ejemplo la media móvil si la media
  • 00:10:23
    móvil sería no confundir con el mar de
  • 00:10:26
    ánimas y la media móvil es simplemente
  • 00:10:30
    calcular un promedio ponderado y pando
  • 00:10:33
    están bien tiene un método para resolver
  • 00:10:36
    esto de manera sencilla que es el método
  • 00:10:37
    rolling donde le podemos pasar una
  • 00:10:40
    ventana si de la cantidad de períodos
  • 00:10:43
    que queremos que promedien y
  • 00:10:46
    al calcular toda esa ventana rodantes y
  • 00:10:49
    toda esa ventana de 12 periodos atrás
  • 00:10:51
    podemos aplicar de cualquier
  • 00:10:53
    transformación matemática en este caso
  • 00:10:55
    la media
  • 00:10:59
    fíjense que la media móvil de 12
  • 00:11:02
    periodos hacia atrás no nos da
  • 00:11:05
    obviamente nada para los primeros 12
  • 00:11:07
    períodos pero a partir de ahí se pega
  • 00:11:10
    aceptablemente bien al verdadero valor
  • 00:11:12
    de la serie sí pero obviamente no
  • 00:11:16
    estamos moderando bien la estacionalidad
  • 00:11:18
    porque estamos justamente
  • 00:11:20
    desestacionalizando lo estamos quitando
  • 00:11:23
    todo lo que es la estacionalidad para
  • 00:11:25
    quedarnos con los verdaderos cambios de
  • 00:11:28
    alguna manera de la tendencia para
  • 00:11:30
    estamos quitando toda esa estacionalidad
  • 00:11:31
    que es propia de que diciembre
  • 00:11:34
    típicamente tenga un comportamiento
  • 00:11:36
    diferente al comportamiento de enero
  • 00:11:42
    calculamos entonces el
  • 00:11:45
    exponencial de esta media móvil si de
  • 00:11:49
    doce períodos
  • 00:11:51
    y agregamos a nuestro avatar frame de
  • 00:11:54
    modelos
  • 00:11:55
    las predicciones que pudimos hacer y
  • 00:11:58
    cómo ven tenemos 518 volvemos a un valor
  • 00:12:02
    parecido al que nos daba el modelo
  • 00:12:05
    lineal
  • 00:12:10
    si lo grafica mos bueno tenemos todos
  • 00:12:13
    los modelos en contraste y como vemos el
  • 00:12:15
    random work es el que mejor se sigue
  • 00:12:18
    pegando a las paredes a los valores
  • 00:12:20
    originales con todas estas salvedades
  • 00:12:23
    que es un modelo miope que no da cuenta
  • 00:12:25
    ni de la estacionalidad ni del cambio de
  • 00:12:27
    tendencia sino que simplemente nos
  • 00:12:30
    permite predecir un periodo hacia
  • 00:12:32
    adelante
  • 00:12:39
    vamos a ver entonces ahí más y vamos a
  • 00:12:42
    ver
  • 00:12:43
    un modelo auto regresivo y con media
  • 00:12:47
    móvil y además la que nos indica que
  • 00:12:51
    vamos a estar trabajando con alguna
  • 00:12:53
    diferencia de la serie que nos permita
  • 00:12:56
    justamente convertirla en una serie
  • 00:12:58
    estacionaria
Tags
  • Linear Regression
  • Random Walk
  • Forecasting
  • Financial Data
  • Regression Models
  • Time Series
  • Prediction
  • Autoregressive Models
  • Stationarity
  • Mean Squared Error