REGRESIÓN LINEAL SIMPLE EN PYTHON CON PREDICCIÓN

00:10:11
https://www.youtube.com/watch?v=Z5qD04p_lyo

Summary

TLDRO vídeo ofrece unha explicación detallada do uso de tres diferentes programas (Excel, Python e SPSS) para realizar un exercicio de regresión lineal simple. A regresión lineal simple é unha técnica estatística utilizada para predicir o valor dunha variable dependente baseándose nunha variable independente. O exemplo presentado gira ao redor de predecir o número de produtos terminados baseándose nas horas traballadas. O proceso comeza por cargar unha base de datos que inclúe horas de traballo, horas de descanso (para futuros exercicios de regresión múltiple), e produtos terminados. Usando Python, a data frame cargada é utilizada para seleccionar as variables independentes (X) e dependentes (Y). Con librerías como Pandas para a manipulación de datos e Matplotlib para a visualización, o modelo de regresión é creado para determinar a ecuación matemática da recta de regresión, así como os coeficientes de correlación e determinación. O coeficiente de correlación indica unha forte relación positiva entre horas traballadas e produtos terminados (0.8889), mentres que o coeficiente de determinación (0.79) suxire unha boa capacidade predictiva do modelo. Finalmente, preséntase un exemplo de predición de número de produtos con 10 e 15 horas de traballo.

Takeaways

  • 📊 A regresión lineal simple predice unha variable a partir doutra.
  • 💻 Python é unha ferramenta eficaz para realizar regresión simple.
  • 📈 O coeficiente de correlación próximo a 1 indica unha relación forte.
  • 📉 O modelo usa mínimos cadrados para a ecuación.
  • 🔍 O coeficiente de determinación do 79% suxire boa predictibilidade.
  • 🗂 Necesítanse alomenos 40 datos para un modelo robusto.
  • 🔧 Pandas e Matplotlib son útiles para o manexo e visualización de datos.
  • 🧮 A ecuación do modelo é Y = 0.494X + 5.166.
  • 📐 O modelo predice 10.1 produtos para 10 horas de traballo.
  • 📂 O arquivo de base de datos úsase para cargar e procesar información.

Timeline

  • 00:00:00 - 00:05:00

    Introducción á regresión lineal simple co propósito de predecir a variable dependente 'y', utilizando unha variable independente 'x'. Exemplifícase cun experimento sobre horas de traballo e produtos terminados, empregando programas como Excel, Python e SPSS para desenvolver o exercicio. Menciónase a base de datos que se usará, que contén catro columnas relativas a días, horas de traballo ('x'), horas de descanso, e produtos terminados ('y'). Explícase a importancia de determinar a relación entre 'x' e 'y' para predicir comportamentos futuros.

  • 00:05:00 - 00:10:11

    Descríbese o proceso de carga de datos en Python e o uso de librerías específicas para a análise de regresión. Destácase a importancia do coeficiente de correlación e determinación para avaliar o modelo desenvolvido. Proporcionase un exemplo de predición utilizando a ecuación de regresión lineal, con énfase na necesidade de suficiente número de datos para a creación de modelos efectivos. O vídeo conclúe coa importancia de aplicar este tipo de análise a proxectos para entender mellor as relacións entre variables.

Mind Map

Mind Map

Faqs

  • Que é a regresión lineal simple?

    É un método estatístico para predicir o valor dunha variable (dependente) baseándose no valor doutra variable (independente).

  • Como se utiliza Python para a regresión lineal?

    Cargamos a base de datos, seleccionamos variables independentes e dependentes e executamos librarías para xerar o modelo de regresión.

  • Cal é a fórmula da ecuación de regresión obxectivo neste vídeo?

    A ecuación da recta é Y = 0.494 * X + 5.166, onde X son as horas traballadas.

  • Que representan os coeficientes de correlación?

    Indican a forza e dirección da relación entre dúas variables. Canto máis próximo a 1 ou -1, máis forte é a correlación.

  • Que é o coeficiente de determinación?

    Representa a proporción de varianza da variable dependente que é predecida pola variable independente. Neste exemplo, é 0.79.

  • Cales son os tres programas mencionados para realizar regresión lineal?

    Excel, Python e SPSS.

  • Cal é a recomendación mínima de datos para a creación do modelo de regresión?

    Recoméndase ter un mínimo de 40 datos.

  • Como se pode avaliar o modelo de regresión?

    Usando os coeficientes de correlación e determinación para avaliar a forza e eficacia do modelo.

  • Que métodos utiliza o modelo para minimizar o erro?

    Utiliza o método de mínimos cadrados.

  • Que ferramenta de Python se menciona para gráficos?

    Se menciona Matplotlib para crear gráficos detallados e avanzados.

View more video summaries

Get instant access to free YouTube video summaries powered by AI!
Subtitles
es
Auto Scroll:
  • 00:00:01
    Hola a todos Bueno vamos a desarrollar
  • 00:00:03
    un ejercicio de regresión lineal simple
  • 00:00:06
    les dejaré aquí en la descripción una
  • 00:00:09
    explicación mucho más detallada de eh
  • 00:00:13
    este tipo de métodos de predicción
  • 00:00:16
    entonces para ello simplemente vamos a
  • 00:00:17
    recordar que nosotros tenemos y
  • 00:00:20
    necesitamos una variable predictora para
  • 00:00:23
    poder llegar a predecir el
  • 00:00:26
    comportamiento de una variable que nos
  • 00:00:29
    gustaría si ular Y predecir entonces
  • 00:00:31
    vamos a llamar x a esa variable
  • 00:00:33
    predictora en el contexto de experimento
  • 00:00:37
    sería nuestra variable independiente y
  • 00:00:40
    esa variable que yo quiero predecir será
  • 00:00:42
    y y será básicamente esa variable
  • 00:00:45
    dependiente Entonces vamos a simular un
  • 00:00:48
    conjunto de datos en donde esa variable
  • 00:00:51
    x Serán las horas de
  • 00:00:53
    trabajo de un conjunto de trabajadores o
  • 00:00:56
    del trabajador en sí y queremos predecir
  • 00:00:59
    tiene en cuenta esa matriz de datos
  • 00:01:02
    Cuántos productos terminados de acuerdo
  • 00:01:05
    a las horas trabajadas en una
  • 00:01:07
    organización Se podrían llegar a obtener
  • 00:01:10
    Y de esa manera yo por lo menos
  • 00:01:11
    preguntar ya con precisión de acuerdo y
  • 00:01:14
    conociendo mi organización Cuántos
  • 00:01:16
    productos debería
  • 00:01:19
    terminar si se trabajan 10 horas por
  • 00:01:21
    ejemplo entonces para desarrollar este
  • 00:01:23
    tipo de ejercicios vamos a verlos por
  • 00:01:27
    tres diferentes programas
  • 00:01:30
    el primero Excel el segundo python y el
  • 00:01:33
    tercero sps hoy vamos a desarrollar el
  • 00:01:36
    ejercicio a través de un código que
  • 00:01:38
    también les voy a dejar en la
  • 00:01:39
    descripción y que simplemente sería que
  • 00:01:42
    ustedes lo repliquen para que entiendan
  • 00:01:44
    el paso a paso de cada código y lo
  • 00:01:46
    puedan implementar en otros proyectos
  • 00:01:48
    entonces para ello yo les voy a
  • 00:01:50
    compartir también
  • 00:01:52
    esta base de datos que es la que vamos a
  • 00:01:55
    trabajar la cual tiene simplemente
  • 00:01:57
    cuatro columnas la primera columna que
  • 00:02:00
    muestra la temporalidad el día que se
  • 00:02:02
    registró o más bien la semana que se
  • 00:02:05
    registró la cantidad de horas que este
  • 00:02:08
    es importante nuestra nuestra variable
  • 00:02:11
    independiente o x las horas de descanso
  • 00:02:14
    que la utilizaremos en otro ejercicio
  • 00:02:16
    pero para hacer regresión lineal
  • 00:02:18
    múltiple y esta variable productos
  • 00:02:21
    terminados que nos interesa pues para
  • 00:02:24
    entender cómo es el comportamiento de
  • 00:02:26
    esa variable con respecto al a las horas
  • 00:02:28
    trabajadas y que Al final nos va a
  • 00:02:30
    permitir determinar y predecir cuál
  • 00:02:33
    podría ser ese comportamiento de acuerdo
  • 00:02:35
    a esas horas trabajadas entonces Bueno
  • 00:02:38
    nos vamos a ir de una vez a
  • 00:02:40
    python vamos a buscar
  • 00:02:42
    python tenemos este código en python que
  • 00:02:46
    se los voy a dejar en la
  • 00:02:48
    descripción y lo primero antes de correr
  • 00:02:51
    este código lo que vamos a hacer acá en
  • 00:02:54
    el entorno de python es cargar cargar
  • 00:02:57
    ese archivo de trabajo que también les
  • 00:03:00
    dejaré en la descripción para que lo
  • 00:03:03
    repliquen pu vienen buscan donde hayan
  • 00:03:06
    guardado
  • 00:03:07
    esa este archivo que se llama datos
  • 00:03:10
    guion producción Voy a cargarlo a mi
  • 00:03:14
    entorno y espero que Listo ya está
  • 00:03:17
    cargado acá pues lo que voy a decirle
  • 00:03:19
    acá es voy a cerrar yo ya sé que acá
  • 00:03:22
    está mi mi mi base de datos que se llama
  • 00:03:25
    datos ge Production lo primero es que
  • 00:03:27
    simplemente voy a importar la librerías
  • 00:03:30
    que necesito si es para graficar pandas
  • 00:03:33
    es para manejar bases de datos Y esta es
  • 00:03:36
    muy importante ese Clear Porque nos
  • 00:03:39
    ayuda básicamente a hacer el modelo de
  • 00:03:43
    regresión también para manejar matrices
  • 00:03:46
    este otro que también hace parte de la
  • 00:03:49
    librería es Clear que nos ayuda a
  • 00:03:52
    determinar eh el r cuadrado o
  • 00:03:56
    coeficiente de terminación que ya lo
  • 00:03:58
    explicaré y este Maple blit que nos
  • 00:04:01
    ayuda también a generar gráficas mucho
  • 00:04:03
    más
  • 00:04:05
    eh detalladas avanzadas Y de muy buena
  • 00:04:08
    definición Entonces ya lo cargué le voy
  • 00:04:10
    a dar de nuevo luego voy a venir a esta
  • 00:04:13
    opción que dice cargar datos Y lo único
  • 00:04:15
    que yo le estoy diciendo es que me
  • 00:04:16
    genere un dataframe o que me traiga Ese
  • 00:04:21
    Conjunto de datos y lo voy a llamar DF
  • 00:04:24
    listo DF que simplifica básicamente
  • 00:04:27
    dataframe listo y luego luego
  • 00:04:29
    simplemente le agrego esta función o
  • 00:04:31
    esta línea de código para decir que el
  • 00:04:33
    archivo viene en Excel y se denomina
  • 00:04:36
    datos producción listo y luego esta
  • 00:04:38
    siguiente línea Es para que me muestre
  • 00:04:40
    el encabezado pero con las dos primeras
  • 00:04:43
    filas de los datos Y aquí tenemos los
  • 00:04:46
    datos que les acaba de mostrar en Excel
  • 00:04:48
    listo horas trabajadas horas de descanso
  • 00:04:51
    y productos terminados nos centraremos
  • 00:04:53
    en estas dos horas de trabajo y
  • 00:04:56
    productos terminados listo entonces para
  • 00:04:58
    ello pasamos al tercer paso que es
  • 00:05:00
    seleccionar las variables Entonces yo
  • 00:05:02
    tengo que dejar muy claro Cuál es la
  • 00:05:04
    variable x y cuál es la variable y
  • 00:05:06
    simplemente los voy a poner estos
  • 00:05:09
    nombres horas trabajadas Aquí están
  • 00:05:11
    entre entre comillas y autos producidos
  • 00:05:14
    que sería el producto terminado que se
  • 00:05:18
    lo voy a ajustar acá listo es esta este
  • 00:05:20
    encabezado que está acá lo voy a copiar
  • 00:05:22
    para que no me genere
  • 00:05:24
    error y lo traigo acá y le doy pegar
  • 00:05:29
    Listo ya he seleccionado las dos voy a
  • 00:05:31
    correr Entonces esta línea para que
  • 00:05:33
    python me interprete estos dos eh estas
  • 00:05:37
    dos variables y me las cree aquí como
  • 00:05:39
    variable x y variable y luego
  • 00:05:41
    Simplemente ya voy a darle correr a la
  • 00:05:44
    siguiente línea donde dice generar
  • 00:05:45
    análisis y básicamente lo que hace estas
  • 00:05:49
    líneas es utilizar una librería para que
  • 00:05:51
    genere el modelo de regresión y me
  • 00:05:54
    imprima en esta otra línea la ecuación
  • 00:05:57
    de la recta me imprima también el
  • 00:05:59
    coeficiente correlación que es
  • 00:06:00
    importante y el coeficiente de
  • 00:06:02
    determinación
  • 00:06:03
    listo luego simplemente le digo que me
  • 00:06:06
    genere una gráfica eh de regresión
  • 00:06:09
    teniendo en cuenta las variables que ya
  • 00:06:11
    le he mencionado y que me genere una un
  • 00:06:16
    intervalo de confianza del 95 por. y ya
  • 00:06:20
    está por defecto todo simplemente es
  • 00:06:22
    correrlo y analizar la información que
  • 00:06:24
    tenemos acá nos da para presentarlo en
  • 00:06:27
    un informe la ecuación de la recta de
  • 00:06:28
    acuerdo a los datos que teníamos
  • 00:06:31
    e nos dice que y es igual a
  • 00:06:38
    0.494 x es decir yo multiplico La X o el
  • 00:06:42
    valor de X que cierto que son las horas
  • 00:06:44
    de trabajo por este valor y le voy a
  • 00:06:47
    sumar 5 pun 166 y esta operación estos
  • 00:06:54
    valores de acá me van a me van a dar el
  • 00:06:56
    resultado de y listo ahora Cómo podemos
  • 00:07:00
    evaluar inicialmente nuestro modelo
  • 00:07:01
    simplemente decimos que tenemos un
  • 00:07:03
    coeficiente de correlación de
  • 00:07:06
    0.8889 que eso quiere decir que lo
  • 00:07:09
    recordamos en nuestras clases de
  • 00:07:10
    correlación y de asociación lo que
  • 00:07:13
    queremos decir es que allí tenemos una
  • 00:07:15
    relación muy fuerte cada vez que se
  • 00:07:18
    acerque a uno o a menos un la relación
  • 00:07:20
    cada vez va a ser más fuerte en este
  • 00:07:22
    caso están
  • 00:07:25
    0.8889 muy cercano a uno es una
  • 00:07:27
    correlación primero positiva es decir
  • 00:07:30
    tenemos que cada vez que aumenta una
  • 00:07:33
    variable Pues la otra también cierto eso
  • 00:07:36
    quiere decir que es positiva o que es
  • 00:07:38
    directamente proporcional y dos que es
  • 00:07:40
    muy fuerte por ese valor que se acerca
  • 00:07:42
    un y luego tenemos nuestro coeficiente
  • 00:07:45
    de determinación este coeficiente de
  • 00:07:47
    determinación nos dice básicamente que
  • 00:07:50
    es de
  • 00:07:52
    0.79 qu quiere decir esto en realidad
  • 00:07:54
    esto es un valor que podemos expresar
  • 00:07:56
    porcentualmente podíamos decir que es el
  • 00:07:58
    70 9% cierto de qué nos quiere decir
  • 00:08:03
    este porcentaje o coeficiente de
  • 00:08:05
    determinación que es básicamente la
  • 00:08:08
    probabilidad para explicar el
  • 00:08:10
    comportamiento de esta variable con este
  • 00:08:12
    modelo que acabamos de generar Entonces
  • 00:08:14
    tenemos también un porcentaje de
  • 00:08:15
    determinación o de explicación de lo que
  • 00:08:19
    nos puede dar el modelo bastante alto
  • 00:08:22
    casi el 80% entonces por ahí decimos
  • 00:08:26
    tenemos un muy buenos datos para poder
  • 00:08:28
    hacer pred
  • 00:08:30
    aquí tenemos el gráfico que representan
  • 00:08:32
    los datos con esa línea de tendencia
  • 00:08:35
    cierto que trata de reducir el error por
  • 00:08:38
    defecto Este modelo utiliza el método de
  • 00:08:41
    mínimos cuadrados para hacer esa esa
  • 00:08:44
    representación de esa ecuación lineal y
  • 00:08:48
    luego ya tenemos aquí abajo eh una
  • 00:08:52
    pequeña línea de código que nos permite
  • 00:08:55
    hacer predicciones Simplemente yo
  • 00:08:57
    tendría que ajustar por ejemplo el dato
  • 00:09:00
    predictor yo quisiera la pregunta que
  • 00:09:02
    nos hacíamos hace un rato Es simplemente
  • 00:09:06
    pensar bueno Qué pasa si trabajamos
  • 00:09:11
    aproximadamente 10 horas de trabajo
  • 00:09:14
    Simplemente yo agrego el valor acá en
  • 00:09:16
    este caso serían 10 y le voy a dar
  • 00:09:19
    correr y él me va a
  • 00:09:21
    decir la predicción de autos producidos
  • 00:09:24
    para 10 horas trabajadas es de 10.1
  • 00:09:29
    automóviles o productos terminados Ah
  • 00:09:32
    bueno Y si son entonces 15 horas las que
  • 00:09:34
    se van a trabajar lo corro y me da el
  • 00:09:38
    valor de cantidad de producto terminado
  • 00:09:42
    que se debería considerar teniendo en
  • 00:09:44
    cuenta ya esa matriz de datos que
  • 00:09:46
    tenemos listo la recomendación es que se
  • 00:09:49
    tengan mínimo 40 datos para empezar a
  • 00:09:51
    crear modelos de regresión Pero entre
  • 00:09:53
    más datos pues mejor podríamos llegar a
  • 00:09:56
    construir nuestros modelos Bueno muy
  • 00:09:58
    bien este sería entonces la explicación
  • 00:10:00
    para que puedan implementar este código
  • 00:10:02
    en eh análisis de regresión lineal
  • 00:10:05
    simple en sus proyectos
Tags
  • regresión lineal
  • Python
  • Excel
  • SPSS
  • modelo de predición
  • coeficiente de correlación
  • coeficiente de determinación
  • predición
  • análise de datos
  • librerías Python