¿Qué es el método de gradiente?

Es un método de optimización que usa el gradiente de una función para encontrar el punto de descenso máximo.

¿Quién propuso el método de gradiente?

El método fue propuesto por Cauchy.

¿Qué es la búsqueda lineal exacta?

Es un método para calcular el tamaño del paso que minimiza la función siguiendo la dirección dada.

¿Es el método de gradiente el más eficiente?

No siempre, otras direcciones pueden ser más efectivas.

¿Cómo se puede describir la convergencia del método de gradiente?

Converge de manera lineal, es decir, puede ser más lento que otros métodos.

¿Por qué es importante el valor propio de una matriz en este método?

Los valores propios ayudan a acotar el rango de la solución y determinar la convergencia.

¿Es fácil programar el método de gradiente?

Sí, es fácil de implementar aunque puede ser ineficiente en velocidad.

¿Por qué el método puede ser lento?

Porque solo usa la dirección del gradiente del punto actual sin considerar información global.

Optimización sin Restricciones: método del gradiente

00:44:03

https://www.youtube.com/watch?v=ky5RaBPs00g

Summary

TLDREl video explica a fondo el método del gradiente, un método clásico de optimización usado para encontrar el punto de descenso máximo de una función. Propuesto originalmente por Cauchy, el método fue revitalizado en el siglo 20 por Magnus y Hestenes, quienes introdujeron mejoras con gradientes conjugados. El método utiliza la dirección de descenso como el negativo del gradiente en un punto dado, y busca minimizar la función calculando el tamaño del paso mediante búsqueda lineal exacta. Aunque es fácil de programar, su principal desventaja es su lentitud en convergencia debido a su enfoque limitado al punto actual, sin considerar un panorama global. El método funciona mejor con funciones cuadráticas simétricas y definidas positivas, donde converge linealmente. Se explica el proceso matemático para programarlo y cómo los valores propios de matrices influyen en la convergencia.

Takeaways

📉 El método de gradiente es fundamental en optimización.
📝 Fue propuesto por Cauchy y mejorado por Magnus y Hestenes.
⬇️ Utiliza -gradiente para la dirección de descenso.
🔄 Busca la solución usando búsqueda lineal exacta.
⚠️ Es fácil de implementar pero puede ser lento.
🔍 Efectivo en funciones cuadráticas simétricas.
⚖️ Convergencia lineal determinada por valores propios.
💻 Programable matemáticamente con relativa facilidad.
⏱️ Puede tardar más en converger que otros métodos.
🔬 Ilustra la importancia del análisis detallado.

Timeline

00:00:00 - 00:05:00
El video introduce el método del gradiente, conocido también como método de máximo descenso, atribuido originalmente a Cauchy. A pesar de un uso inicial limitado, el método se revitalizó con ajustes por Magnus y Hestenes, integrando conceptos de gradiente conjugado, lo que permitió su reutilización y actualización como método de máximo descenso. Se explica cómo la dirección de descenso se basa en el gradiente en el punto, y cómo se determina la actualización de la dirección mediante búsqueda direccional.
00:05:00 - 00:10:00
Se discute una función cuadrática donde "a" es una matriz simétrica y definida positiva, lo que favorece la optimización por su naturaleza convexa. Se resuelve un ejemplo para calcular el gradiente y se muestra cómo expresar una función de este tipo en términos de un sistema lineal. Se concluye que el gradiente para f es A*x - b. Posteriormente, se establece cómo calcular el tamaño del paso exacto usando el gradiente y qué implica hacer una búsqueda lineal exacta en cada paso.
00:10:00 - 00:15:00
Se presentan ejemplos gráficos y aritméticos para ilustrar el cálculo de lambda y la actualización de x en método del máximo descenso, usando una matriz simétrica definida positiva. Se recalca que este método, aunque eficiente en problemas ideales, podría ser menos eficiente en otros escenarios. También se discute cómo verificar la convergencia del método del gradiente a través de cálculos repetidos.
00:15:00 - 00:20:00
Se profundiza en el problema de diseño del método del gradiente que no optimiza siempre la dirección de descenso más rápida. A través de una analogía, se ilustra cómo el método del gradiente tiene una visión limitada de sólo su entorno actual. Se proporcionan ejemplos de programación y cálculos en Matlab para entender cómo implementar el método y gestionar tolerancias y actualizaciones iterativas del gradiente.
00:20:00 - 00:25:00
El video explica detalladamente la implementación en Matlab del método, con ejemplos prácticos de cálculos y actualizaciones en el algoritmo. Se muestra cómo gestionar la lógica y cocientes en Matlab para calcular las iteraciones necesarias para la convergencia, y se concluye con resultados numéricos que demuestran el funcionamiento del método del gradiente.
00:25:00 - 00:30:00
Se continúa con una explicación teórica sobre la convergencia del método del gradiente. Se describe el uso de normas matriciales y propiedades de matrices positivas definidas simétricas para justificar la convergencia. Se analiza cada paso algebraico y se muestra cómo la norma de la desviación se relaciona con la reducción del valor de la función cuadrática, estableciendo así su convergencia lineal.
00:30:00 - 00:35:00
Se utiliza una demostración basada en valores propios de matrices para establecer el comportamiento de convergencia lineal del método del gradiente en funciones cuadráticas. Se muestra cómo la desigualdad de Kantorovich permite acotar la convergencia basada en valores propios mínimos y máximos. Esto proporciona una base matemática sólida de por qué el método del gradiente tiene limitada efectividad en ciertos contextos.
00:35:00 - 00:44:03
El video concluye resaltando la convergencia lineal del método del gradiente para funciones cuadráticas, enfatizando su simplicidad y facilidad de implementación. Sin embargo, también subraya su velocidad de convergencia más lenta en comparación con otros métodos, reafirmando su utilidad como método básico en optimización matemática. La clase espera haber aclarado conceptos importantes sobre el método del gradiente y su aplicabilidad.

Mind Map

Video Q&A

¿Qué es el método de gradiente?
Es un método de optimización que usa el gradiente de una función para encontrar el punto de descenso máximo.
¿Quién propuso el método de gradiente?
El método fue propuesto por Cauchy.
¿Cómo se actualiza el punto en el método del gradiente?
Se utiliza la dirección de descenso como el negativo del gradiente en el punto.
¿Qué es la búsqueda lineal exacta?
Es un método para calcular el tamaño del paso que minimiza la función siguiendo la dirección dada.
¿Es el método de gradiente el más eficiente?
No siempre, otras direcciones pueden ser más efectivas.
¿Cómo se puede describir la convergencia del método de gradiente?
Converge de manera lineal, es decir, puede ser más lento que otros métodos.
¿Qué tipo de funciones optimiza mejor el método de gradiente?
Funciona mejor con funciones cuadráticas simétricas y definidas positivas.
¿Por qué es importante el valor propio de una matriz en este método?
Los valores propios ayudan a acotar el rango de la solución y determinar la convergencia.
¿Es fácil programar el método de gradiente?
Sí, es fácil de implementar aunque puede ser ineficiente en velocidad.
¿Por qué el método puede ser lento?
Porque solo usa la dirección del gradiente del punto actual sin considerar información global.

View more video summaries

Get instant access to free YouTube video summaries powered by AI!

Subtitles

Auto Scroll:

00:00:00
[Música]
00:00:08
vamos a ver a continuación uno de los
00:00:12
métodos clásicos de decir después
00:00:15
veremos los demás pero vamos a empezar
00:00:17
con el que es más conocido
00:00:21
el conocido método del gradiente
00:00:26
también llamado método de máximo
00:00:29
descenso
00:00:33
para eso vamos a ver los siguientes
00:00:37
este método fue propuesto por coche y
00:00:40
aunque al principio no fue usado mucho
00:00:43
en el siglo 20 empezó a hablarse
00:00:46
nuevamente de ellos por medio de magnus
00:00:50
gestiones y edward stephen ellos
00:00:53
propusieron una modificación del
00:00:55
gradiente con
00:00:57
algo llamado gradiente conjugado y de
00:01:01
esa manera se volvió a utilizar y
00:01:03
recobró vida el tradicional método del
00:01:06
grano
00:01:07
en qué consiste en utilizar como
00:01:10
dirección de descenso
00:01:12
- el gradiente en el punto
00:01:16
y la actualización del punto x1 sería
00:01:20
eficaz más blanda por de azúcar
00:01:25
después de tener esta actualización ya
00:01:28
podríamos reemplazar aquí la dirección
00:01:31
por el gal
00:01:33
quedándonos esta última línea como la
00:01:35
dirección que vamos a actualizar
00:01:39
cómo se encuentra el anda bueno usando
00:01:42
búsqueda direccional
00:01:44
que para la mayoría de los casos de la
00:01:47
búsqueda direccional y de exacta aunque
00:01:50
en esta clase vamos a ver un caso en
00:01:54
donde se usará la búsqueda lineales
00:01:59
porque el llamado a veces método de
00:02:02
máximo descenso bueno porque resuelve el
00:02:06
problema
00:02:09
como ustedes recuerdan en una clase
00:02:11
anterior el gradiente de efe de este
00:02:14
transporte es lo que marca que desea una
00:02:19
dirección de descenso
00:02:21
así que al minimizar esta dirección
00:02:24
estamos encontrando la dirección en la
00:02:27
que se baja lo máximo posible
00:02:32
el máximo descenso sería resolviendo
00:02:36
este problema y este problema pues se
00:02:39
resuelve de una forma sencilla
00:02:42
por ejemplo veamos la dirección este
00:02:46
producto interno se puede escribir como
00:02:49
la norma del primer vector por la norma
00:02:52
del segundo vector por el cocino de line
00:02:56
para este problema si la dirección la
00:02:59
norma de la dirección es 1 entonces
00:03:02
obtendremos que ese producto interno nos
00:03:05
da la norma del gradiente por el cocino
00:03:09
de tema
00:03:10
al variar de para qué ángulo el coche no
00:03:14
daría el valor más pequeño el cual se
00:03:18
alcanzaría el mínimo bueno se alcanzaría
00:03:22
cuando jose en al menos uno y esto
00:03:25
ocurre cuando intenta que es igual a pi
00:03:28
es decir cuando d tiene la dirección
00:03:32
opuesta al gradiente y efectivamente esa
00:03:37
es menos grave
00:03:40
de allí el nombre máximo a veces
00:03:43
pero que este nombre no nos engañe
00:03:46
porque en la práctica hay direcciones
00:03:50
que son más efectivas que usar la
00:03:53
dirección de entrenamiento pero ya
00:03:55
explicaré eso con una ilustración más
00:03:58
adelante
00:04:01
vamos a ver cómo funciona
00:04:14
en este caso
00:04:21
vamos a hacer un ejemplo que nos permita
00:04:24
trabajar
00:04:25
este método de una forma
00:04:30
y
00:04:32
práctica
00:04:34
si tomamos fx como esta función a la
00:04:38
cual llamaremos la función cuadrática
00:04:42
generalmente cuando a es una matriz
00:04:45
simétrica y definida positiva
00:04:48
es una función que tiene un
00:04:50
comportamiento en términos de
00:04:52
optimización muy bueno porque es una
00:04:55
función convexa esta función se podrá
00:05:00
absorber por el método de dependiente y
00:05:03
podremos calcular de manera exacta con
00:05:06
búsqueda exacta el valor de landa
00:05:10
entonces con este ejemplo con este caso
00:05:12
ideal vamos a hacer varias cosas vamos a
00:05:16
hacer un ejemplo vamos a dibujarlo vamos
00:05:20
a tratar de entender cómo funciona el
00:05:22
método del gradiente y por último vamos
00:05:25
a tratar de encontrar la razón de
00:05:29
convergencia y ver qué tan rápido es el
00:05:33
método del gradiente y si realmente
00:05:36
es el máximo descenso o es solamente un
00:05:40
nombre
00:05:41
por supuesto si esta es la función en la
00:05:44
que tienes mejor comportamiento con
00:05:47
funciones diferentes podremos esperar
00:05:49
mucho menos
00:05:51
así que comencemos
00:05:54
hablando de esta función cuadrática esta
00:05:57
tiene una ventaja y es que podemos
00:05:59
calcular el gradiente de manera
00:06:03
si en este caso vamos a hacerlo con una
00:06:06
matriz si lo hacemos de esta forma
00:06:08
obtenemos que para esta matriz que es
00:06:12
definida positiva
00:06:14
al resolverlo nos da esta ecuación
00:06:17
cuadrática vamos a encontrar su
00:06:21
gradiente
00:06:24
vamos a ver como derivamos primero con
00:06:27
respecto a x
00:06:29
la 4 x 2
00:06:32
1
00:06:34
y con respecto a llenos de 2 x + 3
00:06:39
esto lo podemos inscribir en términos de
00:06:42
a y de beck
00:06:44
miremos como
00:06:46
a ver primero sale la matriz
00:06:50
como pueden ver es la matriz a por x y
00:06:56
menos
00:06:57
precisamente el vector
00:07:02
y este es un ejemplo que nos va a
00:07:04
permitir generalizar y no importa la
00:07:06
dimensión de x entonces el resultado es
00:07:09
el mismo cuando tengo una función de
00:07:12
este tipo
00:07:13
entonces su gradiente tiene esta
00:07:16
estructura particular se puede escribir
00:07:19
como un sistema lineal
00:07:24
es decir a x menos
00:07:27
entonces ya podemos decir en términos
00:07:29
generales
00:07:31
de que si f es esta cuadrática
00:07:34
el gradiente
00:07:36
será a x menos
00:07:41
bueno teniendo esto presente
00:07:44
vamos a poner
00:07:47
a establecer cómo calcular el tamaño del
00:07:50
paso
00:07:52
si de manera exacta ya que es del
00:07:54
ambiente
00:07:55
de una forma
00:07:57
determinada
00:08:10
vamos a resolver de manera exacta
00:08:14
entonces paremos un momento y estamos en
00:08:17
el punto aquí es cap y queremos saber
00:08:20
cuál es el valor de lambda
00:08:23
que hace que el siguiente paso
00:08:27
que se obtenga sea el menor de todos
00:08:33
cuando resolvemos en cada paso este
00:08:36
problema de minimización
00:08:38
se conoce como el método de búsqueda
00:08:42
lineal
00:08:44
exacto
00:08:46
y esta función se presta para eso veamos
00:08:50
como ven la función que vemos aquí dado
00:08:53
que xk es fijo es un vector fijo tenemos
00:08:57
una función de una sola variable que es
00:09:00
el anda así que resolver este problema
00:09:03
es derivar lo igualarlo a cero y
00:09:06
despejar nada eso es lo que vamos a
00:09:08
hacer a continuación
00:09:16
entonces vamos a escribir fidel anda que
00:09:19
es lo que acabo de decir y lo vamos a
00:09:22
escribir para simplificar el gradiente
00:09:23
de
00:09:26
al resolverlo nos da esto que vemos
00:09:29
solamente adentrarse en la forma de efe
00:09:33
vamos a resolver todo esto
00:09:36
y entonces
00:09:39
multiplicamos el primero
00:09:42
por el segundo ya el segundo tiene
00:09:45
multiplicado la y aquí ya he hecho la
00:09:47
distribución
00:09:51
entonces a ver aquí nos vio a esto vamos
00:09:53
a ver de dónde salió
00:09:55
el primero por el primero del otro
00:09:58
factor
00:10:02
ahora el primero por el segundo
00:10:06
nos da este factor este
00:10:09
este por el primero
00:10:12
después el segundo
00:10:16
por el segundo y no a este término al
00:10:18
cuadrado que vemos aquí
00:10:22
bien ya simplificando porque el hotel
00:10:25
los el segundo y el tercero son son
00:10:27
iguales
00:10:29
porque el producto punto que es
00:10:34
combativo
00:10:35
entonces nos queda que el gradiente se
00:10:38
puede escribir de esta forma después de
00:10:41
derivar
00:10:42
igualamos a 0 y vamos a despejar a landa
00:10:49
landa nos queda de esta forma
00:10:53
y lo podemos simplificar un poco más
00:10:57
factor izando g
00:11:00
a la derecha nos queda así
00:11:04
y por último
00:11:10
podemos escribir
00:11:13
el traspuesto lo factor izamos pero
00:11:17
recuerden que los que están entre
00:11:20
paréntesis y que está transpuesto es el
00:11:22
gradiente o sea que los que tenemos aquí
00:11:26
es el gradiente de t el gradiente sub
00:11:30
acá atrás puesto que
00:11:33
este es el valor que vamos a estar
00:11:36
utilizando de manera exacta
00:11:40
entonces aquí que necesitamos puedes
00:11:42
ingresar el gradiente y resolvemos y ya
00:11:46
tenemos el valor
00:11:48
y demanda
00:11:49
este valor satisface la condición de
00:11:51
armijos la comisión de word pero no es
00:11:55
necesario hacer contracción de pasos
00:11:57
porque recuerden que estamos haciendo
00:11:59
una búsqueda lineal exacto
00:12:03
con esta forma con esta fórmula tenemos
00:12:07
entonces ya una forma de actualizar x +
00:12:11
1
00:12:14
este va a ser el valor que vamos a
00:12:15
utilizar y queremos hacer una prueba con
00:12:21
estos datos
00:12:22
vamos a utilizar la misma matriz que use
00:12:25
para el ejemplo donde hicimos la
00:12:28
derivada la matriz a es simétrica y
00:12:31
definida positiva
00:12:33
4 2 2 y 3 meses 1 - 1 dice esto
00:12:42
vamos a usar como holanda lo que
00:12:45
acabamos de encontrar el gradiente
00:12:47
transpuesto por el gradiente sobre
00:12:49
gradiente ahora por nadie
00:12:52
hacemos la actualización y vamos a usar
00:12:54
como tolerancia o eps y viene a la mente
00:13:00
vamos a hacer
00:13:02
qué les parece si les muestro los
00:13:04
resultados y lo analizamos
00:13:08
después de implementarlo en mandar
00:13:10
obtuve los resultados que voy a mostrar
00:13:13
en esta tanda
00:13:14
a ver veamos a ver
00:13:18
aquí tenemos 14 pasos
00:13:21
14 pasos al empezar como punto inicial
00:13:25
en 3 - 2
00:13:29
como pueden ver en el valor de la última
00:13:32
columna el valor de s si va decreciendo
00:13:35
porque que es una dirección de descenso
00:13:40
pero se demoró 14 pasos
00:13:43
esto nos parece mucho pero comparado con
00:13:45
otros métodos que podríamos tener por la
00:13:48
mitad o tal vez hasta menos es un método
00:13:53
aceptable
00:13:55
es un método fácil de programar
00:13:58
sencillo pero que se mueve relativamente
00:14:03
y lento
00:14:05
en la tercera columna podemos ver los
00:14:08
valores de landa que hemos ido
00:14:10
calculando
00:14:12
sí como ven todo depende del valor de
00:14:15
gradiente
00:14:17
y la norma del gradiente que es la
00:14:19
cuarta columna
00:14:20
como ven tiende a cero porque recuerden
00:14:24
que eso es lo que hace un método de
00:14:26
búsqueda lineal hacer que al moverse x
00:14:30
en un ambiente sea 0 es decir encontrar
00:14:33
un punto estacional
00:14:37
bueno trataré de exponer esto en una
00:14:39
gráfica
00:14:40
así que he tratado de hacer unas
00:14:44
gráficas espero que se entienda vamos a
00:14:47
ver aquí tengo esta gráfica y esta es la
00:14:51
superficie que se encontró al hacer la
00:14:54
gráfica de esta cuadra
00:14:56
y los puntos que vamos viendo que se
00:14:58
mueven son los puntos que vamos
00:15:00
encontrando con el método del gradiente
00:15:04
y allí lentamente empieza a acercarse
00:15:07
con 14 pasos al minimizador de esta
00:15:11
función
00:15:15
esto nos deja una lección el método
00:15:18
funciona
00:15:21
en un problema de velocidad pero
00:15:23
funciona que es lo que nos interesa
00:15:28
ahora porque es tan lento
00:15:32
voy a tratar de explicarlo usando un
00:15:35
ayuda
00:15:36
quiero que pensemos en esto
00:15:38
esta muchacha temeraria está en un sitio
00:15:42
peligroso
00:15:43
ella está mirando hacia dónde está el
00:15:45
agua allá es tal vez el punto más bajo
00:15:50
de esa zona
00:15:52
sin embargo aunque si estamos hablando
00:15:56
de un método de búsqueda biliar queremos
00:15:59
ir del punto donde estamos al punto mapa
00:16:02
moviéndonos de un punto al otro de
00:16:06
manera discreta o sea no no de manera
00:16:08
continua haciendo un camino contigo sino
00:16:12
puntualmente
00:16:13
entonces ahora quiero que miremos esto
00:16:16
vamos a ver el movimiento que ya hace
00:16:20
más lentamente
00:16:22
y detengámonos aquí
00:16:24
en ese momento ella va en una dirección
00:16:26
que según sus pies me indican es donde
00:16:30
está el descenso no sé con sus ojos le
00:16:33
indica recuerden que el algoritmo no
00:16:35
sabe dónde está el minimizado en ese
00:16:39
momento la inclinación la pendiente le
00:16:42
dice en qué dirección debe moverse pero
00:16:46
como ustedes saben esa dirección en las
00:16:49
que va en sus pies no es la dirección
00:16:52
que la llevará al mínimo y ese es el
00:16:55
problema del método del gradiente él no
00:16:58
ve un panorama completo sino solamente
00:17:02
ve el momento en donde se va moviendo
00:17:05
esta muchacha para llegar al sitio donde
00:17:08
quería tiene que cambiar de dirección
00:17:11
y ahora puede que sí esté apuntando en
00:17:14
la dirección x
00:17:16
después de ver esto qué interesante
00:17:18
sería programar
00:17:20
aquí tengo mandado ya está escrito aquí
00:17:23
la función la función se llama f q es el
00:17:27
nombre que le puse x es el valor del
00:17:30
punto y a b y c son las matrices que se
00:17:36
necesitan para construir la función aquí
00:17:39
la vemos también en gráfico
00:17:43
escrito aquí una función para el
00:17:46
gradiente de este caso particular tiene
00:17:50
la misma estructura y recuerden que el
00:17:52
gradiente de forma matriciales a x menos
00:17:56
en landa se calcula
00:18:00
y con el cociente que también
00:18:01
encontramos aunque aquí dice z esa
00:18:04
variable es muda eso es lo que indica
00:18:06
cuál es la salida entonces el valor de
00:18:09
lambda
00:18:10
necesita solamente el gradiente y
00:18:14
necesita la matriz
00:18:17
ahora sí después entremos aquí al método
00:18:20
que invoca todo la matriz a es 42
00:18:25
23 el valor debe 1 - 1 y c 1
00:18:34
vamos a empezar en el vector 32 que
00:18:38
pueden ver aquí
00:18:40
bueno primero calculamos eso calculamos
00:18:43
que y calculamos la cndh
00:18:45
le damos un valor inicial acá que es el
00:18:48
que va a contar los pasos
00:18:50
y después empezamos aquí a calcular si
00:18:54
normal el gradiente es mayor o igual que
00:18:57
el epsilon bien a la menos 3 o la
00:18:59
tolerancia
00:19:00
quiere decir que si es mayor todavía no
00:19:03
tenemos la solución
00:19:06
entonces con este comando de f efe le
00:19:10
voy a decir que me escriba con el
00:19:12
formato adecuado el valor de acá
00:19:17
de x1 y x2
00:19:20
el lambda la norma de g
00:19:24
y por último el valor d
00:19:27
y aprovecho para explicarle algunos
00:19:29
comandos de
00:19:30
demanda
00:19:32
esto que aparece entre comillas es como
00:19:35
debemos escribir los formatos
00:19:37
donde dice porcentaje manda me entiende
00:19:40
que ahí va una variable
00:19:43
si va a escrito termina en f quiere
00:19:45
decir que es un número de punto flotante
00:19:49
y el 1.0 quiere decir que de este número
00:19:53
este número va a tener en la parte
00:19:55
entera un una sola parte entera un solo
00:19:58
número o dos podría estar alcanzar si no
00:20:01
cabe y cero decimales o sea que como
00:20:06
aquí va el contador necesito que
00:20:08
solamente me muestre el contador no
00:20:11
quiero ver decimales en el contador
00:20:15
slash te quiere decir salto de vivir
00:20:19
este simbolito que está aquí este
00:20:22
ampersand no es necesario lo escribí
00:20:25
solamente porque quería que la tabla
00:20:28
mesalina en la vez
00:20:30
luego quitamos
00:20:32
pues entonces hacemos el salto de línea
00:20:34
aquí está
00:20:36
con tres decimales la parte la
00:20:39
componente x1 y x2
00:20:42
recuerden la efe quiere decir que es un
00:20:45
número que es una variable lumen
00:20:48
después viene el salto en un tabulador y
00:20:53
después otra vez indicamos que haga un
00:20:56
salto
00:20:58
este al personal nuevo bien éxito
00:21:01
quitemos esto y escribimos este tampoco
00:21:05
lo necesitamos bueno está escribiendo
00:21:08
esos datos ahora viene la parte
00:21:09
interesante
00:21:12
actualizamos x no estoy usando otra
00:21:14
variable x se actualiza con x menos
00:21:18
l el calculado con la fórmula de landa
00:21:21
por g
00:21:24
el f lo calculamos de nuevo con ese
00:21:26
nuevo x
00:21:28
calculamos de nuevo el gradiente
00:21:29
calculamos de nuevo en landa y
00:21:32
actualizamos y hacemos que se repita
00:21:35
este quite hasta que termine
00:21:38
cumpliéndose dos cosas
00:21:41
la norma del gradiente
00:21:44
se satisface o se cumple al otro
00:21:48
entonces aquí no hace falta escribir
00:21:50
por seguridad para no entrar en un ciclo
00:21:52
infinito
00:21:54
que acá sea menor que un número máximo
00:21:58
de vibración y pongámosle decir
00:22:03
entonces él saldría de este ciclo si
00:22:06
ocurre
00:22:07
alguna de estas dos si deja de ocurrir
00:22:10
algunas de estas dos cosas es decir
00:22:13
entra al ciclo si se ocurren las dos
00:22:16
cantidades
00:22:18
bueno entonces le damos guardar y vamos
00:22:21
a compilar
00:22:23
entonces con f5 y allí nos dio estatal
00:22:27
vamos a mover esto un poco para acá
00:22:31
para obtener los resultados que son los
00:22:34
mismos que les había mostrado en la
00:22:36
tabla anterior
00:22:39
el método del gradiente funciona es
00:22:41
fácil de programar pero funciona o tiene
00:22:44
una velocidad de convergencia o razón de
00:22:46
convergencia líneas
00:22:48
demostrar eso puede ser un poco
00:22:50
complicado pero lo vamos a hacer vamos a
00:22:53
verlo un momentico pero nos vamos a
00:22:55
tener que guiar de algunas informaciones
00:22:58
entonces vamos a ver
00:23:01
presten atención
00:23:04
cuál es la razón de convertirse
00:23:07
el método del gradiente
00:23:15
vamos a empezar viendo la función y
00:23:18
definiendo una norma
00:23:21
esta norma que está en azul
00:23:24
y la norma
00:23:27
matricial le vamos allá es una norma
00:23:29
vectorial pero depende de la matriz
00:23:33
entonces vamos a llamarle normal
00:23:37
esta norma al cuadrado la vamos a
00:23:39
definir como letras puesto por esa
00:23:43
matriz porque por supuesto esta norma
00:23:47
requiere que se sepa quién es la matriz
00:23:49
y para este problema la matriz a es una
00:23:52
matriz simétrica y definida
00:23:56
ahora analicemos
00:23:58
este valor que aparece también en normal
00:24:05
vemos un momento allí un medio de las
00:24:08
normas de x-men os x estrellas al
00:24:13
cuadrado es por la definición que
00:24:16
tenemos en la fórmula azul
00:24:19
es un medio
00:24:21
de x x 3 ha transpuesto x x x x 3
00:24:29
bien vamos a resolver esto haciendo
00:24:32
transpuesta y multiplicando todos los
00:24:35
términos
00:24:38
entonces aquí nos queda
00:24:42
un medio y multiplicamos x traspuesto
00:24:46
por hora por equis bueno hacemos todos
00:24:49
los productos
00:24:52
bueno creo que aquí al final me faltó el
00:24:54
paréntesis pero aquí termina esta
00:24:57
ecuación de igualdad
00:24:59
sí
00:25:00
el segundo y el tercero
00:25:03
son los mismos son iguales porque
00:25:05
recuerden que a es simétrica entonces
00:25:08
podemos escribirlos de tal forma de que
00:25:11
se vea que es la misma cosa así que esto
00:25:14
sale menos 2 veces
00:25:16
el segundo y tercer término al
00:25:19
multiplicar por un medio nos va a quedar
00:25:22
de la siguiente manera
00:25:26
muy bien un medio de x traspuestos por a
00:25:30
por x - x carterista traspuesta por hora
00:25:35
por x más un medio de extras puesto una
00:25:40
x x 3
00:25:43
bueno ahora hagamos lo siguiente vamos a
00:25:46
agregar a cada lado la letra c
00:25:54
bueno ahí está igual vamos a agregar las
00:25:56
letras
00:25:59
a ambos lados la suma y la resta así que
00:26:02
no ha pasado nada
00:26:04
ahora noten este detalle que aparece
00:26:07
aquí
00:26:10
el segundo término lo escrito como ah
00:26:14
el asterisco
00:26:15
recuerden a ese me la puedo escribir
00:26:19
como a o como ha propuesto por eso la
00:26:22
pude escribir así
00:26:24
ahora lo que está en amarillo de dónde
00:26:26
sale
00:26:28
en un medio lo voy a escribir como uno
00:26:32
menos un medio
00:26:34
y con el menos que está afuera nos queda
00:26:37
la misma igualdad
00:26:42
en un medio lo estoy escribiendo como
00:26:44
uno menos un medio
00:26:46
así que es lo mismo que tener menos un
00:26:49
medio más uno
00:26:51
qué es lo que vemos aquí en amarillo
00:26:56
ahora tienes a por equis estrella
00:27:00
bueno para que no se borre esto vamos a
00:27:03
revisar esa parte con más detalle pero
00:27:07
en otro lugar
00:27:10
vamos a ver aquí lo que hicimos
00:27:13
puede escribirlo también como
00:27:15
asterisco vamos a mirar aquí en este
00:27:19
tablero blanco
00:27:22
tenemos que el gradiente es por equis de
00:27:26
los d
00:27:31
si lo reemplazamos en la solución está
00:27:33
lo mismo pero de hacer porque es la
00:27:36
solución
00:27:38
así que podemos escribir a x a este
00:27:40
disco como b
00:27:42
así que donde encontremos en la fórmula
00:27:45
que teníamos hace un momento
00:27:48
hay 15 estrellas lo vamos a escribir
00:27:50
como ve
00:27:55
entonces lo que tenemos aquí en un
00:27:58
asterisco que damos lo vamos a cambiar
00:28:01
y nos queda esto que vemos y
00:28:04
efectivamente esto que vemos es f de x -
00:28:10
f x estrella compárelo con la ecuación
00:28:14
que aparece en color amarillo
00:28:18
fx
00:28:20
fx
00:28:25
es decir
00:28:30
un medio
00:28:32
de x-men o sequías de ella
00:28:36
al cuadrado es
00:28:38
fx fx
00:28:43
bueno esto tiene un significado
00:28:45
importante
00:28:46
si x tiende a x estrellas
00:28:51
con esta norma f x tiende a efe x
00:28:56
estrella que es el mínimo de la función
00:29:00
así que vamos a ver a hablar de la
00:29:03
convergencia y podemos hacerlo
00:29:05
únicamente usando la norma la norma de a
00:29:08
y sabemos que también va a ocurrir eso
00:29:10
en sus imágenes
00:29:13
si vamos a continuar mirando porque
00:29:15
todavía nos falta mucho camino por
00:29:18
recorrer en esta demostración
00:29:22
veamos por acá
00:29:23
vamos por simplicidad voy a escribir el
00:29:27
gradiente de f lo voy a escribir de acá
00:29:30
y no sería la primera vez que lo hago
00:29:31
pero aquí pues lo estoy detallando más
00:29:36
también tenemos
00:29:39
que el aire' y le voy a llamar el error
00:29:42
sub acá lo voy a definir como xk virus x
00:29:47
estrés
00:29:50
con la misma idea podemos escribir es un
00:29:54
cama azul verdad de sus camas uno sería
00:29:59
x sus camas 1 - x 3
00:30:04
pero x + 1 recuerde que se puede
00:30:08
escribir como xk menos blanda por
00:30:15
por la dirección que en este caso la del
00:30:18
gran bien
00:30:20
es decirlo lo que estoy diciendo es esto
00:30:22
el xk más uno se puede escribir como x
00:30:27
sub acá - alfa
00:30:32
- alfa por el gradiente de k
00:30:36
bueno
00:30:38
quiero pedir excusas aquí porque es la
00:30:41
cndh recuerden que el valor que estamos
00:30:44
utilizando
00:30:45
pero por favor les pido excusas cuando
00:30:49
hable aquí de alfa en lo que sigue me
00:30:52
estaré refiriendo
00:30:54
el valor que ya calculamos
00:30:56
de cómo encontrar a landa
00:31:00
bueno los negativos los podemos conmutar
00:31:04
verdad
00:31:06
entonces eso nos quedaría así y eso
00:31:10
significa de que podemos escribir el
00:31:13
error en función del error anterior
00:31:16
porque xk menos equis estrella es el
00:31:19
error anterior que aparece en color rojo
00:31:22
o naranja
00:31:23
veamos cómo quedaría eso entonces
00:31:27
sus gamas 1 se puede escribir como en
00:31:31
sub k menos el tamaño del paso por el
00:31:35
gradiente
00:31:37
y como tamaño de paso
00:31:40
vamos a usar lo que ya habíamos
00:31:42
encontrado
00:31:44
ok
00:31:46
entonces vamos a seguir analizando este
00:31:53
bueno les pido un poquito de paciencia
00:31:55
porque va a salir una fórmula un poquito
00:31:58
larga y vamos a analizarla despacio
00:32:05
esto que vemos aquí
00:32:08
no es
00:32:11
no es el error relativo ni nada es un
00:32:14
valor que necesitaré acotar
00:32:19
y después nos permitirá mostrar una
00:32:23
fórmula
00:32:25
y que indica que convence de manera
00:32:28
lineal
00:32:30
esto que vemos aquí lo vamos a acotar
00:32:33
entonces recuerden que esa es la norma
00:32:36
sub a o sea la que es la que tratamos de
00:32:40
hacer un breve breve minutos
00:32:43
vamos a ver esto queda
00:32:45
aquí aplique la definición
00:32:49
aquí no lleva un medio así que solamente
00:32:52
va esto y donde dice es su cama su no lo
00:32:56
voy a reemplazar por eso acá me lo
00:32:58
salvaje'
00:32:59
qué es lo que está en la fórmula paso
00:33:03
y eso nos va a quedar lo siguiente
00:33:07
bueno ya se empezó a ver un poquito más
00:33:09
feo pero es necesario entonces ahora
00:33:13
viene la distribución el transporte por
00:33:16
el otro vamos a ver
00:33:20
vamos a ver nos da esta expresión
00:33:23
larguísima
00:33:27
los dos primeros se pueden cancelar
00:33:32
los dos primeros son iguales así que se
00:33:36
cancela ahora el tercero y el cuarto
00:33:40
también son iguales porque la
00:33:43
multiplicación el producto punto el
00:33:46
producto escalar es como está es
00:33:49
comunicativa
00:33:50
y recuerden que es
00:33:55
simétrica
00:33:56
bueno va a quedar esta expresión como la
00:33:59
vemos allí
00:34:03
bueno esa expresión la tenemos que
00:34:05
acortar
00:34:08
pero como ven aparece que aparece
00:34:15
y queremos que quede un solo vector
00:34:18
yo prefiero que quede g
00:34:21
entonces veamos
00:34:28
en esta parte acabo de reemplazar por el
00:34:31
valor de alfa que está en color amarillo
00:34:35
bueno eso me va a permitir simplificar
00:34:38
algunas cosas por ejemplo en el primer
00:34:41
término del numerador se cancelaría
00:34:46
el denominador con el multiplicador que
00:34:50
está en la derecha
00:34:52
y en el otro término del numerador
00:34:56
se cancelaría el término de la derecha
00:34:59
al perdón en el primero no se puede
00:35:02
cancelar noten que tiene g por apure y
00:35:07
el denominador es que ahora por g aquí
00:35:10
no sólo no son semejantes no se pueden
00:35:13
cancelar
00:35:15
pero bueno en el otro si en el otro
00:35:18
podemos hacer eso el término de la
00:35:20
derecha es igual a 1 al término del
00:35:24
denominador del cual hay 2 porque está
00:35:26
en cuadrado
00:35:28
a ver eso nos va a quedar simplificando
00:35:30
todo esto lo podemos escribir así
00:35:35
muy bien el primero queda igual y el
00:35:39
segundo queda un poco más simplificado
00:35:42
en el numerador tienen el mismo se ven
00:35:45
dos fracciones que tienen el mismo
00:35:47
denominador así que podemos usar un solo
00:35:50
fraccional
00:35:52
y esto nos va a quedar
00:35:54
de esta forma un solo fraccionario
00:35:58
pero como dije antes que aparece g y
00:36:02
aparece vamos a tratar de quedarnos con
00:36:05
un solo vector prefiero que quede el ají
00:36:08
porque al evaluar siempre la tengo
00:36:11
mientras que l
00:36:14
es un vector teórico porque no lo
00:36:18
conocemos si supiéramos en cada problema
00:36:21
cuál es la solución podríamos calcular
00:36:24
ahí pero es que no la conocemos es un
00:36:27
vector teórico pues trataremos de que
00:36:31
quede todo en función del
00:36:33
cómo haremos eso vamos a dejar esto
00:36:36
quieto un momento y recordemos lo
00:36:39
siguiente
00:36:43
como g ese es el gradiente a x
00:36:49
en la solución de acero eso ya lo
00:36:52
habíamos dicho antes
00:36:54
y podemos escribir y
00:36:57
de aquí podemos despejar x estrellas que
00:37:00
es al menos 1 por t
00:37:03
esta operación está bien definida porque
00:37:06
a es
00:37:07
simétrica y lo más importante que
00:37:09
definidas positivas
00:37:12
así que es invertir hablar de la inversa
00:37:15
presente
00:37:17
pero no es lo único que podemos analizar
00:37:20
tengamos presente que estrella de sala
00:37:22
menos 1 vez podemos al lado debe poner
00:37:26
la identidad como a por a la menos 1
00:37:30
y factor izamos a la izquierda la matriz
00:37:33
a y nos quedaría que el gradiente es por
00:37:36
eso que vemos allí
00:37:38
recuerden que a la menos uno ve lo
00:37:41
acabamos de calcular es aquella estrella
00:37:43
así que g se puede escribir como a por
00:37:47
xk - x estrellas o sea a por el azúcar
00:37:52
esta ecuación me va a permitir
00:37:54
reemplazar
00:37:55
la g
00:37:57
reemplazarla por el psuv k pero eso no
00:38:01
es lo que quiero lo que quiero es
00:38:03
despejar el sub acá así que es un cáncer
00:38:07
a igual a la menos 1 por g
00:38:12
recuerden eso vamos a volver allá donde
00:38:15
estábamos a su momento
00:38:16
tenemos esta expresión y recuerden dónde
00:38:20
está la voy a escribir a la menos 1
00:38:25
entonces nos quedaría lo siguiente
00:38:29
el numerador queda así ya no aparece
00:38:32
arriba al aire y en el denominador nos
00:38:34
queda esta expresión
00:38:39
bueno
00:38:41
los términos que vemos el primer en el
00:38:44
numerador el primer término está
00:38:47
repetido así que está al cuadrado
00:38:49
entonces lo que realmente tenemos es 2
00:38:53
tras puesto por g al cuadrado menos y al
00:38:56
cuadrado eso da 11 g traspuesto x
00:39:02
de esta forma
00:39:05
muy bien
00:39:07
bueno esta expresión aunque se ve fea
00:39:11
se puede acotar
00:39:14
en función de los valores propios de la
00:39:17
matriz a g
00:39:18
si los valores propios como recuerden
00:39:22
que si es simétrica los valores propios
00:39:24
de a son reales y si es definida
00:39:28
positiva además
00:39:30
entonces esos valores propios son
00:39:32
positivos puede puedo escoger el mínimo
00:39:37
y el más grande que eventualmente
00:39:39
podrían ser iguales pero existe un
00:39:42
máximo y un vídeo
00:39:48
estos valores propios van a contar ese
00:39:51
término
00:39:52
eso es mayor o igual que 4 landa min que
00:39:56
es el valor propio
00:39:58
mínimo de a y blanda el valor máximo el
00:40:02
valor propio máximo de a
00:40:06
es por eso que aquí no pusieran
00:40:11
es por eso que aquí aparece la cndh a
00:40:13
este landa no es el de la búsqueda
00:40:15
lineal sino los valores propios de la
00:40:17
matriz y desde la búsqueda lineal exacta
00:40:20
es el alfa que estuvimos haciendo a su
00:40:23
momento
00:40:24
de dónde sale esta desigualdad
00:40:28
esto es el resultado de una desigualdad
00:40:32
conocida en el mundo de la optimización
00:40:35
como la desigualdad de kanto lógica
00:40:40
dice así
00:40:43
o sea una matriz cuadrada simétrica y
00:40:46
definida es positiva
00:40:48
se cumple para todo x enero se cumple
00:40:52
esa desigualdad
00:40:54
ese cociente que casualmente fue el que
00:40:57
necesitábamos allá
00:40:59
es acotado inferiormente por 4 landa min
00:41:04
portland a máx sobre la anda misma landa
00:41:09
más sumados al cuadrado
00:41:12
de allí salió el valor que tenemos
00:41:17
en la otra desigual aquí no importa
00:41:19
quién es x así que para cualquier vector
00:41:22
se cumple en particular
00:41:25
una dieta
00:41:28
bueno y eso qué quiere decir
00:41:31
ahora entenderán de dónde salió ese
00:41:33
cociente extraño cuando el denominador
00:41:36
lo paso a multiplicar a la derecha
00:41:41
entonces trataré de que quede en el lado
00:41:45
izquierdo que deje su cama sudo al
00:41:48
cuadrado así que nos toca factorizar
00:41:50
sacar el factor común es uca y nos va a
00:41:53
quedar
00:41:56
bien y después de hacer manipulaciones
00:41:59
algebraicas
00:42:01
expresamos todo esto despejando o
00:42:05
poniendo a la izquierda de su cama azul
00:42:08
y nos queda esta desigualdad
00:42:13
ahora como pueden ver es sólo cuestión
00:42:16
de
00:42:17
interpretar lo que eso quiere decir lo
00:42:21
que está dentro del paréntesis cuadrado
00:42:23
o corchetes es un número real
00:42:27
el error de los errores sucesivos que
00:42:31
aparecen allí
00:42:33
están
00:42:35
relacionados mediante un número real
00:42:38
sí ahí es cuestión de sacar raíz
00:42:40
cuadrada y ya tendríamos claro
00:42:45
de que es una convergencia al ideal
00:42:49
si no importa los valores máximos y
00:42:52
mínimos eso
00:42:55
es convergencia
00:42:57
convergencia lineal
00:42:59
por supuesto si ese número es más grande
00:43:03
convergen más lento y 100 más pequeños
00:43:06
convergen más más rápidamente
00:43:11
viendo todo esto hemos demostrado que
00:43:15
para el caso particular
00:43:18
de la función cuadrática el método del
00:43:22
gradiente
00:43:23
convergen linealmente
00:43:26
así que cualquier otra función que por
00:43:28
lo general son más complejas es más
00:43:31
lento
00:43:32
lo más convergen linealmente
00:43:37
viendo todo esto
00:43:39
ya tenemos claro que el método funciona
00:43:42
él funciona bien que es un poco lento
00:43:45
pero es fácil de calcular y fácil de
00:43:49
implementar matemáticas
00:43:51
espero les haya quedado claro y hayan
00:43:53
disfrutado de esta clase
00:43:58
bueno