00:00:03
hola amigos yo soy álvaro felipe y hoy
00:00:05
quiero hablarles acerca de big dada para
00:00:07
eso quiero contarles una pequeña
00:00:09
historia el es carlos tres panaderos
00:00:12
hace pan hace buen pan entonces le va
00:00:14
bien tiene buenos clientes sin embargo
00:00:17
él quiere que su negocio crezca así que
00:00:18
como todo buen emprendedor empieza a
00:00:20
leer sobre marketing sobre negocios
00:00:22
sobre gestión lo que todo buen
00:00:24
emprendedor debería hacer leer todos los
00:00:26
días así que de esta manera él comprende
00:00:29
que debería guardar los datos de sus
00:00:31
clientes para poder tener mejores
00:00:33
relaciones informales cuando hay
00:00:35
descuentos ofertas nuevos productos
00:00:37
eventos etcétera ok pero como él no sabe
00:00:40
mucho de tecnología los guarda en un
00:00:43
documento de texto pero no tienen una
00:00:46
estructura para un cliente le pone
00:00:47
primero el apellido luego el nombre al
00:00:49
siguiente cliente le pone primero el
00:00:51
nombre luego el apellido a otro cliente
00:00:53
le pone primero el correo luego el
00:00:54
apellido luego la fecha de nacimiento
00:00:56
todo es un desorden mayúsculas
00:00:59
minúsculas una locura pronto él mismo se
00:01:02
da cuenta de que esto no es eficiente
00:01:03
demora mucho en encontrar una
00:01:05
información porque todo está desordenado
00:01:07
así que leyendo se entera que es mejor
00:01:10
todo esto en una hoja de cálculo porque
00:01:12
ahí ya hay un orden hay filas y columnas
00:01:14
entonces en la columna uno pone el
00:01:16
nombre en la columna dos el apellido en
00:01:18
la columna tres el teléfono celular
00:01:20
etcétera todo está mucho mejor pero un
00:01:23
día conoce a un señor llamado alexis
00:01:25
losada ya le siendo sala le dice esto no
00:01:29
es una base de datos esto es una hoja de
00:01:30
cálculo tú necesitas una base de datos
00:01:32
carlos entonces carlos le dice hoy el
00:01:35
éxito yo he escuchado que access es una
00:01:36
base de datos entonces nuevo mis datos
00:01:38
access y alexis se enoja muchísimo peor
00:01:41
y le dice access no es una base de datos
00:01:43
tú necesitas una base de datos yo me
00:01:46
encargo entonces alexis diseña una base
00:01:48
de datos que lo pone feliz y también
00:01:50
pone feliz a carlos obviamente
00:01:54
mejórate alexis hay bastantes bases de
00:01:57
datos esperándote
00:02:01
entonces carlos ya tiene sus bases de
00:02:03
datos pero pronto se da cuenta que la
00:02:06
información viene de muchos lugares
00:02:07
aparte de esta base de datos los correos
00:02:10
electrónicos que comparte con sus
00:02:11
clientes los mensajes que envía y recibe
00:02:14
por las redes sociales la información de
00:02:16
sus ventas la información de lo que le
00:02:19
paga a sus empleados la contabilidad en
00:02:21
general no los datos de sus proveedores
00:02:24
que proveedores tiene qué productos le
00:02:26
traen cuánto les paga en qué fechas
00:02:28
vienen qué créditos tiene etcétera la
00:02:31
información de analíticas de su sitio
00:02:34
web cuántas visitas tiene cuánto tiempo
00:02:36
se quedan de donde lo están visitando
00:02:38
cómo llegan a su sitio la información de
00:02:41
su inventario la información de los
00:02:43
registros de su negocio una gran
00:02:46
cantidad de información que hace que en
00:02:48
algún momento carlos se quede así
00:02:51
sin saber qué hacer con tanta
00:02:53
información ahora carlos es un pequeño
00:02:56
empresario y está sintiendo que hay
00:02:59
mucha información pero también se da
00:03:01
cuenta que si él fuera capaz de
00:03:04
centralizar toda esa información que
00:03:06
viene de diferentes fuentes y trabajarla
00:03:09
como una sola información es decir saber
00:03:11
que este cliente que me escribió por
00:03:13
facebook es este con el que tuve
00:03:15
conversaciones por el correo electrónico
00:03:18
y es este que tengo en la base de datos
00:03:21
que me ha comprado este y este producto
00:03:23
de esa manera puedo definir el
00:03:25
comportamiento de este cliente pero
00:03:27
obviamente están todos los datos por
00:03:28
diferentes lugares y es muy complejo
00:03:30
ahora imagínate el reto que tiene que
00:03:32
asumir una gran empresa un banco una
00:03:36
cadena de supermercados una tienda por
00:03:38
departamentos que tienen locales en
00:03:40
varios países una empresa de software
00:03:42
con clientes a nivel mundial una empresa
00:03:44
de telecomunicaciones etcétera cuánta
00:03:46
información ellos manejarán enormes
00:03:49
cantidades de información que también
00:03:50
están repartidos por distintos lugares
00:03:52
esta es la esencia del big data
00:03:55
antes de explicarte que es big data de
00:03:56
manera técnica hablemos de la
00:03:57
terminología de esas palabras que vas a
00:04:00
escuchar en el mundillo del big data y
00:04:01
es bueno que tú las conozcas en primer
00:04:04
lugar los datos no estructurados son
00:04:05
aquellos que no tienen una estructura
00:04:07
definida como carlos poniendo los datos
00:04:10
de sus clientes en un documento de texto
00:04:12
y poniéndolos como caigan no tienen una
00:04:14
estructura sin embargo igual son datos
00:04:16
iguales información importante tú dirás
00:04:19
sí pero tú pusiste el ejemplo de carlos
00:04:21
porque l era un principiante de la
00:04:23
tecnología nosotros no lo vamos a hacer
00:04:24
nosotros siempre estructuramos nuestra
00:04:26
información
00:04:27
falso cuando envías un correo
00:04:28
electrónico el cuerpo de ese correo es
00:04:31
un son datos no estructurados a pesar de
00:04:33
que haya información muy importante hay
00:04:35
documentos de texto conversaciones por
00:04:37
slack toda la información que guardas en
00:04:39
tu sistema de gestión de proyectos ya
00:04:41
sea sana reloj de ira wright etcétera
00:04:44
todos esos datos no estructurados y son
00:04:47
datos importantes de tu empresa además
00:04:49
tenemos los datos estructurados que son
00:04:52
los datos que ya se diseñan como el
00:04:54
ejemplo de carlos pasando sus datos
00:04:56
hoja de cálculo tenemos luego la base de
00:04:59
datos llega alexis y dice tenemos que
00:05:01
hacer una base de datos esto es un
00:05:03
conjunto organizado de información de
00:05:05
datos estructurados y existen los
00:05:07
motores de base de datos que es software
00:05:10
que permite almacenar procesar y extraer
00:05:13
la información de estas bases de datos
00:05:15
también tenemos el término on premise
00:05:18
que se usa para referirnos a las
00:05:20
empresas que guardan sus datos e
00:05:21
infraestructura en local es decir en sus
00:05:24
propias oficinas han comprado
00:05:26
computadoras servidores racks han hecho
00:05:29
el cableado tienen un lugar específico
00:05:32
para guardar todos esos datos eso es un
00:05:35
premio obviamente en un momento
00:05:38
determinado no había otra forma de
00:05:40
hacerlo si tú querías guardar
00:05:42
información tenías que comprar equipos y
00:05:44
ahí guardar la información y ahí
00:05:45
procesar esa información sin embargo
00:05:47
esto es muy costoso
00:05:49
necesitas un espacio físico que es
00:05:51
costoso necesitas comprar los equipos y
00:05:54
saber que en determinada cantidad de
00:05:55
años estos equipos se vuelven obsoletos
00:05:57
y que renovarlo necesitas personal
00:05:59
capacitado y especializado para
00:06:01
manipular estos equipos es
00:06:03
realmente el nuevo modelo es el cloud
00:06:05
computing que significa que todos estos
00:06:07
servicios de cómputo estén en internet
00:06:10
ofrecidos por una empresa las empresas
00:06:12
más importantes de cloud computing son
00:06:14
amazon con la w s
00:06:16
google con disipe y microsoft con asier
00:06:19
entonces ya no tenemos que tener esas
00:06:21
grandes cantidades de equipos y gastar
00:06:24
tanto dinero sino que nuestros datos
00:06:26
están almacenados en la nube en la nube
00:06:28
se procesan en la nube hay mucho poder
00:06:30
de cómputo un mito muy común de la nube
00:06:33
es decir que es la computadora de otra
00:06:35
persona y eso es absolutamente falso y
00:06:37
quiero dejarlo muy en claro nunca creas
00:06:39
eso el cloud computing es un conjunto de
00:06:43
servicios de cómputo enormes gigantescos
00:06:46
y un conjunto de servicios de cómputo
00:06:48
escalables es decir que si se requiere
00:06:51
más poder rápidamente puedes escalar un
00:06:53
data warehouse es un gran almacén de
00:06:56
datos estamos hablando de cantidades
00:06:57
extremas de información de petabytes de
00:07:00
información un petabyte es 1000
00:07:02
terabytes es decir un millón de
00:07:04
gigabytes imagínate es tremendo tenemos
00:07:07
también el machine learning
00:07:09
qué es el aprendizaje automático
00:07:11
significa que las computadoras sean
00:07:13
capaces de aprender a través de patrones
00:07:15
y poder detectar nuevos patrones y hacer
00:07:18
predicciones es como tener un asistente
00:07:21
que está todo el día revisando la
00:07:23
información para encontrar datos
00:07:25
importantes te pongo un ejemplo
00:07:28
imagínate que le damos un millón de
00:07:30
fotos de un perro o una computadora y le
00:07:33
decimos oye computadora en este millón
00:07:35
de fotos hay perros entonces la
00:07:38
computadora empieza a aprender con esas
00:07:40
fotos de perros y se supone que al final
00:07:42
pues debes saber cómo identificar a un
00:07:45
perro en nuevas fotos este millón de
00:07:47
fotos es un número completamente
00:07:48
aleatorio que me inventado ok pero luego
00:07:51
de procesar estas fotos le damos una
00:07:53
foto de un gato de un caballo o de un
00:07:55
león de un perro o de algunos objetos a
00:07:58
ver si la computadora y entendió y ya
00:08:00
puede reconocer un perro ese es el
00:08:02
principio de machine learning y se puede
00:08:04
aplicar a muchísimas áreas no solamente
00:08:05
al big data pero que es big data no lo
00:08:08
hemos explicado de manera técnica hasta
00:08:10
el momento
00:08:11
big data es un gran volumen de
00:08:14
información de diferentes fuentes no
00:08:17
cuenta una sola fuente por más grande
00:08:20
que sea esta fuente tiene que venir de
00:08:22
diferentes fuentes con diferentes
00:08:24
estructuras ya una velocidad tan rápida
00:08:27
de cambio es decir de nuevos datos que
00:08:29
van llegando como una gran avalancha de
00:08:31
datos que no paran de llegar y al no
00:08:33
parar de llegar y de moverse estos datos
00:08:35
son casi imposibles de procesar y
00:08:37
analizar con los sistemas de cómputo
00:08:39
tradicionales es decir necesitamos
00:08:40
muchísimo poder de cómputo es decir
00:08:44
cloud computing el big data también se
00:08:46
puede hacer on premise con herramientas
00:08:49
como hadoop pero actualmente la
00:08:50
tendencia sino salas nube porque nos da
00:08:52
más poder a menor costo el big data debe
00:08:55
cumplir con cinco veces o cinco v es
00:08:58
para los amigos de españa'
00:09:00
estas cinco veces son las siguientes
00:09:01
gran cantidad de información difícil de
00:09:03
procesar con los medios tradicionales
00:09:05
variabilidad es decir que los datos sean
00:09:08
diferentes si todos los datos son de una
00:09:11
misma base de datos pues no tiene mucho
00:09:13
reto eso simplemente se analiza con
00:09:16
de base de datos tradicional pero cuando
00:09:19
viene de diversas fuentes ya hablamos de
00:09:22
big data pero no solo que vengan de
00:09:24
diversas fuentes la velocidad es
00:09:26
importante es decir con qué velocidad
00:09:27
cambian estos datos nunca dejan de
00:09:29
llegar nuevos datos por ejemplo tu
00:09:31
teléfono está rastreando por donde te
00:09:34
mueves siempre entonces siempre está
00:09:36
generando nueva información aunque tú no
00:09:38
la digit es también tenemos la veracidad
00:09:40
significa saber qué datos son veraces y
00:09:43
qué datos no ejemplos si tenemos una
00:09:45
cuenta en redes sociales con un millón
00:09:47
de seguidores pero comprados esos datos
00:09:49
no nos valen absolutamente de nada para
00:09:52
un análisis
00:09:53
y también está el valor el valor es
00:09:56
saber qué tan pertinente es esta
00:09:58
información para los objetivos que tú
00:10:01
estás buscando por ejemplo si yo he de
00:10:03
tim y quiero mejorar las ventas usando a
00:10:05
big data los datos de geolocalización de
00:10:07
mi teléfono no influyen absolutamente en
00:10:10
nada entonces no son datos de valor para
00:10:13
este análisis seguramente te estarás
00:10:15
preguntando si los datos vienen de
00:10:17
muchísimos lugares como podemos
00:10:18
analizarlos como si fueran una sola
00:10:21
fuente para eso tenemos un proceso
00:10:23
llamado tele
00:10:25
la primera fase es la fase de extracción
00:10:28
que es cuando nosotros capturamos los
00:10:31
datos de todas esas fuentes y los
00:10:32
centralizamos la segunda fase es la fase
00:10:35
de transformación cuando nosotros
00:10:38
estandarizamos los datos como han venido
00:10:41
de diferentes lugares hay que darles un
00:10:43
estándar algo llamado data clean y
00:10:45
limpiar los datos para que parezcan de
00:10:47
una sola fuente obviamente hay que
00:10:49
escribir un modelo un algoritmo para
00:10:52
limpiar esos datos aunque también el
00:10:53
match in learning nos podría ayudar en
00:10:55
esta etapa y luego el log el lotes la
00:10:58
carga de la información es decir ya
00:11:00
extrajimos los datos ya los limpiamos y
00:11:03
ahora hay que cargarlos o guardarlos en
00:11:06
un data warehouse para su posterior
00:11:08
análisis
00:11:09
hasta este momento estamos hablando de
00:11:11
datos muchos datos limpiar los datos
00:11:13
analizarlos pero para que has escuchado
00:11:17
tal vez esta frase de que los datos son
00:11:19
el nuevo petróleo que empresas como
00:11:21
google o como facebook hacen millones
00:11:23
con nuestros datos
00:11:25
si todos lo sabemos pero te has
00:11:27
preguntado algún día como como google o
00:11:30
como facebook transforman estos datos en
00:11:32
dinero está el dato acá y está el dinero
00:11:35
acá de que me estoy perdiendo para
00:11:37
convertir este dato en dinero bueno
00:11:41
hablemos del ciclo de vida de los datos
00:11:42
y eso te va a ayudar a entender cómo los
00:11:44
datos se transforman en dinero en primer
00:11:46
lugar necesitamos capturar estos datos
00:11:49
repito los datos que vienen de
00:11:51
diferentes fuentes hay que capturarlos
00:11:52
sería la primera etapa de lete el es
00:11:54
cierto la extracción en segundo lugar
00:11:56
está el almacenamiento se supone que ya
00:11:58
se hizo lt l ya capturamos ya
00:12:02
transformamos y ya guardamos en un data
00:12:04
warehouse ya tenemos los datos guardados
00:12:06
ahora viene la fase del procesamiento y
00:12:08
el análisis ya tenemos los datos como si
00:12:10
fueran una sola fuente limpios y
00:12:13
estandarizados
00:12:14
ahora toca encontrar patrones estos
00:12:17
patrones los podemos buscar de manera
00:12:19
predeterminada es decir nosotros definir
00:12:23
que estamos buscando y escribir los
00:12:25
modelos los algoritmos para esas
00:12:27
búsquedas o podemos apoyarnos en match
00:12:29
in learning la diferencia es que machine
00:12:31
learning puede encontrar patrones que
00:12:34
nosotros ni siquiera imaginábamos que
00:12:36
necesitábamos eso es muy chévere y la
00:12:38
última parte es la exploración y
00:12:40
visualización ya tenemos toda la
00:12:42
información hay que mostrarla en un
00:12:43
dashboard hay que mostrarlo en un
00:12:45
tablero para que los tomadores
00:12:47
gerentes de negocios gerentes generales
00:12:49
de empresas y autoridades
00:12:51
gubernamentales autoridades municipales
00:12:54
puedan tomar decisiones con estos datos
00:12:56
viendo la información ya procesada ya en
00:13:00
tableros en gráficos muy fáciles de
00:13:02
entender pero hasta ahora siguen siendo
00:13:05
datos dónde está el dinero ok lo que
00:13:08
pasa es que con estos datos tú puedes
00:13:09
tomar decisiones estos datos te muestran
00:13:13
comportamientos de los usuarios o te
00:13:15
muestran tendencias o te predicen el
00:13:17
futuro obviamente no pueden predecir el
00:13:19
futuro de manera exacta pero las
00:13:22
tendencias dicen algo en estadística no
00:13:24
entonces podemos saber si las ventas van
00:13:26
a subir van a bajar en qué temporada
00:13:29
qué tipos de usuarios van a comprar en
00:13:32
cierta región geográfica se acuerdan el
00:13:34
escándalo de cambridge analytics como
00:13:36
ellos pudieron manipular las elecciones
00:13:38
simplemente sacando patrones de
00:13:40
comportamiento de los usuarios de
00:13:42
facebook terrible ahí es donde está el
00:13:46
dinero y las ganancias ahora no
00:13:48
solamente para las empresas también para
00:13:50
la ciudadanía podríamos analizar datos
00:13:53
abiertos el famoso open data y encontrar
00:13:55
soluciones por ejemplo soluciones de
00:13:58
tráfico o soluciones de seguridad
00:14:00
supongamos que podamos analizar el
00:14:02
índice de delincuencia en toda la ciudad
00:14:04
cruzarlo con las cámaras de vigilancia
00:14:06
con las denuncias en comisarías cruzar
00:14:09
todos los datos y poder definir en las
00:14:11
zonas seguras y las zonas no seguras
00:14:13
incluso en horarios del día me imagino
00:14:15
una aplicación se me ocurre no una
00:14:18
aplicación que te pueda decir según la
00:14:20
hora del día qué zona es segura y qué
00:14:22
zona no es segura para transitar y eso
00:14:25
se puede hacer con big data
00:14:26
obviamente entonces para resumir el big
00:14:28
data permite encontrar soluciones para
00:14:30
los negocios o para la ciudadanía a
00:14:33
través del análisis de grandes volúmenes
00:14:35
de informes
00:14:36
usando gran capacidad de cómputo
00:14:38
principalmente con cloud computing y con
00:14:41
machine learning
00:14:43
si quieres saber más de big data y
00:14:45
métele las manos en la masa' este tema y
00:14:47
no simplemente una presentación hablando
00:14:50
del panadero y de ejemplos por encima
00:14:52
sino meterte a las tripas del big data
00:14:54
entender cómo se analizan los datos y
00:14:56
ver realmente cómo se trabaja te invitó
00:14:58
este 18 de mayo en ciudad de méxico al
00:15:01
edecán méxico 2019 donde manu rodríguez
00:15:04
nuestro profesor en cloud computing y
00:15:06
customer engineer en temas de cloud para
00:15:08
google va a dictar el workshop big data
00:15:11
on google es un workshop de tres horas
00:15:13
completamente presencial lo vas a tener
00:15:14
ahí al experto en cloud para preguntarle
00:15:17
todo lo que quieras preguntarle y hacer
00:15:19
que tu inscripción valga cada centavo si
00:15:22
estás en méxico te invito a ir a méxico
00:15:26
ahora mismo para adquirir tus entradas
00:15:27
antes que se agoten y si no estás en
00:15:30
mexico
00:15:31
te invito a ir a e de puntín diagonal
00:15:33
premium para actualizar tu cuenta y
00:15:34
tener acceso a las grabaciones y
00:15:37
materiales de este workshop nos vemos en
00:15:39
mexico