Índice de Contenidos

  1. Machine Learning: Claramente Explicado!
  2. ¿Por qué queremos que las máquinas aprendan?
  3. Los 3 componentes fundamentales del aprendizaje automático
    1. Datos
    2. Características (Features)
    3. Algoritmos
  4. Aprendizaje frente a Inteligencia
  5. El mapa del mundo del Aprendizaje Automático
  6. Los 4 grandes tipos de Aprendizaje Automático y cuándo emplearlos

Machine Learning: Claramente Explicado!

Es muy probable que éste no sea tu primer artículo sobre Machine Learning (y si es así… gracias Google!) y espero que no sea el último tampoco… Pero lo que sí es seguro es que ese «come-come» que tienes en la cabeza preguntándote «¿Cómo puedo entender qué es esto del Machine Learning?» desaparecerá muy pronto cuando hayas leídos las próximas líneas :).

Lo que he decidio hacer con este artículo es una pequeña introducción simple para aquellos que siempre habeís querido entender el Machine Learning, ya seas un programador, un manager de área o un curioso tecnológico!

Venga! Vamos a darle.

El Machine Learning se conoce en español como ‘Aprendizaje Automático’ y es el término que intentaré usar a menudo cada vez que hable de él, aunque reconozco que me encanta el uso de anglicismos y es muy probable que veas Machine Learning (o ML) demasiado a menudo…

¿Por qué queremos que las máquinas aprendan?

Os presento a Pedro:

Hombre en 3d trabajando en ordenador

Pedro está interesado en comprarse un coche. Intenta calcular cuánto necesita ahorrar mensualmente para eso. En la imágen le vemos revisando docenas de anuncios en Internet. Haciendo esto, descubrió que los coches nuevos nuevos cuestan alrededor de €20,000, los usados de un año cuestan €19,000, los de 2 años cuestan €18,000 y así sucesivamente…

Pedro, nuestro brillante analítico, comienza a ver un patrón: por lo tanto, el precio del automóvil depende de su edad y baja €1,000 cada año, pero no será inferior a los €10,000.

En términos de aprendizaje automático, Pedro ha descubierto la regresión: predijo un valor (precio) basado en datos históricos conocidos. La gente lo hace todo el tiempo, al tratar de estimar un precio de venta razonable para un iPhone usado en eBay o averiguar cuántas costillas comprar para una barbacoa: 200 gramos por persona? 500?

Qué fácil sería tener una fórmula simple para cada problema del mundo. Especialmente para organizar barbacoas y que luego no esté la comida dando vueltas y vueltas… Lamentablemente, es imposible.

Volvamos al ejemplo de los coches. Sin haber pensado mucho Pedro descubre que no sólo la edad empieza a influir en el precio del vehículo. Además se tienen diferentes fechas de fabricación, docenas de opciones, condiciones técnicas, picos de demanda estacionales, y sólo Dios sabe cuántos factores más ocultos. Un Pedro promedio no puede mantener todos esos datos en su cabeza mientras calcula el precio. Yo tampoco.

La gente en general somos bastante perezosillos: necesitamos robots que hagan los cálculos por nosotros. Entonces, tiremos de ordenador, vaya. Proporcionemos algunos datos a la máquina y pidámosle que encuentre todos los patrones ocultos relacionados con el precio del coche.

Y… efectivamente funciona. Lo más emocionante es que la máquina hace frente a esta tarea mucho mejor que una persona real cuando analiza cuidadosamente todas las dependencias en su mente.

Y así nace, el aprendizaje automático.

Los 3 componentes fundamentales del aprendizaje automático

El único objetivo (y fundamental) del aprendizaje automático es:

Predecir resultados basados en datos entrantes.

Eso es. Todas las tareas del Aprendizaje Automático se pueden representar de esta manera, o no es un problema de AA desde el principio.

Por tanto, cuanto mayor sea la variedad de muestras para ser usadas en Machine Learning, mayor facilidad será encontrar patrones relevantes e influyentes en la predicción de un resultado. De esta manera, se necesitan fundamentalmente tres componentes para «enseñar» a la máquina:

Datos

¿Es tu objetivo detectar SPAM? Obtén muestras de mensajes que sean SPAM… ¿Quieres pronosticar valor de las acciones de una empresa? Encuentra el historial de precios… ¿Quieres saber más sobre las preferencias de tus usuarios? Analiza sus actividades en Facebook (no, Mark, ¡deja ya de coleccionarlos! ¡Es suficiente!). Cuanto más diversos sean los datos, mejor será el resultado. Algunos gurús del data comentan que mínimos la tabla deberá tener miles de filas para tener una cierta utilidad… Aquí veremos que no siempre es así.

Hay dos formas principales de obtener los datos: manual y automática. Los datos recopilados manualmente contienen muchos menos errores, pero requieren más tiempo para recopilarse, lo que los hace más caros en general.

El enfoque automático es más barato: reúne todo lo que puedas encontrar y espera lo mejor…

Algunas corporaciones muy inteligentes, como Google, usan sus propios clientes para etiquetar los datos de forma gratuita. ¿Recuerdas ReCaptcha que te obliga a «Seleccionar todas las señales de tráfico»? Eso es exactamente lo que están haciendo. ¡Mano de obra gratis! Genial.

Es extremadamente difícil recopilar una buena colección de datos (generalmente llamado conjunto de datos y en inglés ‘dataset’). Son tan importantes que las empresas pueden incluso revelar sus algoritmos de manipulación, pero rara vez los propios conjuntos de datos de trabajo.

Características

En inglés ‘Features’ (sí, por desgracia en este mundo, como en tantos otros, hay alta dominación de nuestro amigo el inglés…)

También se conocen como parámetros y, por supuesto, variables. Para Pedro, alguna de las variables que observaba cuando investigaba sobre precios de coches usados eran el kilometraje del vehículo, el color, el tipo de transmisión, la cilindrada… etc. En otras palabras, estos son los factores que la máquina debe observar.

Cuando la colección de datos se encuentra almacenadas en tablas, es sencillo reconocerlas: las variables son los nombres de las columnas. Pero, ¿cuáles serían en el caso de tener 100 Gb de fotos de gatos? No podemos considerar cada píxel como una característica. Es por eso que la selección de las variables correctas generalmente lleva más tiempo que todas las demás partes del Aprendizaje Automático. Asimismo es también la principal fuente de errores.

Algoritmos

Es quizá la parte más obvia y la que más pomposidad adquiere al hablar de Machine Learning. Regresión Logística, AdaBoost, Redes Neuronales… Cualquier problema puede resolverse de manera diferente. El método que elijas afecta la precisión, el rendimiento y el tamaño del modelo final. Sin embargo, hay un matiz importante: si los datos son malos, incluso el mejor algoritmo no ayudará a nada. A veces se le conoce como «basura adentro – basura afuera». Por lo tanto, no prestes demasiada atención al porcentaje de precisión, primero intenta adquirir más datos (y de mayor calidad).

Diagrama de Venn de los 3 componentes del Aprendizaje Automático

Aprendizaje frente a Inteligencia

Una vez que vi un artículo titulado «¿Las redes neuronales reemplazarán el aprendizaje automático?» en algún sitio web de tecnología digital. Muchas veces este tipo de páginas web llaman a cualquier regresión lineal inteligencia artificial, casi SkyNet. Presentemos quién es quién en este mundo de redes neuronales, IAs y Machine Learning:

Quién es Quién en la Inteligencia Artificial y el Machine Learning
  • La Inteligencia Artificial es el nombre de todo un campo de conocimiento, similar a la biología o la química. En este artículo entro más en detalle en qué es y para qué se emplea.
  • El aprendizaje automático es parte de la inteligencia artificial. Una parte importante, pero no la única.
  • Las redes neuronales son uno de los tipos de aprendizaje automático. Uno popular, pero hay otros buenos alumnos en la clase.
  • El aprendizaje profundo es un método moderno de construcción, entrenamiento y uso de redes neuronales. Básicamente, es una nueva arquitectura. En la actualidad, en la práctica, nadie separa el aprendizaje profundo de las «redes neuronales ordinarias». Incluso se usan las mismas bibliotecas de desarollo software para ellos. Quizá a estas alturas y con objeto de no parecer un ignorante, es mejor simplemente nombrar el tipo de red neuronal y evitar palabras de moda.

La regla general es comparar cosas en el mismo nivel. Es por eso que la frase «las redes neuronales reemplazarán el aprendizaje automático» suena como «las ruedas reemplazarán a los automóviles». Hay que saber de qué estamos hablando…

Las máquinas pueden:

  • Pronosticar
  • Memorizar
  • Reproducir
  • Escoger el mejor item

Las máquinas NO pueden:

  • Crear algo completamente nuevo
  • Hacerse inteligente muy muy rápidamente
  • Ir más allá de su tarea
  • Matar a toda la humanidad

El mapa del mundo del Aprendizaje Automático

¿No dicen que una imagen vale más que mil palabras? Doy fe. Y dentro de poco tú también.

Echa un vistazo a la imagen de a continuación para comprender todo lo que hay, en cuanto a algoritmos, dentro del mundo del ML:

Mapa de Algoritmos de Machine Learning

Siempre es importante recordar: nunca hay una única forma de resolver un problema en el mundo del aprendizaje automático. Siempre hay varios algoritmos que se ajustan, y la gracia del experto en Aprendizaje Automático o científico de datos es saber elegir cuál se ajustará mejor.

Vale sí, todo se puede resolver con una red neuronal, por supuesto, pero ¿quién pagará por todo el poder computacional que necesitas?

Los 4 grandes tipos de Aprendizaje Automático y cuándo emplearlos

Como le he cogido el gusto a los gráficos simples y claros ahí te dejo las 4 tipologías de Aprendizaje Automático en función de lo que tenemos (y lo que buscamos):

Mapa de los Tipos Principales de Aprendizaje Automático. Cuándo usarlos.

Podrías estar escribiendo mucho más sobre aprendizaje automático pero hasta aquí creo que he dado una pincelada a la introducción a este mundo.

Muy pronto haré un par de artículos especiales para tratar los diferentes tipos de ML que he introducido en el gráfico anterior.

Hasta entonces, espero que te haya sido útil la lectura de esta publicación y que comentes cuál está siendo tu experiencia adentrándote en el mundo del Aprendizaje Automático.

Como siempre ¡muchas gracias por leerme y mucha suerte en tu camino hacia convertirte en un gran Data Scientist! Y si necesitas un empojoncito… mira justo aquí debajo 🙂

Suscríbete al Blog!

Recibe los próximos artículos sobre todos los temas que tienes que dominar para convertirte en un profesional del Machine Learning y de la Ciencia de Datos!

¿Crees que puede serle útil a alguien más? ¡Comparte! :)
5 1 Vota
Valora este artículo!
Suscribirse a los comentarios de este artículo
Notificarme de
guest
0 Comments
Inline Feedbacks
Ver todos los comentarios