Índice de Contenidos

  1. El ingeniero de datos frente al científico de datos
  2. ¿Qué es la ingeniería de datos?

El ingeniero de datos frente al científico de datos

He de estar de acuerdo en que la ciencia de datos (Data Science, en inglés) se ha convertido en una verdadera palabra de moda en los últimos años. Existe un incremento medible en el número de personas que quieren llegar a ser científicos de datos, lo que resulta en fenómenos como los Data Science Bootcamps que muy probablemente estar perfectamente enterado de ellos sino matriculado en uno.

Sin embargo, hace diez años no existía la «ciencia de datos», aunque muchas de las tareas que los científicos de datos llevan a cabo hoy ciertamente se llevaron a cabo hace diez años, aunque con conjuntos de datos más pequeños que los utilizados hoy.

Y con ánimo de pronosticar, como si de un algormitmo de aprendizaje automático se tratará, quizás dentro de otros diez años, la ciencia de datos se denominará de otra manera, aunque los principios generales probablemente no cambiarán mucho; utilizando modelos matemáticos y estadísticos para maximizar el valor de los datos.

Pero efectivamente, la ingeniería de datos es un concepto más reciente del que es menos probable que las personas hayan oído hablar o, si lo conocer, pueden asumir que es solo una rama más de la ciencia de datos. Sin embargo, los ingenieros de datos son tan importantes como los científicos de datos en una estrategia analítica de éxito.

Entre las compañía más enfocadas al análisis de datos y consultoría comienzan a barajar las proporciones de que para cada científico de datos que emplea, necesitará al menos dos y posiblemente hasta cinco ingenieros de datos, lo que significa que es esencial contratar no solo a los científicos de datos correctos, sino a los ingenieros correctos.

También esto da una lectura desde el punto de vista de los candidatos a rellenar esas posiciones y es que es muy probable que sobrevenga un incremento mayor relativo de ingenieros de datos que de científicos de datos.

Pero, ¿qué es la ingeniería de datos?

Quizá la mejor manera de ilustrar al ingeniero de datos es pensar en ellos como los cimientos de una pirámide. Si los científicos de datos necesitan realizar un trabajo para ayudar a una empresa a cumplir con sus KPI o alcanzar sus objetivos y metas, los ingenieros de datos construyen la estructura que los científicos de datos requieren para hacer ese trabajo.

Si el objetivo es la extracción de datos (data mining) de los datos que la empresa tiene para alimentar el análisis predictivo, los ingenieros crean las estructuras necesarias para que los científicos de datos puedan completar esta tarea. Los científicos de datos no quieren tener que construir un ‘data lake’ o un almacén de datos, incluso utilizando productos disponibles como Amazon Athena y Redshift o plataformas como Oracle Exadata o repositorios de datos de código abierto como Hadoop y Hive, ya que este es un trabajo para los ingenieros de datos. Los científicos quieren que la base de datos esté construida y lista para usar para que puedan construir los modelos necesarios para ayudar a impulsar un negocio.

Un ingeniero de datos es típicamente un ingeniero de software que idealmente ya tiene algo de experiencia trabajando en sistemas distribuidos, aunque esta experiencia siempre se puede obtener en el trabajo si se trata de un candidato competente. Una vez que la infraestructura se ha facilitado para que los científicos de datos la utilicen, los ingenieros también son responsables de mantenerla, junto con un equipo de operaciones de datos. Por lo general, la estructura inicial, que puede haber cumplido los requisitos inicialmente, puede tener que modificarse a medida que el equipo de ciencia de datos enfrenta problemas inesperados o cuando el equipo de negocios realiza nuevas solicitudes.

Las áreas principales donde trabajan los ingenieros de datos incluyen garantizar la calidad de los datos evitando el formateo y los problemas de datos no autorizados y, por lo tanto, garantizar que los datos tengan la capacidad de recuperación para funcionar sin problemas. La escalabilidad y la seguridad son otras tareas comunes para el equipo de ingeniería de datos. Es posible que los cambios en la empresa, como un crecimiento acelerado en los empleados o los clientes, generen la necesidad de aumentar la escala en todos los departamentos, incluidos los de Analytics. Las estructuras que crearon los ingenieros de datos deberían haberse construido teniendo en cuenta la escalabilidad, por lo que parte de esta tarea no es solo escalar, sino hacerlo de manera no disruptiva para el resto del negocio.

La seguridad implica identificar inicialmente qué conjuntos de datos están sujetos a los niveles más altos de escrutinio (como PII) y garantizar que las estructuras estén en su lugar para que los datos relevantes obtengan niveles adicionales de seguridad y que los datos de PII estén debidamente seudonimizados (protegidos). Si bien la seudonimización es una tarea de ciencia de datos, el equipo de ingeniería de datos necesita crear la infraestructura que la empresa utiliza para almacenar los datos seudonimizados, junto con todos los permisos relevantes.

Sin embargo, la tarea fundamental es crear primero y luego mantener la canalización de datos (el pipeline). Esta tarea no es tan fácil dado que un pipeline de datos moderno y típico que procesa grandes cantidades de datos diariamente puede requerir docenas de tecnologías diferentes para funcionar correctamente. Un pipeline (o canalización de datos) bien diseñado permite a una empresa hacer lo que quiera con los datos que tiene, como mantener un sitio web complejo y que cambia rápidamente, así como dar acceso a los análisis, informes y otras fuentes esenciales que requieren los empleados de dentro de la organización.

Por eso los ingenieros de datos son tan importantes. Su trabajo proporciona los cimientos sobre los cuales se construye todo lo demás, analíticamente hablando.

Y quizás tú seas el próximo gran ingeniero de datos que entré a formar parte de una gran corporación. Si ese es tu deseo, te recomiendo que mires bien lo que pone justo en el siguiente párrafo… 🙂

Suscríbete al Blog!

Recibe los próximos artículos sobre todos los temas que tienes que dominar para convertirte en un profesional del Machine Learning y de la Ciencia de Datos!

¿Crees que puede serle útil a alguien más? ¡Comparte! :)
0 0 votos
Valora este artículo!
Suscribirse a los comentarios de este artículo
Notificarme de
guest
0 Comments
Inline Feedbacks
Ver todos los comentarios