Es de público conocimiento que la industria de las Tecnologías de la Información (TI) está mostrando un crecimiento exponencial en los últimos años, y esta tendencia se acentuó aún más desde el desencadenamiento de la pandemia del COVID. Este crecimiento trae como resultado el aumento de la oferta de empleo y salarios altamente competitivos, sumado a que es la industria donde se puede conseguir empleo remoto con mayor facilidad.
Esta combinación de factores hace que sea cada vez mayor el número de profesionales de distintas ramas que quieren dar un giro en sus carreras e iniciarse en la informática. Dentro de este sector, el “mundo de los datos” trae nuevas profesiones que ganan cada vez más adeptos por tratarse de un área que se puede complementar con otras profesiones como administración, finanzas, marketing, contabilidad, economía, entre otras. Tal es el auge de estas nuevas profesiones que este artículo de la Harvard Business Review posiciona al Científico de Datos como la “Profesión más sexy del siglo XXI”.
Pero cuando se comienza a indagar sobre este atrapante sector la cantidad de información disponible puede resultar abrumadora e inmediatamente surgen los siguientes interrogantes: ¿qué significan los conceptos como el Big Data, Business Intelligence, Machine Learning, etc.?, ¿qué hace un científico de datos?, ¿qué otros perfiles profesionales son destacados?, ¿qué tecnologías debo dominar?
En este artículo responderemos todas estas preguntas, comenzando por clarificar los conceptos más importantes:
Conceptos para trabajar con datos
Business Intelligence
El Business Intelligence (BI) nace para facilitar la extracción, depuración, transformación y explotación de los datos contenidos en los diferentes sistemas de una empresa, generando conocimiento en el cual se apoyan las decisiones de negocio. Esto se logra mediante el uso de técnicas de análisis y visualización para interpretar y comprender los datos. BI incluye tanto la recopilación de datos internos de la empresa como la de datos externos, que generalmente se almacenan en bases de datos estructuradas de una manera homogénea en los denominados “Data Warehouse”.
Gracias a este conjunto de estrategias se podrán resolver preguntas cotidianas que se realizan en cualquier empresa, como: ¿en qué estado se encuentra la empresa?, ¿qué sectores tienen más éxito?, ¿a qué clientes hay que orientar hacia un producto determinado?, etc.
El Business Intelligence es la aplicación más tradicional en el ámbito empresarial y engloba a la gran mayoría de los proyectos de datos en la actualidad.
Big Data
El término “big data” se refiere a conjuntos de datos muy grandes y complejos que exceden la capacidad de procesamiento de los sistemas tradicionales de BI. Se trata de una cantidad masiva de datos estructurados y no estructurados, que pueden incluir desde transacciones comerciales hasta publicaciones en redes sociales y muchas veces son utilizados para la toma de decisiones en tiempo real. Esto se resume en las “tres V” del big data:
- Variedad: los datos que gestiona no son homogéneos como en el BI sino que se presentan en diferentes formatos: tablas, archivos de audio, PDFs, videos, textos, etc.
- Volumen: la cantidad de datos que se almacenan es mucho mayor.
- Velocidad: se refiere a la necesidad de procesar y analizar los datos de manera rápida para obtener información valiosa y relevante en tiempo real.
Estas tres características hacen que el big data sea complejo y desafiante de procesar y analizar, y requieren la utilización de tecnologías y herramientas especializadas para manejarlo efectivamente.
Tanto el BI como el big data son importantes para la toma de decisiones en las empresas, pero tienen enfoques y objetivos diferentes.
Machine Learning
Otro concepto que ha tomado mucha relevancia en los últimos años es el de Machine Learning. Se trata de una rama de la inteligencia artificial que se centra en el uso de algoritmos de aprendizaje automático para analizar y entender grandes conjuntos de datos sin la necesidad de programación específica. Esto permite que las máquinas «aprendan» a partir de los datos y realicen tareas de manera autónoma sin necesidad de ser explícitamente programadas para hacerlo.
El machine learning se utiliza comúnmente para realizar tareas complejas como el reconocimiento de patrones y la predicción de resultados. Mediante estas técnicas podemos predecir las ventas a futuro, determinar si un determinado cliente comprará o no nuestro producto, detectar fraudes, entre otras cosas. Para ello, consume los datos almacenados ya sea en bases de datos estructuradas de una manera tradicional o mediante el Big Data.
Es decir que, mientras el Business Intelligence se enfoca principalmente en un análisis descriptivo, respondiendo al “¿qué sucedió?”, el Machine Learning se orienta al análisis predictivo, respondiendo al “¿qué sucederá?”
Una vez entendemos estos conceptos más relevantes, el siguiente paso es conocer cuáles son los perfiles profesionales que se encuentran en estos campos y en cuál encajaríamos mejor en base a nuestros conocimientos y preferencias.
Cómo trabajar con datos: perfiles más importantes
En términos generales, cualquier profesional que se desempeñe en este sector debe contar con conocimientos en los siguientes tres componentes:
- Negocio: el objetivo final de cualquier proyecto de tratamiento de datos es contribuir a resolver determinada problemática y tomar mejores decisiones de negocio. Es por ello que a mayor conocimiento del negocio en el que se está trabajando, mayor puede ser el aporte profesional.
- Matemática y estadística: dependiendo el tipo de proyecto y el rol que se desempeñe, es necesario dominar desde matemática básica hasta estadística avanzada.
- Informática: es necesario utilizar determinados programas informáticos para el tratamiento de los datos en las distintas etapas de su ciclo de vida, ya sea lenguajes de programación, lenguajes de bases de datos, herramientas de análisis y visualización, etc.
Dependiendo el perfil profesional se necesita una mayor expertise en un componente que en otro, pero los tres son necesarios en todos los casos.
En cuanto a los perfiles propiamente dicho, una buena aproximación para entenderlos de manera clara la hace Isaac González, de datascience4business.com, que posiciona los diferentes roles en una matriz de dos variables: perfiles y conocimientos. La variable de perfiles profesionales va desde un perfil 100% de negocio a uno 100% tecnológico y la variable de conocimiento va desde 100% técnico a 100% analítico. De esta manera, podemos entender mejor los diferentes perfiles y ver cuál se adecúa más a nuestras preferencias.
Arquitecto de datos
En un perfil con un alto componente técnico y tecnológico tenemos al arquitecto de datos. Como su nombre indica, el “arquitecto” es quien se encarga de diseñar y crear la infraestructura con la cual se van a almacenar y explotar los datos dentro de una empresa.
Esto incluye la planificación y el diseño de la estructura de almacenamiento de datos, la selección e implementación de herramientas de análisis, la definición de políticas y estándares de seguridad de datos, y el mantenimiento de la plataforma.
En cuanto a los conocimientos técnicos, debe comprender bases de datos, lenguajes de programación y tecnología en la nube. Una ruta de aprendizaje recomendable es la siguiente:
- Fundamentos de bases de datos: para empezar en el camino de la arquitectura de datos, es importante tener un conocimiento sólido de las bases de datos. Se deben aprender los fundamentos de las bases de datos relacionales y no relacionales, así como las diferentes tecnologías y herramientas de bases de datos que se utilizan actualmente.
- Tecnologías de Big Data: las tecnologías de Big Data son herramientas críticas para la arquitectura de datos. Es recomendable aprender sobre tecnologías como Hadoop, Spark y Cassandra, entre otras. Puedes encontrar cursos en línea gratuitos o pagos sobre tecnologías de Big Data en plataformas como Coursera, edX, Datacamp, entre otros.
- Diseño y modelado de datos: es importante tener un conocimiento sólido de diseño y modelado de datos. Diseñar esquemas de bases de datos eficientes y escalables y cómo modelar datos utilizando técnicas como normalización y desnormalización.
- Integración de datos: la integración de datos es un aspecto clave de la arquitectura de datos. Se deben dominar técnicas y herramientas de integración de datos, como ETL (extracción, transformación y carga) y ELT (extracción, carga y transformación), e integración de datos de diferentes fuentes.
- Seguridad y privacidad de datos: la seguridad y la privacidad de datos son importantes en la arquitectura de datos. Aprende sobre los principios de seguridad y privacidad de datos, las regulaciones y normativas relevantes, y cómo implementar medidas de seguridad y privacidad en la arquitectura de datos.
Ingeniero de datos
Si bien existen similitudes entre ambos roles, mientras el arquitecto de datos se encarga de diseñar y construir la infraestructura de trabajo, el ingeniero de datos es quien se encarga de utilizar esta infraestructura para crear las “tuberías” (pipelines) y poner en marcha el flujo de datos desde sus diferentes orígenes hasta su destino final para ser analizados.
En cuanto a los conocimientos técnicos, son muy similares a los del arquitecto de datos ya que deben dominar lenguajes de programación como Python y R, bases de datos SQL y NoSQL, plataformas cloud y, principalmente, herramientas ETL.
Se trata de dos perfiles con un alto componente técnico que deben trabajar en conjunto ya que sus tareas están estrechamente relacionadas. En ninguno de los dos casos se suele necesitar demasiado conocimiento de negocio, pero el ingeniero debe entender un poco más al respecto ya que tiene mayor relación con los perfiles más analíticos que se explican a continuación.
Científico de datos
En el cuadrante superior derecho, con un mayor componente de negocio, pero con preponderancia del componente analítico, se encuentran los científicos de datos o data scientist. Estos profesionales suelen trabajar con un alto volumen de datos, proveniente de diversas fuentes y en diferentes formatos -por lo que se benefician de las bondades del big data-, para analizarlos y obtener respuestas concretas a problemáticas de negocio.
Su principal característica es que llevan a cabo técnicas avanzadas de análisis utilizando algoritmos de aprendizaje automático (Machine Learning) que les permite identificar patrones y predecir comportamientos futuros. Para ello, cuentan con conocimientos de estadística avanzada y lenguajes de programación como Python aplicado al Machine Learning.
El científico de datos es un perfil mixto que necesita conocimientos de negocio -si bien no es necesario que sea un experto- ya que su objetivo es dar respuesta a problemas concretos, y el dominio de las tecnologías mencionadas.
La ruta de aprendizaje del científico de datos es la siguiente:
- Fundamentos de programación: para comenzar en el camino de la ciencia de datos, es importante tener un conocimiento básico de programación. Es recomendable comenzar con Python, ya que es un lenguaje muy utilizado en la ciencia de datos.
- Estadística y Matemáticas: la estadística y las matemáticas son fundamentales en la ciencia de datos. Es importante tener una comprensión sólida de conceptos como probabilidad, distribuciones, regresión, etc.
- Bases de datos: el almacenamiento y manejo de grandes conjuntos de datos es un aspecto clave en la ciencia de datos. Si bien existen distintos tipos de bases de datos, es recomendable comenzar con SQL ya que es la más utilizada.
- Ciencia de datos: después de tener una base en programación, estadística y matemáticas, el siguiente paso es aprender ciencia de datos propiamente dicha. Esto puede incluir el uso de librerías como Numpy, Pandas, Scikit-learn, Matplotlib y Seaborn para análisis y visualización de datos.
Analista de negocio o analista de datos
Estos son dos perfiles muy similares, pero con algunas diferencias. Ambos están orientados más al negocio y tienen como objetivo analizar datos para resolver problemáticas empresariales. La principal diferencia radica en que el analista de datos está más enfocado al procesamiento y análisis propiamente dicho y la obtención de información valiosa, mientras que el analista de negocio o business analyst está enfocado en la aplicación de los insights identificados a través del análisis para tomar decisiones concretas y prácticas en una empresa.
El analista de negocio, como su nombre indica, es el perfil más orientado a negocio de todos los mencionados. Este rol debe ser un experto en la materia y está más cerca de la toma de decisiones. Su principal agregado de valor radica en “contar historias” a través de los datos, para lo cual deben contar con excelentes habilidades de comunicación, y garantizar la aplicabilidad al negocio.
A nivel técnico, ambos perfiles suelen utilizar como herramientas principales SQL y herramientas de visualización y análisis como Power BI o Tableau, entre otras. El analista de datos, dependiendo de la empresa y del proyecto, también puede cumplir un rol más amplio con funciones similares a las de un ingeniero de datos y necesitar de conocimientos más amplios como lenguajes de programación o herramientas ETL.
Salvando las diferencias comentadas para estos dos perfiles, la ruta de aprendizaje se compone de los siguientes puntos:
- Fundamentos de estadística y matemáticas: es necesario adquirir conocimientos en estadística y matemáticas, ya que estos son los fundamentos para entender y analizar datos.
- Bases de datos y SQL: las bases de datos son la fuente principal de datos para un data Analyst. Es recomendable aprender sobre bases de datos y su estructura, así como el lenguaje SQL para realizar consultas y análisis de datos.
- Visualización de datos: los datos son más fáciles de entender y comunicar cuando se representan gráficamente. Se tratan de herramientas de visualización de datos como Tableau, Power BI, Qlick, entre otras.
- Técnicas de limpieza y preparación de datos: los datos rara vez están listos para el análisis inmediatamente después de ser recopilados. Python es una de las herramientas más utilizadas para limpiar y preparad datos para el análisis, aunque dependiendo cómo estén organizados los equipos de trabajo esta tarea puede quedar supeditada exclusivamente a los ingenieros de datos.
- Técnicas de análisis: para realizar el análisis propiamente dicho se requie eld dominio técnicas como regresión lineal, análisis de series de tiempo, clasificación, agrupamiento, entre otros.
Esto nos permite ver que, para aquellos profesionales que vienen de carreras “business” como contabilidad, finanzas, administración, marketing, entre otras, los perfiles que mejor se adaptan son los de data scientist, data analyst o business analyst, ya que es donde se puede aprovechar en mayor medida el background profesional y complementar la experiencia en business con el conocimiento técnico.
¿Dónde aprender?
Por último, resta conocer dónde se pueden adquirir todos estos conocimientos y técnicas que cada perfil profesional necesita. En este punto merece la pena separar la educación formal de la informal.
Educación formal
Dentro de la educación formal encontramos carreras y cursos dictados por universidades o escuelas oficiales que tiene como ventaja el prestigio de su título pero suelen implicar un esfuerzo económico mayor.
- Carreras universitarias: si bien se trata de perfiles profesionales que han surgido en los últimos años, ya existen carreras universitarias para graduarse en este campo. Alguna de ellas son el Grado en Ciencia e Ingeniería de Datos de la Universidad Autónoma de Madrid o de la Universidad Politécnica de Catalunya, o el Grado en Ciencia de Datos de la Universidad de Valencia.
- Diplomados y cursos cortos: muchas universidades ofrecen cursos cortos o diplomados enfocados en ciencia de datos. Estos programas están diseñados para proporcionar habilidades prácticas en un período corto de tiempo.
- Plataformas de cursos en línea: hay varias plataformas en línea que ofrecen cursos en ciencia de datos dictados por diferentes universidades, como Coursera y EdX, Udacity entre otros. Estos cursos proporcionan una amplia variedad de temas, desde la introducción a la ciencia de datos hasta cursos más avanzados en áreas especializadas.
Educación informal
En cuanto a la educación informal, se trata de otras plataformas donde también se puede aprender ciencia de datos pero de una manera más autodidacta. Este tipo de educación tiene como ventaja el ahorro económico y la gran cantidad de oferta disponible.
- Tutoriales en línea: hay muchos sitios web que ofrecen tutoriales gratuitos de ciencia de datos, como DataCamp, Kaggle, Codecademy, entre otros. Estos tutoriales son una excelente manera de comenzar a aprender ciencia de datos.
- Otras plataformas en línea: son similares a las mencionadas en educación formal pero, a diferencia de las plataformas como Coursera o EdX, cualquier persona puede subir cursos y su prestigio radica en las buenas reviews y comentarios. Una de las plataformas más conocidas en este ámbito es Udemy o simplemente YouTube.
- Libros y blogs: hay muchos libros y blogs que cubren temas relacionados con la ciencia de datos. Algunos de los libros más populares incluyen «Python for Data Analysis» de Wes McKinney, «Data Science from Scratch» de Joel Grus y «The Elements of Statistical Learning» de Trevor Hastie. Algunos blogs populares incluyen «Data Science Central«, «KDnuggets«, entre otros.
- Formación empresarial: muchas empresas cuentan con proyectos formativos, dirigidos a empleados actuales y/o potenciales, que tienen como objetivo actualizar sus conocimientos, capacitarlos en diferentes competencias y ayudarlos a desarrollar su carrera profesional en el entorno laboral. Ejemplo de ello es la Hiberus University, una iniciativa pionera basada en la formación y especialización en competencias digitales que busca proporcionar a los alumnos un futuro profesional en el sector TIC.
En Hiberus contamos con una unidad especializada en servicios de Data & Analytics formada por un equipo de expertos en Big Data, Machine Learning, Business Intelligence y Analytics. ¿Necesitas una solución basada en tecnología de datos? ¡Contacta con nosotros y estaremos encantados de ayudarte?
Y, si lo que deseas es formarte en datos, tenemos lo que necesitas: los mejores programas para impulsar tu crecimiento y ayudarte a ser un experto del área. ¡Visita la Hiberus University y descúbrelos!
¿Quieres más información sobre nuestros servicios de Data & Analytics?
Contacta con nuestro equipo de expertos en Data & Analytics