cisco40 40x40f oracle40 oracle40 lgo4

¿Qué es un científico de datos?

shutterstock 114524698

Cada vez vemos más ofertas de empleo en las que piden un Científico de datos, un “Big Data Scientist” que ayude a analizar la información recogida en empresas de todo tipo.

Si lo analizamos de forma superficial parece que estamos hablando de una especialización de estadística, pero no podemos caer en ese error. Un Big Data Scientist es un profesional que tiene muy buen conocimiento de matemáticas, pero también bastante habilidad a la hora de programar y de obtener información de bases de datos.

En Internet se recoge una enorme cantidad de información a diario, y esos datos deben ser analizados para poder obtener conclusiones sobre los más diversos temas. Desde las estadísticas incluidas en los informes de Google Analytics hasta las que se pueden obtener a partir de formularios de entrada de datos en tiendas online, la información que tenemos que gestionar es cada vez mayor, y los productos que se deben ofrecer tienen que tener en cuenta esos datos.

Si saltamos al mundo de la inteligencia artificial y el aprendizaje automático, con ordenadores que aprenden solos a medida que se usan, la importancia del Científico de Datos aumenta. Los sensores no paran de recoger información de forma automática, y las acciones que se toman a partir de esos datos deben ser extremadamente bien calculadas.

Este nuevo perfil profesional se ha ido generando poco a poco. Muchos autodidactas han ido completando su currículo para transformarse en un científico de datos, aprovechando la formación obtenida ya en otras áreas. En  Burtch Works, por ejemplo, comentan que 1 de cada 3 de los Big Data Scientist vienen de las matemáticas y la estadística, mientras que 1 de cada cinco llega de informática.

Qué hay que aprender

Entendiendo así que estamos hablando de una ciencia extremadamente relacionada con las matemáticas, es obvio que hay que tener buenos conocimientos sobre estadística, pero también es importante apostar por lenguajes de programación y consultas en bases de datos.

Cuando hablamos de consultar información en bases de datos, rápidamente nos viene a la cabeza SQL, ideal para trabajar con bases de datos relacionales, y cuando pensamos en programar no podemos evitar recordar uno de los lenguajes más utilizados en todo el mundo Python, pero en este punto tenemos que hablar de otro lenguaje mucho más específico, muy usado en el mundo de la estadística: R.

Además de estos grandes protagonistas, podemos ver cómo otros siempre presentes aparecen, como : Scala, Perl, C#, Matlab, Java… incluso el viejo conocido Excel no falta en este tipo de encuestas.

Si analizamos el currículo de un gran Big Data Scientist nos encontramos con elementos como:

  •     Inteligencia artificial: clasificación, regresión, clustering…
  •     Métodos estadísticos: series de tiempo, modelos de regresión, intervalos de confianza y pruebas de hipótesis, análisis de componentes principales y la reducción de dimensionalidad, ecuaciones diferenciales estocásticas (SDES)
  •     Software y lenguajes de programación: Python (scikit-learn, numpy, scipy, pandas, gensim), R, SQL, Hadoop (Colmena, MapReduce), Linux, Oracle, Microsoft Excel, LaTeX
  •     Otros: Procesos estocásticos, estocástico de simulación, Random Matrix Theory, álgebra lineal, probabilidad y estadística.

Aquí explicamos el motivo por el cual es necesario aprender a usar estos lenguajes:

– SQL: Es obligatorio saber SQL par apoder obtener datos de bases de datos relacionales, como MySQl, por ejemplo. Realizar consultas de forma eficiente y exportar el contenido para posterior análisis es parte del día a día del científico de datos.

– Python: Es uno de los lenguajes de programación más utilizado en cualquier sector. En muchas ocasiones es el primer lenguaje aprendido por un profesional, ya que es muy legible. Contiene también una gran cantidad de bibliotecas que aumentan sus posibilidades de forma impresionante.

– R: El lenguaje de programación más usado por los profesionales de estadística. Es una versión del lenguaje S pero con soporte de alcance estático, siendo muy popular en el campo de la minería de datos, la investigación biomédica, la bioinformática y las matemáticas financieras.

Javascript: Contiene bibliotecas de representación de datos que permite la creación de informes con los datos obtenidos, siendo posible publicarlos en diferentes plataformas para su visualización, incluyendo plataformas web.

¿Sabías que muchos de estos conocimientos podés aprenderlos en Fundación Proydesa?  Hacé click aquí

Cursos disponibles
Inscribite hoy mismo!
CCNA 1 v7: Introduction to Networks
Inicia: 16/01/2025
Online | Intensiva
CCNA 2 v7: Routing, Switching and Wireless Essentials
Inicia: 16/01/2025
Online | Intensiva
CCNA 3 v7: Enterprise Networking, Security and Automation
Inicia: 16/01/2025
Online | Intensiva
ver todas