¿Qué es un científico de datos?
Cada vez vemos más ofertas de empleo en las que piden un Científico de datos, un “Big Data Scientist” que ayude a analizar la información recogida en empresas de todo tipo.
Si lo analizamos de forma superficial parece que estamos hablando de una especialización de estadística, pero no podemos caer en ese error. Un Big Data Scientist es un profesional que tiene muy buen conocimiento de matemáticas, pero también bastante habilidad a la hora de programar y de obtener información de bases de datos.
En Internet se recoge una enorme cantidad de información a diario, y esos datos deben ser analizados para poder obtener conclusiones sobre los más diversos temas. Desde las estadísticas incluidas en los informes de Google Analytics hasta las que se pueden obtener a partir de formularios de entrada de datos en tiendas online, la información que tenemos que gestionar es cada vez mayor, y los productos que se deben ofrecer tienen que tener en cuenta esos datos.
Si saltamos al mundo de la inteligencia artificial y el aprendizaje automático, con ordenadores que aprenden solos a medida que se usan, la importancia del Científico de Datos aumenta. Los sensores no paran de recoger información de forma automática, y las acciones que se toman a partir de esos datos deben ser extremadamente bien calculadas.
Este nuevo perfil profesional se ha ido generando poco a poco. Muchos autodidactas han ido completando su currículo para transformarse en un científico de datos, aprovechando la formación obtenida ya en otras áreas. En Burtch Works, por ejemplo, comentan que 1 de cada 3 de los Big Data Scientist vienen de las matemáticas y la estadística, mientras que 1 de cada cinco llega de informática.
Qué hay que aprender
Entendiendo así que estamos hablando de una ciencia extremadamente relacionada con las matemáticas, es obvio que hay que tener buenos conocimientos sobre estadística, pero también es importante apostar por lenguajes de programación y consultas en bases de datos.
Cuando hablamos de consultar información en bases de datos, rápidamente nos viene a la cabeza SQL, ideal para trabajar con bases de datos relacionales, y cuando pensamos en programar no podemos evitar recordar uno de los lenguajes más utilizados en todo el mundo Python, pero en este punto tenemos que hablar de otro lenguaje mucho más específico, muy usado en el mundo de la estadística: R.
Además de estos grandes protagonistas, podemos ver cómo otros siempre presentes aparecen, como : Scala, Perl, C#, Matlab, Java… incluso el viejo conocido Excel no falta en este tipo de encuestas.
Si analizamos el currículo de un gran Big Data Scientist nos encontramos con elementos como:
- Inteligencia artificial: clasificación, regresión, clustering…
- Métodos estadísticos: series de tiempo, modelos de regresión, intervalos de confianza y pruebas de hipótesis, análisis de componentes principales y la reducción de dimensionalidad, ecuaciones diferenciales estocásticas (SDES)
- Software y lenguajes de programación: Python (scikit-learn, numpy, scipy, pandas, gensim), R, SQL, Hadoop (Colmena, MapReduce), Linux, Oracle, Microsoft Excel, LaTeX
- Otros: Procesos estocásticos, estocástico de simulación, Random Matrix Theory, álgebra lineal, probabilidad y estadística.
Aquí explicamos el motivo por el cual es necesario aprender a usar estos lenguajes:
– SQL: Es obligatorio saber SQL par apoder obtener datos de bases de datos relacionales, como MySQl, por ejemplo. Realizar consultas de forma eficiente y exportar el contenido para posterior análisis es parte del día a día del científico de datos.
– Python: Es uno de los lenguajes de programación más utilizado en cualquier sector. En muchas ocasiones es el primer lenguaje aprendido por un profesional, ya que es muy legible. Contiene también una gran cantidad de bibliotecas que aumentan sus posibilidades de forma impresionante.
– R: El lenguaje de programación más usado por los profesionales de estadística. Es una versión del lenguaje S pero con soporte de alcance estático, siendo muy popular en el campo de la minería de datos, la investigación biomédica, la bioinformática y las matemáticas financieras.
– Javascript: Contiene bibliotecas de representación de datos que permite la creación de informes con los datos obtenidos, siendo posible publicarlos en diferentes plataformas para su visualización, incluyendo plataformas web.
¿Sabías que muchos de estos conocimientos podés aprenderlos en Fundación Proydesa? Hacé click aquí
Protonmail, el email que se dice inexpugnable
Este peculiar email nació a raíz de las denuncias de Edward Snowden sobre las prácticas de vigilancia masiva de las agencias de seguridad estadounidenses, en las que parecía que no había un solo movimiento o dato que se realizara en internet que no fuera susceptible de ser vigilado. ¿Sería posible crear una plataforma de comunicación en la que el ciudadano tuviera garantías de que absolutamente nadie accedería a sus mensajes? Lo cierto es que en aquella época, el año 2013, no había ningún servicio de correo que ofreciera estas garantías y un grupo de investigadores del CERN (organización europea para la investigación nuclear) se dispuso a crearlo. En aquel año vio la luz la versión preliminar de esta plataforma de comunicación.
¿Qué es exactamente Protonmail y qué lo hace tan especial? Piense en un servicio de correo como Gmail, con su versión web y aplicaciones móviles, pero que a diferencia del mismo, el acceso y las comunicaciones son completamente inaccesibles a ojos ajenos. No hablamos de elevar las medidas de seguridad de los servidores o obligar a emplear complejas contraseñas, sino de usar un sistema de acceso mediante el cual el usuario debe utilizar dos niveles de protección: uno en los servidores de Protonmail, y otro en su dispositivo que sólo conocerá él. Ambos cifrados. Esta combinación es tan definitiva que el servicio advierte que en caso de pérdida de la segunda contraseña, no se podrá acceder al correo jamás.
Además, todos los servidores de Protonmail pertenecen a la empresa, con lo que se garantiza que la información no caiga en manos ajenas, y están ubicados en Suiza. La elección de este país no es casual: Proton Technologies está radicada en el país transalpino y su legislación queda fuera de los tentáculos de tanto Estados Unidos como la Unión Europea. Este último dato es importante puesto que únicamente la justicia suiza podría exigir el acceso a los servidores. Protonmail lleva operativo en fase de pruebas desde 2014 pero ha sido este año en el que el servicio ha salido de la beta y lo ha hecho además con las respectivas aplicaciones móviles tanto para iOS como para Android.
En caso de pérdida de la segunda contraseña no se podrá acceder al correo jamás
La última versión además para el iPhone incorpora el soporte al sensor de huella, con lo que no sólo ahorra al usuario teclear la contraseña para acceder a su buzón, sino que además, al tratarse de una identificación biométrica, el acceso es virtualmente infranqueable para nadie que no sea el propio usuario. El servicio es completamente gratuito en su versión básica, pero sus creadores quieren mantener la independencia económica para sostener la plataforma, y de esta manera han ideado una serie de versiones premium con más capacidad y opciones.
Descubre quién está vendiendo tus datos para spam
A todos nos ha pasado. De repente, sin saber cómo ni por qué, en nuestra bandeja aparece el típico mail cargado de ofertas de una tienda online cualquiera. Que si te interesa tal producto, que si tienes que aprovechar esta oportunidad irrepetible, que si menudas ofertas... Entonces, frunces el ceño y piensas: “Pero si yo nunca me he registrado aquí, ¿cómo diantres se han hecho con mi dirección de correo electrónico?”.
No es que la memoria te esté jugando una mala pasada: no sería de extrañar que alguna plataforma en la que sí te registraste haya vendido tus datos.
En principio, no es nada grave, que no cunda el pánico. De hecho, hay una artimaña que podemos utilizar para conseguir desenmascarar al traidor que cedió nuestros datos a un tercero sin nuestro consentimiento. Aunque tal vez sí lo tenía... ¿Leíste los términos y condiciones de la última plataforma en la que te inscribiste? Pensemos que sí y que, al final, hicieron lo que les vino en gana.
¿Cómo podemos descubrir quién va por ahí compartiendo nuestra dirección de correo?
Bien sencillo: a la hora de registrarnos en una tienda, en una red social o en cualquier otro sitio de internet, debes añadir a tu dirección de correo el nombre de esa plataforma. Es decir, si nos registramos en Linkedin, será necesario poner Con el símbolo “+” lo que "Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo." conseguimos es que la segunda parte del correo electrónico pase desapercibida para Google, que no lo reconocerá. Sin embargo, la web en la que te registres sí que se quedará con toda la dirección.
De este modo, cuando recibas ese aburrido email que te ofrece tal o cual producto, que te anima a que no dejes pasar una oportunidad irrepetible y otras tantas pamplinas, en la dirección de correo aparecerá el nombre la compañía que ha compartido sin permiso tus datos. Casi sin quererlo, habrás dado caza al culpable y podrás exigirles las responsabilidades pertinentes.
Lo mejor, prevenir
No obstante, la mejor fórmula para evitar tener que llegar a este extremo sea tomar ciertas precauciones a la hora de dar nuestra dirección de correo electrónico. Se trata de una herramienta muy valiosa para nuestro día a día, por lo que no es conveniente que la vayamos compartiendo a diestro y siniestro. Si lo hacemos, luego nos tocará arrepentirnos.
Eso sí, descuida que seguro que las empresas que se encargan de gestionar las campañas a través de las cuales recibimos esos indeseados mails se las ingeniarán para esquivar cuanto antes esta triquiñuela. Por eso, deberemos tomar alguna que otra medida más para evitar que nuestra bandeja de entrada acabe atestada de correos que no sirven para nada, consumiendo un bien tan preciado en Gmail como la memoria.
Además, en un momento en que el 'spam' en internet parece no tener techo, no podemos permitirnos bajar la guardia ni lo más mínimo. En 2015, se incrementó un 180% y, si bien es cierto que las técnicas cambian con los tiempos, los clásicos mails no se extinguirán (por desgracia) tan fácilmente.
Por esto mismo, podemos poner en práctica ciertos consejos aún más sencillos: utilizar varias cuentas de correo electrónico siempre es una buena opción, así como cambiar las contraseñas periódicamente (por si las moscas) o leer detenidamente los términos y condiciones de aquellos servicios a los que cedemos nuestros datos.
Tampoco será una mala idea instalar en nuestro navegador algún filtro ‘antispam’. Por ejemplo, una alternativa que podemos utilizar es Spameo, una extensión de Chrome que consigue que el 'spam' vaya directamente a la basura y no consuma ni un ápice de la capacidad que gratuitamente nos ofrece Google para nuestros correos electrónicos.