Dialogamos con Marcelo Ferreyra, uno de los Data Miners más prestigiosos del país
Marcelo Ferreyra cuenta con casi 20 años de experiencia en el análisis de datos y modelos de predicción para la industria financiera y bancaria. Junto a Dorian Pyle desarrolló Powerhouse Analytics, un programa de Data Mining basado en Teoría de la Información. Además dicta cursos sobre estadística, DM y BI, y participa como orador en distintos congresos sobre estos temas.
- Antes que nada, podrías definirmos en pocas líneas ¿qué es el Big Data?
Tiene que ver no sólo con la extensión de los datos sino también con la variedad. Una de las características de la tecnología digital es la generación de datos desde casi cualquier sistema, desde dispositivos GPS instalados en toda clase de vehículos hasta redes sociales. Big Data hace referencia a este tipo de datos, estructurados o no, y su gran desafío es encontrar información confiable y relevante para resolver problemas.
- Si nos guiamos por los medios especializados, pareciera ser que el análisis de datos para comportamientos predictivos fuese algo muy novedoso.¿Es realmente así?
No, hace muchísimos años que se realizan predicciones basadas en datos, la estadística inferencial es un ejemplo. Lo que cambió es el método. Antes de las computadoras se realizaba mucho trabajo manual utilizando técnicas apropiadas, pero esto no impedía predecir datos no observados.
- ¿Qué conocimientos técnicos debiera tener como base alguien que quiere dedicarse al Data Mining?
Trabajar con datos no es una tarea simple. Rara vez los datos tienen el formato apropiado. Hay que agruparlos, modificar sus distribuciones, decidir qué hacer con los nulos, los valores extremos, etc. Desde mi punto de vista es muy valioso conocer SQL y algún lenguaje de programación, que podría ser R, Python o cualquiera que permita ir más allá de lo que nos permite una base de datos.
También es indispensable conocer sobre estadística. El éxito de un proyecto de Data Mining está basado en 3 patas: los datos (en algunas empresas en manos del departamento de IT), el análisis (el data miner) y el conocimiento del negocio, que aporta el contexto para saber si la información encontrada es relevante o no. Esto implica que es muy importante que un Data Miner sepa cómo interactuar con cada uno.
- Creés que esta copamiento del Big Data en la agenda de la opinión pública especializada puede tener su contrapartida en un número mayor de gente que se capacite en el tema? en muchas notas nombran al científico de datos comouna de las profesiones del futuro...
Estoy seguro que sí. Cuando comencé, en 1.997, no éramos muchos los que nos dedicábamos a este tema. Tampoco había demasiada literatura sobre el tema. Y algo más importante aún, en general las empresas conocían muy poco o nada de esto de analizar datos para optimizar los negocios, por lo tanto no se requerían muchos data miners.
Actualmente las grandes empresas valoran mucho sus datos y se esfuerzan para obtener ese valor utilizando técnicas de Data Mining. Las empresas medianas recién están recorriendo este camino. En muy pocos casos se están explotando grandes volúmenes de datos (Big Data) que requieren nuevas metodologías y habilidades, que convierten al data miner en científico de datos.
- Aparentemente paciera ser que no hay área de trabajo donde el análisis de datos pudiera aplicarse. Sobran ejemplos en medicina, deporte, entretenimiento, política, etc. Conocés algún caso de estos que te haya llamado la atención?
Me llamó la atención el caso real relatado en la película Moneyball, basada en un hecho real, en donde el gerente general de un equipo de béisbol contrata un economista que utiliza estadísticas sobre jugadores y encuentra que existen algunos que están sobrevaluados y otros subvaluados, lo que les permite mejorar el equipo a un menor costo.
- El Lado B de todo paradigma pareciera ser la pérdida de la privacidad y cierto cuidado de la gente a la hora de brindar sus datos. ¿Qué soluciones podrían ser potencialmente útiles para esta situación?
No siempre ser identificado es malo. Cuando visito un sitio web prefiero que conozcan mis gustos para que las recomendaciones sean acertadas. Por supuesto también existe el costado malo. Creo que es importante educar a la gente que navega por Internet, acerca de los peligros de dejar datos sensibles.
- Por último, cómo ves el análisis de datos cuando finalmente Internet de las Cosas llegue al público en general?
Hace un par de años Google adquirió Nest, una compañía que desarrolla y comercializa termómetros y detectores de humo que se conectan a Internet brindando datos sobre el sistema de control de temperatura de millones de hogares. Esto se relaciona directamente con el consumo de energía y de ahí a pronosticar demanda futura hay un paso.
Este es sólo un ejemplo de las aplicaciones que se podrán realizar cuando mayor cantidad de cosas se conecten a Internet.