EL DATA SCIENTIST MAS QUE UNA MODA JULIO 2015 C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . AGENDA • • • • • Origen y Evolución ¿Qué conocimientos y skills deben tener? ¿Cómo son los actuales Data Scientist? ¿Dónde están ubicados en las empresas? SAS Data Scientist C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . AGENDA • • • • • Origen y Evolución ¿Qué conocimientos y skills deben tener? ¿Cómo son los actuales Data Scientist? ¿Dónde están ubicados en las empresas? SAS Data Scientist C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . ORIGEN • El Big Data • El Business Intelligence/Analytics C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . TAMAÑO DE LOS DATOS La ERA del BIG DATA VOLUMEN VARIEDAD VELOCIDAD VALOR Datos Relevantes HOY C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . FUTURO BUSINESS INTELLIGENCE En los años 90 aparecen los primeros sistemas ERP que se convierten en los primeros grandes generadores de datos, y con estos surgen las primeras preguntas de los Directivos ¿Dónde he vendido más? ¿A quién vendo más? ¿Qué producto es más rentable? BUSINESS INTELLIGENCE BI 0.0 C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . BUSINESS INTELLIGENCE + ANALITICA Surgen nuevas preguntas, ya se QUÉ ha pasado pero necesito saber … C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . BUSINESS INTELLIGENCE/ANALYTICS Analytics 1.0 • Analítica Descriptiva • Volúmenes pequeños de Datos Estructurados Internos de las Empresas • Información con poca influencia en la toma de decisiones C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . BUSINESS INTELLIGENCE/ANALYTICS Los directivos son una fuente inagotable de preguntas; ya se PORQUÉ ha pasado pero ahora quiero saber … Analytics 2.0 • Analítica Predictiva • Volúmenes medios de Datos Estructurados Internos de las Empresas • Información para la toma de Decisiones Operativas C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . PROCESO DE LOS DESARROLLOS ANALÍTICOS Usuario de Negocio Formula el Problema C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . Analista de Negocio Explora y Visualiza los Datos Analista de Datos Prepara los Datos Estadístico/Minero Análisis Exploratorio de los Datos Construye Modelos Evalúa Resultados y crea Informes EL NUEVO ESCENARIO C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . CARACTERÍSTICAS DEL BIG DATA Volumen • • Incorpora cualquier origen de datos interno o externo a las Compañías. Es necesario solucionar tres problemáticas: • Almacenamiento • Proceso • Acceso C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . Velocidad • • Los procesos tradicionales de ETL’s en modo batch ya no sirven. Los datos fluyen y se necesitan en tiempo real. Variedad • Datos NO Estructurados. • Los formatos de los campos origen no pueden ser estructurados. Valor • Disponemos de información que era inimaginable hace cinco años. • Esta información no siempre es obvia. CARACTERÍSTICAS DEL BIG DATA ANALYTICS Datos Patrones Modelización • Usa el Big Data • • • Un número mayor de variables que muchas veces son desconocidas Se cambia de un enfoque de hypothesis-driven a data-driven El número de modelos se incrementa para alcanzar una mayor granularidad • La complejidad de los datos hace necesaria la detección de patrones antes del proceso de modelización • Requiere de capacidades iterativas automáticas • Requiere de nuevas técnicas de modelización como por ejemplo la Minería de Textos • El análisis previo de los datos require de potentes herramientas de visualización Analytics 3.0 • Analítica Prescriptiva • Volúmenes grandes de Datos Estructurados o no; y de origen Interno y Externo a las compañías • Información para la toma decisiones operativas con un mayor grado de granularidad y para decisiones Estratégicas C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . PROCESO DE LOS DESARROLLOS ANALÍTICOS CON BIG DATA Formula el Problema Analiza diferentes fuentes de Datos Busca Patrones Data Scientist C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . Prepara los Datos Construye ModeloS Evalúa y Presenta Resultados AGENDA • • • • • Origen y Evolución ¿Qué conocimientos y skills deben tener? ¿Cómo son los actuales Data Scientist? ¿Dónde están ubicados en las empresas? SAS Data Scientist C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . CONOCIMIENTOS Y SKILLS DEL DATA SCIENTIST C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . CONOCIMIENTOS Y SKILLS CONOCIMIENTOS • Curioso • Proactivo • Interés por el “Negocio” Formula el Problema Analiza diferentes fuentes de Datos Busca Patrones C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . SKILLS • Lenguajes de programación Not only SQL • SAS Base • “R” • Herramientas de Visualización • Curioso • Imaginativo • Análisis Estadístico • Machine Learning • Statistical Hypothesis Testing • Creativo • Habilidad para la solución de Problemas CONOCIMIENTOS Y SKILLS CONOCIMIENTOS SKILLS • Hadoop • Tratamiento de Datos no Estructurados • Colaboración • Curioso ModeloS • • • • • Innovación • Imaginativo Evalúa y Presenta Resultados • Statistical Hypothesis Testing • Herramientas de Reporting Prepara los Datos Construye C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . Modelización Predictiva Análisis Estadístico Machine Learning “R”, Python • Buen Comunicador • Habilidades de Presentación AGENDA • • • • • Origen y Evolución ¿Qué conocimientos y skills deben tener? ¿Cómo son los actuales Data Scientist? ¿Dónde están ubicados en las empresas? SAS Data Scientist C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . TIPOLOGÍAS DE LOS ACTUALES DATA SCIENTIST C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . LOS FRIKIS (GEEKS) Que aportan De que carecen • Profundos conocimientos técnicos • Interés por el Negocio, esto hace que su Proactividad e Innovación sean cuestionables • Mente Analítica • Curiosos • Habilidades de Comunicación y Presentación • Creativos • Colaboración • Resolución de Problemas C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . LOS GURÚS Que aportan De que carecen • Profundos conocimientos técnicos • Interés por el Negocio, esto hace que su Proactividad no sea eficiente • Innovación • Curiosidad • Colaboración • Habilidades de Presentación y Comunicación • Resolución de Problemas C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . • Creatividad LOS JEFES DE PROYECTO (DRIVERS) Que aportan De que carecen • Habilidades de Comunicación y Presentación • Profundos Conocimientos Técnicos • Resolución de Problemas • Curiosidad • Proactividad • Innovación • Interés en el Negocio • Colaboración C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . • Creatividad LOS EXPERTOS (CRUCHER) Que aportan De que carecen • Profundos Conocimientos Técnicos • Creatividad • Resolución de Problemas • Habilidades de Comunicación y Presentación • Colaboración • Curiosidad • Proactividad • Innovación • Interés por el Negocio C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . LO QUE LAS EMPRESAS BUSCAN En los inicios del Big Data las empresas buscaban solo Conocimientos Técnicos: Los resultados no fueron buenos, la solución formarlos en las Habilidades (Soft Skills) Siguió sin funcionar había problemas por la personalidad de los primeros Data Scientist e intervino RR HH C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . LO QUE RECURSOS HUMANOS BUSCA Mente Abierta (Open) Extrovertido (Extraverted) • No partir de premisas para fomentar la Innovación • Necesario para ser un buen Comunicador • Abiertos a cualquier nueva idea = Curiosidad • Tienen mejores habilidades de Presentación • Imprescindible para el desarrollo de la Creatividad • Los extrovertidos trabajan mejor en Colaboración C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . Meticuloso (Conscienious) • Sin Organización no se puede trabajar con la ingente cantidad de variables del Big Data • Imposible trabajar con cientos de modelos si no se es meticuloso LO QUE RECURSOS HUMANOS BUSCA Estable (Stable) Afabilidad (Agreeable) • El estrés está peleado con la Ciencia de los Datos. • Mejora la Colaboración en el trabajo • Para ser Creativos hay que sentirse felices • Mejora la percepción en la Comunicación C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . AGENDA • • • • • Origen y Evolución ¿Qué conocimientos y skills deben tener? ¿Cómo son los actuales Data Scientist? ¿Dónde están ubicados en las empresas? SAS Data Scientist C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . SU ORIGEN EN LAS EMPRESAS Origen de la necesidad Sponsors de la idea • La Modelización Predictiva tradicional empezaba a mostrar signos de agotamiento • No era capaz de generar oportunidades creativas • No aportaba ideas brillantes para las Decisiones Estratégicas • • La irrupción del Big Data con fuentes de datos externos se vio como una posibilidad de mejorar la Analítica de las empresas Las Áreas de Marketing son las principales promotoras del uso del Big Data Analytics • Posibilidad de tener un mayor grado de granularidad que permitiría ofrecer una oferta aun más personalizada • Posibilidad de detectar nuevos productos, servicios, canales, vías de comunicación • Las Áreas de Riesgos, para mejorar los modelos y la posibilidad de hacer cálculos más rápidos C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . ¿DÓNDE? Dónde los ubicamos De donde los sacamos • • Se presentaban tres opciones: • Del Área de Analytics • Del Área de IT • Del Área de Marketing • Lo más habitual es el Área de Analytics y luego de Marketing C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . Se presentaban también diferentes opciones: • Recursos Internos • Estadísticos/Mineros • Programadores expertos en tratamiento de datos • Analistas de Negocio • Contratar Data Scientist ¿QUÉ HACEN EN LAS EMPRESAS? • Medición efectiva y comprensión del impacto de las acciones de Marketing • Análisis de las causas de la fuga de clientes • Obtención de información a partir de las transacciones interbancarias • Mejora de los modelos de cross selling y up selling con la inclusión de datos externos para lograr un mayor nivel de granularidad • Obtención de información de la visión de los productos y la compañía por medio del análisis de las redes sociales • Descubrir nuevos productos para incluir en el offering de las Empresa • Mejora de la detección del fraude con la inclusión de datos externos • Evaluación del Riesgo en clientes potenciales C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . AGENDA • • • • • Origen y Evolución ¿Qué conocimientos y skills deben tener? ¿Cómo son los actuales Data Scientist? ¿Dónde están ubicados en las empresas? SAS Data Scientist C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . TECNOLOGÍAS PARA EL BIG DATA C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . SAS DATA SCIENTIST C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . SAS DATA SCIENTIST C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . DATA SCIENTIST PRESENTE O FUTURO Buscando en Google por “ofertas de empleo sas data scientist ” se obtienen 381.000 resultados C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . DATA SCIENTIST PRESENTE O FUTURO C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . GRACIAS Juan Lorenzo Prieto juan.lorenzo@sas.com C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . www.SAS.com