Introducción al web Mining (Definición) Es una metodología de recuperación de la información que usa herramientas de la minería de datos para extraer información tanto del contenido de las páginas web, de su estructura de relaciones y de los registros de navegación de los usuarios. ¿Qué es Web Mining y cómo puede ayudar a crear valor en el sitio web? Es una metodología de recuperación de la información que usa herramientas de la minería de datos para extraer información tanto del contenido de las páginas web, de su estructura de relaciones y de los registros de navegación de los usuarios. La minería de datos es un conjunto de técnicas, métodos y algoritmos que permiten extraer información útil desde fuentes de distinto tipo. A través de su historia diversas comunidades científicas han contribuido a su avance desde mundos tan diversos como las máquinas de aprendizaje, las bases de datos, el procesamiento de lenguaje natural y la recuperación de información. Para que el web Mining ayude a crear valor nuestro sitio web existen muchos tipos diferentes de análisis que se pueden hacer para obtener información del Big Data. Cada tipo de análisis tendrá un impacto o resultado diferente. Qué tipo de data mining techniques deberías utilizar depende realmente del tipo de problema de negocio que estás intentando resolver. Diferentes análisis obtendrán diferentes proporcionarán diferentes ideas. resultados y por lo tanto El data mining se refiere especialmente al descubrimiento de patrones interesantes y desconocidos anteriormente, registros inusuales o dependencias. Al desarrollar una estrategia de Big Data, es importante tener una clara comprensión de lo que es data mining y cómo puede ayudarte. ¿Como Plantear Una estrategia exitosa de Web Mining? Para plantear una Buena estrategia de Web Mining esta se resume en 4 pasos: Organizar y descubrir En esta fase debemos llevar a cabo dos tareas simultáneamente fundamentales en cuanto a organización, tanto identificar y definir los objetivos de negocio como listar a los que van a ser nuestros partners y stakeholders impactados, además de definir el scope del proyecto y su programación. Por otra parte, tenemos que ser capaces de descubrir la tecnología que tenemos a nuestra disposición para alcanzar los objetivos que nos hemos marcado y los activos digitales y sus roles en la estrategia de datos que vamos a construir. Evaluación de los activos digitales En esta fase, nos centraremos, principalmente, en los procesos de negocio, fuentes de datos, activos de datos, activos tecnológicos, capacidades y políticas. El propósito de este ejercicio es analizar el estado en el que nos encontramos y cuál es el estado en el que queremos estar en el futuro. Por ejemplo, si el scope de la estrategia de datos es conseguir una visión 360 de nuestros clientes y potenciales, deberemos tener en cuenta cualquier activo que se vea impactado por procesos de negocio, activos de datos incluyendo su arquitectura, capacidades de los equipos de negocio e IT y las normas y políticas que impacten sobre nuestros clientes. Esta fase suele involucrar a los departamentos responsables de adquisición, retención y procesos de clientes. Análisis, priorización y roadmap Esta fase es, probablemente, la más intensa y, sin duda, la más importante de todas a la hora de llevar a cabo la estrategia de datos. Con el big data y el cloud computing el análisis se ha vuelto más complejo que en el pasado. Con la vista puesta en el estado futuro al que queremos llevar a nuestra organización, debemos centrarnos en analizar e identificar los gaps que podemos tener en cuanto a arquitectura de datos, tecnología y herramientas, procesos, formación y capacidades de las personas que nos rodean. El big data nos ha traído nuevas fuentes de datos de las que antes no disponíamos o no sabíamos explotar y el Cloud nos ha abierto un mundo de posibilidades en cuanto a almacenamiento e integración de los datos. Gestión del cambio Por último, y como habéis podido ir comprobando de lo fundamental de las personas implicadas en cada una de las fases, así como el cambio cultural que se plantea, las estrategias de datos chocan con el foco que históricamente se ha hecho en cuanto a gestión del cambio dentro de las empresas. La gestión del cambio, como habéis adivinado, se refiere a coordinar cambios de tipo organizacional, cultural, tecnológicos y de procesos de negocio además de otros componentes como el gobierno de los datos, la usabilidad, la integración y la seguridad de los datos como otros de los aspectos importantes con los que tendremos que lidiar. Por lo que para realizar con éxito toda esta gestión serán necesarios los incentivos adecuados y los kpi´s y métricas de cualquier programa de gestión del cambio para controlar la evolución. Tipos de minerías web Minería web de contenidos: WCW, Web contenido Mining. Su objetivo es conseguir algún valor de los datos que contienen las páginas web. Esta minería presenta la mayor dificultad, debido entre otros: a la falta de estructura de los datos, a su diversidad ejemplo: imágenes, pdfs, etc., a la dificultad de interpretar por ejemplo las opiniones. El uso que se le da a los contenidos puede ser muy diversa: a partir de la localización de modelos de provecho hasta la comprensión comercial. Por el momento este tipo de minería se ha centrado especialmente en textos, no obstante, actualmente existe un gran interés en ampliar de una forma efectiva la minería de contenidos a otros formatos como videos e imágenes. Minería Web estructurada: WSM, Web Structure Mining Internet, presenta ciertas estructuras que pueden ser de interés para obtener información. Así, dentro de una web, las páginas se organizan de determinada forma normalmente en una estructura jerárquica, mientras que distintas webs se relacionan entre ellas mediante links. Además, las redes sociales han introducido nuevos elementos estructurales como por ejemplo los seguidores. Esta información estructural puede ser utilizada de diversas formas, desde ayudar a fijar la excelencia de una página en un buscador al descubrimiento de líderes de opinión en las redes sociales. Minería Web de Uso: WUM, Web Usage Mining La forma en como los usuarios interactúan con una página web aporta datos de gran importancia. Tradicionalmente se han utilizado los logs recopilados por los servidores para este tipo de minería. Es posible, a partir de los datos de interacción, identificar patrones que puedan ser utilizados con distinta finalidad, desde optimizar la compra en una web modificando la navegación, hasta la personalización de la publicidad. ¿El mayor beneficio de Web Mining es la obtención de conocimiento sobre el sitio? Justifique su respuesta. Si, debido a la información que no se esperaba conseguir. Como muchos modelos diferentes son usados, algunos resultados que no se esperaban tienden a aparecer. Las combinaciones de distintas técnicas otorgan efectos inesperados que se transforma en un valor añadido a la empresa y posteriormente se convierten en información valiosa para planificar estrategias que beneficien al negocio. Análisis de la secuencia de navegación, Filtrado, Identificación de Usuarios y Determinación de sesiones. Secuencia de navegación Los parámetros de análisis de secuencia o de ruta buscan patrones en los que un evento conduce a otro evento posterior. Una secuencia es una lista ordenada de conjuntos de elementos, y es un tipo común de estructura de datos que se encuentra en muchas bases de datos. Un parámetro de clasificación busca nuevos patrones, y podría resultar en un cambio en la forma en que los datos están organizados. Los algoritmos de clasificación predicen variables basadas en otros factores dentro de la base de datos. os parámetros de agrupamiento encuentran y documentan visualmente grupos de hechos que antes eran desconocidos. La agrupación contempla un conjunto de objetos y los agrega según su similitud entre sí. El análisis de parámetros dentro de Data Mining puede descubrir patrones en los datos que pueden conducir a predicciones razonables sobre el futuro, también conocidas como análisis predictivo. Identificación de usuarios La identificación del usuario puede hacerse de dos formas, dependiendo de la política de la biblioteca. Si se trata de un acceso restringido, el usuario se ve obligado a identificarse, y en el caso de bibliotecas digitales de acceso abierto, pueden estudiarse las sesiones que realiza cada usuario mediante la identificación de la dirección IP de acceso y el uso de cookies. Filtrados El formato de los datos contenidos en la fuente de datos (base de datos, nunca es el idóneo, y la mayoría de las veces no es posible ni siquiera utilizar ningún algoritmo de minería sobre los datos en bruto. Mediante el preprocesado, se filtran los datos de forma que se eliminan valores incorrectos, no válidos, desconocidos... según las necesidades y el algoritmo a usar, se obtienen muestras de estos o se reducen el número de valores posibles mediante redondeo y clustering. Determinación de usuarios se analiza el modo en que los usuarios realizan tareas de búsqueda y recuperación de información, distinguiendo grupos de usuarios en función de su distinto comportamiento informacional. Para ello se emplean los ficheros log recopilados por el servidor durante un año y se cotejan distintos algoritmos de agrupamiento. Se observa que el algoritmo k-means es un procedimiento de agrupamiento adecuado al análisis de extensos ficheros log de consultas en bibliotecas digitales. Se distinguen grupos de usuarios cuyo comportamiento informacional distintivo se describe.