Subido por Luis Reyes

Tipos de minerías web

Anuncio
Introducción al web Mining (Definición)
Es una metodología de recuperación de la información que usa
herramientas de la minería de datos para extraer información tanto
del contenido de las páginas web, de su estructura de relaciones y
de los registros de navegación de los usuarios.
¿Qué es Web Mining y cómo puede ayudar a crear valor en el
sitio web?
Es una metodología de recuperación de la información que usa
herramientas de la minería de datos para extraer información tanto
del contenido de las páginas web, de su estructura de relaciones y
de los registros de navegación de los usuarios.
La minería de datos es un conjunto de técnicas, métodos y
algoritmos que permiten extraer información útil desde fuentes de
distinto tipo. A través de su historia diversas comunidades
científicas han contribuido a su avance desde mundos tan
diversos como las máquinas de aprendizaje, las bases de datos, el
procesamiento de lenguaje natural y la recuperación de
información.
Para que el web Mining ayude a crear valor nuestro sitio web
existen muchos tipos diferentes de análisis que se pueden hacer
para obtener información del Big Data. Cada tipo de análisis tendrá
un impacto o resultado diferente. Qué tipo de data mining
techniques deberías utilizar depende realmente del tipo de
problema de negocio que estás intentando resolver. Diferentes
análisis obtendrán diferentes
proporcionarán diferentes ideas.
resultados
y
por
lo
tanto
El data mining se refiere especialmente al descubrimiento de
patrones interesantes y desconocidos anteriormente, registros
inusuales o dependencias. Al desarrollar una estrategia de Big Data,
es importante tener una clara comprensión de lo que es data
mining y cómo puede ayudarte.
¿Como Plantear Una estrategia exitosa de Web Mining?
Para plantear una Buena estrategia de Web Mining esta se resume
en 4 pasos:
Organizar y descubrir
En esta fase debemos llevar a cabo dos tareas simultáneamente
fundamentales en cuanto a organización, tanto identificar y definir
los objetivos de negocio como listar a los que van a ser
nuestros partners y stakeholders impactados, además de definir
el scope del proyecto y su programación. Por otra parte, tenemos
que ser capaces de descubrir la tecnología que tenemos a nuestra
disposición para alcanzar los objetivos que nos hemos marcado y
los activos digitales y sus roles en la estrategia de datos que vamos
a construir.
Evaluación de los activos digitales
En esta fase, nos centraremos, principalmente, en los procesos de
negocio, fuentes de datos, activos de datos, activos tecnológicos,
capacidades y políticas. El propósito de este ejercicio es analizar el
estado en el que nos encontramos y cuál es el estado en el que
queremos estar en el futuro. Por ejemplo, si el scope de la
estrategia de datos es conseguir una visión 360 de nuestros
clientes y potenciales, deberemos tener en cuenta cualquier activo
que se vea impactado por procesos de negocio, activos de datos
incluyendo su arquitectura, capacidades de los equipos de negocio
e IT y las normas y políticas que impacten sobre nuestros clientes.
Esta fase suele involucrar a los departamentos responsables de
adquisición, retención y procesos de clientes.
Análisis, priorización y roadmap
Esta fase es, probablemente, la más intensa y, sin duda, la más
importante de todas a la hora de llevar a cabo la estrategia de
datos. Con el big data y el cloud computing el análisis se ha vuelto
más complejo que en el pasado. Con la vista puesta en el estado
futuro al que queremos llevar a nuestra organización, debemos
centrarnos en analizar e identificar los gaps que podemos tener en
cuanto a arquitectura de datos, tecnología y herramientas,
procesos, formación y capacidades de las personas que nos
rodean. El big data nos ha traído nuevas fuentes de datos de las
que antes no disponíamos o no sabíamos explotar y el Cloud nos
ha abierto un mundo de posibilidades en cuanto a almacenamiento
e integración de los datos.
Gestión del cambio
Por último, y como habéis podido ir comprobando de lo
fundamental de las personas implicadas en cada una de las fases,
así como el cambio cultural que se plantea, las estrategias de datos
chocan con el foco que históricamente se ha hecho en cuanto a
gestión del cambio dentro de las empresas.
La gestión del cambio, como habéis adivinado, se refiere a
coordinar cambios de tipo organizacional, cultural, tecnológicos y
de procesos de negocio además de otros componentes
como el gobierno de los datos, la usabilidad, la integración y la
seguridad de los datos como otros de los aspectos importantes con
los que tendremos que lidiar. Por lo que para realizar con éxito toda
esta gestión serán necesarios los incentivos adecuados y los kpi´s y
métricas de cualquier programa de gestión del cambio para
controlar la evolución.
Tipos de minerías web
Minería web de contenidos: WCW, Web contenido Mining.
Su objetivo es conseguir algún valor de los datos que contienen las páginas
web. Esta minería presenta la mayor dificultad, debido entre otros: a la falta
de estructura de los datos, a su diversidad ejemplo: imágenes, pdfs, etc., a la
dificultad de interpretar por ejemplo las opiniones. El uso que se le da a los
contenidos puede ser muy diversa: a partir de la localización de modelos de
provecho hasta la comprensión comercial. Por el momento este tipo de
minería se ha centrado especialmente en textos, no obstante, actualmente
existe un gran interés en ampliar de una forma efectiva la minería de
contenidos a otros formatos como videos e imágenes.
Minería Web estructurada: WSM, Web Structure Mining
Internet, presenta ciertas estructuras que pueden ser de interés para obtener
información. Así, dentro de una web, las páginas se organizan de
determinada forma normalmente en una estructura jerárquica, mientras que
distintas webs se relacionan entre ellas mediante links. Además, las redes
sociales han introducido nuevos elementos estructurales como por ejemplo
los seguidores. Esta información estructural puede ser utilizada de diversas
formas, desde ayudar a fijar la excelencia de una página en un buscador al
descubrimiento de líderes de opinión en las redes sociales.
Minería Web de Uso: WUM, Web Usage Mining
La forma en como los usuarios interactúan con una página web aporta datos
de gran importancia. Tradicionalmente se han utilizado los logs recopilados
por los servidores para este tipo de minería. Es posible, a partir de los datos
de interacción, identificar patrones que puedan ser utilizados con distinta
finalidad, desde optimizar la compra en una web modificando la navegación,
hasta la personalización de la publicidad.
¿El mayor beneficio de Web Mining es la obtención de
conocimiento sobre el sitio? Justifique su respuesta.
Si, debido a la información que no se esperaba conseguir. Como muchos
modelos diferentes son usados, algunos resultados que no se esperaban
tienden a aparecer. Las combinaciones de distintas técnicas otorgan efectos
inesperados que se transforma en un valor añadido a la empresa y
posteriormente se convierten en información valiosa para planificar
estrategias que beneficien al negocio.
Análisis de la secuencia de navegación, Filtrado, Identificación
de Usuarios y Determinación de sesiones.
Secuencia de navegación
Los parámetros de análisis de secuencia o de ruta buscan patrones en los
que un evento conduce a otro evento posterior. Una secuencia es una lista
ordenada de conjuntos de elementos, y es un tipo común de estructura de
datos que se encuentra en muchas bases de datos. Un parámetro de
clasificación busca nuevos patrones, y podría resultar en un cambio en la
forma en que los datos están organizados. Los algoritmos de clasificación
predicen variables basadas en otros factores dentro de la base de datos. os
parámetros de agrupamiento encuentran y documentan visualmente grupos
de hechos que antes eran desconocidos. La agrupación contempla un
conjunto de objetos y los agrega según su similitud entre sí. El análisis de
parámetros dentro de Data Mining puede descubrir patrones en los datos
que pueden conducir a predicciones razonables sobre el futuro, también
conocidas como análisis predictivo.
Identificación de usuarios
La identificación del usuario puede hacerse de dos formas, dependiendo de
la política de la biblioteca. Si se trata de un acceso restringido, el usuario se
ve obligado a identificarse, y en el caso de bibliotecas digitales de acceso
abierto, pueden estudiarse las sesiones que realiza cada usuario mediante la
identificación de la dirección IP de acceso y el uso de cookies.
Filtrados
El formato de los datos contenidos en la fuente de datos (base de datos,
nunca es el idóneo, y la mayoría de las veces no es posible ni siquiera utilizar
ningún algoritmo de minería sobre los datos en bruto. Mediante el
preprocesado, se filtran los datos de forma que se eliminan valores
incorrectos, no válidos, desconocidos... según las necesidades y el algoritmo
a usar, se obtienen muestras de estos o se reducen el número de valores
posibles mediante redondeo y clustering.
Determinación de usuarios
se analiza el modo en que los usuarios realizan tareas de búsqueda y
recuperación de información, distinguiendo grupos de usuarios en función
de su distinto comportamiento informacional. Para ello se emplean los
ficheros log recopilados por el servidor durante un año y se cotejan distintos
algoritmos de agrupamiento. Se observa que el algoritmo k-means es un
procedimiento de agrupamiento adecuado al análisis de extensos ficheros
log de consultas en bibliotecas digitales. Se distinguen grupos de usuarios
cuyo comportamiento informacional distintivo se describe.
Descargar