Subido por ANA GABRIELA BOHORQUEZ QUINGA

1

Anuncio
See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/28157712
Clasificadores inductivos para el posicionamiento web
Article in El Profesional de la Informacion · February 2005
DOI: 10.3145/epi.2005.feb.01 · Source: OAI
CITATIONS
READS
2
21
2 authors:
Francisco Soltero
Diego J. Bodas Sagi
King Juan Carlos University
MAPFRE
10 PUBLICATIONS 93 CITATIONS
16 PUBLICATIONS 97 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
Modeling, Dynamics, Optimization and Bioeconomics III View project
All content following this page was uploaded by Diego J. Bodas Sagi on 02 March 2016.
The user has requested enhancement of the downloaded file.
SEE PROFILE
Artículos
Clasificadores inductivos para el posicionamiento web
Por Francisco José Soltero Domingo y Diego José Bodas Sagi
Resumen: En este trabajo se muestra cómo el estudio individual de los distintos atributos básicos de un recurso web no es suficiente para inferir las distintas estrategias de posicionamiento de un motor de búsqueda. El problema fundamental que se plantea es cuál
es la relación entre los distintos elementos que componen la página y el peso que cada uno
de ellos aporta al posicionamiento final. Como alternativa a este problema se propone la
utilización de técnicas de aprendizaje inductivo, más concretamente, clasificadores arbóreos. Los resultados se ven reflejados en dos experimentos, fruto de la aplicación de dos
algoritmos de aprendizaje distintos. Como resultado final se observa que la aplicación de
esta técnica puede ser un punto de partida muy interesante para la optimización del posicionamiento web.
Palabras clave: Ranking web, Clasificadores inductivos, Optimización de recursos web,
Posicionamiento web.
Francisco José Soltero Domingo, licenciado en ciencias físicas por la UNED (1996). Máster en multimedia y vídeo interactivo y doctorando en la
UC3M.
En la actualidad es profesor de
ingeniería técnica informática
de sistemas en el CES Felipe II
(Aranjuez, Madrid).
Title: Inductive sort keys for
web positioning
Diego José Bodas Sagi, licenciado en ciencias matemáticas (UCM)
en 1998. Máster en administración y dirección
de empresas (UNED), y
experto universitario en
sistemas de gestión de
bases de datos (UNED).
Es profesor de ingeniería
técnica informática de
sistemas en el CES Felipe
II (Aranjuez, Madrid).
Abstract: This paper shows how the
individual study of different basic attributes from a web resource is not
enough to infer different positioning
strategies for search engines. The fundamental question is about the relation
between the different elements that compose the page and the importance that each of them contributes to the final positioning. As an alternative to this problem, we propose the use of inductive learning techniques, more concretely, sort trees. Results are reflected in two experiments, the outcome of two different learning algorithms. As a final result, we conclude that the application of this technique can be a very promising starting point for optimising web positioning.
Keywords: Web ranking, Optimisation of web resources, Positioning with decision trees
Soltero Domingo, Francisco José; Bodas Sagi, Diego José. “Clasificadores inductivos para el posicionamiento web”.
En: El profesional de la información, 2005, enero-febrero, v. 14, n. 1, pp. 4-13.
Introducción
En la actualidad, la Red se ha convertido en la biblioteca global del conocimiento humano. Los motores de búsqueda o buscadores son una de las herramientas básicas que posibilitan la localización de información relevante dentro del contenido disponible1.
El más popular es sin duda Google, al que le siguen
otros como Yahoo search, MSN, AskJeeves, etc.
En los albores de estos buscadores la principal
prioridad se centraba en guardar los datos de la forma
más eficiente posible. Por ello las primeras investigaciones se concentraron en el estudio de la estructura fíArtículo recibido el 25-09-04
Aceptación definitiva: 04-12-04
4
El profesional de la información, v. 14, n. 1, enero-febrero 2005
sica de los ficheros y en sus distintos tipos de indización. Con el paso del tiempo los datos almacenados
han pasado de cientos de miles a miles de millones, si
bien la mejora de los elementos de hardware y la estructura de indización de palabras y búsqueda de datos
a través de listas invertidas han permitido que las consultas respondan de manera resuelta. En estos momentos, para una consulta típica, se pueden localizar treinta mil recursos, lo cual conlleva que un usuario podría
necesitar toda una vida para poder leer las referencias
documentales de todos los documentos enviados por el
buscador en una única consulta. Por tanto, es necesario ordenar y filtrar los datos por algún orden de rele-
Clasificadores inductivos para el posicionamiento web
vancia. Y en este punto comienza unos de los grandes
‘misterios’ de estos motores: el criterio seguido para
establecer la relevancia de los datos y, por tanto, de los
recursos.
Existen varios factores que no debemos olvidar:
las organizaciones encargadas del desarrollo y mantenimiento de estos buscadores son empresas privadas
que cotizan en bolsa, por lo que su fin más importante
es la rentabilidad económica. Además, la mayor parte
de los recursos localizados en estos motores de búsqueda son páginas corporativas de entidades que ofrecen sus servicios a través de internet, y cuyo negocio
se ve afectado por su posicionamiento entre los primeros resultados, sobre las consultas realizadas por sus
potenciales clientes. Como podemos intuir, la determinación de los criterios de relevancia a la hora de establecer el posicionamiento de un motor de búsqueda se
engloba más en el ámbito de los secretos comerciales
que en la investigación científica, a pesar de los miles
de artículos que se escriben sobre el tema.
«El objetivo de esta investigación es obtener un método que
sea capaz de deducir los criterios que utilizan los motores de
búsqueda»
El objetivo de este trabajo ha sido llevar a cabo un
método que sea capaz de deducir los criterios que utilizan esas herramientas para establecer si un recurso se
encontrará entre los veinte primeros lugares de todos
los resultados devueltos. Como casos de estudio se
emplean las consultas en el motor de búsqueda de Google. El conjunto de métodos y técnicas empleadas para el posicionamiento web podría constituir el embrión
de una futura metodología de posicionamiento que dote al usuario de mejores criterios para evaluar las búsquedas efectuadas.
El resto del artículo esta dividido en varios apartados. El primero trata de la obtención del modelo de datos, para posteriormente realizar un análisis clásico de
los resultados. Después veremos la utilización de clasificadores inductivos arbóreos y finalizaremos con las
conclusiones y la bibliografía.
2. Obtención del modelo de datos
Para la realización del estudio se va a establecer
una serie de criterios iniciales. El primero de ellos es
que las consultas se realizarán en lengua inglesa. La indización de los buscadores se realiza por palabras de un
lenguaje concreto, y dado que la mayor parte de los
buscadores y, por tanto, de las bases de datos se encuentran en inglés, se ha establecido que éste es el idioma más adecuado para el estudio. De cualquier forma
los resultados obtenidos en este trabajo no están influenciados por el lenguaje de la consulta. En cuanto al
sitio de Google seleccionado será el del Reino Unido,
como consecuencia directa del idioma escogido.
http://www.google.co.uk
Los temas de las consultas se establecerán en un
entorno comercial. La selección de las claves de búsqueda es una de las labores más importantes, ya que en
su mayor parte las páginas están construidas a partir de
las mismas. Para ayudarnos en este propósito utilizaremos una serie de programas específicos denominados “ad word analyzer”9. Concretamente vamos a emplear dos programas gratuitos: Espotting keyword generator2 y el generador de claves del propio Google.
Para obtener este segundo necesitamos abrir previamente una cuenta online para adword; una vez hecho,
nos aparecerá un generador aplicable a la búsqueda de
palabras clave para múltiples países y en unos treinta
idiomas.
Si emprendemos la labor de optimizar una página
desde cero es necesario tener la visión que el propio
motor tiene de ésta, ya que si editamos su código fuente tendríamos la visión que el usuario tiene de la misma, que no coincide en absoluto con la captada por el
spider (también denominado araña o robot de búsqueda de recursos) del buscador. Existen herramientas que
simulan a estos robots (search engine spider simulator)3 que nos pueden ayudar en esta tarea. En nuestro
estudio hemos supuesto que las páginas ya han sido
optimizadas previamente por el usuario y parte de esta
optimización ha sido la que le ha servido al buscador
para llevarlas a los primeros lugares del ranking. Por
tanto, con la edición y posterior análisis del código
fuente es suficiente.
Otro elemento relevante es la selección de los atributos adecuados; hemos optado por 30. Su selección
está basada en las recomendaciones hechas por la mayor parte de los optimizadores de páginas web.
Los componentes seleccionados son los siguientes:
—Elementos de calidad de la página: PageRank,
tamaño html (KB).
—Etiqueta Meta description: frecuencia, prominencia y peso de la clave.
—Etiqueta Meta keywords: frecuencia, prominencia y peso de la clave.
—Título: frecuencia, prominencia y peso de la clave.
—Cuerpo del documento (Body): número de palabras, palabras clave en negrita y subrayadas. Frecuencia, prominencia y peso de la clave. Clave al principio
y al final del documento.
El profesional de la información, v. 14, n. 1, enero-febrero 2005
5
Francisco José Soltero Domingo y Diego José Bodas Sagi
—Cabeceras (H1-H6 Head): frecuencia y prominencia y peso de la clave en la primera cabecera. Frecuencia y peso de la clave en todas las cabeceras.
—Enlaces (Links): frecuencia y peso de la clave
(texto y etiqueta Alt).
—Atributos Alt de la etiqueta <img>: frecuencia y
peso de la clave.
—Comentarios: frecuencia y peso de la clave.
Definiciones: La frecuencia es el número de veces
que la clave es utilizada en un área concreta; el peso es
el cálculo del número de palabras en un área multiplicado por la frecuencia y dividido por el número total
de palabras; la prominencia viene dada por el orden de
aparición de la clave de búsqueda en el área analizada.
Una vez seleccionados los distintos parámetros
que compondrán nuestro modelo, iniciamos su simulación con la obtención de los datos correspondientes a
las dos primeras páginas devueltas. En este caso, la selección se enmarca en el hecho de que las estadísticas
demuestran que los usuarios sólo leen las primeras páginas de resultados. Por tanto la muestra final estará
compuesta de 3 consultas con los 20 primeros resultados devueltos por el motor de búsqueda Google.
3. Análisis clásico de resultados
Se encuentra dividido principalmente bajo dos
cuestiones: el primero es el factor on the page o elementos sobre la página, que se encargaría del análisis
de los elementos que la componen: textos, etiquetas,
estructura del web, navegación, enlaces, partes con
contenido dinámico, texto de los enlaces, etc. En cuanto al segundo, denominado off the page, o factor externo a la página, se englobaría en el estudio de la cantidad y calidad de los enlaces desde otras páginas, así
como al número de visitas recibidas, entre otros.
3.1. Resultados sobre el factor (on the page)
El tamaño de los recursos obtenidos en la consulta
en ningún caso supera los 30 KB. Por otra parte, en
cuanto a los atributos de frecuencia, prominencia y peso de la clave en el título, podemos observar (figura 1)
que es bastante desigual: sólo en el 50% de las páginas
se encuentra un título que coincide con la clave de búsqueda.
«Las organizaciones encargadas de la creación y mantenimiento de los buscadores son
empresas privadas que cotizan
en bolsa»
Otra característica observada en los documentos
retornados, aunque no forma parte de nuestros atributos, es la falta de uso de marcos (frames) que es inexistente en todos los resultados, posiblemente debido a
que la mayoría de los buscadores encuentran dificultades con ellos (aunque en teoría Google no tiene problemas a la hora de procesarlos). En cuanto al uso de
lenguajes de programación, aparece Javascript en algunas páginas, mientras que Visual basic script no se
encuentra en ninguna.
Las etiquetas Meta description (figura 2) y Meta
keyword (figura 3) también son utilizadas por algunas
páginas, aunque la mayoría de los recursos no las utilizan. Esto puede ser debido a que entre los webmasters existe la creencia de que algunos buscadores ya no
las utilizan para posicionar, y por tanto prefieren no introducirlas. Tampoco existen redirecciones a otras páginas debido a las penalizaciones en el ranking de posicionamiento.
Figura 1. Palabra clave en el título
6
El profesional de la información, v. 14, n. 1, enero-febrero 2005
Las variables referentes al cuerpo del documento,
frecuencia, prominencia y peso (figura 4) de la clave
Clasificadores inductivos para el posicionamiento web
Figura 2. Atributos de la etiqueta Meta description
Figura 3. Atributos de la etiqueta Meta keyword
principal o clave de búsqueda en el cuerpo del documento son bastante desiguales; existen páginas donde
es elevado, pero también se detectan otras en las que
es pequeño o no aparece.
voto ponderado, que se establece en función de la importancia de la página que lo emite. El PageRank es un
dato valioso ya que determina la calidad de una página para Google, basado en el número de enlaces de calidad que posee.
En lo que respecta al texto enlazado, etiquetas Alt
y comentarios, no parecen ser especialmente relevantes, puesto que en los resultados apenas son influyentes. De hecho, la mayor parte de las páginas recuperadas no poseen la clave de búsqueda en ninguno de estos elementos.
3.2. Factores externos a la página (off the page)
Este tipo de optimización ya no corresponde a la
página propiamente dicha, sino más bien a los conocimientos estratégicos sobre cómo conseguir los enlaces, cuáles interesan más, cómo se deben editar, etc.
Para este estudio vamos a tomar el PageRank que
es un valor numérico que asigna Google a todas sus
páginas y que representa su importancia en internet10.
Cuando una página enlaza con otra, ésta le asigna su
Para poder mostrar este parámetro con mayor profundidad hemos tomado una muestra más grande,
compuesta por los veinte primeros recursos y otros
veinte más localizados entre los cien primeros para cada una de las consultas.
Como podemos observar (figura 6) existen muchos recursos que tienen valores de PageRank elevados y que no se muestran entre los veinte primeros resultados.
3.3. Resumen del análisis clásico
Como conclusiones iniciales podemos observar el
hecho de que existen elementos o atributos que determinan el posicionamiento de las páginas. Analizados
estos datos de manera parcial, como hemos realizado
El profesional de la información, v. 14, n. 1, enero-febrero 2005
7
Francisco José Soltero Domingo y Diego José Bodas Sagi
en este apartado, no podemos concluir ningún resultado de especial relevancia. De hecho la mayor parte de
los SEO (abreviatura en inglés de «optimizador de motor de búsqueda”) nos indican que optimicemos todos
estos elementos, divididos en los factores expuestos
anteriormente, pero en realidad desconocen la influencia real de los factores e incluso de los atributos. Todo
esto contribuye a la introducción de ‘ruido’ o penalizaciones en las páginas.
Conocer la relación entre los atributos, el peso de
los mismos, y su variabilidad en el tiempo son los factores que debemos determinar para conseguir los criterios de selección del motor de búsqueda en la obtención del posicionamiento final de los recursos web. Un
análisis clásico ha resultado infructuoso en la consecución de resultados determinantes.
tran entre las veinte primeras y cuáles no, para las consultas seleccionadas.
Para tratar de profundizar más en los resultados se
va a aumentar la muestra con una nueva consulta.
Ahora en cada búsqueda, al igual que se hizo con el estudio del PageRank, se tendrán en cuenta cuarenta recursos (con un valor final de la muestra de ciento sesenta). Para cada consulta se han tomado veinte muestras correspondientes a las veinte primeras páginas. El
resto de muestras, otras veinte, se encuentran entre las
posiciones veinte y cien obtenidas por cada consulta
en el buscador.
4. Utilización de clasificadores
inductivos arbóreos
Por tanto, vamos a ampliar el estudio con métodos
de aprendizaje automático. El objetivo consiste en
comprobar si a partir de los atributos elegidos podemos determinar correctamente qué páginas se encuen-
El empleo de técnicas de aprendizaje automático
para la obtención de patrones sobre grandes bases de
datos se denomina minería de datos (data mining).
Dentro de las distintas formas de aprendizaje, el tipo
de realimentación disponible es el elemento más importante a la hora de determinar la naturaleza del pro-
Figura 4. Atributos referentes al cuerpo del documento
Figura 5. Frecuencia y peso de la clave de búsqueda en los enlaces
8
El profesional de la información, v. 14, n. 1, enero-febrero 2005
Clasificadores inductivos para el posicionamiento web
Figura 6. PageRank
blema de aprendizaje que se debe afrontar5. Se distinguen tres tipos de aprendizaje: supervisado, no supervisado y por refuerzo. En particular, el primero (también denominado inductivo) consiste en aprender una
función a partir de ejemplos de sus entradas y salidas;
es decir, recibe como entrada el valor correcto para determinados valores de una función desconocida y debe
averiguar cuál es la función o aproximarla.
«En un futuro, y basándonos
en los experimentos realizados,
podríamos construir una aplicación cuyo parámetro de entrada sea un recurso web que
genere como salida los valores
de aquellos elementos que deban ser mejorados»
La inducción con árboles de decisión es una de las
técnicas más empleadas debido a su sencillez de implementación. Un árbol de decisión toma como entrada un objeto o una situación descrita a través de un
conjunto de atributos y devuelve una decisión: el valor
previsto para una salida con respecto a una entrada dada. Los atributos de entrada pueden ser discretos o
continuos. En el caso de funciones con valores discretos nos referimos a clasificación, mientras que la denominamos regresión cuando son valores continuos.
En nuestro estudio nos centraremos en clasificaciones
del tipo booleano, las cuales se clasifican como verdadero (páginas que se encuentran entre las 20 primeras)
o falso (no se encuentran entre las 20 primeras). Un árbol desarrolla una serie de pruebas antes de alcanzar la
solución. En cada uno de sus nodos internos se encuentra el valor de una de las propiedades y las ramas
que salen del nodo están etiquetadas con los posibles
valores de dicha propiedad. En los nodos hojas se encuentra el valor resultante si dicha hoja es alcanzada.
En el apartado anterior indicamos como factores
fundamentales la necesidad de conocer la relación entre los atributos, al igual que el peso de los mismos.
Como podemos observar, el aprendizaje inductivo (y
más concretamente los árboles de clasificación) nos
puede ayudar en esta tarea. En el caso del primero, los
distintos nodos se posicionan en ramas, las cuales poseen atributos que están relacionados entre sí. Esta relación nos puede llevar incluso a descartar algunos
atributos que, a pesar de encontrarse en la misma rama, no son necesarios ya que los ejemplos pueden estar bien separados en positivos y negativos, sin necesidad de agotar la totalidad de atributos para esa rama.
En este caso estamos relacionando atributos al igual
que eliminamos otros que no aportan nada y que por
tanto el motor de búsqueda descarta a la hora de realizar la clasificación. En cuanto al peso, nos lo da la posición de los distintos atributos a lo largo del árbol:
uno que se encuentre en un nivel más alto del árbol
tendrá un peso mayor que otro situado en los últimos
El profesional de la información, v. 14, n. 1, enero-febrero 2005
9
Francisco José Soltero Domingo y Diego José Bodas Sagi
niveles. Otro elemento que se mencionaba como importante es el de la variabilidad, la construcción de árboles de decisión es relativamente sencilla y por tanto
se podrían implementar con cierta facilidad.
«El segundo experimento, con
una tasa de acierto del 97,5%,
indica que la hipótesis propuesta es válida»
pero añadiendo un comentario al principio de cada
apartado que explique el mismo.
4.3. Experimento 1
4.3.1. Clasificador utilizado
En este primer experimento trabajamos con el árbol LMT.
Scheme: weka.classifiers.trees.LMT -B -P -I -1 -M
Dentro de los distintos árboles de clasificación se
ha realizado un estudio inicial de cuáles se adaptan
mejor a nuestro estudio y, hemos seleccionado dos: el
clasificador LMT (Logistic Model Tree) y el Random
Forest.
4.1. Clasificador LMT6
Dos populares métodos de clasificación son la regresión logística lineal y los árboles de inducción, para los cuales existe una gran complementariedad. La
combinación de ambos permite una estructura de árbol
con modelos de regresión logística en las hojas. La
gran ventaja de este enfoque es que las estimaciones
explícitas de probabilidad de la clase son mejores que
las de una simple clasificación.
4.2. Clasificador Random Forest
Se basan en el desarrollo de muchos árboles de
clasificación7. Para clasificar un nuevo objeto desde un
vector de entrada, ponemos dicho vector bajo cada uno
de los árboles del bosque. Cada árbol genera una clasificación, en términos coloquiales diríamos que cada
árbol vota por una clase. El bosque escoge la clasificación teniendo en cuenta el árbol más votado sobre todos los del bosque.
Cada árbol se desarrolla como sigue:
—Si el número de casos en el conjunto de entrenamiento es N, prueba N casos aleatoriamente, pero
con sustitución, de los datos originales. Este será el
conjunto de entrenamiento para el desarrollo del árbol.
—Si hay M variables de entrada, un número
m<<M es especificado para cada nodo, m variables son
seleccionadas aleatoriamente del conjunto M y la mejor partición de este m es usada para dividir el nodo. El
valor de m se mantiene constante durante el crecimiento del bosque.
—Cada árbol crece de la forma más extensa posible, sin ningún tipo de poda.
Una vez realizada esta pequeña introducción teórica pasamos a la realización de los experimentos con
ambos árboles. Todos los experimentos están realizados con la herramienta Weka8 y presentamos de manera original los informes generados por la herramienta,
10
El profesional de la información, v. 14, n. 1, enero-febrero 2005
15
4.3.2. Relación de filtros utilizados
Los filtros nos proporcionan una manera de podar
aquellos atributos menos relevantes o las instancias
que pueden generar ruido. En este apartado también
podemos visualizar el número de instancias y atributos
que posee la muestra.
Relation: final-weka.filters.unsupervised.instance.Resample-S100-Z100.0
Instances: 160
Attributes: 31
4.3.3. Método de prueba
Para este estudio consideraremos el estimador por
validación cruzada con N conjuntos. Los prototipos de
T se distribuyen aleatoriamente en V conjuntos disjuntos T1, T2,...TN de un tamaño similar (| Ti| ≈| T|/N i =
1, 2,..., N). El procedimiento de estimación puede
plantearse como sigue:
1. Para todo n, n = 1, 2,..., N, construir un clasificador usando T - Tn, como conjunto de aprendizaje.
Sea dn el clasificador construido así. Donde ninguno
de los prototipos de Tn se ha usado para construir dn.
Al finalizar este paso obtenemos N clasificadores, dn,
con sus correspondientes estimaciones de error.
2. Usando el mismo procedimiento, construir el
clasificador d usando todos los prototipos de T.
Para valores grandes de N, cada uno de los N clasificadores se construye usando un conjunto de prototipos de tamaño aproximado a N(1 -1/N), aproximadamente del tamaño de T. La suposición básica de la validación cruzada es que este procedimiento es “estable”, esto es, que todos los clasificadores dn, n = 1,
2,..., N (construidos con casi todos los prototipos de T)
tienen una tasa de error aproximadamente igual a la
del clasificador d (construido con todos los prototipos
de T).
Test mode:10-fold cross-validation
Clasificadores inductivos para el posicionamiento web
Tabla 1
Tabla 3
4.3.4. Modelo de clasificador (conjunto total de
entrenamiento)
En este apartado se recoge el valor de los atributos
seleccionados y los pesos de los mismos. También podemos ver el árbol del modelo logístico.
KeywordweightinTitle <= 0.6
|
KeywordfrequencyinlinkstextandALT <= 0
|
|
KeywordfrequencyinTitle <= 0
|
|
|
KeywordfrequencyinMETAKeywords <= 0
|
|
|
|
WordsinBody <= 260:
LM_1:15/90 (10)
WordsinBody > 260
|
|
|
|
|
|
|
|
|
PageRank <=
1: LM_2:15/105 (17)
PageRank > 1:
|
|
|
|
|
LM_3:15/105 (39)
|
|
KeywordfrequencyinMETAKey|
words > 0: LM_4:0/60 (4)
|
|
KeywordfrequencyinTitle > 0: LM_5:15/60
(33)
|
KeywordfrequencyinlinkstextandALT > 0
|
|
KeywordfrequencyinALTattributes <= 1:
LM_6:15/60 (37)
KeywordfrequencyinALTattributes > 1:
|
|
LM_7:0/45 (4)
KeywordweightinTitle > 0.6: LM_8:15/30 (16)
Entre paréntesis podemos ver las instancias clasificadas en cada uno de los nodos del árbol.
Time taken to build model: 3.92 seconds
4.3.5. Resumen
En el resumen podemos observar las instancias correctamente clasificadas y las distintas tasas de error
(tabla 1).
4.3.6. Detalle de precisión por clase
Ver tabla 2.
4.3.7. Matriz de confusión
Aquí se recoge el número de clasificados: Para el
apartado true nos indica el número de positivos bien
clasificados, que para nuestro caso son 13 y el número
de positivos más clasificados que son 34. Para el apartado false se recogen 11 mal clasificados con resultado
negativo y 92 bien clasificados con resultado negativo.
a
b
63
17
13
67
<— classified as
a = true
b = false
4.4. Experimento 2
No se incluyen explicaciones de los apartados por
ser iguales que en el experimento 1.
4.4.1. Clasificador utilizado
En este caso el clasificador es un bosque aleatorio
(Random Forest).
Scheme: weka.classifiers.trees.RandomForest -I
10 -K 0 -S 1
4.4.2. Relación de filtros utilizados
Se ha realizado una selección de atributos con el
fin de simplificar el modelo, intentando buscar los resultados más relevantes posibles.
Relation: final-weka.filters.unsupervised.instance.
Resample-S200-Z100.0-weka.filters.unsupervised.
attribute.Remove-R1-2,4,6-11,14-21,23-30-weka.
filters.unsupervised.instance.Resample-S200-Z100.
0-weka.filters.unsupervised.instance.ResampleS100-Z100.0
Instances: 160
Attributes: 6
4.4.3. Método de prueba
Al igual que en el anterior ejemplo, hemos utilizado el método de validación cruzada.
Tabla 2
El profesional de la información, v. 14, n. 1, enero-febrero 2005
11
Francisco José Soltero Domingo y Diego José Bodas Sagi
Test mode: 10-fold cross-validation
4.4.4. Modelo de clasificador (conjunto total de
entrenamiento)
Random forest of 10 trees, each constructed while
considering 6 random features.
Time taken to build model: 0.32 seconds
4.4.5. Resumen
Ver tabla 3.
4.4.6. Detalle de precisión por clase
Ver tabla 4.
4.4.7. Matriz de confusión
a
b
63
17
3
82
<— classified as
a = true
b = false
4.5. Resumen de los experimentos
En el primero, el número de instancias correctamente clasificadas es de un 81,25%, mientras que para el segundo caso es de un 97,5%. Además para este
segundo experimento el número de instancias bien clasificadas para ejemplos positivos es de 74, con tan solo 1 fallo, mientras que el número de ejemplos negativos bien clasificados es de 82, con 3.
Según podemos apreciar, la tasa de precisión es
muy elevada con unos valores de 0,961 para los casos
positivos y de 0,988 para los negativos. Igualmente sucede con la tasa de recall, siendo de 0,987 para los casos positivos y 0,965 para los negativos.
Otro dato importante es que el tiempo que toma el
clasificador Random Forest en realizar la clasificación
es de 0,32 segundos, lo cual es óptimo para la clasificación online de páginas consultadas.
5. Conclusiones
Cuando iniciamos este trabajo el planteamiento
inicial era realizar un estudio clásico de los factores relevantes para el posicionamiento en el motor de búsqueda Google. Este estudio contemplaba tanto los elementos propios de la página como las distintas estrategias de posicionamiento, tráfico, etc. Ambos factores
analizados uno por uno no aportaban a nuestra investigación ningún dato que esclareciera cómo los distintos
buscadores posicionaban nuestras páginas, más bien
era frustrante contemplar cómo de la desigualdad de
los mismos no se podía inferir ningún tipo de resultado válido. Las razones fundamentales de este fracaso
las podemos encontrar en la falta de relación entre los
distintos atributos y los pesos que estos elementos
12
El profesional de la información, v. 14, n. 1, enero-febrero 2005
aportaban en los criterios utilizados por los buscadores
para su posterior posicionamiento.
Para encontrar estos factores que influencian de
manera definitiva en el posicionamiento nos hemos
apoyado en técnicas de aprendizaje inductivo, y más
concretamente en árboles de decisión. Los resultados
encontrados en los dos experimentos son buenos, pero
fundamentalmente el segundo, con un 97,5% de acierto, nos indica que la hipótesis propuesta es ciertamente válida.
Por tanto, no es necesario para el posicionamiento
colocar todos los atributos sino conocer la relación entre los mismos, cómo son las ramas del árbol de decisión utilizadas por el buscador y los pesos de los atributos; es decir, el nivel que ocupan los mismos en el
árbol de decisión.
Las recomendaciones prácticas para la selección
de atributos generadas por ambos experimentos serían
las siguientes: el documento no debe contener demasiadas palabras. Además es muy importante que la palabra clave aparezca en negrita dentro del cuerpo del
documento. La primera cabecera, y el peso de la clave
en ésta, debe ser lo mayor posible. Por último, la frecuencia y el peso de la clave en el título son factores
muy relevantes.
«La mayor parte de los SEO
desconoce la influencia real de
los factores e incluso de los
atributos. Todo esto contribuye
a la introducción de ruido o de
penalizaciones en las páginas»
Además, las técnicas de aprendizaje automático
permiten que con un mayor número de muestras y consultas los resultados puedan mejorar, con lo cual con
un número adecuado de las mismas podríamos obtener
una función muy ajustada al resultado final de un motor de búsqueda.
En un futuro, y basándonos en los experimentos
realizados, podríamos construir una aplicación cuyo
parámetro de entrada sea un recurso web que genere
como salida los valores de aquellos elementos de éste
que deban ser mejorados. Además, nos debería indicar
cuáles de ellos sólo generan ruido o tienen una aportación nula. Esta herramienta también tendría que mostrarnos cuál sería la situación actual del ranking de una
página sobre un rango determinado y para un motor de
búsqueda en concreto.
A un nivel más teórico podemos plantearnos cómo
ampliar este tipo de herramientas para su interacción
con la web semántica. La cuestión radica en que ahora
debemos atrapar el contenido semántico de la cadena
Clasificadores inductivos para el posicionamiento web
A partir de ahora renovar (o comenzar) la suscripción a El profesional de la
información es mucho más ágil y sencillo.
Usted puede gestionar online su suscripción conectándose a esta página web:
http://www.elprofesionaldelainformacion.com/suscripciones.html
Si lo desea puede comunicar con nosotros dirigiéndose a esta dirección de
correo electrónico:
suscripciones@elprofesionaldelainformacion.com
de búsqueda. En función de dicho contenido semántico, atributos situados en un nivel inferior del árbol de
decisión podrían escalar puestos para ubicarse en niveles superiores y conseguir así que los resultados se
ajusten con mayor exactitud a los deseos del usuario.
Estos árboles de decisión “dinámicos” posibilitarían la
captación del contenido semántico y su integración en
la estrategia de búsqueda.
6. Landwehr, Niels; Hall, Mark; Frank, Eibe. Logistic model trees.
Consultado en: 22-10-04.
http://www.cs.waikato.ac.nz/~ml/publications/2003/landwehr-etal.pdf
7. Leo, Breiman. Random forest. Consultado en: 22-10-04.
http://www.stat.berkeley.edu/users/breiman/RandomForests/cc_home.htm
#overview
8. Witten, Ian H.; Frank, Eibe. Data mining: practical machine learning tools and techniques with Java implementations. Consultado en: 2210-04.
http://www.webconfs.com/search-engine-spider-simulato.php
6. Bibliografía
1. Sparck Jones, K.; Willett, P. Readings in information retrieval. San
Francisco: Morgan Kaufmann Publishers, Inc., 1997.
9. Alderson, Jeff. Xybercode, Inc. Consultado en: 22-10-04.
http://www.adwordanalyzer.com/
2. Delivering business to businesses. Keyword Generator. Consultado en:
22-10-04.
http://www.espotting.com/popups/keywordgenbox.asp
10. Google. Consultado en: 23-11-04.
3. Search engine optimization tools. SEO tools. Consultado en: 22-10-04.
http://www.webconfs.com/search-engine-spider-simulator.php
Francisco José Soltero Domingo, Departamento de Informática, Universidad Carlos III de Madrid.
fsoltero@inf.uc3m.es
4. Alexa. Alexa related links and traffic ranking.
Consultado en: 22-10-04.
http://www.alexa.com
5. Russell, Stuart; Norving, Meter. Inteligencia artificial. Un enfoque
moderno. Prentice-Hall, 2004. Isbn 84-205-4003-X.
http://www.google.com/technology/
Diego José Bodas Sagi, Departamento de Informática,
Universidad Carlos III de Madrid.
dbodas@inf.uc3m.es
Próximos temas especiales
Marzo 2005
Mayo 2005
Julio 2005
Posicionamiento en la Web (II)
Consorcios de bibliotecas
Open Access
Los interesados pueden remitir notas, artículos, propuestas, publicidad, comentarios, etc., sobre estos temas a:
epi@elprofesionaldelainformacion.com
El profesional de la información, v. 14, n. 1, enero-febrero 2005
View publication stats
13
Descargar