Estudi de cercadors web com a eines d`aprenentatge automàtic

Anuncio
Estudi de cercadors web com a eines
d’aprenentatge automàtic
AUTORA: Laura Martínez Sanahuja
DIRECTOR: Dr. David Sànchez Ruenes
Adreça electrònica: laura.martinez@urv.cat
Titulació: Grau en Enginyeria Informàtica
Data Presentació: 08 de Juny de 2016
Resum:
Molts investigadors utilitzen el nombre de pàgines web indexades per un cercador
com a estimador de la distribució en tasques de recerca que es basen en el la
lingüística. En aquestes tasques, la idoneïtat de recompte de hits (el nombre de
pàgines web indexades) del cercador com a estimador de freqüència és crucial, ja que
l’exactitud dels resultats depèn de la "qualitat" del nombre de pàgines indexades. Tot i
que molts estudis han estudiat l’eficàcia dels motors de cerca per als usuaris web,
pocs han avaluat aquests cercadors com a eines per a la investigació.
L’elecció d’un cercador en particular ha estat, en general, una tasca relegada pels
investigadors, i en aquest estudi es pretén demostrar que hi ha diferències molt
significatives entre els cercadors, i que els cercadors més coneguts i utilitzats no
sempre són els que estan millor adaptats per a la investigació lingüística.
En aquest projecte de final de grau, s’han analitzat diversos cercadors que estan
disponibles actualment, fent un filtratge segons unes característiques mínimes que han
de complir per tal de poder-los fer servir per a analitzar recursos lingüístics; i s’han
avaluat dos factors: en primer lloc, s’ha analitzat la possible idoneïtat del recompte de
hits dels cercadors com estimadors d’ús general de la probabilitat de concurrència de
termes lingüístics; i en segon lloc, s’ha avaluat el seu rendiment real en una de les
tasques principals de la lingüística computacional: l’estimació de la similitud
semàntica entre els termes.
A partir dels resultats d’aquest estudi, s’identifiquen els motors de cerca més adequats
per a ser utilitzats en la investigació lingüística.
Resumen:
Muchos investigadores utilizan el número de páginas web indexadas por un buscador
como estimador de la distribución en tareas de investigación que se basan en el la
lingüística. En estas tareas, la idoneidad de recuento de hits (el número de páginas
web indexadas) del buscador como estimador de frecuencia es crucial, ya que la
exactitud de los resultados depende de la "calidad" del número de páginas indexadas.
Aunque muchos estudios han estudiado la eficacia de los motores de búsqueda para
los usuarios web, pocos han evaluado estos buscadores como herramientas para la
investigación.
La elección de un buscador en particular ha sido, en general, una tarea relegada por
los investigadores, y en este estudio se pretende demostrar que hay diferencias muy
significativas entre los buscadores, y que los buscadores más conocidos y utilizados
no siempre son los que están mejor adaptados para la investigación lingüística.
En este proyecto de fin de grado, se han analizado varios buscadores que están
disponibles actualmente, haciendo un filtrado según unas características mínimas que
deben cumplir para poder utilizar para analizar recursos lingüísticos; y se han
evaluado dos factores: en primer lugar, se ha analizado la posible idoneidad del
recuento de hits de los buscadores como estimadores de uso general de la
probabilidad de concurrencia de términos lingüísticos; y en segundo lugar, se ha
evaluado su rendimiento real en una de las tareas principales de la lingüística
computacional: la estimación de la similitud semántica entre los términos.
A partir de los resultados de este estudio, se identifican los motores de búsqueda más
adecuados para ser utilizados en la investigación lingüística.
Abstract:
Many researchers use the number of web pages indexed by a search engine as an
estimator of the distribution for linguistic research. In these tasks, the suitability of
hits count (the number of web pages indexed) as frequency estimators is crucial, since
the accuracy of the results depends on the "quality" of the number of indexed pages.
Although many studies have examined the effectiveness of search engines for web
users, few have evaluated these search engines as tools for research.
Choosing a particular search engine has been generally relegated by researchers, and
this study aims to demonstrate that there are significant differences between search
engines, and that the most well-known and widely-used search engines are not always
the best suited for linguistic research.
In this final degree project, various search engines that are currently available have
been analysed and filtered according to the minimum characteristics that must be met
in order to use them to analyse linguistic resources. Two factors have been assessed:
firstly, the analysis of the suitability of hits counts of search engines as estimators of
the probability of occurrence of linguistic terms; and secondly, their actual
performance has been evaluated in one of the core tasks of computational linguistics:
the estimation of the semantic similarity between the terms.
From the results of this study, the most appropriate search engines to be used in
linguistic research are identified.
Descargar