es:manual:items:crawling

Construccion de tablas mediante "Crawling"

Actualmente hay muchisima información en Internet no siempre accesible accesible mediante el acceso estructurado mediante la Web semántica. La tecnica de crawling consiste en acceder mediante un programa a una página web y a las páginas web que estan enlazadas y recopilar de ellas la información interesante.

Antes que nada, debemos indicar que esta técnica no siempre debe usarse, ya que se pueden infligir facilmente los derechos de autor. Sin embargo, hay ocasiones en las que el autor consiente explicitamente este uso, como es el caso de Wikipedia; o bien concede una licencia que solo requiere que se indique la procedencia de los datos, etc. Otros sitios web por el contrario, indican que esta prohibido esta práctyica, e incluso instalan servicios para proteger los datos frente a este tipo de acciones. No es éste el foro en donde debe analizarse esta cuestión. Simplemente vamos a poner algún ejemplo del procedimiento a llevar a cabo para construir tablas que pueden usarse para crear preguntas generativas mediante esta técnica.

En el caso de Wikipedia, existe una alternativa muy nteresante que es el proyecto Wikidata, que permite la recuperación de información normalizada mediante consultas SPARQL. Sin embargo, actualmente la información no esta completa, y para algunas aplicaciones es mas sencillo utilizar directamente la ténica de crawling contra la propia Wikipedia.