Araña web

Un rastreador web, indexador web o araña web es un programa que inspecciona las páginas del World Wide Web de forma metódica y automatizada.[2]

Las arañas web comienzan visitando una lista de URLs, identifica los hiperenlaces en dichas páginas y los añade a la lista de URLs a visitar de manera recurrente de acuerdo a determinado conjunto de reglas. La operación normal es que se le da al programa un grupo de direcciones iniciales, la araña descarga estas direcciones, analiza las páginas y busca enlaces a páginas nuevas. Luego descarga estas páginas nuevas, analiza sus enlaces, y así sucesivamente.

Entre las tareas más comunes de las arañas de la web tenemos:

  • Crear el índice de una máquina de búsqueda.
  • Analizar los enlaces de un sitio para buscar links rotos.
  • Recolectar información de un cierto tipo, como precios de productos para recopilar un catálogo.

Información general

Un rastreador Web comienza con una lista de  direcciones URL para visitar, llamado las semillas. A medida que el rastreador visita estas direcciones URL, identifica todos los  hipervínculos en la página y los añade a la lista de URL para visitar, llamada la frontera de rastreo . URL de la frontera se  forma recursiva visitadas de acuerdo con un conjunto de políticas. Si el rastreador está realizando el archivo de los  sitios web se copia y guarda la información a medida que avanza. Los archivos se almacenan por lo general de tal manera que se puedan ver, leer y navegar como lo fueron en la web en directo, pero se conservan como "instantáneas".

El gran volumen implica al rastreador que sólo puede descargar un número limitado de las páginas Web en un tiempo determinado, por lo que necesita dar prioridad a sus descargas. La alta tasa de cambio puede implicar a las páginas que podría ya haber sido actualizados o incluso eliminado.

El número de posibles URL rastreadas siendo generados por el software del lado del servidor también ha hecho que sea difícil para los rastreadores web para evitar recuperar el contenido duplicado.

Un sinfín de combinaciones de  HTTP GET existen parámetros (basados en URL), de los cuales sólo una pequeña selección anterior obtiene un contenido único. Por ejemplo, un simple galería de fotos en línea puede ofrecer tres opciones a los usuarios, tal como se especifica a través de parámetros  HTTP GET en la URL. Si existen cuatro formas de ordenar las imágenes, tres opciones de tamaño miniatura, dos formatos de archivo, y una opción para desactivar el contenido proporcionado por el usuario, a continuación, el mismo conjunto de contenidos se puede acceder con 48 direcciones URL diferentes, todos los cuales pueden estar vinculados en el sitio. Esta combinación matemática crea un problema para los rastreadores, ya que deben ordenar a través de un sinfín de combinaciones de secuencias de comando, cambios relativamente menores con el fin de recuperar el contenido único.

"Teniendo en cuenta que el  ancho de banda para la realización de rastreos no es ni infinito ni libre, se hace indispensable para rastrear la Web, no sólo en una forma escalable, pero eficiente, sino también alguna medida razonable de calidad o frescura debe ser mantenido." Un rastreador debe elegir con cuidado en cada paso qué página siguiente visitar siempre.

Other Languages
Afrikaans: Webkruiper
العربية: زاحف الشبكة
azərbaycanca: Veb Crawler
Boarisch: Webcrawler
català: Aranya web
čeština: Web crawler
Cymraeg: Ymgripiwr gwe
Deutsch: Webcrawler
English: Web crawler
euskara: Web crawler
فارسی: خزنده وب
עברית: זחלן רשת
magyar: Keresőrobot
italiano: Crawler
日本語: クローラ
한국어: 웹 크롤러
олык марий: Кычалше робот
Nedersaksies: Webkroeper
Nederlands: Spider
norsk nynorsk: Søkerobot
norsk bokmål: Søkerobot
português: Rastreador web
Simple English: Web crawler
српски / srpski: Veb-indekser
தமிழ்: வலை ஊர்தி
Türkçe: Arama robotu
українська: Пошуковий робот
中文: 網路爬蟲