¿Cómo funciona un "Spider"?

Los buscadores spiders exploran todo el contenido accesible de nuestras páginas y los enlaces relacionados. Un Spider, consta básicamente de tres elementos:

  • El Spider propiamente dicho, que explora las páginas y sus enlaces
  • La base de datos confeccionada con los datos obtenidos por el Spider
  • Un constructor de resultados, que es lo que nosotros vemos cuando realizamos una búsqueda en los buscadores

El Spider, explora el texto de las páginas, y generalmente como google, almacena una versión de nuestra página -solo el texto html-, que podemos consultar en la caché -al pie de cada resultado- Si una página no está accesible, podemos consultar el resultado almacenado (truco). El Spider, solo explora el texto accesible al buscador. Imágenes, zonas de acceso restringido con login o password, contenidos flash o de ocx compilados, y similares, no son registrados ni escaneados por el buscador. Incluso no siguen la mayoría de menús en JavaScript o páginas en frames. Algunos, si exploran los frames y otros formatos como doc, powerpoint o pdf.

  • La base de datos, viene a ser un backup del código html de las páginas accesibles. Estas bases de datos, tienen índices para acceder mas rápido a las páginas. Construye tablas con palabras y combinaciones de palabras, de estas tablas, alcanza las mejores páginas y explora los contenidos de todo el texto. Es una solución mucho mejor que explorar todas y cada una de las páginas del buscador. Y requiere una infraestructura extraordinaria
  • El programa constructor de búsquedas. Es un programa ejecutable como otro cualquiera. Que usted ejecuta en otro ordenador -los de los buscadores-. Que crea páginas en formato html con los resultados. Cuando nosotros buscamos, se consultan todas las páginas almacenadas en la base de datos, con algoritmos realmente complicados, mediante lo que los programadores denominamos expresiones regulares. Y técnicas hash que van a determinar la posición del resultado si lo encuentra. Notese, que los resultados se presentan por orden de lo que el buscador cree que se adecua mas a las claves de nuestra búsqueda.

Estas técnicas, aunque complejas y eficientes, son muy infantiles. Por otra parte tienen muchos posibles criterios sencillos que con el paso del tiempo, mejoran gracias a su uso conjunto los resultados. El peso de cada función de evaluación, puede ser ajustado fácilmente. Si el buscador lo desea, puede invertir, o modificar estos criterios a conveniencia. Y por tanto los resultados. El resto del web, también influye sobre nuestra web. Según las páginas que nos enlaces. Por tanto, es un factor a tener en cuenta sobre los resultados. Y sobre lo que los webmasters tienen poco control Ha de tenerse en cuenta, que no necesariamente las primeras posiciones van a ser lo que busquemos. Eso sí seguramente, guardan algún tipo de relación con los términos empleados.