Crawlers: conoce su funcionamiento. Una aproximación a Googlebot

Sabemos que quieres que tu empresa o negocio alcance los logros más altos. Para ello invertiste tus esfuerzos, tiempo y dinero. En algún momento seguramente planeaste tu estrategia de marketing digital, obtuviste tu sitio web, y con orgullo comienzas a ver cómo poco a poco comienza a posicionarse en los lugares más altos de los SERPs de los motores de búsqueda. ¿Quieres saber cómo hace Google para “reconocer” a tu sitio y posicionarlo? Todo es gracias a la tarea que realizan los crawlers.

Un crawler es, a grandes rasgos, un programa informático desarrollado con el objetivo de cumplir tres funciones específicas:

Rastrear todas las páginas existentes en Internet
Leer esas páginas, analizarlas y deslizarse entre ellas
Enviar la información recabada a los servidores que correspondan

Para facilitarte la comprensión de este post, vamos a guiarnos en función a las tres tareas que estos bots tienen asignadas. Pero para eso, primero vamos a hablar del proceso que deben cumplir los websites para “presentarse” ante los motores de búsqueda (a los efectos, tomaremos por caso a Google).

En principio, y sin adentrarnos demasiado en el tema, diremos que básicamente un sitio web está conformado por varias páginas (HTML) que dentro de sí tienen elementos, los cuales toman estilos a raíz de lo escrito en otras páginas (CSS), y que pueden cumplir funciones predeterminadas (JS). En esta oportunidad, vamos a centrarnos simplemente en las páginas con extensión HTML.

Estos elementos que mencionamos anteriormente, insertos en las páginas, pueden ser de distinta naturaleza, y estar presentes para cumplir algún objetivo. Para identificarlos, se escriben con formato marcado de etiquetas (de allí su nombre: HyperText Markup Language).

Haremos foco ahora en los elementos de anclaje, también conocidos como anchor text, es decir, los links que se distribuyen en las páginas, que llevan a otras páginas tanto internas (pertenecientes al mismo sitio), como externas (que apuntan a un sitio en otro dominio). Los crawlers se valen de estos elementos para realizar sus funciones.

Los crawlers entran en acción

Ahora bien, la magia comienza cuando el sitio web está completamente desarrollado y su propietario otorga el visto bueno para que sea presentado en público. En ese momento es cuando se debe dar pie al proceso de indexación. Este proceso se basa simplemente en ocupar todos los esfuerzos para que Google conozca el sitio y, con base en su contenido y a la estrategia de SEO aplicada, determine la posición en la que será presentado en sus páginas de resultados.

La indexación puede llevarse a cabo por dos maneras: voluntaria o involuntaria. Esto es así ya que Google siempre terminará por saber que ese sitio nuevo existe. Pero el proceso de indexación por vía voluntaria facilitará las cosas y, desde luego, restará mucho tiempo de espera.

¿Recuerdas cuando hablamos del anchor text (desde ahora, los links)? Bien, lo que ocurre aquí es que se presenta una tercera vía de indexación (un tanto innecesaria puesto que siempre conviene hacerlo de forma voluntaria, manualmente). Esta forma consiste en que tu sitio esté linkeado desde otro que tenga cierto dominio de autoridad. Si esto no ocurrió, y nadie ha hecho linkbuilding con tu sitio, puedes elegir la vía “involuntaria” y simplemente esperar. Si tu sitemap (el mapa de sitio que contiene todas las URLs de tu sitio, y que lógicamente ayuda a los crawlers) no fue enviado a Google, el motor de búsqueda se tomará aproximadamente un día en indexar tu web (mil trescientos setenta y cinco minutos, según un análisis de HubSpot).

Finalmente, queda la opción “voluntaria” o manual. Lógicamente, se trata de la que cualquier analista de SEO siempre recomendará. La forma más eficiente de hacerlo, por consenso, es a través de Google Search Console. De esta manera podrá enviarse una o varias URLs, o bien un sitio web completo.

Ahora sí, regresemos a los crawlers.

Crawling | Rastreo de páginas web

Anteriormente dijimos que esta era la principal función de estos pequeños robots. De acuerdo a esto, se presenta una situación interesante para pensar. Existen infinidades de sitios web, de los tipos más variados: estáticos, dinámicos, webapps, PWA, etcétera. Y a su vez, el contenido de los sitios puede o no cambiar según una cantidad indescriptiblemente grande de variables.

Para salvar esta situación, Google lanzó dos tipos principales de crawlers: los tipos deepbot y los tipo freshbot. Respectivamente, sus funciones se orientan de la siguiente manera:

Deepbot: investiga la web intentando rastrear a fondo cualquier enlace existente en una página. Ésta es puesta en caché y queda disponible para el motor de búsqueda.
Freshbot: se arrastra (de ahí el término crawler) buscando contenido nuevo, visitando websites que regularmente y con cierta frecuencia van cambiando su contenido.

Aquí es importante destacar un par de cuestiones. Los links no siempre se encuentran disponibles. Supongamos, por poner un ejemplo un tanto brusco, que un sitio web ya no existe, o que ha cambiado su dominio. Cualquier página que haya sido enlazada hacia éste (o peor – desde el punto de vista del SEO – desde éste) provocará que el crawler se tope con lo que vulgarmente se conoce como un “callejón sin salida”.

Hasta aquí hemos comprendido la primera tarea de los crawlers. Es momento de pasar a la segunda.

Crawling | Lectura y análisis de sitios web

Cuando un sitio es enviado a internet, automáticamente los servidores de Google reciben un ping, informándole lo ocurrido (¿recuerdas los modos en que el motor de búsqueda indexa los sitios?). Es entonces cuando desde los servidores se envía a los crawlers.

Cuando el bot de Google (llamado GoogleBot) llega al sitio web en cuestión, comienza a leer todo lo que allí encuentra. Su modo de accionar es deslizarse a través de todos los links internos que encuentre. Y en este punto entra en juego una gran paradoja del mundo del posicionamiento orgánico en buscadores.

Seguramente sepas que el UX es uno de los factores de posicionamiento más importantes a la hora de rankear sitios en su SERP. Lo que ocurre aquí es que, si analizamos el funcionamiento de los crawlers en contraposición a estas métricas de posicionamiento, posiblemente entremos en una suerte de “conflicto de intereses”.

GoogleBot, al llegar a las páginas, solo lee el código HTML que las compone. Si aún no conoces mucho de desarrollo web, te lo explicaremos sencillamente: en este post, presiona las teclas (Ctrl + Shift + i en windows), luego ve a la pestaña “Elementos”. Eso es lo que el crawler lee.

¿Y donde entra la paradoja que te mencionamos? Si tomamos en cuenta ciertas corrientes del mundo del marketing digital que rezan constantemente que la experiencia de usuario es el factor clave de posicionamiento, y utilizamos diseños súper desarrollados, extremadamente creativos e inmensamente admirados por toda la comunidad más destacada de diseñadores… El SEO será en vano: los crawlers leen, pero no se deleitarán con estos diseños ya que, sencillamente… no tienen ojos.

Y entraron en juego las Web Core Vitals

Esto nos puede dar una pauta. Google mismo, a principios de 2020 presentó al mundo a las Web Core Vitals como principales métricas de rendimiento de sitios web. Su función es estandarizar ciertas pautas, las cuales en su mayoría están ligadas al tiempo de carga tanto de elementos como de renderización. A raíz de esto, si tomamos en cuenta que GoogleBot lee pero no “aprecia diseños”, podremos inferir que lo mejor es regir la parte de diseño visual por la frase “menos es más”. Y, en virtud a esto, adoptar diseños minimalistas, dando prioridad a lo robusto simplemente en los contenidos a publicarse.

Ahora que ha quedado clara la forma en que toman los datos de las páginas (leyendo el código), podemos continuar explicando el proceso de análisis de las mismas.

Es así que todo el contenido que el bot encuentre tanto en páginas internas como externas, será comprimido y enviado a los servidores de Google. Al momento de la compresión de esos datos, los factores de posicionamiento de SEO On Page y SEO Off Page serán cruciales.

Crawling | Comunicación con servidores y ranking de páginas

Finalmente llegó el momento de la verdad. Con todos los datos recabados del código fuente de todas las páginas que el crawler leyó en tu sitio, puede retirarse para volver a los servidores del motor de búsqueda para comenzar el procesamiento correspondiente.

Como es de esperarse, si el trabajo de SEO estuvo bien hecho, Google interpretará los datos recibidos. A través del procesamiento de estos datos, podrá ponderar las páginas más relevantes en función a las palabras clave determinadas.

Llegado el momento, habiendo pasado un tiempo considerable como para que el contenido haya sido analizado a fondo, las páginas indicadas (en el sitemap o mapa de sitio) serán indexadas en las páginas de resultados de Google. De esta manera, cuando un usuario realiza una búsqueda, tomando en cuenta el SEO y las preferencias del usuario en cuestión, y si la página matcheada se ha indexado, esta se mostrará en la posición que se le haya asignado.

Esta es la forma en que funcionan los crawlers.

Ahora sabes que sin ellos, Google simplemente no existiría.