Automatización de mapas de sitio XML con Screaming Frog

Cuando Screaming Frog lanzó por primera vez la función de rastreo programado, estaba emocionado. Sabía que había algunos casos de uso geniales y no podía esperar para encontrarlos. Me familiaricé con la función configurando un rastreo semanal estándar para cada uno de mis clientes. Luego pasó a encontrar algunos usos más avanzados.

Automatización de mapas de sitio XML con Screaming Frog
Automatización de mapas de sitio XML con Screaming Frog

Casi al mismo tiempo, estaba explorando formas para que nuestro equipo ganara más autonomía. Cuantos más procesos podamos tomar en nuestras propias manos, mejor. Una de las victorias más rápidas fue la automatización de mapas de sitio XML; hacerlo nos daría más control y eficiencia. Mis motivaciones eran tres: sitios en un CMS sin mapas de sitio XML generados dinámicamente, sin acceso al servidor y eficiencia. Estoy seguro de que hay más que aún no he encontrado, y me encantaría saber de usted sobre más casos de uso.

Utilice Screaming Frog SEO Spider para automatizar sus mapas de sitio XML si:

  • Usas una plataforma CMS poco común
  • Quiere más control sobre el contenido de sus mapas de sitio XML
  • Tienes acceso limitado a servidores/desarrolladores

Lo que necesitarás:

  • La versión de pago de Screaming Frog SEO Spider
  • Un equipo de TI/tecnología que pueda implementar proxies inversos
  • Una máquina dedicada (esto no es necesario pero te hará la vida mucho más fácil)

¿Cuáles son los pasos para automatizar sus mapas de sitio XML?

  • Configuración de su rastreo automático
  • Establecer una ubicación central para almacenar archivos de salida de SF
  • Creando el proxy inverso
  • Pruebas

¿Por qué automatizar mapas de sitio XML?

La primera razón es porque usas un CMS poco común. Las plataformas como WordPress y Shopify ofrecen excelentes soluciones para mantener actualizado su mapa del sitio XML. Pero, ¿qué sucede si el sitio utiliza un CMS propietario sin un sistema integrado o una enorme biblioteca de complementos creada públicamente? La solución que voy a explicar es independiente de CMS, lo que significa que puede configurarla para cualquier sitio, independientemente de en qué esté construido.

El siguiente motivador clave para usar Screaming Frog SEO Spider para generar automáticamente sus mapas de sitio XML es personalizarlos. Algunas plataformas que pueden actualizar dinámicamente los mapas del sitio no le dan mucho control sobre lo que se incluye en ellos, simplemente vuelcan todo allí. Es posible que desee excluir una carpeta o un conjunto específico de URL, lo que es mucho más fácil de hacer en la configuración de SEO Spider.

Por último, es posible que se encuentre en una situación como la mía en la que no tenga acceso al servidor para actualizar estos archivos por su cuenta. Aquí es donde entra en juego el proxy inverso, hablaremos de eso más adelante. Si tiene acceso a las carpetas del servidor adecuadas, puede omitir el paso del proxy inverso.


Lo que necesitarás

La versión paga de Screaming Frog SEO Spider

Esto es evidente, pero si no está pagando por Screaming Frog SEO Spider , deje de leer esto y hágalo. Ahora. Pero en serio, la función de rastreo programado no está disponible en la versión gratuita, por lo que es un requisito para automatizar sus mapas de sitio XML.

Un equipo de TI/tecnología que puede implementar proxies inversos

En mi experiencia, los grupos de desarrollo y TI no están muy abiertos a la idea de dar acceso a los SEO a las carpetas del servidor. Si está en este barco, necesitará a alguien que implemente sus proxies inversos.

Opcional: una máquina dedicada

Si bien no se requiere una máquina dedicada para esta automatización, es útil.

Para que se ejecuten los rastreos programados, la máquina en la que están configurados debe estar encendida; si los ejecuta durante el fin de semana y apaga su computadora el viernes, no más automatización. Por esta razón, hice que nuestro grupo de TI configurara una máquina a la que accedemos de forma remota para la configuración inicial.


¿Cuáles son los pasos para automatizar sus mapas de sitio Xml?

Configuración de su rastreo automatizado

Lo primero que debe hacer es configurar su rastreo programado. Si aún no has jugado con esto, te lo recomiendo encarecidamente. Tengo varios rastreos programados configurados, la mayoría de los cuales son para XML, pero tengo algunos otros rastreos creados específicamente que se ejecutan con regularidad.

En cuanto a la cadencia, corro la mía semanalmente, pero puedes configurarla para el intervalo que quieras. Dependiendo de la frecuencia con la que se agregue contenido a su sitio, es posible que desee alternar esto hacia arriba o hacia abajo.

También deberá evaluar si necesita o no un archivo de configuración de rastreo personalizado. Esto dependerá principalmente de si desea o no personalizar el contenido de su mapa del sitio. La mayoría de mis clientes necesitan esto. En algunos casos, es porque tenemos un índice de mapa del sitio y, por lo tanto, un archivo de configuración diferente para cada uno de los XML segmentados. En otros casos, hay algunas personalizaciones que quería incorporar.

Configurar un rastreo programado (Archivo > Programación) es simple: asígnele un nombre y establezca su frecuencia y tiempo. Recomiendo usar la descripción como un lugar para anotar la frecuencia. Esto es útil cuando tiene varios para configurar: la descripción aparece en la lista pero no la fecha/hora.

Se requiere ejecutar en modo sin cabeza para las exportaciones, así que asegúrese de marcar esa casilla. También querrá sobrescribir los archivos en la salida para que su nombre de archivo no cambie. Para que el proxy inverso funcione, necesita una ruta de archivo coherente. Y, por supuesto, guarde el rastreo y exporte el mapa del sitio XML.

Si está configurando un índice de mapa de sitio con mapas de sitio anidados dentro, deberá configurar rastreos individuales usando inclusiones y exclusiones para segmentarlos de la manera que desee.

Una última cosa a tener en cuenta con respecto a la configuración de rastreo: vaya a Configuración de exportación del mapa del sitio y elija su configuración allí antes de guardar el archivo de configuración de rastreo. Esto asegurará que el formato de exportación sea el que desea; de lo contrario, incluye cosas como la frecuencia de cambio y la prioridad de forma predeterminada.

Establecimiento de una ubicación central para almacenar archivos de salida de Screaming Frog

Para que el proxy inverso funcione, asegúrese de que su rastreo programado descargue los archivos en una ubicación específica y, como se mencionó anteriormente, active la opción 'sobrescribir archivos' en lugar de marcar la fecha de sus archivos. Esta ubicación del servidor también deberá ser accesible a través de la web. Por lo tanto, si la ruta de su archivo en el servidor es Z:\\nombre-cliente\sitemaps\sitemap.xml, también debería mostrarse en ejemplo.com/nombre-cliente/sitemaps/sitemap.xml.

Creación del proxy inverso

El proxy inverso es el conducto entre la creación del archivo Screaming Frog SEO Spider y su sitio web. No entraré en los detalles de un proxy inverso, muchas personas más calificadas han escrito sobre eso, pero esencialmente lo que está haciendo aquí es redirigir una solicitud de /sitemap.xml a una ubicación diferente para que la URL permanezca igual. , pero el contenido renderizado no proviene de la carpeta raíz del servidor, sino del archivo alternativo que está colocando con el rastreo.

Así es como se ve un proxy inverso en web.config: si necesita configurar sus proxies inversos en .htaccess, se verán un poco diferentes.

BONIFICACIÓN:
mientras lo hace, suelte un archivo robots.txt en la misma carpeta en la que está almacenando sus mapas de sitio y haga que también inviertan el proxy. Una casilla más marcada en la lista de misión-autonomía. No más esperar a que los desarrolladores suelten un nuevo archivo de robots.

Pruebas

Dado que está afectando el funcionamiento del sitio de producción, querrá hacer pruebas aquí.

Primero configuré el proxy inverso en un entorno de prueba, pero si no tiene acceso a eso, le recomiendo que lo sincronice con los desarrolladores para que pueda probar de inmediato y eliminarlos de inmediato si encuentra problemas. Siempre abro el archivo generado por SEO Spider y realizo un cambio menor, luego actualizo el mapa del sitio XML en el sitio.


Envolviendolo

En general, diría que este proyecto no toma más de 2 horas para configurarlo en un sitio nuevo, pero cuente más si tiene un índice de mapa del sitio.

Hemos estado ejecutando esto durante aproximadamente 2 años y ha aumentado la frecuencia con la que se actualizan nuestros XML, y casi eliminó el tiempo dedicado a crearlos. Dedico unos 15 minutos a revisarlos rápidamente el lunes por la mañana después de la actualización.

La inversión de tiempo que invertí en la construcción inicial valió la pena. Mi equipo ya no tiene que crearlos manualmente, lo que significa una tarea menos monótona y libera tiempo para que se centren en análisis más profundos y proyectos más gratificantes.