Come estrarre gli URL dalle Sitemaps

Cos’è una mappa del sito?

Una sitemap è una lista di informazioni su tutte le pagine, video, immagini e altri file di un sito web. Queste informazioni sono usate dai web crawler e dai motori di ricerca per capire la struttura di un sito web e la relazione tra i file e le pagine su di esso.

Ci sono due tipi principali di sitemaps – HTML sitemaps e XML sitemaps.

Le sitemaps XML sono destinate principalmente ai motori di ricerca e ai loro bot e web crawler per dare loro una migliore visione d’insieme della struttura del tuo sito web. Questo permette ai crawler di accedere facilmente a tutte le pagine del tuo sito web e a tutte le informazioni rilevanti su di esso. Questo è tipicamente l’URL della pagina, la data dell’ultimo aggiornamento e qualsiasi variante di lingua della pagina. Conoscendo la struttura del tuo sito web, permette ai motori di ricerca di scansionare il tuo sito in modo intelligente e si assicura che tutte le pagine del tuo sito web siano nel loro indice di ricerca.

Le sitemap HTML sono normalmente fatte in un formato e una struttura facili da leggere e sono usate per aiutare gli utenti a trovare quello che stanno cercando. Una sitemap HTML non ha bisogno di includere tutti i tuoi URL/pagine e dovrebbe essere fatta per aiutare un utente a trovare quello che sta cercando, se si perde sul tuo sito web. Molti creano un modello HTML per aiutare l’utente a trovare le pagine più importanti del loro sito web.

Cos’è una mappa del sito XML?

Il protocollo Sitemaps è stato introdotto da Google, ma è supportato dalla maggior parte dei motori di ricerca come Bing, Yahoo e Ask. In una sitemap XML è possibile aggiungere informazioni extra a un URL, che aiutano i crawler a ottimizzare il modo in cui attraversano il vostro sito web.

Questo normalmente include l’ora e la data dell’ultima volta che la pagina è stata modificata, ma potrebbe anche includere informazioni aggiuntive come la frequenza di cambiamento e la priorità relativa di una pagina rispetto ad altre.

Questi fattori aiutano i motori di ricerca a stabilire la priorità delle pagine da scansionare e la frequenza con cui devono scansionarle di nuovo. Se avete pagine sul vostro sito web che sono importanti e cambiano frequentemente, questi attributi possono essere utilizzati per garantire che Google le scansioni più spesso, in modo che la versione più recente sia rappresentata nel loro indice.

Avere una sitemap XML e presentarla ai principali motori di ricerca è ottimo per il SEO e una best practice comune tra i marketer. Avere una sitemap – e presentarla a Google – è una pratica che può solo beneficiare il tuo sito e mai qualcosa per cui sarai penalizzato (Confermato da Google).

Se usate molte immagini e video, potete creare e presentare sitemap specifiche anche per questi. Questo può aiutare a migliorare la visibilità nelle ricerche di immagini e video, aprendo anche la possibilità di presentare ulteriori informazioni su questi file rispetto a quanto si può fare con le pagine. Una sitemap video può includere il tempo di esecuzione del video, la categoria e la valutazione dell’adeguatezza dell’età, mentre una sitemap immagini può includere l’argomento, il tipo e la licenza.

Ho bisogno di una Sitemap XML?

Se tutte le tue pagine sono collegate correttamente, i crawler dei motori di ricerca saranno solitamente in grado di scoprire tutte le tue pagine senza una sitemap. Ma aggiungendo informazioni aggiuntive in una sitemap aiutate i loro crawler ad aumentare la loro efficienza e quindi li aiutate a scoprire i cambiamenti più velocemente di quanto farebbero altrimenti. I crawler dei motori di ricerca non scansionano ogni singola pagina del tuo sito web ogni volta che lo visitano. Se non fornisci informazioni su quali sono le pagine più importanti da scansionare, spesso ci vorrà del tempo prima che i cambiamenti vengano scoperti.

Mentre tutti i siti web dovrebbero avere una sitemap, i siti che soddisfano uno di questi 4 criteri vedranno miglioramenti significativi:

Siti web che sono davvero grandi

Ogni sito web ha un budget di crawl limitato e con siti web molto grandi questo significa che può passare molto tempo prima che il crawler arrivi agli URL appena aggiornati o creati. Fornendo una data di ultima modifica in una sitemap, puoi assicurarti che i crawler non trascurino le pagine appena aggiornate. Se la tua sitemap è più grande di 50MB o ha più di 50.000 URL, Google non la accetterà. Se questo è il caso dovrai dividere la tua sitemap in più sitemap e caricarle individualmente. In alternativa puoi fare un file indice della sitemap con i link alle singole sitemap.

Il tuo sito web ha molte pagine che sono isolate o non ben collegate

Se hai parti del tuo sito web che non sono collegate correttamente sul tuo sito, allora c’è la possibilità che i motori di ricerca trascurino queste pagine e non le inseriscano nel loro indice. Questo può essere il caso se hai vecchi archivi di contenuti o pagine orfane sul tuo sito web.

Il tuo sito è nuovo e/o ha pochi backlink esterni

I crawler dei motori di ricerca scoprono i contenuti su internet seguendo i link da una pagina all’altra. Se il tuo sito ha pochi backlink esterni da altri siti web, il tuo sito potrebbe non essere scoperto dai motori di ricerca.

4 modi per estrarre gli URL dalle Sitemaps

1) Estrarre gli URL da XML Sitemaps online in Google Sheets

Ho trovato un semplice script estrattore di sitemap che estrarrà l’elenco degli URL dalla Sitemap in Google Sheets in meno di 5 secondi, piuttosto impressionante, vero? Fate una prova.

  1. Fatene una copia
  2. Aggiungi l’URL della mappa del sito nella cella B2
  3. L’elenco degli URL apparirà automaticamente nella colonna D
  4. Fatto! Hai appena convertito la tua mappa del sito in un elenco di URL.
import_sitemap_urls_google_sheets

2) Estrarre gli URL dalle sitemap XML con Screaming Frog

Per questo secondo metodo è necessario installare il software SEO Screaming Frog per convertire qualsiasi sitemap xml in una lista di url. Questo metodo funziona abbastanza bene anche per i file di indice delle sitemap che sono quelli che contengono la lista delle sotto-sitemaps.

Ecco i passi:

  1. Aprire Screaming Frog SEO Spider Tool
  2. Modalità>Seleziona elenco
  3. Carica>Scarica Sitemap>Aggiungi URL Sitemap xml
  4. Fatto!
Import_sitemap_urls_screaming_frog

3) Estrarre gli URL da XML Sitemaps con strumenti a linea di comando

  1. Apri il tuo terminale
  2. Inserisci questo comando (ricorda di sostituire l’URL della mappa del sito)-> curl -s
    3.Fatto!
Extract URLs from sitemap

4. Utilizzo di strumenti online

Ecco una lista di alcuni strumenti che puoi usare per estrarre gli URL dalla mappa del sito semplicemente inserendo il link della mappa del sito

  1. Convertcsv
  2. Rob hammond

Controlla anche le nostre fantastiche guide

Di seguito è riportato l’elenco delle nostre guide dettagliate più apprezzate dai professionisti del marketing e dai proprietari di negozi di e-commerce per far crescere la loro attività. Da non perdere per verificarli

Spero che lo troviate utile.

Naman Rastogi

Un marketer nel cuore che sa come sfruttare la tecnologia per raggiungere il suo pubblico di riferimento e la crescita di hacking la sua strada verso migliaia di clienti. La mia specializzazione principale è in ricerche di mercato e pianificazione, costruzione del marchio, marketing di crescita, marketing di ritenzione, Lead Nurturing, vendite digitali e partnership. Quando non si affanna a trovare nuovi modi per condividere la conoscenza intorno al marketing, può essere trovato a godersi una partita di ping pong, CSGO, FIFA o Taken

Your email address will not be published. Required fields are marked *

div#stuning-header .dfd-stuning-header-bg-container {background-image: url(https://it.cmsmarketer.com/wp-content/uploads/2021/04/global-strategy-min.jpg);background-size: initial;background-position: top center;background-attachment: initial;background-repeat: initial;}#stuning-header div.page-title-inner {min-height: 360px;}#main-content .dfd-content-wrap {margin: 0px;} #main-content .dfd-content-wrap > article {padding: 0px;}@media only screen and (min-width: 1101px) {#layout.dfd-portfolio-loop > .row.full-width > .blog-section.no-sidebars,#layout.dfd-gallery-loop > .row.full-width > .blog-section.no-sidebars {padding: 0 0px;}#layout.dfd-portfolio-loop > .row.full-width > .blog-section.no-sidebars > #main-content > .dfd-content-wrap:first-child,#layout.dfd-gallery-loop > .row.full-width > .blog-section.no-sidebars > #main-content > .dfd-content-wrap:first-child {border-top: 0px solid transparent; border-bottom: 0px solid transparent;}#layout.dfd-portfolio-loop > .row.full-width #right-sidebar,#layout.dfd-gallery-loop > .row.full-width #right-sidebar {padding-top: 0px;padding-bottom: 0px;}#layout.dfd-portfolio-loop > .row.full-width > .blog-section.no-sidebars .sort-panel,#layout.dfd-gallery-loop > .row.full-width > .blog-section.no-sidebars .sort-panel {margin-left: -0px;margin-right: -0px;}}#layout .dfd-content-wrap.layout-side-image,#layout > .row.full-width .dfd-content-wrap.layout-side-image {margin-left: 0;margin-right: 0;}