Questo sito contribuisce alla audience di Il Messaggero

Come clonare un sito

di

Hai scoperto da qualche tempo un sito Web ricco di contenuti di tuo interesse ma, terrorizzato dall’idea che questo possa sparire da un momento all’altro, vorresti “conservarne” una copia sul computer? Se questo è il tuo caso, allora sei capitato proprio nel posto giusto al momento giusto: nel corso di questa guida, infatti, ti spiegherò come clonare un sito mediante una serie di programmi appositamente creati per lo scopo.

Tengo però a chiarire, fin da subito, un aspetto fondamentale della questione: una volta effettuato il download del sito Web, la copia “locale” ottenuta resterà sempre uguale, anche se il computer è connesso a Internet. Ciò significa, all’atto pratico, che eventuali aggiornamenti effettuati dal legittimo proprietario del sito Web non verranno “riflessi” nella copia locale presente sul computer: per far sì che ciò accada, sarà necessario avviare un nuovo download.

Ad ogni modo, effettuare il download di un sito Web non è difficile ma, come scoprirai tra breve, è necessario applicare delle impostazioni ben precise, onde evitare di ritrovarsi con risultati tutt’altro che soddisfacenti. Dunque, se ti interessa approfondire il discorso, continua pure con la lettura di questa guida: sono sicuro che, nel giro di qualche minuto, avrai ben chiari tutti quelli che sono i dettagli riguardanti la questione. Buona lettura e in bocca al lupo per tutto!

Indice

Informazioni preliminari

Come clonare un sito

Prima di entrare nel vivo di questa guida, ritengo doveroso darti alcune delucidazioni in merito all’operazione che ti appresti a eseguire.

In primo luogo, devi sapere che un sito Web, generalmente, è composto da più pagine Web, ciascuna delle quali contiene numerosi elementi: testo semplice, immagini, contenuti multimediali di vario tipo, e collegamenti più o meno diretti a risorse esterne, quali fogli di stile CSS (per la corretta impaginazione), script e numerose altre categorie di risorse Web. Tutti i contenuti di una pagina Web, inclusi gli eventuali collegamenti a risorse esterne, sono inclusi nel suo codice sorgente.

L’operazione di download di un intero sito prevede che, in prima istanza, venga eseguita una fase di crawl sulla relativa home page: ciò significa che il software scarica la pagina iniziale, ne analizza il sorgente e provvede a scaricare tutti gli elementi presenti al suo interno (altre pagine a cui essa è collegata, componenti multimediali, script e così via). Questa operazione viene ripetuta, in modo ricorsivo, su tutte le pagine del sito in analisi e sugli elementi a cui esse puntano.

Idealmente, è come seguire la struttura di un albero, a partire dall’apice: la punta dello stesso è la home page (primo livello) che, mediante rami “diretti”, punta alle sotto-pagine per le quali sono presenti collegamenti ipertestuali, (secondo livello); queste pagine, a loro volta, sono collegate ad altre pagine, altri collegamenti ipertestuali e altri contenuti (terzo livello), e così via.

Per impostazione predefinita, i programmi dedicati al download dei siti Web tentano di scaricare tutti i collegamenti presenti nelle pagine analizzate e ciò, nella maggior parte dei casi, significa due cose.

  • Effettuare il download completo di un sito Web di grossa portata è quasi impensabile, vista l’enorme quantità di dati da scaricare sul computer. Per esempio, non tentare di scaricare tutte le pagine di Wikipedia o di portali simili: rischieresti di non portarne a termine il download neanche a distanza di mesi!
  • Affinché un sito Web scaricato sia coerente e fruibile, è assolutamente necessario limitare il crawler all’analisi dei link di terzo o, al massimo, di quarto livello, a partire dalla home page. Idealmente, sarebbe inoltre opportuno impostare un limite per la dimensione dei file scaricati, in modo da evitare il download di file multimediali che potrebbero, anche inutilmente, saturare la memoria del computer.

Infine, ricorda che, a meno di non usare un ambiente di staging, la resa di un sito Web scaricato in locale difficilmente si avvicina alla resa ottenibile, invece, navigando sul sito nel modo “classico” (ossia mediante il suo indirizzo legittimo): ciò succede perché, molto spesso, alcuni elementi necessari alla corretta visualizzazione (database, applicazioni Web lato server, script esterni e così via) non sono disponibili al download, in quanto accessibili soltanto dall’interno del server Web che ospita il sito.

Come clonare un sito Web

Come dici? Hai compreso appieno quanto ti ho spiegato poc’anzi e, con le dovute precauzioni, sei pronto a clonare un sito del quale ti interessa avere una copia locale? In tal caso, puoi affidarti a uno dei software che mi accingo a presentarti di seguito.

HTTrack (Windows)

Come clonare un sito Web

HTTrack è un programma gratuito e open source, disponibile per Windows, macOS e Linux, che consente di prelevare l’intero contenuto di un sito Internet e di salvarlo in una cartella del PC a propria scelta.

Sebbene il programma sia disponibile per tutte e tre le piattaforme desktop maggiori, esso dispone di interfaccia grafica pronta all’uso soltanto per Windows: in merito a ciò, per semplicità, mi limiterò a parlarti di quest’ultimo sistema operativo.

Dunque, per scaricare HTTrack per Windows, collegati a questo sito Web, clicca sulla scheda Download e poi sul link httrack_x64-x.y.z.exe, se utilizzi Windows a 64 bit, oppure su httrack-x.y.exe, se usi invece Windows a 32 bit, in modo da avviare il download del pacchetto d’installazione del programma.

Una volta ottenuto il file (ad es. httrack_x64-3.49.2.exe), eseguilo e clicca sui pulsanti Next, apponi poi il segno di spunta accanto alla voce I accept the agreement, clicca sul pulsante Next per altre 4 volte consecutive e poi sul bottone Install. Per uscire dal setup e avviare il programma, rimuovi il segno di spunta dalla casella accanto alla voce View history.txt file e clicca sul pulsante Finish.

Una volta avviato il programma, seleziona la tua lingua (presumibilmente l’italiano) dal menu a tendina Language preference, clicca sul pulsante OK e, successivamente, chiudi il programma e avvialo nuovamente, mediante l’icona aggiunta al menu Start, per applicare le nuove impostazioni sulla lingua.

Giunto alla schermata iniziale del programma, clicca sul pulsante Avanti, per avviare un nuovo progetto, specifica il nome e la categoria del progetto negli appositi campi e seleziona la cartella in cui salvare il tutto, pigiando sul pulsante […] situato accanto alla casella Il percorso base.

Come clonare un sito Web

Quando hai finito, clicca sul pulsante Avanti, imposta il menu a tendina Azione su Scarica il sito (i) web e specifica l’indirizzo Web della homepage del sito (ad es. aranzulla.it) nella casella di testo subito sottostante.

Fatto ciò, clicca sul pulsante Definisci le opzioni…, portati nella scheda Limiti e, avvalendoti delle caselle e dei campi di testo disponibili, specifica la massima profondità dei link interni (ad es. 3), quella dei link esterni (ad es. 3), la dimensione massima dei file HTML, degli altri tipi di file e dell’intero sito (in bytes). La scheda Filtri, invece, consente di escludere o includere nel download precise tipologie di file.

Fatte le opportune regolazioni, clicca sul pulsante OK e premi sui pulsanti AvantiFine, per avviare il download del sito Web, che potrebbe durare anche diverse ore: tutto dipende dalla quantità e dal peso dei file che compongono il sito. A download ultimato, non devi fare altro che premere il pulsante Visualizza il Web per avviare la navigazione all’interno del sito scaricato. Facile, no?

SiteSucker (macOS)

Come clonare un sito Web

Se utilizzi un Mac, ti consiglio di rivolgerti invece a SiteSucker: un programma che, avvalendosi di un’interfaccia di semplice utilizzo, permette di effettuare il download di un’intero sito Web, con la possibilità di personalizzare le opzioni di analisi. SiteSucker è disponibile sul Mac App Store e costa 5,49€.

Dopo aver acquistato, installato e avviato il programma, clicca innanzitutto sul pulsante Impostazioni, per applicare le opportune restrizioni da usare in fase di crawling. Recati dunque nella scheda Limitazione e apponi il segno di spunta accanto alle opzioni di limitazione che intendi utilizzare: personalmente, ti consiglio di limitare il Numero massimo di livelli (tra 3 e 4), il Numero massimo di file (400 o meno) e Dimensione massima dei file.

Quando hai finito, clicca sulla scheda Tipo di file, imposta il menu a tendina posto in cima su Non consentire tipi di file specificati e apponi il segno di spunta accanto ai tipi di file da escludere dal download (se vuoi definirne di nuovi, utilizza la scheda Modelli personalizzati. Per salvare le impostazioni applicate, clicca prima sul pulsante Salva come predefinite utente e poi su OK.

Come clonare un sito Web

Una volta tornato alla schermata principale del programma, utilizza il pulsante Cartella, per specificare la directory in cui effettuare il download dei file del sito (se non ti interessa usare quella predefinita), indica l’indirizzo della home page del sito di tuo interesse all’interno del campo di testo URL e, per iniziare subito a scaricare il sito, clicca sul pulsante Inizia download.

Una volta concluso il download del sito, non ti resta che premere il pulsante File, per aprire la home page del sito scaricato in locale.

Nota: se non desideri acquistare SiteSucker, puoi scaricare una delle versioni più vecchie del software, liberamente disponibili sul sito Web del programma. Il funzionamento, seppur con più limitato, è simile a quanto visto poc’anzi.

Altri programmi per copiare un sito Web

Come copiare un sito web

Se ritieni che le soluzioni mostrate in precedenza non facciano al tuo caso, puoi valutare l’impiego di alcuni altri programmi per copiare un sito Web, altrettanto efficaci. Di seguito te ne elenco alcuni.

  • Cyotek WebCopy (Windows) – si tratta di un software, in lingua inglese, che consente di scaricare un sito Web o parte di esso applicando, al bisogno, regole restrittive per i contenuti. È gratuito.
  • Website Ripper Copier (Windows) – è un programma dotato di un’interfaccia non molto curata, ma dotata di tutte le funzioni necessarie per effettuare egregiamente il proprio lavoro. È gratuito per i primi 30 giorni d’utilizzo, trascorsi i quali è necessario acquistare una licenza (attualmente costa 44,64€+IVA).
  • wget (macOS/Linux) – è un’utility di download integrata nei sistemi operativi Windows e macOS che, opportunamente configurata, consente di scaricare interi siti Web. Funziona da Terminale.

Come copiare un sito Web e modificarlo

Come copiare un sito Web e modificarlo

Hai realizzato il tuo primo sito Web e lo hai pubblicato online e, adesso, vorresti copiarlo in un altro posto e modificarlo, in modo da poter provare le migliorie da te apportate in un ambiente sicuro, tenendo dunque al sicuro il sito “ufficiale” da modifiche che potrebbero distruggerlo?

In tal caso, può tornarti utile una piattaforma di staging: se non ne avessi mai sentito parlare, si tratta di una funzione offerta da un gran numero di piattaforme di hosting, che consente di copiare “al volo” il proprio sito Web, nel giro di un paio di clic, su una piattaforma separata, mediante la quale modificare il sito in tutta sicurezza.

Una piattaforma che consente di creare e configurare facilmente un ambiente di staging è Aruba: ti ho parlato di questa possibilità, nel dettaglio, nella mia guida all’hosting WordPress di Aruba.

Salvatore Aranzulla

Autore

Salvatore Aranzulla

Salvatore Aranzulla è il blogger e divulgatore informatico più letto in Italia. Noto per aver scoperto delle vulnerabilità nei siti di Google e Microsoft. Collabora con riviste di informatica e cura la rubrica tecnologica del quotidiano Il Messaggero. È il fondatore di Aranzulla.it, uno dei trenta siti più visitati d'Italia, nel quale risponde con semplicità a migliaia di dubbi di tipo informatico. Ha pubblicato per Mondadori e Mondadori Informatica.