Scaricare interi siti web con wget

Wget è una software multi piattaforma per la gestione dei download da riga di comando. Wget aderisce al progetto GNU e supporta i protocolli HTTP, HTTPS e FTP.

wget help
Schermata di aiuto di Wget

Il funzionamento da riga di comando rende Wget un’utility molto versatile, utilizzabile anche in script, strumento potente anche su PC più datati. Eseguibile in background non richiede necessariamente la presenza dell’utente per svolgere le sue funzioni e portare a termine i suoi compiti.

Per scaricare un intero sito web, incluse tutte le pagine linkate, è sufficiente digitare da terminale il seguente comando:

wget -r -p -k http://www.sitodesiderato.it

L’argomento -r permette il download ricorsivo, cioè permette di scaricare non solo la pagina web indicata nell’URL ma tutte le pagine ad essa collegate (linkate)

L’argomento -p permette il download di tutti gli elementi necessari alla composizione della pagina, questo renderà possibile scaricare anche quegli elementi come ad esempio le immagini, che concorrono alla costruzione della pagina stessa. Senza questo argomento non sarebbe possibile visualizzare, in locale e senza connessione internet, l’intero contenuto della pagina.

L’argomento -k, invece, permette di convertire, al termine del download, tutti i link presenti sulle pagine con link relativi, in modo tale che questi puntino alle pagine scaricate e non alle pagine disponibili online. Come per l’argomento precedente, questo permette la navigazione nell’intero sito anche senza connessione internet, solamente tramite i file scaricati.

Ignorare il file robot.txt

Il software è impostato per rispettare i comandi presenti nel file robot.txt tuttavia, qualora si volesse ignorare questa impostazione (operazione generalmente sconsigliata) è sufficiente aggiungere l’argomento -erobots=off

Lascia un commento