Come trovare pagine nascoste su siti Web

Nel 2016, Google ha gestito oltre 3200 miliardi di query di ricerca, tuttavia i risultati forniti dal motore di ricerca rappresentavano solo una frazione del contenuto disponibile online. Molte delle informazioni disponibili online non sono accessibili attraverso i motori di ricerca, quindi è necessario utilizzare strumenti speciali o ricercare siti Web per trovare queste pagine nascoste. Conosciuta come il deep web, questa informazione nascosta rappresenta fino a 5.000 volte di più di quella disponibile utilizzando le tipiche tecniche di ricerca.

Tipi di contenuti nascosti

Le pagine nascoste dei siti Web sono divise in categorie che descrivono il motivo per cui rimangono invisibili ai motori di ricerca.

Alcuni costituiscono contenuti dinamici, che vengono presentati solo quando un visitatore invia una richiesta specifica su un sito Web che utilizza un codice basato su un database per presentare risultati specifici. Ad esempio, queste pagine potrebbero includere risultati di acquisto basati su specifiche combinazioni di criteri di prodotto. I motori di ricerca non sono progettati per tracciare e archiviare informazioni in questi database. Per trovare queste pagine, devi visitare il sito Web e cercare le informazioni specifiche che stai cercando, oppure utilizzare un servizio di ricerca orientato al database come Bright Planet .

Alcune pagine non hanno collegamenti che li collegano alle fonti di ricerca. Le risorse temporanee, come le versioni multiple dei siti Web sottosviluppo, possono essere incluse in questa categoria, così come i siti Web mal progettati. Ad esempio, se qualcuno ha creato una pagina Web e l'ha caricata sul server del sito Web ma non ha aggiunto un collegamento ad essa nelle pagine correnti del sito Web, nessuno saprebbe che è lì, compresi i motori di ricerca.

Ancora più pagine richiedono credenziali di accesso per visualizzare o accedere, come i siti di abbonamento. I web designer designano le pagine e le sezioni dei siti come al di fuori dei limiti dei motori di ricerca, eliminando efficacemente la loro localizzazione con mezzi convenzionali. Per accedere a queste pagine, di solito è necessario creare un account prima di avere il permesso di accedervi.

Utilizzo dei file robots.txt

I motori di ricerca eseguono la scansione delle pagine di un sito Web e indicizzano il loro contenuto in modo che possa essere visualizzato in risposta alle query. Quando il proprietario di un sito Web desidera escludere alcune parti del proprio dominio da queste procedure di indicizzazione, aggiunge gli indirizzi di tali directory o pagine a un file di testo speciale denominato robots.txt, archiviato nella radice del proprio sito. Poiché la maggior parte dei siti Web include un file robot indipendentemente dal fatto che aggiungano o meno esclusioni, è possibile utilizzare il nome prevedibile del documento per visualizzarne il contenuto.

Se digiti "[nome dominio] /robots.txt" senza le virgolette nella barra degli indirizzi del browser sostituendo "[nome dominio]" per l'indirizzo del sito, il contenuto del file del robot verrà spesso visualizzato in la finestra del browser dopo aver premuto il tasto "Invio". Le voci precedute da "disallow" o "nofollow" rappresentano parti del sito che rimangono inaccessibili attraverso un motore di ricerca.

Fai da te: hackerare siti web

Oltre ai file robot.txt, puoi spesso trovare contenuti nascosti digitando indirizzi Web per pagine e cartelle specifiche nel tuo browser web. Ad esempio, se guardi il sito web di un artista e noti che ogni pagina utilizzava la stessa convenzione di denominazione, ad esempio gallery1.html, gallery2.html, gallery4.html, puoi trovare una galleria nascosta digitando la pagina "gallery3.html "nel tuo browser web.

Allo stesso modo, se vedi che il sito web utilizza le cartelle per organizzare le pagine - ad esempio / content / page1.html, con "/ content" come sua cartella - allora potresti essere in grado di vedere la cartella stessa digitando il sito web e il cartella, senza una pagina, come "example.com/content/" nel browser web. Se l'accesso alla cartella non è stato disabilitato, potresti essere in grado di navigare tra le pagine in esso contenute, nonché attraverso le pagine di qualsiasi sottocartella per trovare contenuti nascosti.

Questo articolo è stato realizzato con l'aiuto di itstillworks.com