eWorld Network ReSearch
Last update: 06/02/2004
by Alessandro Polo
Articolo sulla promozione di siti sui motori di ricerca
   
   
   
Premessa

Questo articolo vuole aiutare i webmaster che non hanno un budget per la promozione del loro sito.
Mi sembra chiaro che investendo denaro nella promozione queste informazioni (e consigli) divengono secondare e addirittura irrilevanti

 

   
   

 

 

Inviare il propio sito ai motori di Ricerca

Purtroppo non ci sono software gratuiti decenti, l'unico che ho personalmente trovato funzionale è Exploit Submission Wizard 8.0 Trial version anche se ha una pesante llimitazione sul numero di motori selezionabili per ogni invio.

Sul web ci sono alcuni siti che forniscono questo servizio online, solitamente tramite script in perl.
Questi sono i migliori:

http://www.promotionworld.com/cgi-bin/submit/submit.cgi
http://www.add-url-free.com/freesubmitter.htm
http://www.submitshop.com/freesubmit/freesubmit.html

L'alternativa è ovviamente aggiungere i motori manualmente... buona fortuna.

 

   
   

 

 

Robots.txt

Questo file va posizionato nella root del dominio (es. http://www.alessandropolo.namet/robots.txt), serve a negare l'autorizzazione di indicizzare alcune directory da parte dei Robots cioè il servizio interno dei motodi di ricerca che scandisce il web e i siti per aggiungerli nel proprio database.

Questo sistema viene classicamente usato per evitare di indicizzare cartelle come cgi-bin che potrebbero mettere a rischio la sicurezza del server.

La struttura del file è semplice e si deduce chiaramente dagli esempi che seguono.

Le righe che iniziano con "#" sono commenti.
Il tag "user-agent" identifica il nome del robots a cui viene applicato il tag seguente: Disallow, questo tag nega l'accesso alla directory che specificata.

Esempi

Tutto il dominio, per tutti i robots
# Robots.txt file from eWorld Network [http://www.ewgate.net]
#
# Tutto il dominio, per tutti i robots

User-agent: *
Disallow:

Scarica esempio robots1.txt
Il dominio non viene indicizzato da alcun robot

# Robots.txt file from eWorld Network [http://www.ewgate.net]
#
# Il dominio non viene indicizzato da alcun robot

User-agent: *
Disallow: /

Scarica esempio robots2.txt
Esclude cgi-bin dal tutti i robots
# Robots.txt file from eWorld Network [http://www.ewgate.net]
#
# Esclude cgi-bin dal tutti i robots

User-agent: *
Disallow: /cgi-bin/

Scarica esempio robots3.txt

Note:

      • Le due righe "User-agent:" e "Disallow:" non possono essere invertite. L'ordine è stabilito.
      • Una sola directory per riga. (esempio: NON Disallow: /css/ /cgi-bin/)
      • Non specificare ogni file, solo la directory.
      • il formato per specificare la directory è /nome_directory/
      • Non esiste Allow, ma solo Disallow.
      • Il formato del file di testo deve essere UNIX, quindi il terminatore di stringa non è quello di windows ma un'altro carattere (CR,CR/NL, or NL).
        Se non sapete di che si tratta scaricate i file esempio e modificate le singole stringhe senza aggiugere tabulazioni o invio.

 

   
   

 

 

META Tags

I Meta tag specificano una serie di informazioni riguardo al documento, sono posizionati all'interno dell' HEAD del documento HTML

<HTML>

<HEAD>

<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<META NAME="keywords" CONTENT="">
<META NAME="description" CONTENT="">
<META HTTP-EQUIV="Content-Language" CONTENT="EN,IT">
<META NAME="author" CONTENT="">
<META NAME="copyright" CONTENT="">
<META NAME="robots" CONTENT="all">


</HEAD>

<BODY>

Questo è un esempio.

</BODY>

</HTML>

I tag sono autoesplicativi, il consiglio è inseriteli in tutte le pagine e scegliete con cura le parole chiave e la descrizione.
Il titolo della pagina ha il peso (importanza) più significativo della pagina, quindi usare tutti i caratteri disponibili e sceglierlo accuratamente.

   
   

 

 

Commenti

I META tags sono stati creati appositamente per i motori di ricerca e quindi il loro uso è perfettamente lecito, vi sono comunque altri fattori meno 'sportivi' da considerare per incrementare la pripria visibilità. Gli spider indicizzano le pagine associando le stesse e i link contenuti a parole chiave con relativa importanza (peso).

Un ottimo sistema è inserire testo e parole chiave appositamente per i motori di ricerca e che non venga visualizzato dal visitatore (per design ovviamente). Il tag dello standard HTML che identifica i commenti è

<!-- Questo è un commento -->

Inoltre considerando il sistema di indicizzazione degli spider suggerisco di inserire nel commento molti links interni al sito (con indirizzo completo) oppure il dominio stesso.

   
   

 

 

Pagine Fantasma

Le Ghost Pages sono pagine create esclusivamente per i motori di ricerca, gli spider indicizzano le pagine create a doc per incrementare la visibilità. I visitatori del sito invece vengono reindirizzati tramite un semplice Javascript alle pagine corrette o al dominio di primo livello.

Le Pagine ghost sono un altro sistemo poco sportivo ma altrettanto usato (e abusato), attualmente i programmatori degli spider stanno cercando di eliminare questa possibilità. I siti scoperti dai controlli, ognimodo, vengono bannati. A voi la scelta.

Il comando Javascript che indirizza i visitatori alla pagina corretta (in questo caso al dominio di 1° livello) è il seguente.

<script language="JavaScript" type="text/javascript">

window.location='http://WWW.NOMESITO.COM'

</script>

Gli spider non eseguono Javascript quindi la pagina viene trattata come le altre, il contenuto viene creato appositamente inserendo testo, parole chiave e molti collegamenti al sito stesso.
Ecco un esempio reale:

Esempio di Ghost page
re mp3 another brick the wall mp3 musica pop michael jackson mp3 scarica mp3 mp3 testi testi canzoni canzoni disney mp3 musica classica canzoni sanremo musica house mp3 free pizzica mp3 musica anni 60 file mp3 salsa mp3 musica pubblicita simply red mp3 canzoni sting frasi canzoni mp3 free download alberto sordi mp3 another brick the wall mp3 scaricare mp3 mp3 canzoni testi canzoni giorgia musica dance syria mp3 canzoni scaricare scarica musica simply red mp3 canzoni bambini queen mp3 mp3 mp3 matia bazar mp3 canzoni cesare cremonini giorgia mp3 canzoni ligabue pizzica mp3
Scarica esempio ghost.txt

 

In questa piccola porzione tutti i link citati sono altre pagine ghost, nel resto della pagina sono ovviemente presenti anche molti links al dominio.

Per dovere di cronaca: la pagina è stata ....addirittura... creata con un software "HTML Doorway Blaster".

   
   

 

 

Bibliografia
e
Links Utili

 

Web Robots Database
Standard for Robot Exclusion
A Standard for Robot Exclusion
 
Guidelines For For Robot Writers
Source Code for Web Robot Spiders
Web Server Administrator's Guide to the Robots Exclusion Protocol
 
SearchEngineWorld robots.txt Syntax Checker
WebWatch Robots.txt Checker
 

 

 

   
   
 

All trademarks are property of their respective owners.
Any tools listed and available in zip package is free and was downloaded from the Internet.
You are authorized to copy, redistribute and print this paper, keeping Author's credits visible and without changing the document's content.
Author is not responsible for any consequences or damages related in any way to this material.

Last update: 06/02/2004

     
     
     
     
ReSearch Home open source 2003 | by Alessandro Polo eWorld Network