Cara menggunakan robots.txt khusus diblog

Apa itu robots.txt?
Adalah perintah dari robot mesin pencari untuk menelusuri atau tidaknya halaman pada blog kita, bisa dikatakan robots.txt itu seperti filter blog untuk mesin pencari. berikut cara menggunakan robots.txt khusus diblog.


Masuk ke Setelan lalu Prefrensi Penelusuran dan klik Edit pada robots.txt khusus
gambar cara menggunakan robots.txt khusus diblog - fristian artikel

Seseorang bertanya tentang hasil dalam mesin pencari yang hasilnya tidak menunjukan deskripsi dan "Chaced" linknyapun juga hilang, itu terjadi disebabkan karena halaman tidak dirayapi mesin pencari. Jika seperti itu file Robots.txt lah yang digunakan, karena dapat membantu menunjukan kepada browser.
Isikan kode dibawah ini, lalu klik Simpan Perubahan
gambar cara menggunakan robots.txt khusus diblog - fristian artikel 2

User-agent: Mediapartners-Google
Disallow:
User-agent:*
Disallow: /search
Allow: /
Sitemap: http://alamat-blog/feeds/posts/default?orderby=updated

Arti dari kode diatas adalah :

User-agent: Mediapartners-Google
(Mediapartner-Google adalah Robot Google Adsense) dan artinya Robot Google Adsense diperbolehkan untuk dapat merayapi blog

Disallow: 
Untuk Disallow kosongkan saja. Ini artinya yang tidak diperbolehkan untuk perayapan itu tidak ada

User-agent:*
Untuk semua robot Search Engine mesin pencari

Disallow: /search
Tidak diperbolehkan merayapi folder search dan seterusnya, seperti
.../search/label dan ...search/search?update...

Allow: /
Memperbolehkan semua halaman untuk dirayapi oleh mesin pencari, kecuali yang tertulis pada Disallow. Tanda / itu seperti nama blog atau halaman yang tidak ingin anda rayapi di mesin telusur.

Sitmap: http:// alamat-blog/feeds/post/default?orderby=updated
Ini alamat feed sitemap blog kita, memberitahu ke mesin telusur bahwa mesin dapat merayapi di setiap update suatu blog.

Kenapa label tidak dimasukan kedalam pencarian? karena dengan penulisan kode default Disallow: /search itu artinya untuk label seperti alamat http://namablog/search/label/tutorial nantinya label/tutorial/... tidak akan dirayapi oleh mesin pencari karena label bukanlah URL yang real untuk menuju satu alamat halaman tertentu.

Bagaimana mencegah perayapan robot untuk suatu halaman? contoh kita tidak ingin mesin untuk menelusuri halaman http://namablog/p/about.html. Maka penulisan kode sama seperti diatas, namun dibawah Dissalow: /search ditambah kode untuk mencegah penelusuran yaitu kode Disallow: /p/about.html

Bila tidak pernah atau tidak ingin menggunakan robots.txt khusus ini, tidak apa-apa, karena blog sudah otomatis memberi kode robots.txt secara default untuk perayapan mesin pencari.
Cara melihatnya masuk ke Google Webmasters  lalu Sign in to Webmaster Tools
Pilih Blog/Web anda
Klik Perayapan > Penguji Robots.txt
Maka disebelah kanan akan tampil kode default robots.txt anda, seperti ini:

User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitmap: http://alamat-situs.com/sitemap.xml

Byasanya untuk CMS (content management system) seperti Wordpress, Joomla, Mambo, Drupal, AuraCMS, dll memiliki default yang berbeda

Dibawah ini sedikit pengertian tentang penggunaan robots.txt

Disallow: Itu berariti tidak memperbolehkan perayapan tidak ada
Disallow: / Tidak memperbolehkan perayapan
Seluruh Situs
Disallow: /simple-directory/Tidak memperbolehkan perayapan
Direktori dan Kontennya yang mengikuti
nama direktori dengan garis miring kedepan
Disallow: /private_file.htmlTidak memperbolehkan perayapan
Laman Web http://.../private_file.html
User-agent: Googlebot-Image
Disallow: /image/gambar1.jpg
Tidak memperbolehkan perayapan
untuk Gambar1.jpg dari google gambar
User-agent: Googlebot-Image
Disallow: /
Tidak memperbolehkan perayapan
untuk semua gambar dari google gambar
User-agent: Googlebot
Disallow: /*.gif$
Tidak memperbolehkan perayapan
semua File yang berjenis .gif
User-agent: *
Disallow: /
User-agent: Mediapartners-Google
Allow: /
Tidak memperbolehkan perayapan
untuk semua laman dirayapi perayap web lain
hanya boleh dirayapi perayap Mediapartners-Google
dan tetap dapat menganalisa untuk menampilkan
iklan yang tepat kepada pengunjung di situs anda
User-agent: Googlebot
Disallow: /private*/
Tidak memperbolehkan perayapan
untuk semua subdirektori yang diawali dengan kata
"private". Untuk memblokir karakter apapun
gunakan tanda (*)
contoh
http://.../private/belajar-seo-1/...
http://.../private/belajar-seo-2/contoh2/...
dimulai dari kata private dan kata
belajar-seo-1 dan seterusnya
belajar-seo-2 dan seterusnya
tidak akan dirayapi
User-agent: Googlebot
Disallow: /*?
Tidak memperbolehkan perayapan
untuk akses ke semua URLs that include question
marks (?)
User-agent: Googlebot
Disallow: /*.xls$
Tidak memperbolehkan perayapan
semua URL yang diakhiri dengan .xls
Untuk memblokir URL apapun yang diakhiri dengan
cara tertentu gunakan tanda ($)
User-agent: *
Allow: /*?$
Disallow: /*?
Allow: /*?$
Memperbolehkan perayapan
untuk URL yang dimulai dengan nama domain, diikuti
string, diikuti ? dan tanpa karakter yang mengikuti
contoh
Allow: /*/belajar-seo1/gambar$
Memperbolehkan perayapan
semua URL yang dimulai dengan nama domain
yang diikiti nama "belajar-seo1" dan hanya
yang diikuti nama "gambar" saja

Disallow: /*?
Tidak memperbolehkan perayapan
untuk semua URL yang dimulai dengan
nama domain,
diikuti string, diikuti tanda ? dan diikuti string
contoh
Disallow: /*/belajar-seo2/gambar
Tidak memperbolehkan perayapan
untuk semua URL yang dimulai dengan
nama domain
yang diikuti nama "belajar-seo2"
yang diikuti nama "gambar" dan seterusnya
--

Ingat bahwa perintah sangat peka dengan huruf Besar dan Kecil
contoh, bila menulis Disallow: /private_file.html maka http://www.contoh.com/private_file.html tidak akan dirayapi, namun akan merayapi http://www.contoh.com/Private_file.html

Hati-hati untuk menggunakan metode penulisan robots.txt ini, karena bila salah kemungkinan halaman atau konten anda bernilai manis yang seharusnya terindeks justru malah diabaikan oleh mesin pencari.

Baca juga
Cara menggunakan Tag tajuk robot khusus (Custom robots headers tags)