Cara menggunakan robots.txt khusus diblog
Apa itu robots.txt?
Adalah perintah dari robot mesin pencari untuk menelusuri atau tidaknya halaman pada blog kita, bisa dikatakan robots.txt itu seperti filter blog untuk mesin pencari. berikut cara menggunakan robots.txt khusus diblog.
Masuk ke Setelan lalu Prefrensi Penelusuran dan klik Edit pada robots.txt khusus
Isikan kode dibawah ini, lalu klik Simpan Perubahan
User-agent: Mediapartners-Google
Disallow:
User-agent:*
Disallow: /search
Allow: /
Sitemap: http://alamat-blog/feeds/posts/default?orderby=updated
Arti dari kode diatas adalah :
User-agent: Mediapartners-Google
(Mediapartner-Google adalah Robot Google Adsense) dan artinya Robot Google Adsense diperbolehkan untuk dapat merayapi blog
Disallow:
Untuk Disallow kosongkan saja. Ini artinya yang tidak diperbolehkan untuk perayapan itu tidak ada
User-agent:*
Untuk semua robot Search Engine mesin pencari
Disallow: /search
Tidak diperbolehkan merayapi folder search dan seterusnya, seperti
.../search/label dan ...search/search?update...
Allow: /
Memperbolehkan semua halaman untuk dirayapi oleh mesin pencari, kecuali yang tertulis pada Disallow. Tanda / itu seperti nama blog atau halaman yang tidak ingin anda rayapi di mesin telusur.
Sitmap: http:// alamat-blog/feeds/post/default?orderby=updated
Ini alamat feed sitemap blog kita, memberitahu ke mesin telusur bahwa mesin dapat merayapi di setiap update suatu blog.
Kenapa label tidak dimasukan kedalam pencarian? karena dengan penulisan kode default Disallow: /search itu artinya untuk label seperti alamat http://namablog/search/label/tutorial nantinya label/tutorial/... tidak akan dirayapi oleh mesin pencari karena label bukanlah URL yang real untuk menuju satu alamat halaman tertentu.
Bagaimana mencegah perayapan robot untuk suatu halaman? contoh kita tidak ingin mesin untuk menelusuri halaman http://namablog/p/about.html. Maka penulisan kode sama seperti diatas, namun dibawah Dissalow: /search ditambah kode untuk mencegah penelusuran yaitu kode Disallow: /p/about.html
Bila tidak pernah atau tidak ingin menggunakan robots.txt khusus ini, tidak apa-apa, karena blog sudah otomatis memberi kode robots.txt secara default untuk perayapan mesin pencari.
Cara melihatnya masuk ke Google Webmasters lalu Sign in to Webmaster Tools
Pilih Blog/Web anda
Klik Perayapan > Penguji Robots.txt
Maka disebelah kanan akan tampil kode default robots.txt anda, seperti ini:
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitmap: http://alamat-situs.com/sitemap.xml
Byasanya untuk CMS (content management system) seperti Wordpress, Joomla, Mambo, Drupal, AuraCMS, dll memiliki default yang berbeda
Dibawah ini sedikit pengertian tentang penggunaan robots.txt
Disallow: | Itu berariti tidak memperbolehkan perayapan tidak ada |
Disallow: / | Tidak memperbolehkan perayapan Seluruh Situs |
Disallow: /simple-directory/ | Tidak memperbolehkan perayapan Direktori dan Kontennya yang mengikuti nama direktori dengan garis miring kedepan |
Disallow: /private_file.html | Tidak memperbolehkan perayapan Laman Web http://.../private_file.html |
User-agent: Googlebot-Image Disallow: /image/gambar1.jpg | Tidak memperbolehkan perayapan untuk Gambar1.jpg dari google gambar |
User-agent: Googlebot-Image Disallow: / | Tidak memperbolehkan perayapan untuk semua gambar dari google gambar |
User-agent: Googlebot Disallow: /*.gif$ | Tidak memperbolehkan perayapan semua File yang berjenis .gif |
User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: / | Tidak memperbolehkan perayapan untuk semua laman dirayapi perayap web lain hanya boleh dirayapi perayap Mediapartners-Google dan tetap dapat menganalisa untuk menampilkan iklan yang tepat kepada pengunjung di situs anda |
User-agent: Googlebot Disallow: /private*/ | Tidak memperbolehkan perayapan untuk semua subdirektori yang diawali dengan kata "private". Untuk memblokir karakter apapun gunakan tanda (*) contoh http://.../private/belajar-seo-1/... http://.../private/belajar-seo-2/contoh2/... dimulai dari kata private dan kata belajar-seo-1 dan seterusnya belajar-seo-2 dan seterusnya tidak akan dirayapi |
User-agent: Googlebot Disallow: /*? | Tidak memperbolehkan perayapan untuk akses ke semua URLs that include question marks (?) |
User-agent: Googlebot Disallow: /*.xls$ | Tidak memperbolehkan perayapan semua URL yang diakhiri dengan .xls Untuk memblokir URL apapun yang diakhiri dengan cara tertentu gunakan tanda ($) |
User-agent: * Allow: /*?$ Disallow: /*? | Allow: /*?$ Memperbolehkan perayapan untuk URL yang dimulai dengan nama domain, diikuti string, diikuti ? dan tanpa karakter yang mengikuti contoh Allow: /*/belajar-seo1/gambar$ Memperbolehkan perayapan semua URL yang dimulai dengan nama domain yang diikiti nama "belajar-seo1" dan hanya yang diikuti nama "gambar" saja Disallow: /*? Tidak memperbolehkan perayapan untuk semua URL yang dimulai dengan nama domain, diikuti string, diikuti tanda ? dan diikuti string contoh Disallow: /*/belajar-seo2/gambar Tidak memperbolehkan perayapan untuk semua URL yang dimulai dengan nama domain yang diikuti nama "belajar-seo2" yang diikuti nama "gambar" dan seterusnya |
- | - |
Ingat bahwa perintah sangat peka dengan huruf Besar dan Kecil
contoh, bila menulis Disallow: /private_file.html maka http://www.contoh.com/private_file.html tidak akan dirayapi, namun akan merayapi http://www.contoh.com/Private_file.html
Hati-hati untuk menggunakan metode penulisan robots.txt ini, karena bila salah kemungkinan halaman atau konten anda bernilai manis yang seharusnya terindeks justru malah diabaikan oleh mesin pencari.
Baca juga
Cara menggunakan Tag tajuk robot khusus (Custom robots headers tags)