Posting ini adalah bagian kedua dari artikel tentang Robots.txt Blogger yang terdiri dari dua bagian:
- Pengenalan dan Fungsi Perintah Robots.txt dan Pengaruhnya pada SEO, bagi yang belum baca, simak terlebih dahulu sebelum membaca bagian ini.
- Case Study dan Penggunaan Robots.txt pada Blogger, yang sedang sobat baca pada halaman ini
Case Study Robots.txt pada Blogger
Setelah sobat mengetahui beberapa hal mengenai perintah robots.txt, saya akan coba presentasikan beberapa hal sebagai upaya melihat efektivitas penggunaan robots.txt pada Blogger.
Sebelumnya, perlu saya sampaikan bagi yang belum tahu, sobat dapat mengakses fitur ini melalui dashboard > settings > search preferences dan lihat bagian bawah pada custom robots.txt. (Note: Jangan melakukan editing dahulu sebelum sobat tahu betul apa yang harus dituliskan).
Sebagai latar belakang, robots.txt sudah terbuat secara otomatis; mengandung perintah default yang sudah diset oleh Blogger. Sobat bisa melihat robots.txt dengan mengakses Google Webmaster Tools, dan lihat pada sub halaman "crawler access". Atau yang lebih mudah, lihat aja langsung file nya dengan menambahkan nama file robots.txt di belakang url blog. http://blogmu.blogspot.com/robots.txt, contoh : http://bukan-rahasiia.blogspot.com/robots.txt. Secara default seperti ini baris-baris perintahnya:
User-agent: Mediapartners-GoogleDisallow:
User-agent: *Disallow: /searchAllow:
Sitemap: http://bukan-rahasiia.blogspot.com/feeds/posts/default?orderby=updated
Kelompok baris pertama adalah user agent milik adsense; digunakan sebagai perintah untuk mengijinkan robot crawler adsense untuk mengindeks website/blog. Fungsinya untuk mengetahui isi web/blog, agar iklan yang ditampilkan lebih relevan, dan ini tidak sama/berkaitan dengan crawler Google search engine. Bagi yang menggunakan adsense di Blogger, tentun ini menguntungkan dan jangan dihapus. Terus bagi yang menggunakan adsense di WordPress (self hosted, bukan yg gratisan wordpress.com, itu mah ga boleh pasang iklan, hehe), Joomla, Drupal, dll, tambahkan perintah ini untuk mempermudah crawler adsense.
Kelompok baris kedua adalah perintah untuk seluruh crawler SE. Kita lihat disitu ada /search, sebuah direktori yang berisi label Blogger, yang memang lebih baik tidak diindeks.
Dan kelompok baris ketiga adalah sitemap (feed yang ditambah perintah orderby, berisi list dari update-update terbaru), yg membantu mempercepat pengindeksan.
Kelompok baris kedua adalah perintah untuk seluruh crawler SE. Kita lihat disitu ada /search, sebuah direktori yang berisi label Blogger, yang memang lebih baik tidak diindeks.
Dan kelompok baris ketiga adalah sitemap (feed yang ditambah perintah orderby, berisi list dari update-update terbaru), yg membantu mempercepat pengindeksan.
Case study yang saya lakukan khusus pada label. Label menjadi "halaman terlarang" untuk diindeks karena bukan merupakan halaman riil dan dapat menyebabkan duplikasi, efeknya tentu tidak baik bagi SEO. Kasus ini juga terjadi pada halaman arsip (archive).
Method
1. Menggunakan rel=nofollow pada label.
Saya menghilangkan pelarangan terhadap indeks label ( /search), dan kembali menggunakan rel=nofollow pada label, seperti yang pernah saya sampaikan dulu.
2. Menghilangkan rel=nofollow pada label, dan kembali menggunakan perintah pelarangan indeks label pada robots.txt 9mengembalikan pada setting semula)
Setelah beberapa waktu dan setelah mendapatkan hasil dari metode pertama, saya kembali menggunakan perintah pelarangan indeks label, dan menghilangkan rel=nofollow label.
3. Menggunakan rel=nofollow label sekaligus pelarangan indeks pada robots.txt (Disallow: /search).
Setelah mendapatkan hasil dari cara kedua, saya menggunakan kedua perintah nofollow dan disallow pada robots.txt.
Results
Hasil dari ketiga metode percobaan tersebut cukup berbeda:
1. Dengan menggunakan rel=nofollow saja pada label, error yang muncul pada Webmaster Tools masih saja ada, dari sekitar 90 error pada saat crawling, pengurangannya tidak signifikan, hanya sekitar 10-15 saja dalam waktu satu minggu, itupun tidak menghindarkan adanya halaman label yang masih terindeks.
2. Dengan menggunakan pelarangan pada robots.txt, tanpa rel=nofollow, pengurangan error crawl lumayan berkurang, dari sisa di atas (sekitar 65-80 label), sisanya sekitar 30-40 saja hanya kurang dari satu minggu.
3. Dan yang terakhir, dengan penggunaan keduanya, hasilnya jauh sangat signifikan, hingga ini saya tulis hasilnya= 0! tidak ada lagi yang menjadi masalah pada crawl errors pada Webmaster Tools, dan semuanya hanya dalam waktu singkat.
Kesimpulan
Seperti yang sudah disampaikan dalam forum-forum webmaster dan oleh search engine seperti Google sendiri, menggunakan robots.txt tidak serta merta dapat langsung melarang indeks. Bahkan kadang-kadang, "suka-suka gue lah...," kata Google. Misalnya, sobat melarang satu halaman untuk diindeks, namun halaman tersebut punya backlink banyak (backlink bisa dari halaman web sendiri/internal link, atau web lain/external link), maka dia tetap akan ditampilkan dengan anchor text sesuai dengan backlink yang diindeks Google. Nah dengan penggunaan dua perintah sekaligus, setidaknya kita bisa menghilangkan sisa-sisa backlink yang masih follow di halaman blog sendiri. Dengan demikian, jika sobat mencantumkan link label di halaman tertentu, dan dia follow, maka masih diperhitungkan oleh Google dan masuk pada crawl error. Bahkan meskipun kita sudah menggunakan Disallow pada robot txt. So, jika ingin label tidak diindeks, untuk memaksimalkan SEO, gunakan juga rel=nofollow pada label. Asumsi ini tentunya juga berlaku pada halaman-halaman lain dimana sobat tidak ingin search engine mengindeksnya (arsip misalnya).
Cara Mengedit dan Mengisi Custom Robots.txt
a. Seperti yang sampaikan di atas, akses robots.txt editor melalui dashboard > settings > search preferences > crawlers and indexing > custom robots.txt, klik edit.
b. Kemudian klik yes, isikan perintah robots.txt sesuai dengan yang sobat inginkan, dan save.
Penting: Jika memang sobat tidak punya kebutuhan untuk melarang indeks pada halaman tertentu, jangan melakukan apapun. Jika ingin mengembalikan seperti semula (default robots.txt dari Blogger), kembalikan dengan memilih "no" dan save.
Sebenarnya pelarangan indeks sangat penting, kita dapat mengontrol halaman-halaman seperti label (ini sudah diset secara default), dan arsip, yang jelas menyebabkan duplikasi konten. Jika sobat tidak nyaman dengan menggunakan robots.txt untuk menghentikan indeks arsip, saya sarankan menggunakan meta indeks/content untuk menghindari duplikasi karena arsip, caranya jauh lebih mudah.
Saya melihat penggunaan robots.txt yang digabung dengan beberapa cara lain, contohnya penggunaan rel=nofollow, cukup memberikan hasil pencarian berkualitas dan traffic yang jauh lebih tinggi. Dan saya harap juga demikian pada blog sobat.
Salam hangat.