- Robots.txt adalah sebuah file teks yang secara de-facto dijadikan sebagai rujukan awal oleh program penelusur milik mesin pencari (search engine) atau layanan internet sejenis. Program penelusur yang lazim disebut sebagai
,
akan memeriksa apakah sebuah situs memiliki file robots.txt dan
kemudian memeriksa instruksi yang diberikan di dalamnya. Para robot
mesin pencari ini kemudian akan mengindeks halaman web berdasarkan
isntruksi yang ada di file
.
Dengan membuat file robots.txt dan menempatkannya di website Anda, maka
proses indeks dapat lebih efektif dan terkontrol. Sebagai contoh, jika
Anda tidak ingin halaman-halaman tertentu diindeks dan kemudian
ditampilkan di mesin pencari, maka Anda dapat melarangnya melalui file
robots.txt. Penerapannya bisa untuk melarang indeks ke lokasi halaman
yang sudah dihapus, melarang lokasi yang rawan dianggap duplikasi konten
secara SEO
(misalnya tag atau kategori), dan sebagainya. Anda juga bisa memblokir
robot dari situs tertentu yang tidak jelas fungsinya namun menghabiskan
bandwidth hosting Anda.
Ada dua bagian perintah utama yang lazim digunakan di file robots.txt, yaitu :
- User-agent: untuk menetapkan pengaturan pada robot yang
tercantum di bagian ini. Jika pengaturan diberlakukan untuk semua robot,
maka gunakan simbol bintang *.
- Disallow: untuk menetapkan halaman mana yang tidak boleh
diindeks oleh robot yang disebutkan di bagian User-agent. Perintah
pelarangan diawali dengan simbol garis miring /.
Berikut ini beberapa contoh penulisan perintah di dalam file robots.txt:
Untuk mempersilakan semua program robot untuk mengindeks situs Anda, maka cukup tuliskan baris berikut:
User-agent: *
Disallow:
Penjelasan: semua robot tidak ada yang dilarang alias bebas mengindeks. Perintah ini paling lazim digunakan para pemilik situs.
Sebaliknya, jika ingin melarang robot manapun untuk mengindeks situs Anda, maka tuliskan baris berikut:
User-agent: *
Disallow: /
Penjelasan: semua robot dilarang mengindeks (misalnya dipakai di situs underground)
Untuk melarang para robot mengakses halaman tertentu, tuliskan baris berikut:
User-agent: *
Disallow: /login.html
Disallow: /cadangan/
Disallow: /member/info.php
Penjelasan: robot tidak boleh mengindeks file login.html, folder cadangan, dan halaman info.php di folder member.
Untuk melarang sebuah program robot tertentu namun mengijinkan robot-robot lainnya, tuliskan baris berikut:
User-agent: NamaRobot
Disallow: /
Penjelasan: robot bernama NamaRobot tidak boleh mengindeks, yang lain
boleh (baca catatan di bagian akhir untuk mengenal nama robot).
Untuk mengijinkan sebuah robot tertentu dan melarang robot-robot lainnya, tuliskan baris berikut:
User-agent: Google
Disallow:
User-agent: *
Disallow: /
Penjelasan: robot Google boleh mangeindeks, lainnya tidak boleh.
Sebagai tip, Anda juga dapat menuliskan lokasi file sitemap.xml situs Anda di baris terakhir:
User-agent: *
Disallow:
Sitemap: http://www.komputeran.com/feeds/posts/default?orderby=updated
Penjelasan: tambahkan url lengkap alamat file sitemap situs Anda. Jika punya beberapa sitemap, tuliskan di baris berikutnya.
Beberapa robot mesin pencari terkemuka juga bisa memahami penggunaan
wildcard untuk melarang beberapa lokasi dengan satu atau dua baris
perintah:
User-agent: *
Disallow: /*.pdf$
Disallow: /arsip*/
Penjelasan: baris kedua melarang semua robot mengindeks semua file
pdf. Baris ketiga melarang pengindeksan pada folder-folder yang diawali
dengan kata arsip (misalnya /arsip-2010, /arsip-2011, /arsiplama, dan
sebagainya).
Catatan penting:
- Hati-hati dalam menyusun perintah di robots.txt, kesalahan perintah bisa berakibat situs Anda tidak diindeks oleh mesin pencari.
- File robots.txt harus diberi nama persis: robots.txt dan bukan dengan nama lain (pastikan huruf kecil semua).
- File robots.txt harus diletakkan di direktori utama (root). Contoh: http://www.komputeran.com/robots.txt .
- Khusus pengguna Blogger, Anda dapat membuat file robots.txt untuk blog Anda via fitur yang telah tersedia di bagian: Setelan > Preferensi penelusuran > Perayap dan pengindeksan.
- Jika Anda ingin melarang program robot tertentu namun tidak
mengetahui nama User-agent-nya, maka periksa log atau analisis statistik
situs Anda, atau temukan daftarnya di situs http://www.user-agents.org.
- Jika Anda ingin agar sebuah halaman atau folder rahasia di situs
Anda tidak diindeks program robot, sebaiknya jangan menggunakan
robots.txt untuk melarangnya. Hal ini disebabkan file robots.txt dapat
diakses dan dilihat oleh siapapun, sehingga justru akan menjadi
bumerang. Gunakan file .htaccess atau metode pengaman lainnya jika
memang Anda ingin benar-benar merahasiakan lokasi tertentu.