Apa itu robots.txt?
Robots.txt (remember, always plural!) sebenarnya hanyalah sebuah file .txt (teks) biasa yang disimpan di root atau folder utama sebuah website atau blog.
Apa Fungsi robots.txt?
Fungsi robots.txt adalah untuk membatasi atau mencegah spiders atau bot search engine untuk mengakses file-file pada website / blog, atau sederhananya robots.txt memberitahu spiders atau bot mana yang boleh diakses dan mana yang tidak boleh. Pada akhirnya nantinya akan memberitahu search engine misal google tentang halaman mana yang boleh ditampilan pada hasil penelurusan dan file / data mana yang tidak boleh ditampilkan pada hasil penelurusan.
Lalu, pentingkah robots.txt untuk website?
Jawabnya tentu saja, karena pembatasan akses yang dilakukan oleh robots.txt akan lebih mengarahkan bots untuk mengakses content-content yang dianggap penting saja atau yang tidak ingin dishare ke publik. Tentunya bisa dibayangkan bukan, jika terdapat ribuan file dalam website kita yang jika tidak dibatasi akan membiarkan bots meng-crawl (merayapi) file-file tersebut satu persatu. Sementara beberapa jenis file seperti .php, javascript .css, .inc sebenarnya tidak penting untuk di-crawl. Maka dengan menggunakan robots.txt ini bot dari search engine akan lebih fokus meng-crawl content-content penting saja dari website atau blog kita.
Bagaimana cara kerja robots.txt
Cara kerja robots.txt sendiri pada dasarnya adalah melarang saja, karena robots search engine cenderung meng-crawl semua file. Sehingga penggunaan syntax dalam robotx.txt pun adalah Dissalow (melarang), untuk lebih jelasnya berikut contoh penggunaan file robots.txt:
Untuk mencegah semua robots
User-agent: *
Disallow: /
Catatan: tanda * (wildcard) artinya semua akses semua jenis robots dari search engine, sementara tanda / (slash) merujuk pada root directory.
Untuk memperbolehkan semua robots
User-agent: *
Disallow:
Catatan : Karena setelah parameter Dissalow dikosongkan akan memberi full akses, dengan kata lain “Dissalow : none”. Untuk memperbolehkan robots mengakses seluruh website, sobat juga dapat membuat file robots.txt kosong atau sama sekali tidak membuat file robots (tp gak dianjurkan :D)
Untuk memperbolehkan satu jenis robots
User-agent: Googlebot
Disallow:User-agent: *
Disallow: /
Untuk mencegah sebagian directoy dan file (recommended)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /wp-admin/
Disallow: /wp-includes/
Mengingat pentingnya pembatasan dengan robots.txt seperti yang telah dijelaskan pada paragraf pertama tulisan ini. Maka saya sendiri memberikan pembatasan pada file dan directory tertentu dalam robots.txt yang saya gunakan. Berikut isi file robots.txt blog ini:
User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.swf$
Disallow: /*.zip$
Disallow: /*?*
Disallow: /*?User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /trackback/
Disallow: /feed/
Disallow: /author/
Disallow: /comments/
(untuk robot beneran, silahkan lihat kreasi keren Hiasan Robot dari Komponen Elektronik)
Khusus untuk jenis file JS dan CSS sekarang lebih baik dibiarkan terindex oleh bot, jadi bagian baris kode yang bergaris bawah bisa dibuang. Nah, sobatpun bisa melakukan pembatasan yang sama. Buat file robots.txt dengan menggunakan contoh robots.txt di atas dan simpan di root website atau blog sobat. Adapun untuk mengecek sudah valid atau belum robots.txt yang sobat gunakan. Sobat bisa mengeceknya di sini atau dengan mengklik tanda validasi di bawah ini:
Silahkan dicoba dan semoga bermanfaat.
Terima kasih atas penjelasannya, tapi ketika saya mencoba cek melalui web yang sobat rekomendasikan di atas katanya robot.txt no exist. Bukan hanya pada web saya tapi saya juga cek robot.txt blog anda hasilnya sama. Jadi besar kemungkinan website yang sobat rekomendasikan untuk mengecek keberadaan robot txt di atas sudah tidak valid lagi.
Saya saat ini sedang membukanya dan normal2 saja kok, mungkin cuma down sementara. Silahkn coba lagi ya…
Sangan membantu artikelnya
Terima kasih pula sudah berkunjung gan…
makasih gan infonya
Sama2, silahkan dicoba dan semoga bermanfaat