Minggu, 16 Mei 2021

Tentang robots.txt

Robots.txt terkait sangat erat dengan suksesnya sebuah strategi SEO. Dengan menggunakan file robots.txt, bot mesin pencari dapat berinteraksi secara lebih baik dengan website yang Anda kelola. Untuk memahami apa dan bagaimana robots.txt, kita akan membahasnya satu persatu pada artikel ini.

Apa itu robots.txt?

Secara sederhana robots.txt adalah rangkaian file berbentuk text yang berisi instruksi kepada mesin pencari seperti Google. Dengan memberikan robots.txt pada website maka website akan memberikan tanda kepada Google ke mana saja akses yang harus dilakukan dan halaman mana saja yang perlu diindeks.

Oleh karena itu, robots.txt akan membuat artikel website lebih mudah dan lebih cepat diindeks di mesin pencari seperti Google. Sehingga, peringkat halaman artikel Anda akan lebih cepat naik di halaman hasil pencarian Google. Robots.txt juga dapat memisahkan halaman yang tidak ingin Anda tampilkan di dalam mesin pencari. Fungsi lain dari file ini juga untuk menghalangi beberapa mesin pencari melakukan crawl ke website Anda sehingga beban website akan tetap terjaga.

File robots.txt terletak di dalam folder root server penyimpanan situs yang biasa disebut sebagai folder public_html. Namun file ini adalah file virtual yang tidak dapat diakses ataupun diganti melalui direktori manapun. Sehingga, ketika Anda ingin memperbarui file ini, Anda harus membuat sendiri file robots.txt yang diletakan di dalam folder public_html dan memasukan skrip konfigurasi secara manual.

Konfigurasi robots.txt

Konfigurasi robots.txt termasuk cukup sederhana karena hanya berisi beberapa instruksi saja. Berikut ini adalah contoh konfigurasi file robots.txt.

User-agent: *

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content

User-agent: Bingbot

Diasallow: /

Kode robot.txt diawali dengan teks user-agent: * dan diikuti oleh kode dari bot yang akan menunjukan dan menerapkan pengaturan website. Tanda bintang (*) setelah teks user_agent dapat diartikan sebagai pengaturan universal

Misalkan Anda ingin menambahkan atau mengizinkan beberapa mesin pencari untuk melakukan crawl, Anda cukup menambahkan beberapa baris skrip seperti di bawah ini.

User-agent: Mediapartners-Google

Allow: /

User-agent: Adsbot-Google

Allow: /

User-agent: Googlebot-Mobile

Allow: /

Sitemap: www.area27b.net/sitemap.xml

User-agent adalah instruksi yang digunakan untuk mendeskripsikan rule jenis/nama robot. Allow untuk menambahkan bagian mana yang dapat diakses oleh robot, dan disallow untuk mendeskripsikan bagian yang tidak boleh diakses oleh robot. Jika tidak terdapat skrip disallow: maka mesin pencari dapat memindai keseluruhan isi website.

Dengan menggunakan skrip diatas, Anda akan mengarahkan mesin pencari untuk memindai isi dari sebuah website. Sebagai contoh, jika website yang Anda kelola memiliki beberapa image yang tidak ingin terbaca oleh Google maka Anda dapat membuat skrip disallow: /images/ (disallow folder images) untuk memberikan instruksi kepada Google agar tidak memindai gambar tersebut.

  • Disallow: [Setidaknya satu atau beberapa entri Disallow atau Allow per aturan] Direktori atau halaman, yang terkait dengan domain root, yang tidak ingin di-crawl agen pengguna. Jika aturan mengacu pada halaman, nama tersebut harus berupa nama halaman lengkap seperti yang ditampilkan di browser; jika merujuk ke direktori, seharusnya diakhiri dengan tanda /.
  • Allow: [Minimal satu atau beberapa entri Disallow atau Allow per aturan] Direktori atau halaman, yang terkait dengan domain root, yang mungkin di-crawl oleh agen pengguna sebagaimana disebutkan di artikel bantuan ini. Ini digunakan untuk mengganti perintah Disallow guna mengizinkan crawling subdirektori atau halaman dalam direktori yang tidak diizinkan. Untuk satu halaman, nama halaman lengkap seperti yang ditampilkan di browser harus ditentukan. Untuk direktori, aturan harus diakhiri dengan tanda /.
  • Sitemap: [Opsional, nol atau lebih per file] Lokasi peta situs untuk situs ini. URL peta situs harus berupa URL yang sepenuhnya memenuhi syarat; Google tidak menganggap atau memeriksa alternatif http/https/www.non-www. Peta situs adalah cara yang tepat untuk menunjukkan konten mana yang boleh di-crawl oleh Google, bukan konten mana yang dapat atau tidak dapat di-crawl. Contoh:

Sitemap: https://example.com/sitemap.xml

Sitemap: http://www.example.com/sitemap.xml

Semua perintah, kecuali sitemap, mendukung karakter pengganti * untuk awalan jalur akhiran, atau string secara keseluruhan.

Baris yang tidak cocok dengan perintah ini akan diabaikan.

Contoh file lainnya

File robots.txt terdiri dari satu atau beberapa grup, yang masing-masing diawali dengan baris User-agent yang menentukan target dari grup tersebut. Berikut adalah sebuah file dengan dua grup; komentar inline menjelaskan setiap grup:

# Block googlebot from example.com/directory1/... and example.com/directory2/...

# but allow access to directory2/subdirectory1/...

# All other directories on the site are allowed by default.

User-agent: googlebot

Disallow: /directory1/

Disallow: /directory2/

Allow: /directory2/subdirectory1/


# Block the entire site from anothercrawler.

User-agent: anothercrawler

Disallow: /

Harap baca seluruh dokumentasi tersebut karena ada beberapa hal rumit dan penting untuk dipelajari pada sintaksis robots.txt.

 

0 komentar:

Posting Komentar