Rabu, 19 Oktober 2011

Pengantar Robots.txt


Ada sebuah file kecil bernama robots.txt yang Anda harus sadar. Seperti namanya, itu file khusus untuk robot dan laba-laba ... yang jujur ​​pula. Ini adalah file yang baik untuk menempatkan pada server Anda, jika untuk hal lain selain untuk menghemat bandwidth beberapa. Anda mungkin bertanya-tanya mengapa? Yah, aku, terlalu, tidak terlalu lama lalu. Saya menjadi sadar cukup cepat, walaupun, ketika saya menemukan suatu kebutuhan sejati untuk menempatkan file ini di direktori akar dari semua domain server saya ". Baru-baru ini perusahaan saya hosting, GBHXonline.com , diinvestasikan di beberapa server baru . Setelah mengatur stabil host situs dan yang saya benar-benar mengelola, aku menyadari bahwa aku berhadapan dengan sesuatu yang baru.

Yaitu versi terbaru dari PHP. Selain itu, versi ini berjalan dalam mode yang ketat. Aku bisa mengubah modus, persetan dengan Apache Server menjalankan PHP ada tidak banyak Anda tidak bisa melakukan, tapi aku mengambil rute yang lain dan mulai debugging (kebanyakan PHP pemberitahuan, tidak begitu banyak di jalan kesalahan). Dengan senang hati sebagian besar scripting saya baik-baik saja. Bahkan ada sangat sedikit yang perlu saya lakukan.

Aku mencapai semua ini dengan memeriksa log kesalahan server domain dengan domain, menyeberangi saya "t" s dan menghiasi saya "i" s saat aku pergi. Satu hal yang mengganggu saya, meskipun. Aku pemberitahuan berulang sebagai laba-laba merangkak lokasi baru. Rupanya robot laba-laba dan terus mencari sebuah file root-tingkat yang disebut Yah, file tersebut tidak di server "robots.txt." Dan dengan demikian 'bot itu datang dengan tangan kosong. Dan karena mereka meminta sebuah file mereka tidak bisa mendapatkan, server hanya harus menyebutkan dalam laporannya.

Cara mengatasinya cukup mudah. Ambil file teks kosong, nama itu "robots.txt" dan tempatkan pada server. Dan itu semua dibutuhkan untuk membungkam pelaporan dan menikmati sebuah error log yang benar-benar kosong. Semua baik-baik saja, tapi tidak lama. Saya tidak puas dengan memperbaiki malas saya. Jika aku akan meletakkan file di server kupikir aku mungkin juga membatasi beberapa direktori dan berhenti membuat "bot bekerja begitu keras - terutama karena pada beban saya apa dengan bandwidth yang mereka konsumsi.

Gagasan di balik sebuah file robots.txt untuk menutup file tertentu dan direktori dengan mengatakan kepada laba-laba tidak merangkak mereka. Hal ini dilakukan dengan cara arahan sangat sederhana. Pertama, meskipun, Anda harus mengatasi laba-laba. Apakah Anda mengarahkan Googlebot, atau apakah Anda ingin mengarahkan semua laba-laba. Hal ini khas untuk mengatasi semua dan itulah yang saya lakukan. Seperti.

User-agent: *

"User-agent" alamat spider dan robot pada umumnya. Tanda bintang atau bintang adalah menangani semua dari mereka. Efektif pernyataan yang mengatakan "robot Hei! Ya, kalian semua. Dengar, aku punya sesuatu untuk memberitahu Anda "Jika Anda memiliki hal untuk Googlebot dan Anda ingin alamat hanya, Anda menulis pernyataan seperti ini. ...

User-agent: googlebot

Sekarang, bagian selanjutnya dari ini adalah untuk menentukan untuk bot '(s) apa yang direktori dan / atau file yang Anda ingin mereka untuk melewati, atau akses jika Anda memilih itu. Sekali lagi, ini sangat sederhana. Katakanlah, misalnya, bahwa Anda ingin memperbolehkan 'bot akses khusus ke sebuah folder bernama / konten / tetapi Anda ingin menyimpan robot keluar dari / admin / folder, Anda akan menambahkan baris berikut ke baris berikutnya dari laporan ditampilkan di atas.

Allow: /content/
Disallow: /admin/

Seluruh file, ketika selesai, akan terlihat seperti ini (menangani semua 'bot):

User-agent: *
Allow: /content/
Disallow: /admin/

Saya telah mengatakan menggunakan file robots.txt menghemat bandwidth. Hal ini benar, tetapi hanya jika digunakan cerdas. Anda lihat, jika 'bot dan spider disimpan dari merangkak file tertentu atau folder, file atau folder tidak ditransfer ke user agent-1. Ada gunanya sama dengan konsumsi tidak. Misalnya, ingin menyimpan banyak bandwidth, melarang akses ke "/ images /" folder.

Tidak ada komentar:

Posting Komentar