Bilmek istediğin her şeye ulaş

Google'da arama sonuçlarında bazı sitelerin altında çıkan "Bu sitenin robots.txt dosyası olduğundan, bu sonuç için bir açıklama bulunmamaktadır." açıklaması nedir?

Her web sitesi kendi ana sayfasına gelen arama motoru botlarına, sitesine ait içerik ile ilgili izinlendirdiği ve yasakladığı bölümleri robots.txt adlı bir dosya ile bildirir. Siteye gelen bot öncelikle bu dosyayı ana dizinde arar. Bu dosyaya bakarak kendisi ile ilgili izinlendirme ve yasaklama kurallarını inceledikten sonra siteyi taramaya ve indekslemeye başlar. Yani izinlendirilen dizinleri tarar, yasaklanan dizin ve sayfalardan da uzak durur.

Bir web sitesi sitesindeki içerik için; önceden indekslenmesine izin verdiği sayfalara daha sonra robots.txt ile kısıtlama getirmek de isteyebilir. Tüm bu ve benzeri durumlarda bot gelip, daha önceden indekslediği sayfaların kısıtlandığını gördüğü anda o sayfaya erişmez ve indeksinden de çıkarır. Bu uyarı da buna istinaden çıkan bir uyarıdır, diye düşünüyorum.
  • Paylaş
ROBOTS.TXT NASIL YAPILIR?

Yeni bir metin belgesi açalım ismini Robots.txt yapalım. Yazacaklarımız içerisinde iki farklı değişkenimiz olacak:
User-agent: Google botunun yazıldığı alan
Disallow: Bota izin verdiğimiz komutların yer aldığı alan

Örnek 1:
User-agent: *
Disallow

Kodlarımızı yorumlayalım: 1. satırdaki kodumuzda Goofle botlarının adı yerine “*” işaretini gördünüz. Bunun anlamı, siteniz tüm Google Botları’nca istisnasız indexlenmesine izin vermişsiniz demektir.

Örnek 2:
User-agent: *
Disallow: /

Gördüğünüz gibi birinci satırdaki user-agent kodumuzun anlamı tüm Google Botları’na sitenizi indexlemesi için izin verilmesiydi. Fakat ikinci satırda “/” böyle bir karakter görüyorsunuz. Bu karakterin anlamı site üzerinde tüm dosyaların taranmaması isteniyor. Yani bu Robots.txt kod bütününden de anlayacağımız şey, bütün Google botlarınca sitemizin hiçbir dosyası indexlenmeyecek taranmayacak.

Örnek 3:
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/

Bütün google botları, bu 4 dosyayı(cgi-bin, images, tmp, privates) indexlemeyecektir.

Örnek 4:
User-agent: DeepCrawl
Disallow: /private/

DeepCrawl, bir google botudur. Görevi ise; sitenizi uzun aralıklarla ziyaret edip, indexlenmesi için gerekli bilgileri toplar. Bu kodların anlamı ise, ismi verilen botun ilgili private klasörünü indexlememeli.

Örnek 5:
User-agent: *
Disallow: /directory/dosya.html

Tüm botlar, ilgili dosyayı indexlemeyecektir. Ama directory dizinindeki dosya.html hariç diğer tüm dosyaları tarar ve indexler.

Örnek 6:
User-agent: *
Allow: /dosya1/site.html
Disallow: /dosya1/

Bu kodların anlamı ise, tüm Google botları dosya dizininde bulunan site.html dosyası hariç diğer tüm dosyaları taramaz ve indexlemeyecektir.

  • Paylaş
Sonraki Soru
HESAP OLUŞTUR

İstatistikler

1003 Görüntülenme4 Takipçi2 Yanıt