Doğru robots.txt

Dosya robots.txt — bu ana dosyayı tanımlayan kurallar, işleme sayfaları, arama motorları, robotlar. Bu dosya, gerekli belirtmek için birincil site adı, site haritaları (sitemap.xml), açık ve kapalı bölümleri.
Dosya robots.txt aşağıdakileri içerir yönergesi:

  • User-agent yönergesi gösteren ne bir robot olarak, aşağıdaki kurallar
    • * - tüm robotlar
    • Yandex ana robot Yandex
    • Googlebot — ana googlebot
    • StackRambler — arama robotu Rambler
    • Aport — arama robotu Aport
    • — Slurp, robot, Yahoo
    • MSNBot robot MSN
  • Disallow yönergesi yasağı parça sitesi
  • Allow — izin yönergesi sitesi
  • Host yönergesi rehberlik ana site adı
  • Site haritası yönergesi belirtmek site haritaları (sitemap.xml)
  • Crawl-delay — direktif belirten bir kaç saniye robot yanıt beklemek sitesi (gerekli çok indirilen kaynaklar için robot düşündüm sitesi erişilemez)
  • Clean-param yönergesi anlatan dinamik parametreleri etkileyen site içeriği

Помимо директив в robots.txt используются спец символы:

  • * - любай da dahil olmak üzere (ve boş) bir karakter dizisi
  • $ — bir sınırlama kuralları

Derleme için robots.txt kullanılan yukarıdaki yönergeleri ve спет semboller aşağıdaki prensibe göre:

  • Adı belirtmek için bir robot kendisi için yazılmış bir kurallar listesi
    (User-agent: * - kural için tüm robotlar)
  • Büyü yasaklanmış bölümleri için belirtilen robot
    ( Disallow: / - yasak indeksleme web sitesi)
  • Yazılı izin verilenler listesi bölümleri
    (Allow: /home/ — izin bölümü home)
  • Site adı belirtilir
    (Host: crazysquirrel.ru — ana site adı crazysquirrel.ru)
  • Belirtilen mutlak dosya yolu sitemap.xml
    (Site haritası: https:// crazysquirrel.ru/sitemap.xml)

Eğer sitede yasak bölüm robots.txt oluşmalıdır en az 4 satır:

User-Agent: *
Allow: /
Host: crazysquirrel.ru
Site haritası: https://crazysquirrel.ru/sitemap.xml

Kontrol robots.txt ve o etkiler indeksleme sitesi ile Yandex araç

Haritayı ve yorum