Dosya robots.txt — bu ana dosyayı tanımlayan kurallar, işleme sayfaları, arama motorları, robotlar. Bu dosya, gerekli belirtmek için birincil site adı, site haritaları (sitemap.xml), açık ve kapalı bölümleri.
Dosya robots.txt aşağıdakileri içerir yönergesi:
- User-agent yönergesi gösteren ne bir robot olarak, aşağıdaki kurallar
- * - tüm robotlar
- Yandex ana robot Yandex
- Googlebot — ana googlebot
- StackRambler — arama robotu Rambler
- Aport — arama robotu Aport
- — Slurp, robot, Yahoo
- MSNBot robot MSN
- Disallow yönergesi yasağı parça sitesi
- Allow — izin yönergesi sitesi
- Host yönergesi rehberlik ana site adı
- Site haritası yönergesi belirtmek site haritaları (sitemap.xml)
- Crawl-delay — direktif belirten bir kaç saniye robot yanıt beklemek sitesi (gerekli çok indirilen kaynaklar için robot düşündüm sitesi erişilemez)
- Clean-param yönergesi anlatan dinamik parametreleri etkileyen site içeriği
Помимо директив в robots.txt используются спец символы:
- * - любай da dahil olmak üzere (ve boş) bir karakter dizisi
- $ — bir sınırlama kuralları
Derleme için robots.txt kullanılan yukarıdaki yönergeleri ve спет semboller aşağıdaki prensibe göre:
- Adı belirtmek için bir robot kendisi için yazılmış bir kurallar listesi
(User-agent: * - kural için tüm robotlar) - Büyü yasaklanmış bölümleri için belirtilen robot
( Disallow: / - yasak indeksleme web sitesi) - Yazılı izin verilenler listesi bölümleri
(Allow: /home/ — izin bölümü home) - Site adı belirtilir
(Host: crazysquirrel.ru — ana site adı crazysquirrel.ru) - Belirtilen mutlak dosya yolu sitemap.xml
(Site haritası: https:// crazysquirrel.ru/sitemap.xml)
Eğer sitede yasak bölüm robots.txt oluşmalıdır en az 4 satır:
User-Agent: *
Allow: /
Host: crazysquirrel.ru
Site haritası: https://crazysquirrel.ru/sitemap.xml
Kontrol robots.txt ve o etkiler indeksleme sitesi ile Yandex araç