Jei turite svetainę ir norite, kad Google bei kitos paieškos sistemos ją tinkamai indeksuotų, turite susitvarkyti du failus: sitemap.xml ir robots.txt. Šie du failai veikia kaip jūsų svetainės „žemėlapis” ir „apsaugininkas”, nurodydami paieškos robotams, kur eiti ir ko vengti.
Problema ta, kad daugelis svetainių savininkų arba visiškai ignoruoja šiuos failus, arba sukonfigūruoja juos neteisingai. Rezultatas: puslapiai neindeksuojami, turinys nerandamas paieškoje, o crawl biudžetas švaistomas nereikalingiems URL adresams.
Šiame straipsnyje išsamiai aptarsime, kas yra sitemap ir robots.txt, kaip juos sukurti, suderinti tarpusavyje ir kokių klaidų vengti.
Kas yra Sitemap (svetainės žemėlapis)?
Sitemap, arba svetainės žemėlapis, yra failas (dažniausiai XML formatu), kuriame išvardinami visi svarbūs jūsų svetainės puslapiai. Šis failas skirtas ne lankytojams, o paieškos sistemų robotams (Googlebot, Bingbot ir kitiems).
Pagalvokite apie sitemap kaip apie turinio sąrašą knygoje. Vietoj to, kad robotas klaidžiotų po svetainę bandydamas rasti visus puslapius per nuorodas, jis gali atidaryti sitemap failą ir iš karto pamatyti visą struktūrą.
Sitemap failų tipai
XML Sitemap yra standartiniu laikomas formatas. Jis atrodo maždaug taip:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://www.jusu-svetaine.lt/</loc>
<lastmod>2026-06-10</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>https://www.jusu-svetaine.lt/paslaugos/</loc>
<lastmod>2026-06-08</lastmod>
<changefreq>weekly</changefreq>
<priority>0.8</priority>
</url>
</urlset>
Kiekvienas <url> blokas turi šiuos elementus:
- loc (privalomas): pilnas puslapio URL adresas.
- lastmod (rekomenduojamas): paskutinio atnaujinimo data. Google naudoja šią reikšmę spręsdamas, ar verta puslapį peržiūrėti iš naujo.
- changefreq (nebūtinas): kaip dažnai turinys keičiasi (daily, weekly, monthly). Google oficialiai teigia, kad šią reikšmę dažniausiai ignoruoja.
- priority (nebūtinas): santykinė puslapio svarba jūsų svetainėje (nuo 0.0 iki 1.0). Ši reikšmė irgi retai turi realios įtakos.
Sitemap Index naudojamas didelėms svetainėms, turinčioms daugiau nei 50 000 URL arba kai failas viršija 50 MB. Tai failas, kuris nurodo į kelis atskirus sitemap failus:
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>https://www.jusu-svetaine.lt/sitemap-posts.xml</loc>
<lastmod>2026-06-10</lastmod>
</sitemap>
<sitemap>
<loc>https://www.jusu-svetaine.lt/sitemap-pages.xml</loc>
<lastmod>2026-06-05</lastmod>
</sitemap>
</sitemapindex>
Vaizdo ir naujienų sitemap yra specializuoti formatai. Jei jūsų svetainėje daug vaizdo turinio arba publikuojate naujienas, galite sukurti atskirus sitemap failus su papildomais žymėjimais, kad Google geriau suprastų šį turinį.
Kada sitemap yra būtinas?
Sitemap failas ypač svarbus šiose situacijose:
- Nauja svetainė su mažai išorinių nuorodų. Google robotams sunkiau rasti puslapius, jei nėra nuorodų iš kitų svetainių.
- Didelė svetainė su šimtais ar tūkstančiais puslapių. Kuo daugiau puslapių, tuo didesnė tikimybė, kad kai kurie liks neindeksuoti.
- Svetainė su „giliais” puslapiais, kuriuos pasiekti reikia daug paspaudimų nuo pagrindinio puslapio.
- Svetainė su silpna vidine nuorodų struktūra. Jei puslapiai nėra gerai susieti tarpusavyje, sitemap padeda robotams juos atrasti.
- El. parduotuvės, kuriose produktų puslapiai dažnai keičiasi, pridedami ar šalinami.
Mažos svetainės su 10–20 puslapių ir gera vidine struktūra gali išsiversti ir be sitemap, bet jo turėjimas niekada nekenkia. Tai greitas ir paprastas būdas padėti paieškos sistemoms.
Kaip sukurti sitemap?
WordPress svetainėms paprasčiausia naudoti SEO įskiepius. Yoast SEO, Rank Math ir All in One SEO automatiškai generuoja sitemap.xml failą. Paprastai jis pasiekiamas adresu jusu-svetaine.lt/sitemap_index.xml arba jusu-svetaine.lt/sitemap.xml.
Kitoms TVS (turinio valdymo sistemoms) dažniausiai egzistuoja atitinkami moduliai ar plėtiniai.
Rankiniu būdu galite sukurti XML failą pagal aukščiau pateiktą struktūrą ir įkelti jį į svetainės šakninį katalogą.
Online generatoriai, tokie kaip Screaming Frog, Sitebulb ar XML-Sitemaps.com, gali automatiškai nuskaityti svetainę ir sugeneruoti sitemap failą.
Sitemap pateikimas Google
Sukūrę sitemap, turite apie jį pranešti Google. Tai galima padaryti trimis būdais:
- Google Search Console. Eikite į „Sitemaps” skiltį ir įveskite sitemap URL. Tai patikimiausias būdas.
- robots.txt faile. Pridėkite eilutę
Sitemap: https://www.jusu-svetaine.lt/sitemap.xmlfailo pabaigoje. - Ping užklausa. Nusiųskite užklausą adresu
https://www.google.com/ping?sitemap=https://www.jusu-svetaine.lt/sitemap.xml. Google yra paskelbęs, kad ši funkcija veikia, tačiau Search Console lieka patikimiausias kanalas.
Kas yra robots.txt?
Robots.txt yra paprastas tekstinis failas, patalpintas svetainės šakniniame kataloge (pvz., jusu-svetaine.lt/robots.txt). Jis nurodo paieškos sistemų robotams, kuriuos svetainės skyrius jie gali arba negali tikrinti (crawl’inti).
Tai veikia kaip „prašymas” robotams. Svarbu suprasti: robots.txt neblokuoja indeksavimo. Jis blokuoja tik tikrinimą (crawling). Jei kitas puslapis turi nuorodą į jūsų užblokuotą URL, Google vis tiek gali tą URL indeksuoti (tik be turinio).
Robots.txt struktūra ir sintaksė
Pagrindinis robots.txt failas atrodo taip:
User-agent: *
Disallow: /admin/
Disallow: /tmp/
Allow: /admin/public/
Sitemap: https://www.jusu-svetaine.lt/sitemap.xml
Pagrindinės direktyvos:
- User-agent: nurodo, kuriam robotui taikoma taisyklė. Žvaigždutė (
*) reiškia visus robotus. Galite nurodyti konkretų robotą, pvz.,User-agent: Googlebot. - Disallow: nurodo kelią, kurio robotas neturėtų tikrinti. Pvz.,
Disallow: /admin/blokuoja visus URL, prasidedančius/admin/. - Allow: leidžia prieigą prie konkretaus kelio, net jei platesnis katalogas yra užblokuotas. Naudingas taisyklių išimtims.
- Sitemap: nurodo sitemap failo vietą. Tai patogus būdas susieti abu failus.
Robots.txt taisyklių pavyzdžiai
Leisti visiems robotams tikrinti viską:
User-agent: *
Disallow:
Tuščias Disallow reiškia, kad jokių apribojimų nėra.
Blokuoti visus robotus nuo visos svetainės:
User-agent: *
Disallow: /
Tai naudinga kūrimo (staging) aplinkose, kur nenorite, kad svetainė patektų į paiešką.
Blokuoti tik konkretų robotą:
User-agent: AhrefsBot
Disallow: /
User-agent: *
Disallow:
Šis pavyzdys blokuoja Ahrefs robotą, bet leidžia visiems kitiems.
Blokuoti konkrečius katalogus:
User-agent: *
Disallow: /wp-admin/
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Disallow: /search/
Allow: /wp-admin/admin-ajax.php
Tai tipinė WordPress ir WooCommerce konfigūracija, kuri blokuoja administravimo panelę, krepšelio, atsiskaitymo ir paskyros puslapius bei vidinės paieškos rezultatus.
Wildcard simboliai robots.txt faile
Robots.txt palaiko du wildcard simbolius:
- Žvaigždutė (
*): atitinka bet kokią simbolių seką. Pvz.,Disallow: /*.pdf$blokuoja visus PDF failus. - Dolerio ženklas (
$): nurodo URL pabaigą. Pvz.,Disallow: /page$blokuos/page, bet ne/page/subpage.
Pavyzdys su wildcard:
User-agent: *
Disallow: /*?sort=
Disallow: /*&filter=
Tai blokuoja URL su rūšiavimo ir filtravimo parametrais, kurie dažnai sukuria dubliuotą turinį el. parduotuvėse.
Kaip sitemap ir robots.txt veikia kartu
Šie du failai atlieka skirtingas, bet papildančias funkcijas:
| Funkcija | sitemap.xml | robots.txt |
|---|---|---|
| Paskirtis | Parodo robotams, kur eiti | Parodo robotams, kur neiti |
| Įtaka indeksavimui | Netiesiogiai padeda atrasti puslapius | Neblokuoja indeksavimo, tik tikrinimą |
| Formatas | XML | Paprastas tekstas |
| Vieta | Bet kur (nurodoma robots.txt ar Search Console) | Tik šakniniame kataloge |
| Privalomumas | Rekomenduojamas | Rekomenduojamas |
Svarbiausia taisyklė: niekada neįtraukite į sitemap puslapių, kuriuos blokuojate robots.txt faile. Tai siunčia prieštaringus signalus paieškos sistemoms. Jei sitemap sako „tikrink šį puslapį”, o robots.txt sako „netikrink šio puslapio”, robotas gali pasielgti nenuspėjamai.
Teisingas darbo srautas
- Nuspręskite, kuriuos puslapius norite indeksuoti.
- Tuos puslapius įtraukite į sitemap.
- Puslapius, kurių nenorite, kad robotai tikrintų, nurodykite robots.txt faile su
Disallow. - Puslapiams, kurių nenorite indeksuoti, bet leidžiate tikrinti, naudokite
noindexmeta žymą arba X-Robots-Tag HTTP antraštę (ne robots.txt).
Crawl biudžetas: kodėl tai svarbu
Kiekviena paieškos sistema skiria jūsų svetainei ribotą „crawl biudžetą”, tai yra tam tikrą skaičių puslapių, kuriuos robotas patikrins per vieną apsilankymą. Mažoms svetainėms tai retai tampa problema. Didelėms svetainėms su tūkstančiais puslapių tai gali būti rimtas iššūkis.
Tinkamas robots.txt ir sitemap naudojimas padeda optimizuoti crawl biudžetą:
- robots.txt apsaugo nuo nereikalingo tikrinimo (pvz., filtravimo puslapiai, krepšelio puslapiai, vidinės paieškos rezultatai).
- sitemap padeda robotams greičiau rasti svarbiausius puslapius, o ne klaidžioti po mažai vertės turinį.
Praktinis pavyzdys: jei turite el. parduotuvę su 10 000 produktų ir 50 000 filtravimo kombinacijų, robotas gali praleisti didžiąją dalį biudžeto tikrindamas filtravimo puslapius. Užblokavę filtravimo URL per robots.txt, nukreipiate roboto dėmesį į tikrus produktų puslapius.
Dažniausios klaidos ir kaip jų išvengti
Klaida nr. 1: Robots.txt blokuoja sitemap
Jei jūsų robots.txt blokuoja katalogą, kuriame yra sitemap failas, robotai negalės jo pasiekti:
# BLOGAI
User-agent: *
Disallow: /seo/
# Sitemap yra adresu /seo/sitemap.xml — robotai jo nepasieks
Sprendimas: visada laikykite sitemap failą prieinamoje vietoje ir patikrinkite, ar robots.txt jo neblokuoja.
Klaida nr. 2: Sitemap su neegzistuojančiais URL
Jei sitemap faile yra puslapiai, kurie grąžina 404 klaidą, tai signalizuoja Google, kad jūsų svetainė netvarkinga.
Sprendimas: reguliariai tikrinkite sitemap failą. Pašalinkite puslapius, kurie buvo ištrinti arba kurie grąžina klaidas.
Klaida nr. 3: Robots.txt naudojamas vietoj noindex
Daugelis žmonių bando paslėpti puslapius nuo Google naudodami robots.txt. Problema ta, kad robots.txt blokuoja tik tikrinimą, ne indeksavimą. Jei kita svetainė turi nuorodą į jūsų „paslėptą” puslapį, Google gali jį indeksuoti (su tuščiu aprašymu).
Sprendimas: jei norite, kad puslapis nebūtų rodomas paieškos rezultatuose, naudokite noindex meta žymą:
<meta name="robots" content="noindex, follow">
Ir leiskite robotams tą puslapį tikrinti (neblokuokite per robots.txt), kad jie pamatytų noindex direktyvą.
Klaida nr. 4: Prieštaringi signalai
Situacija, kai sitemap nurodo puslapį, bet robots.txt jį blokuoja, yra viena dažniausių techninių SEO klaidų. Google Search Console tokius atvejus parodo kaip „Submitted URL blocked by robots.txt” įspėjimus.
Sprendimas: reguliariai tikrinkite Search Console ir įsitikinkite, kad sitemap ir robots.txt failai neprieštarauja vienas kitam.
Klaida nr. 5: Per didelis sitemap failas
Vienas sitemap failas negali turėti daugiau nei 50 000 URL arba būti didesnis nei 50 MB (nesuspaustas). Peržengus šias ribas, paieškos sistemos gali ignoruoti failą.
Sprendimas: naudokite sitemap index failą ir suskirstykite URL į mažesnius sitemap failus pagal turinį (puslapiai, įrašai, produktai, kategorijos).
Klaida nr. 6: Pasenęs lastmod
Jei lastmod data neatitinka realaus turinio pakeitimo, Google pradės ignoruoti šią reikšmę visoje jūsų svetainėje. Nekeiskite lastmod datos, jei turinys iš tikrųjų nesikeitė.
Praktinis konfigūracijos šablonas
Štai veikiantis pavyzdys, tinkamas daugumai svetainių:
robots.txt:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Disallow: /*?s=
Disallow: /*?sort=
Disallow: /*&filter=
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.jusu-svetaine.lt/sitemap.xml
sitemap.xml: turėtų apimti tik tuos puslapius, kurie:
- Grąžina 200 HTTP statusą.
- Nėra blokuojami robots.txt.
- Neturi
noindexžymos. - Yra kanoninė (canonical) versija.
- Turi vertingą, originalų turinį.
Testavimo ir stebėjimo įrankiai
Sukonfigūravę failus, juos reikia patikrinti:
Google Search Console turi integruotą robots.txt tikrintuvą ir sitemap pateikimo skiltį. Čia matysite, kurie puslapiai buvo sėkmingai indeksuoti, o kuriuose aptiktos klaidos.
Screaming Frog leidžia nuskaityti svetainę ir palyginti, kurie puslapiai yra sitemap, kurie pasiekiami per nuorodas, ir kurie blokuojami robots.txt.
Ahrefs ir Semrush turi svetainės audito įrankius, kurie automatiškai aptinka prieštaravimus tarp sitemap ir robots.txt.
Google Rich Results Test ir URL Inspection įrankiai Search Console leidžia patikrinti, kaip Googlebot mato konkretų puslapį ir ar jis nėra blokuojamas.
Pažangūs patarimai
Naudokite atskirą sitemap naujam turiniui. Jei dažnai publikuojate naujus straipsnius ar produktus, turėkite atskirą sitemap failą, kuriame būtų tik naujausi puslapiai. Google dažniau tikrins mažesnį, reguliariai atnaujinamą sitemap.
Stebėkite serverio žurnalus (log failus). Serverio žurnalai parodo, kuriuos puslapius robotai tikrojo ir kaip dažnai. Tai tiksliausia informacija apie crawl biudžeto panaudojimą.
Gzip suspaudimas sitemap failams. Didelius sitemap failus galite suspausti gzip formatu (pvz., sitemap.xml.gz). Paieškos sistemos juos puikiai supranta, o failų dydis sumažėja kelis kartus.
HTTP antraštės vietoj meta žymų. Jei norite valdyti ne HTML failų (PDF, vaizdų) indeksavimą, naudokite X-Robots-Tag HTTP antraštę, nes meta žymos veikia tik HTML dokumentuose.
Reguliariai peržiūrėkite konfigūraciją. Kaskart pridėdami naują svetainės skiltį, keisdami URL struktūrą ar migruodami svetainę, peržiūrėkite ir atnaujinkite robots.txt bei sitemap failus.
Santrauka: ką daryti dabar
Jei dar nesate sukonfigūravę šių failų arba nesate tikri, ar jie veikia teisingai, štai konkretūs žingsniai:
- Atidarykite
jusu-svetaine.lt/robots.txtir patikrinkite, ar failas egzistuoja ir ar jame nėra klaidų. - Atidarykite
jusu-svetaine.lt/sitemap.xmlir patikrinkite, ar jame yra visi svarbūs puslapiai. - Pateikite sitemap per Google Search Console.
- Patikrinkite, ar sitemap neturi puslapių, blokuojamų robots.txt.
- Pašalinkite iš sitemap visus puslapius su 404, 301 peradresavimais ar
noindexžyma. - Nustatykite reguliarų tikrinimo grafiką (bent kartą per mėnesį).
Tinkamai sukonfigūruoti sitemap.xml ir robots.txt failai yra techninės SEO pagrindas. Jie nekainuoja nieko, užtrunka nedaug laiko, bet gali turėti didelę įtaką tam, kaip greitai ir kokius puslapius Google indeksuoja jūsų svetainėje.
