Internet i oprogramowanieStrony InternetoweSztuczna Inteligencja

Markdown czy HTML dla AI: co naprawdę pokazują testy z 2026 roku

Markdown czy HTML dla AI: co naprawdę pokazują testy z 2026 roku

Większość poradników o GEO stawia cię przed wyborem: HTML albo markdown. To pytanie jest źle postawione. Kontrolowany test Profound na 381 stronach pokazał, że format pliku sam w sobie praktycznie nie wpływa na to, jak często boty AI odwiedzają witrynę – różnica była kierunkowo dodatnia, ale statystycznie nieistotna. Liczy się coś innego: czy twoja „wersja dla robotów” nie zostanie uznana za cloaking.

W lutym 2026 John Mueller z Google nazwał tworzenie odrębnych stron markdown dla LLM-ów głupim pomysłem na Bluesky. Fabrice Canel z Microsoftu ostrzegł w podobnym tonie. Obaj postawili tę samą tezę: wyszukiwarki i tak crawlują obie wersje strony, żeby sprawdzić, czy się różnią – a jeśli się różnią, to problem.

Dlaczego pytanie wróciło w połowie 2026 roku

Spór ożył w maju, kiedy Andrej Karpathy zasugerował coś wbrew panującej modzie: poproś model o odpowiedź w HTML, a potem otwórz ją w przeglądarce. Tydzień później Thariq Shihipar, inżynier z zespołu Claude Code w Anthropicu, opisał, dlaczego przestał używać markdown przy generowaniu treści przez AI. Dwóch ludzi blisko źródła; dwa przeciwne wnioski.

Część branży poszła jeszcze dalej. Salesforce Agentforce przetwarza ponad 4 miliony sesji rocznie i renderuje odpowiedzi jako karuzele czy przyciski wyboru, nie jako gołe markdown. Microsoft Copilot Studio robi to przez Adaptive Cards, Google testuje protokół A2UI. Wniosek jest prosty, choć niewygodny dla fanów jednego, uniwersalnego formatu: surowy tekst (markdown czy HTML, wszystko jedno) coraz częściej jest tylko warstwą pośrednią, którą system i tak przerabia na coś innego.

Dla twojej strony WordPress liczy się jednak inny, znacznie bardziej przyziemny problem: czy crawler ChatGPT, Perplexity albo Google AI Overview odwiedzi ją chętniej, jeśli dostanie markdown zamiast HTML. Tu właśnie wchodzi test Profound.

Co pokazał test Profound na 381 stronach

Profound podzielił 381 stron z sześciu serwisów na dwie grupy. Jedna prezentowała botom AI normalny HTML, identyczny z tym, co widzi człowiek. Druga, w tym samym czasie, serwowała botom czystą wersję markdown tej samej treści. Ludzie zawsze widzieli HTML, więc żadny użytkownik nie zauważył różnicy. Po trzech tygodniach pomiaru strony z markdown zarejestrowały medianę jednej dodatkowej wizyty bota. Kierunkowo plus; statystycznie nic.

Eksperyment Profound: HTML vs markdown dla botów AI (19.01-8.02.2026)
Parametr Grupa HTML Grupa markdown
Liczba stron 189 192
Mediana dodatkowych wizyt bota 0 +1
Istotność statystyczna nie
Maksymalny mierzony wzrost ruchu ~16% (nieistotny)

Wcześniejszy eksperyment OtterlyAI poszedł jeszcze dalej i sprawdził modny trik z plikiem llms.txt. Wynik? W 90 dni plik ten przyciągnął zaledwie 0,1% ruchu botów AI – trzy razy mniej niż przeciętna strona z treścią na tej samej domenie. Zero wizyt, zero wpływu na cytowania. Nie jest to argument przeciw markdownowi jako takiemu; jest to argument przeciw traktowaniu publikacji plików .md jako samodzielnej taktyki GEO.

Czemu Google ostrzega przed osobnymi stronami dla robotów

Tworzenie odrębnej wersji strony wyłącznie dla botów AI, różnej od tej, którą widzi człowiek, łamie podstawową zasadę polityki cloakingu Google: ta sama treść dla każdego odwiedzającego. Mueller i Canel ostrzegli przed tym wprost na początku 2026 roku, a SALT.agency dodało, że okrojenie strony do markdown często usuwa strukturę, której boty potrzebują, żeby zrozumieć relacje między podstronami.

Mueller ma rację co do jednego: modele trenowane na zwykłym wyglądzie sieci radzą sobie z HTML bez problemu, od zawsze. Nie znaczy to jednak, że markdown jest bezużyteczny – po prostu nie powinien istnieć jako osobny, indeksowalny adres URL, który Google może uznać za próbę pokazania mu czegoś innego niż człowiekowi.

Bezpieczny wariant to content negotiation: ten sam URL, inna reprezentacja w zależności od nagłówka żądania (na przykład Accept albo specjalny nagłówek), bez tworzenia nowego, osobno linkowanego adresu. Wersję markdown oznaczasz wtedy jako nieindeksowalną przez X-Robots-Tag, więc Google ją widzi, ale traktuje jako narzędziową, nie jako konkurencyjną stronę.

Gdzie markdown wygrywa: tokeny i RAG

Markdown wygrywa nie w SERP-ach, a w portfelu. Analiza Cloudflare wykazała, że wersja markdown typowego wpisu blogowego zajmuje około 80% mniej tokenów niż jej odpowiednik w HTML. Przy tysiącach zapytań dziennie do własnego chatbota czy pipeline’u RAG ta różnica przekłada się na realne pieniądze, nie na abstrakcyjny wskaźnik.

W systemach RAG dane są jeszcze wyraźniejsze: ustrukturyzowany markdown podnosił dokładność odpowiedzi o nawet 35%, jednocześnie ścinając koszt tokenów o 20-30%. Przy zadaniach polegających na wyciąganiu danych z tabel modele oparte na GPT radziły sobie lepiej z markdown (około 60,7% dokładności) niż z HTML (53,6%).

Nie każdy zysk jest tak spektakularny w praktyce. Przy krótkich tekstach do 500 słów różnica w koszcie bywa kosmetyczna, a sam efekt zależy od tego, jak „brudny” jest twój HTML – strona z dziesiątkami zagnieżdżonych divów i inline’owych stylów straci więcej na konwersji niż czysty, semantyczny markup.

Wniosek: markdown ma sens jako format wejściowy do twoich własnych narzędzi (chatbot na stronie, wewnętrzny RAG, pipeline w n8n), nie jako publiczna, indeksowalna alternatywa dla strony WordPress.

Jak wdrożyć to bezpiecznie: cztery kroki bez ryzyka cloakingu

Sposób, który nie wzbudzi podejrzeń Google, a jednocześnie daje korzyść kosztową tam, gdzie ona faktycznie istnieje, wygląda tak:

  1. Zostaw jeden kanoniczny URL z czystym, semantycznym HTML – to wersja, którą widzi i człowiek, i każdy crawler bez specjalnego traktowania.
  2. Generuj markdown na żądanie, na tym samym adresie, w zależności od nagłówka żądania (na przykład Accept: text/markdown), zamiast publikować osobny, linkowalny plik .md.
  3. Oznacz wersję markdown jako nieindeksowalną przez nagłówek X-Robots-Tag: noindex, żeby było jasne, że to narzędziowa reprezentacja, nie konkurencyjna treść.
  4. Wymuszaj kodowanie UTF-8 w nagłówku Content-Type: text/markdown; charset=utf-8 – bez tego polskie znaki diakrytyczne (ą, ę, ł, ż) mogą zamienić się w mojibake, bo serwer domyślnie zgaduje ISO-8859-1.

Ten ostatni punkt brzmi jak detal techniczny, ale dla polskiego contentu jest praktyczny: bez wymuszonego UTF-8 strona o „łatwych zwrotach” może w wersji markdown wyglądać jak ciąg przypadkowych znaków, co dla bota oznacza realną utratę jakości danych wejściowych.

Najczęściej zadawane pytania

Czy markdown podnosi pozycję strony w Google?

Nie ma na to dowodów. Test Profound na 381 stronach nie wykrył statystycznie istotnej różnicy w ruchu botów AI między HTML a markdown, a Google ocenia pozycję na podstawie zwykłej, jednej wersji strony.

Czy warto publikować plik llms.txt?

Według danych OtterlyAI – prawdopodobnie nie jako samodzielna taktyka. Plik ten przyciągnął zaledwie 0,1% ruchu botów AI w 90 dni, trzy razy mniej niż zwykła strona z treścią.

Czy ChatGPT i Perplexity faktycznie wolą markdown?

W RAG i wewnętrznych pipeline’ach tak – markdown bywa dokładniejszy i tańszy w tokenach. W kontekście crawlowania publicznej strony różnica jest marginalna i niepotwierdzona statystycznie.

Co właściwie oznacza cloaking w tym kontekście?

To pokazywanie różnej treści botom i ludziom pod tym samym adresem. Osobna strona markdown wyłącznie dla LLM-ów, niedostępna w identycznej formie dla człowieka, może zostać tak zinterpretowana przez Google.

Jak uniknąć problemu z polskimi znakami w wersji markdown?

Wymuś nagłówek Content-Type: text/markdown; charset=utf-8 przy każdej odpowiedzi. Bez tego serwer może domyślnie interpretować polskie znaki jako ISO-8859-1, co zamienia je w nieczytelne ciągi bajtów.

Czy blokować boty AI w robots.txt zamiast bawić się w markdown?

To zależy od celu. Jeśli chcesz być cytowany w AI Overviews czy Perplexity, blokada jest przeciwskuteczna – bot musi cię zobaczyć, żeby cię zacytować. Markdown czy nie, dostęp jest warunkiem koniecznym.

Ile markdown oszczędza na tokenach?

Według analizy Cloudflare, około 80% w porównaniu z odpowiednikiem HTML dla typowego wpisu blogowego. To duża liczba, ale dotyczy głównie kosztu przetwarzania, nie widoczności w wyszukiwaniu.

Co w praktyce poleca zespół Anthropic?

Thariq Shihipar z zespołu Claude Code argumentował, że przestał stosować markdown dla treści generowanych przez AI, wskazując na strukturalny rozjazd między tym, co model łatwo wytwarza, a tym, co człowiek wygodnie czyta. To stanowisko dotyczy jednak głównie interfejsów agentowych, nie publicznych stron WWW.

Co wdrożyć w tym tygodniu, a co odłożyć na później

Wdroż od razu jedną rzecz: jeśli masz osobne pliki .md indeksowane jako publiczne URL-e, zdejmij je z indeksu albo skonsoliduj treść z kanoniczną stroną HTML. To eliminuje realne ryzyko cloakingu bez żadnych strat.

Content negotiation z markdown na żądanie odłóż na moment, w którym masz konkretny powód kosztowy – własny chatbot, pipeline RAG, integrację z agentem, który faktycznie płaci za tokeny przy każdym zapytaniu. Dla zwykłego ruchu z AI Overviews czy Perplexity inwestycja w czysty, semantyczny HTML (nagłówki tematyczne, tabele z caption, dane FAQ) da więcej niż walka o format pliku.

Źródła i dalsze informacje

  1. Profound. „Does Markdown Increase AI Bot Traffic?” tryprofound.com
  2. Profound. „Markdown vs HTML: An Experiment on AI Traffic.” tryprofound.com
  3. OtterlyAI. „GEO Experiment: Markdown vs. HTML, Which Format Do AI Crawlers Prefer?” otterly.ai
  4. Ekamoira. „Markdown for AI Crawlers: Content Negotiation Guide (2026).” ekamoira.com
  5. Kitty Giraudel. „Serving Markdown to LLMs With Eleventy.” kittygiraudel.com
  6. Beam.ai. „HTML vs Markdown for AI Agents: Which Format Wins in 2026.” beam.ai