Roboty indeksujące są ogniwem niezbędnym dla każdej osoby, która tworzy swoją stronę internetową. Dlaczego? To właśnie dzięki nim wyszukiwarki znają treści witryn. Czy możemy umknąć ich uwadze albo wpłynąć na to, gdzie nie będą zaglądać?
Oczywiście. Do tego celu służy robots.txt - narzędzie do komunikacji z robotami indeksującymi naszą witrynę. To bardzo prosty plik tekstowy, którego roboty poszukują w pierwszej kolejności po wejściu na stronę. To rodzaj języka zrozumiałego dla botów złożony z kombinacji komend zgodnych ze standardem Robots Exclusion Protocol. Dzięki wykorzystaniu pliku mamy możliwość ograniczenia dostępu do zasobów, które są zbędne dla danego wyszukiwania - grafik, styli oraz konkretnych podstron.
Współczesne strony internetowe posiadają wiele podstron, z których część nie ma tylko treści tekstowej. Są to znane nam elementy, takie jak koszyk zakupowy, wewnętrzna wyszukiwarka czy panel użytkownika. Ze względu na swoją konstrukcję mogą spowodować wiele problemów i nie powinny być dostępne dla robotów. Należy zwrócić szczególną uwagę na treści, które blokujemy, aby jedną komendą nie zabronić botom dostępu do całej witryny Prywatne dane zawsze należy zabezpieczać hasłem.
Bez większych trudności znajdziemy w internecie generatory plików robots, a systemy CMS najczęściej wspierają użytkownika w procesie tworzenia. Na początku tworzymy plik tekstowy robots.txt, powinien być on jak najprostszy. Aby wydawac polecenia, wykorzystujemy słowa kluczowe zakończone dwukropkiem. W ten sposób powstaną reguły dostępu. Najpopularniejsze słowa to:
User-agent: – adresat komendy, czyli bot indeksujący. Dla robota Google używamy dodatkowo gwiazdki “*”, np. User-agent: Googlebot
Disallow: – w tym miejscu wpisujemy adres strony lub pliku, którego bot nie może skanować, np: Disallow: /zablokowany/
Allow: – w ten sposób udostępniamy zawartość do przeskanowania
Należy pamiętać, że roboty rozpoznają małe i wielkie litery. A jeśli nasza witryna jest dość złożona, warto dodać komentarze wyjaśniające nasze decyzje. Plik tekstowy musimy przesłać na serwer. Powinien znaleźć się w katalogu głównym hosta naszej witryny. Dodatkowo, możemy przetestować swój plik, używając narzędzia Search Console. To narzędzie pozwala sprawdzić, czy konkretne elementy strony są widoczne dla robotów indeksujących.
Na koniec, warto podkreślić, że plik robots.txt to zbiór zaleceń, do których boty powinny, ale nie muszą się zastosować. Jeśli chcemy całkowicie zablokować dostęp do określonych danych, warto jednak postawić także na trudne do złamania hasło.
Każdy projekt jest indywidualny, potrzebuje uwagi i dokładnego planowania. Pomogę Ci w realizacji Twoich pomysłów i zrobię wszystko, abyś osiągnął swój cel.