블로그 > SEO 용어사전  > 로봇 텍스트 (robots.txt)

robots.txt


용어 설명

robots.txt는 웹사이트 루트 디렉토리에 위치하는 텍스트 파일로, 검색엔진 크롤러(bot)가 어떤 페이지나 디렉토리를 크롤링할 수 있는지 혹은 제외해야 하는지를 정의하는 규칙을 담고 있습니다. 구글, 네이버, 빙 같은 주요 검색엔진은 이 파일을 먼저 읽고 크롤링 범위를 결정하기 때문에, 사이트 색인 관리의 출발점이라고 할 수 있습니다.

특징

✔ 크롤링 제어 도구: 특정 디렉토리나 페이지를 크롤링 대상에서 제외할 수 있습니다. 예를 들어 /admin/, /cart/와 같은 내부 관리·결제 페이지를 검색 결과에서 노출되지 않도록 할 수 있습니다.

색인 차단과는 다름: robots.txt는 크롤링만 제어할 뿐, 이미 색인된 페이지를 삭제하는 기능은 없습니다. 색인 차단은 noindex 메타태그나 구글 서치콘솔의 URL 제거 도구를 병행해야 합니다.


✔ SEO 전략의 기반: 대규모 사이트(예: 쇼핑몰, 미디어)에서는 크롤링 예산(Crawl Budget)을 관리하기 위해 반드시 필요합니다. 검색엔진이 한정된 리소스로 중요한 페이지만 빠르게 크롤링할 수 있도록 하는 것이 핵심입니다.

로봇텍스트 확인 방법

🔎 내 사이트의 robots.txt 파일은 도메인 주소 뒤에 /robots.txt를 입력해 확인할 수 있습니다.
예시: https://www.example.com/robots.txt

활용 방법

🎓 robots.txt로 크롤링 자원을 효율적으로 분배해 색인 효율을 높여 SEO에 긍정적인 영향을 줄 수 있습니다.
예를 들어, 수천 개 상품 페이지를 가진 쇼핑몰을 운영하는 '김사장님'은 robots.txt를 설정하지 않아 "/filter/?color=red" 같은 파라미터 페이지까지 크롤링되면서 핵심 상품 상세페이지의 색인 효율이 떨어졌습니다. 이후 불필요한 URL을 차단하고 주요 상품·카테고리 페이지만 집중 크롤링되도록 조정하자, 크롤링 자원이 효율적으로 분배되며 색인 품질이 개선되고 주요 상품 키워드 순위도 상승했습니다.

robots.txt 설정 예시

1) 모든 검색엔진 크롤러 허용

robots.txt작성예시01


2) 네이버 검색 크롤러(Yeti) 전체 차단robots.txt작성예시02


3) 특정 페이지 차단 ( 예) 차단할 페이지 주소 :https://www.example.com/hidden)
robots.txt작성예시03→ 모든검색엔진 크롤러가 해당페이지를 크롤링하는 것을 차단

검색엔진별 기본 크롤러 이름

  • 구글 (Google) :Googlebot
  • 네이버 (Naver) :Yeti
  • 빙 (Bing, 마이크로소프트): Bingbot

주의사항

❗ robots.txt는 보안 도구가 아닙니다. 크롤링을 막는다고 해서 외부 접근이 차단되는 것이 아니므로, 중요한 정보는 반드시 서버 차원에서 접근 제한을 걸어야 합니다.

❗ robots.txt를 잘못 설정하면 크롤 예산이 중요하지 않은 URL에 낭비되어 핵심 페이지의 크롤·색인이 지연되고, 그 결과 색인 신선도와 순위이 하락으로 SEO 성과가 수개월 이상 정체될 수 있으니, robots.txt 설정을 확인하는 것을 권장드립니다.


 

추천 아티클


Copyright ⓒ 2023 All rights reserved 238LAB.

| 주소 : 경기도 김포시 태장로765 (장기동, 금광테크노밸리 지식산업센터) 528호 | 사업자등록번호 : 281-39-01122 | 통신판매업신고번호 : 제 2024-인천서구-3618 호