robots.txt는 웹사이트 최상위 경로(/robots.txt)에 두는 텍스트 파일입니다. 검색엔진 크롤러에게 어떤 경로는 크롤링해도 되고 어디는 접근하지 말지 규칙을 전달합니다. 크롤링 예산을 관리하는 테크니컬 SEO의 기본 요소입니다.
작동 방식
robots.txt는 User-agent별로 규칙을 선언합니다. 핵심 지시어는 다음과 같습니다.
| 지시어 | 역할 |
|---|---|
User-agent | 규칙 적용 대상 크롤러 지정 |
Disallow | 크롤링 차단 경로 |
Allow | 차단 안에서 예외 허용 |
Sitemap | 사이트맵 위치 안내 |
크롤러는 사이트 방문 시 이 파일을 가장 먼저 읽습니다. 잘못된 규칙은 즉시 크롤링·인덱싱 전반에 영향을 줍니다.
활용 포인트
- 관리자 페이지, 내부 검색 결과 등 색인 가치가 없는 경로 차단
- 중복 파라미터 URL의 크롤링을 억제해 크롤링 예산 절약
- 사이트맵 경로를 명시해 색인 발견 속도 개선
차단 후에는 구글 서치콘솔의 robots.txt 테스터로 의도대로 동작하는지 검증합니다.
흔한 오해와 주의점
robots.txt의 차단은 크롤링을 막을 뿐 색인을 100% 막지는 못합니다. 다른 사이트에서 백링크로 연결되면 URL만 색인될 수 있습니다. 색인을 확실히 막으려면 noindex 메타 태그를 사용합니다. 이때 해당 페이지는 크롤링이 허용되어야 noindex가 읽힙니다.
- CSS·JS 차단은 렌더링 평가를 망가뜨릴 수 있습니다
- 중요한 페이지를 실수로 차단하면 트래픽이 통째로 사라집니다
- 비공개 정보 보호 용도로는 부적합합니다(파일 자체가 공개됨)
참고
AI 시대에는 생성형 엔진을 위한 llms.txt라는 유사 개념도 등장했습니다. 238lab은 robots.txt 설계를 SEO와 GEO 관점에서 함께 점검해, 크롤링 차단과 AI 노출 전략이 충돌하지 않도록 조율합니다.
