robots.txt 파일의 기초 이해
robots.txt 파일은 웹사이트의 루트 디렉토리에 위치하여 검색 엔진 로봇에게 어떤 페이지를 크롤링 할 수 있는 지를 지시하는 간단한 텍스트 파일입니다. 이 파일의 존재는 웹사이트 소유자에게 매우 중요한 역할을 합니다. 웹사이트를 운영하고 있다면, 이 파일을 활용하여 콘텐츠 접근을 관리하는 것의 중요성을 간과하지 않아야 합니다.
robots.txt 파일의 중요성
여러분의 웹사이트에서 어떤 콘텐츠는 공개하고 싶지 않고, 어떤 콘텐츠는 검색 엔진에 노출시키고 싶다면, robots.txt 파일이 그 해답이 될 수 있습니다. 검색 엔진은 크롤러를 통해 웹페이지를 수집하는데, 이 과정에서 여러분이 설정한 규칙을 무시하고 모든 페이지를 크롤링하게 되면 원치 않는 정보가 검색 결과에 노출될 수 있습니다. 이는 웹사이트의 이미지나 개인정보 보호 측면에서 부정적인 영향을 미칠 수 있습니다.
robots.txt 파일의 구조
robots.txt 파일은 기본적으로 텍스트 형식으로, 두 가지 주요 요소로 구성됩니다. User-Agent와 Disallow입니다. 이러한 요소를 통해 어떤 크롤러가 어떤 콘텐츠에 접근할 수 있는 지를 제어할 수 있습니다.
User-Agent란?
User-Agent는 어떤 검색 엔진의 크롤러를 지정하는 것으로, 사용자가 특정하는 로봇의 종류를 의미합니다. 예를 들어, Google의 경우 ‘User-agent: Googlebot’으로 시작합니다. 이를 통해 특정 로봇에게 해당 규칙을 적용할 수 있습니다.
여기서 한 가지 주의할 점은 User-Agent를 명확하게 지정하지 않는 경우, 모든 크롤러에게 적용되므로 주의해야 한다는 점입니다. 사용자 에이전트는 대문자와 소문자가 구분되므로 정확히 입력하는 것이 중요합니다.
예시)
User-agent: * (모든 웹사이트 로봇의 접근 허용)
User-agent: Googlebot (구글 로봇의 접근 허용)
User-agent: Yeti (네이버 로봇의 접근 허용)
Disallow 규칙의 역할
Disallow 규칙은 어떤 특정 페이지나 디렉토리에 대해 접근을 차단하는 역할을 합니다. 예를 들어, ‘/private/’ 디렉토리를 차단하고 싶다면 ‘Disallow: /private/’라고 설정합니다. 또한, 특정 파일도 차단할 수 있습니다. 이 규칙은 여러 줄로 나열할 수 있으며, 여러 개의 디렉토리나 파일을 차단할 수 있습니다.
예시)
Disallow: /wp-admin/
Disallow: /private/
Disallow: /temp/
위와 같이 설정하면 어떤 크롤러든 ‘/wp-admin/’, ‘/private/’, ‘/temp/’ 디렉토리에 접근할 수 없습니다. 이 방식으로 특정 페이지나 디렉토리를 쉽게 관리할 수 있습니다.
robotx.txt 에 쓰이는 명령어 해석
- User-agent: 대상 크롤러 지정
- Allow: 허용 디렉토리 경로
- Disallow: 제한 디렉토리 경로
- Sitemap: 사이트맵이 위치한 경로
대표 포털 사이트의 크롤러명
- 구글: Googlebot
- 네이버: Yeti
- 다음: Daum
- 빙: Bingbot
robots.txt 파일 작성 방법
robots.txt 파일을 작성하는 과정은 생각보다 간단합니다. 이 파일은 텍스트 형식으로 작성되며, 웹사이트의 루트 디렉토리에 위치해야 합니다.
작성 단계
1. 텍스트 파일 생성 : 기본 텍스트 편집기를 이용해 새로운 파일을 작성합니다. 윈도우의 경우 메모장을, 맥의 경우 TextEdit을 사용할 수 있습니다.
2. 규칙 입력 : 사용자가 설정하고자 하는 규칙을 입력합니다. 사용자 에이전트와 접근 차단할 페이지를 명확히 기입해야 합니다.
3. 파일 저장 : 파일 명칭은 반드시 ‘robots.txt’로 저장해야 합니다. 이 때 인코딩 방식은 UTF-8로 설정하는 것이 좋습니다.
4. 업로드 : FTP 클라이언트를 이용해 웹 서버의 루트 디렉토리에 파일을 업로드합니다. 예를 들어, www.yoursite.com/robots.txt 경로에 위치해야 검색 엔진이 인식할 수 있습니다.
예시로 보는 설정 방법
가상의 예시를 통해 설명해 보겠습니다. 여러분이 운영하는 웹사이트에서 다음과 같은 페이지를 차단하길 원한다고 가정해 봅시다.
- 관리자 페이지 (/admin/)
- 비공식 페이지 (/private/)
이럴 경우 robots.txt 파일은 다음과 같이 설정할 수 있습니다.
User-agent: *
Disallow: /admin/
Disallow: /private/
이와 같은 설정은 모든 검색 엔진 크롤러에게 해당 디렉토리에 접근할 수 없음을 명확히 전달합니다.
“TIP “
원클릭 사이트맵 생성
Rank math SEO 등의 최적화 플러그인을 사용 할 경우, 플러그인 자체에서 사이트맵 기능을 제공하므로 쉽게 생성할 수 있습니다. 필요에 따라, 기호에 따라 수정해서 사용하시면 됩니다. 아래는 Rank math SEO로 생성한 기본적인 robots.txt 파일입니다.
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://yoursite.com/sitemap_index.xml
robots.txt 파일 검사 방법
파일을 설정한 후에는 해당 설정이 제대로 작동하는지 확인해야 합니다. 이를 위해 구글 서치 콘솔의 ‘robots.txt 테스트 도구’를 사용할 수 있습니다. 이를 통해 실제로 차단한 페이지가 제대로 인식되고 차단되었는지 확인할 수 있습니다.
테스트 방법
- 구글 서치 콘솔에 로그인합니다.
- ‘크롤러’ 섹션의 ‘robots.txt 테스트 도구’를 선택합니다.
- 파일의 내용을 입력하거나 직접 업로드하여 검토합니다.
- 오류가 발생하는 경우에는 파일을 수정하고 다시 테스트해야 합니다.
이 과정은 웹사이트 SEO 관리에 큰 도움이 됩니다. robots.txt 파일을 점검하셨나요?
어떤 페이지를 차단할 것인가?
특정 페이지를 차단하는 것은 매우 중요합니다. 관리자는 다음과 같은 페이지를 차단하는 것을 고려해야 합니다.
1. 관리자 페이지
관리자가 접근해야 할 페이지는 일반 사용자에게 보여서는 안 됩니다. 예를 들어, ‘/admin/’ 경로와 같은 페이지는 반드시 차단하는 것이 좋습니다. 이렇게 하면 웹사이트의 보안을 강화할 수 있습니다.
2. 테스트 페이지
테스트 중인 페이지, 개발 중인 페이지 등은 검색 엔진에 노출될 필요가 없습니다. 임시로 사용되는 URL들은 Disallow를 통해 차단하는 것이 바람직합니다.
3. 개인정보 보호 페이지
개인 정보를 포함하고 있는 페이지는 검색 엔진 로봇에게 노출되어서는 안 됩니다. 이와 관련된 페이지는 반드시 차단해야만 여러분의 정보가 유출되는 상황을 방지할 수 있습니다.
마무리
robots.txt 파일은 웹사이트의 검색 엔진 최적화에 큰 영향을 미치는 중요한 도구입니다. 이를 통해 여러분은 웹사이트의 콘텐츠를 더 전략적으로 관리하고, 원치 않는 정보 노출을 방지할 수 있습니다. 여러분의 웹사이트에 대한 고민과 필요성을 바탕으로 이 파일을 활용해 보세요.