Robots.txt : 웹 사이트의 검색 순위를 높이거나 아프게하는 방법

폭로: 귀하의 지원은 사이트 운영을 유지하는 데 도움이됩니다! 이 페이지에서 권장하는 일부 서비스에 대한 추천 수수료가 발생합니다.


robots.txt 파일은 웹 로봇이 방문 할 수있는 것과 할 수없는 것을 방문 할 수있는 인터넷 로봇에게 알려주는 특수 도구입니다..

예를 들어 Googlebot은 웹 사이트를 방문하기 전에 robots.txt 파일을 읽고 어디로 갈 수 있고 갈 수 없는지, 어떤 정보를 수집 할 수 있는지 등을 확인합니다. 물론, 명성에 관심이있는 기존 회사를 대표하기 때문에이 작업을 수행합니다..

일부 인터넷 사기꾼이 ScamBot5000을 만들었다면 robots.txt 파일을 읽지 못할 것입니다..

따라서 Robots.txt를 사용해야하는 이유?

로봇이 robots.txt 파일의 내용을 준수 할 필요가 없기 때문에 시간 낭비처럼 보일 수 있습니다. 그러나 실제로는 매우 중요 할 수 있습니다. 물론, 스팸봇이 귀하의 웹 사이트에 방문하여 쓸모없는 의견을 게시 할 것입니다. 그러나 이는 솔루션마다 다른 문제입니다. robots.txt 파일은 검색 엔진 및 아카이버가 사이트를 탐색하는 방법을 알도록 도와줍니다..

대부분의 상황에서 웹 사이트는 로봇이 전체 사이트를 체크 아웃하기를 원합니다. 그러나 항상 그런 것은 아닙니다. 두 부분으로 나누어 진 사이트가 있다고 상상해보십시오. 한 부분에는 시장에 출시되는 각각의 새로운 스마트 폰에 대해 어떻게 생각하는지 세상에 알리는 블로그가 포함되어 있습니다. 그리고 다른 부분에는 새 아기의 사진이 있습니다. 당신은 사람들이 아기의 사진을 보는 것을 신경 쓰지 않습니다..

그러나 자신이 누구인지 모르는 사람들이있는 검색 엔진 데이터베이스에 이러한 사진을 포함시키고 싶지는 않습니다. 아니면 당신은 단지 당신의 새로운 아기의 10,000 이상의 고해상도 사진을 가지고 있기 때문에 서버에 세금을 부과하고 싶지 않을 수도 있습니다.

이유에 관계없이 robots.txt 파일을 사용하여 검색 엔진에 알릴 수 있습니다. 스마트 폰 기사는 색인화하지만 아기 사진은 그대로 둡니다.

Robots.txt 작동 방식

그 안에있는 명령을 로봇 배제 프로토콜이라고합니다. 1994 년 이래로 공식적으로 표준화 된 적이 없다. 하지만 어쨌든 꽤 잘 작동합니다..

거기에는 많은 것이 있습니다 (우리가 얻을 것입니다). 그러나 대부분 두 가지 명령이 있습니다. (1) 명령을 적용 할 로봇을 알려주는 명령; (2) 로봇에게 무엇을 할 수 있고 할 수 없는지를 알려주는 사람들.

사용자 에이전트 명령

robots.txt 파일의 모든 섹션은 User-agent 명령으로 시작합니다. 형식은 다음과 같습니다.

사용자 에이전트 : [robot-name]

이 경우 [robot-name]은 특정 로봇 (예 : Googlebot) 또는 모든 로봇의 이름 일 수 있으며 별표 기호로 표시됩니다. 후자의 경우가 가장 일반적입니다. User-agent 다음에 모든 명령은 다음 User-agent 행 (있는 경우)까지 명령을 참조합니다..

허용하지 않음

robots.txt 파일에서 가장 일반적인 명령은 로봇이 웹 사이트의 다른 위치로 이동하지 못하게하는 명령입니다. 모든 행은 User-agent 형식과 비슷한 형식입니다.

허용 안함 : [파일 또는 디렉토리 이름]

이 경우 [파일 또는 디렉토리 이름]은 웹 사이트 루트를 기준으로합니다. 예를 들어 공유 서버에서 웹 사이트의 일반적인 위치는 / home / websiteName / public_html입니다. robots.txt에 관한 한이 디렉토리는 루트 디렉토리이거나 /.

간단한 예

아마도 가장 간단한 robots.txt 파일은 모든 로봇이 원하는 곳으로 가도록 지시하는 파일 일 것입니다.

사용자 에이전트: *

그러나 “그리드 오프”웹 사이트를 원하고 일반 검색 엔진에서 찾을 수없는 경우 robots.txt 파일은 다음과 같습니다.

사용자 에이전트 : * 허용 안 함 : /

보다 현실적인 경우는 Google 검색 로봇이 비공개 영역으로 이동하는 것을 원하지 않는 경우입니다.

사용자 에이전트 : Googlebot 금지 : / cgi-bin / 금지 : / wp-admin /

Robots.txt의 다른 기능?

로봇 배제 표준은 ISO 및 W3C와 같은 권위있는 기관에 의해 백업되지 않기 때문에 주어진 로봇이주의를 기울여야 할 것은 가변적입니다. 따라서 방금 논의한 user-agent 및 disallow 명령은 여러분이 정말로 신뢰할 수있는 전부입니다. 그러나 robots.txt 파일에 추가 할 수있는 다른 비표준 명령이 있습니다.

허용하다

allow 명령은 거의 표준입니다. 대부분의 로봇은 그것을 이해합니다. 그러나 실제로는 많이 사용되지 않습니다. 일반적으로 허용되지 않는 사이트의 작은 부분을 크롤링하는 방법으로 사용됩니다. 대부분의 로봇은 더 긴 명령을 우선합니다. 혼동 될 수 있으므로 피해야합니다.

사용자 에이전트 : * 허용 안 함 : / 허용 : / wp

크롤링 지연

크롤링 지연은 로봇에게 사이트를 얼마나 자주 방문 할 수 있는지 알려줍니다. 원래 아이디어는 로봇이 웹 서버를 지배하지 못하게하는 것이 었습니다. 즉, 부주의 한 DoS 공격을 피하는 방법이었습니다. 그러나 대부분의 로봇은 그것을 사용하지 않으며 다른 로봇은 다른 방식으로 사용합니다.

사용자 에이전트 : * 크롤링 지연 : 10

주최자

host 명령은 로봇에게 어떤 호스트를 크롤해야하는지 알려줍니다. 이것은 이상하게 보일 수 있지만 미러 사이트 용입니다. freeware.com이라는 기본 웹 사이트가 있고 freeware1.com 및 freeware2.com을 미러링하는 경우 다른 두 사이트가 정확히 동일 할 경우 로봇이 freeware.com 만 크롤링하는 것이 좋습니다..

사용자 에이전트 : * 호스트 : freeware.com

사이트 맵

이 명령은 로봇에게 사이트의 XML 사이트 맵을 찾을 수있는 위치를 알려줍니다. 일반적으로 사이트 맵은 검색 엔진에 직접 제출됩니다..

사용자 에이전트 : * 사이트 맵 : http://www.mysite.com/sitemap.xml

메타 태그

robots.txt 파일 외에도 로봇 메타 태그도 있습니다. 이를 사용하여 페이지 레벨에서 로봇이 수행해야 할 작업을 표시 할 수 있습니다. 대부분의 메타 태그와 마찬가지로 이름과 내용의 두 가지 속성을 사용합니다..

이름 속성에는 일반적으로 “로봇”이라는 단어가 포함됩니다. 그러나 특정 로봇의 이름 또는 쉼표로 구분 된 여러 로봇의 이름을 포함 할 수 있습니다..

content 속성은 쉼표로 구분 된 하나 이상의 명령을 포함합니다. 가장 일반적인 것은 ‘색인 생성'(페이지를 색인 생성하지 않음)과 ‘nofollow'(페이지의 링크를 따르지 않음)입니다. index, follow, none, noarchive, nocache 및 nosnippet을 포함한 많은 다른 매개 변수가 있습니다. 자세한 내용은 고급 리소스를 참조하십시오.

추가 자료

다음은 robots.txt에 대한 최신 가이드, 자습서 및 도구 모음입니다..

기본 소개

  • Robots.txt 파일을 만들고 구성하는 방법 : 주제에 대한 훌륭하고 철저한 소개.
  • 웹 로봇 페이지 : robots.txt 파일에 대한 기본 소개.
  • Robots.txt 란? : SEO 측면에보다 중점을 둔 MOZ 페이지.
  • Robots.txt 파일이란 무엇입니까 : 모든 기본 사항에 대한 좋은 소개를 제공하는 Patrick Sexton의 기사.
  • 로봇 태그 정보 : 메타 태그로 로봇을 제어하는 ​​방법에 대한 기본 정보.
  • 대화 형 예제를 통해 Robots.txt에 대해 알아보기 : robots.txt 파일에 대한 철저한 소개.

고급 정보

  • Robots.txt를 자세히 살펴보기 : 패턴 일치를 포함한 주제에 대한 토론.
  • Robots.txt 사양 : 파일을 사용하는 방법을 정확하게 설명하는 Google 사양.
  • 로봇 제외 프로토콜 : robots.txt 파일 사용 방법에 대한 Bing의 정보.
  • Robots.txt는 자살 참고 사항입니다. Archive.org에서 더 이상 robots.txt 파일을 더 이상 읽지 않는 이유에 대한 설명을 “현대 시대의 어리 석고 바보 같은 생각”으로 간주합니다.
  • WordPress에서 특정 게시물 및 페이지의 색인을 생성하지 못하도록 검색 엔진을 중지하는 방법 : WordPress에 중점을두고 있지만이 기사에서는 로봇 메타 태그에 대해 자세히 소개합니다..
  • 5K + 지시문으로 SEO를 차단하고 파괴하는 방법 : 지나치게 복잡한 robots.txt 파일로 인해 한 웹 사이트가 가시성을 파괴 한 사례 연구.
  • Robots.txt 허용 안함 : 피해야 할 20 년의 실수 : robots.txt 파일로 수행하지 말아야 할 것에 대한 좋은 조언.

Robots.txt 도구

  • McAnerin의 로봇 제어 코드 생성 도구 : 규칙을 생성하기위한 여러 특정 로봇을 갖춘 완전한 기능을 갖춘 robots.txt 생성기.
  • SEO Book Tools : robots.txt 파일 생성 및 확인을위한 간단한 도구.
  • 로봇 데이터베이스 : 300 개가 넘는 로봇 목록 및 각 로봇에 대한 세부 정보.
  • Robots.txt 테스터 : robots.txt 파일을 확인하기위한 Google 도구입니다. Google이 사이트에서 할 수있는 것과 할 수없는 일을 아는 것이 중요합니다..

요약

robots.txt 파일 및 robots 메타 태그는 웹 사이트 소유자 및 관리자에게 유용한 도구가 될 수 있습니다. 그러나 당신은 그들에게 큰주의를 기울여야합니다. 잘못 사용하면 웹 사이트 가시성이 크게 손상 될 수 있습니다.

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map