TF-IDF, SEO에는 어떻게 활용할까?

* 이번 콘텐츠에는 복잡한 수식과 점수가 많습니다. 수식과 점수를 건너뛰더라도 충분히 이해하실 수 있게 작성했으니, 감을 잡으시는 용도로만 활용하셔도 큰 도움이 됩니다.

"TF-IDF"는 Term Frequency - Inverse Document Frequency의 약자로, 정보 검색과 자연어 처리(NLP), 특히 검색엔진 최적화(SEO) 분야에서 문서 내 키워드의 중요도를 측정하는 데 자주 쓰이는 통계적 방법입니다.

TF(Term Frequency): 단어가 한 문서 내에서 얼마나 자주 등장했는지
IDF(Inverse Document Frequency): 그 단어가 전체 문서 집합에서 얼마나 드물게 등장하는지 (희소성)

간단히 말하면 TF-IDF는 한 문서 내 등장 빈도(TF)와 전체 문서 집합에서의 희소성(IDF)을 결합한 값입니다. 이 두 요소를 곱한 값이 바로 TF-IDF 점수입니다.

일반적으로 TF-IDF 값이 높다는 것은 특정 단어가 그 문서를 잘 나타내는 중요 키워드라는 뜻이고, 값이 낮다는 것은 그 단어가 문서의 특성을 나타내기에는 일반적이거나 흔하다는 뜻입니다.

TF-IDF 수학적 공식 표현

TF-IDF(t,d)=TF(t,d)×IDF(t)

TF-IDF의 수학적 공식은 용어빈도(TF, Term Frequency)와 역문서 빈도(IDF, Inverse Document Frequency)를 결합해 계산하며, 결과 수식은 위와 같습니다. 지표를 수식으로 만들어 결과치를 추출하면, 각 단어가 문서에서 얼마나 중요한지 수치로 표현할 수 있습니다.

	용어빈도 (TF)	역문서 빈도(IDF)
수식	TF(t,d)=문서 d의 전체 단어 수 / 문서 d 내 단어 t 등장 횟수	IDF(t)=log(N/(1+DF(t)))
설명		N: 전체 문서의 수DF(t)\text{DF}(t)DF(t): 단어 ttt가 등장한 문서의 수

용어빈도는 단어 t가 문서 d 내에서 나타난 빈도를 의미하며, 보통 가장 간단한 원시 빈도(Raw Frequency)로 계산합니다. 예를 들어 문서에 단어가 100개 있고 특정 단어가 10번 나왔다면 TF는 0.1이 됩니다.

역문서 빈도는 전체 문서에서 특정 단어 t가 얼마나 흔한지 또는 드문지 측정하는 데 사용됩니다. 여기서 로그(log)를 사용하는 이유는, 단어가 문서 전체에서 너무 흔하게 등장하면 점수를 낮추고(일반적인 단어는 중요도가 낮다고 판단), 드물게 등장할수록 점수가 크게 올라가게 하기 위함입니다.

SEO에는 이 수식이 어떻게 적용될까요?

예를 들어 아래 3가지 문서가 있다고 가정해 보겠습니다.

문서	내용 (수식을 위해 문장 길이 8개 단어로 고정)
문서 A	"SEO 서비스는 웹사이트 트래픽을 높이는 데 효과적이다"
문서 B	"웹사이트 디자인은 사용자 경험과 SEO 모두에 중요하다"
문서 C	"SEO와 마케팅 전략을 결합하면 비즈니스 성장에 도움이 된다"

여기서 전체 문서 수(N)는 3개이므로 N = 3입니다. 'SEO'는 문서 A, B, C 모두에 등장하기에 DF(SEO) = 3, '웹사이트'는 문서 A, B에만 등장하기에 DF(웹사이트) = 2가 됩니다.

IDF(SEO)=log(3/(1+3))=log(3/4)≈−0.1249

보통 log는 자연로그 ln 또는 상용로그 log10을 쓰는데, 여기서는 log10 기준입니다. 음수값이 나오는 이유는 너무 많이 쓰이는 단어라서 중요도가 낮게 평가된다는 의미입니다.

	문서 A	문서 B	문서 C
TF점수	SEO : 1회TF = 1/8 (0.125)-웹사이트 : 1회TF = 1/8 (0.125)	SEO : 1회TF= 1/8 (0.125)-웹사이트 : 1회TF = 1/8 (0.125)	SEO : 1회TF= 1/8 (0.125)-웹사이트 : 0회TF = 0/8 (0)

반대로 TF는 해당 문서 내에서의 활용 빈도를 측정하는 척도이기에, 위와 같이 각 항목의 점수가 비교적 간단하게 집계됩니다. 이 점수들을 종합해 TF-IDF를 계산하면 아래와 같은 결과가 나옵니다.

문서	단어	TF	IDF	TF-IDF
A	SEO	0.125	-0.1249	-0.0156
A	웹사이트	0.125	0.0000	0.0000
B	SEO	0.125	-0.1249	-0.0156
B	웹사이트	0.125	0.0000	0.0000
C	SEO	0.125	-0.1249	-0.0156
C	웹사이트	0.000	0.0000	0.0000

각 문서에서 TF-IDF 점수가 가장 높은 단어들을 뽑아 핵심 키워드나 태그로 추출할 수 있습니다. 이를 통해 SEO 콘텐츠 기획 시 페이지마다 어떤 키워드가 강세인지 파악할 수 있습니다.

어? 키워드를 반복할수록 점수가 낮네요?

유심히 보신 분들은 이미 눈치채셨을 텐데, 정확히 짚으셨습니다. 저도 처음 콘텐츠 분석에 'TF-IDF'를 도입할 때 바로 이 지점이 가장 헷갈렸고, 많은 분들이 TF-IDF 점수를 분석해 보고 'SEO와 연관 없는 것 아닌가?'라고 판단하는 부분이기도 합니다.

TF-IDF 점수 기준으로 보면, 위 예시에서 'SEO'라는 단어는 너무 많은 문서에서 자주 등장하는 '일반 단어'가 되어 오히려 낮은 (심지어 음수의) 점수를 받을 수 있습니다.

하지만 이는 검색엔진 최적화(SEO) 관점과 텍스트 마이닝(TF-IDF) 관점의 목적 차이 때문입니다.

1) TF-IDF는 "문서 간 차별화"를 위한 지표입니다.

"이 문서에서는 유독 자주 등장하지만 다른 문서들에서는 드물게 등장하는 단어"라면, 이 문서를 잘 대표하는 단어라고 판단합니다. 즉 '희소성'을 높게 쳐주는 구조이기 때문에, 어떤 단어가 대부분의 문서에 등장하면 IDF 값이 낮아지고, 그 결과 TF-IDF도 낮아집니다.

2) 반면, 구글봇은 TF-IDF보다 전반적인 주제 일관성과 엔터티 인식을 중요하게 봅니다

Google은 문서 내 '주제 일관성'과 '관련성'을 인식하는 방식으로 발전해 왔습니다. 이를 위해 사용하는 방법은 아래와 같습니다.

(1) 엔터티 기반 인식(Entity Recognition)

예: 'SEO', '검색엔진 최적화', 'Search Engine Optimization'을 모두 같은 개념으로 연결

(2) 주제 모델링(Topic Modeling)

특정 문서가 어떤 주제를 다루는지 LSI, BERT, MUM 등으로 추론

(3) TF 자체의 풍부도

'SEO'라는 단어가 자주 등장하고 관련 단어들(예: 키워드, 구글 알고리즘, 인덱싱 등)도 함께 등장한다면, 이 문서는 SEO 관련 주제로 잘 구성됐다고 판단

즉 'SEO'라는 키워드가 TF-IDF 기준으로는 중요도가 낮을 수 있어도, Google은 '이 사이트는 SEO 주제에 집중된 곳'이라고 잘 인식할 수 있습니다.

그래서 TF-IDF는 콘텐츠를 전문적으로 다루는 분들이 정량적으로 데이터화할 수 있는 지표로 이해하시는 것이 훨씬 더 도움이 됩니다. 이를 사용 목적과 분석 관점별로 구분하면 아래와 같이 나눌 수 있습니다.

분석 관점	TF-IDF 기준	구글 SEO 기준
목적	문서 내 핵심어 추출	검색엔진에게 주제 명확히 전달
기준	단어 희소성(차별화)	주제 반복, 관련성 풍부도
권장 방식	흔한 단어는 점수 낮음	핵심 키워드는 충분히 반복 필요
전략	내부 콘텐츠 분류/추천	검색엔진에 주제 명확히 인식

그래서 SEO에는 어떻게 적용할 수 있을까

TF-IDF는 사실상 SEO에서 '최종 목적 그 자체'는 아니지만, 아주 강력한 '진단 도구' 혹은 '전략 보조 도구'로 활용할 수 있습니다. 검색엔진이 TF-IDF를 직접 쓰지는 않지만, 콘텐츠 관리자 입장에서는 "어떤 키워드가 문서에서 핵심 역할을 하는가", 그리고 "내 문서와 경쟁 문서 간의 키워드 차별성은 어떤가", 즉 메인 키워드 집중도나 내부 카니발리제이션을 파악하는 데 탁월한 지표입니다.

이를 조금 더 이해하기 쉽게 지표와 함께 3가지 상황별 사례를 살펴보겠습니다.

1. 경쟁 콘텐츠와의 키워드 비교 분석에 활용

예를 들어 238LAB이 'B2B SEO 전략'이라는 키워드로 콘텐츠를 작성했는데, 구글 상위 10위 콘텐츠와 비교해 내 콘텐츠가 부족한 점을 알고 싶을 때 활용할 수 있습니다.

예시 상황은 아래와 같습니다.

(1) 상위 10개 콘텐츠 크롤링

(2) 각 콘텐츠에서 TF-IDF 분석 수행

(3) 내 글과 경쟁 글의 TF-IDF 상위 20개 키워드 리스트 비교

키워드	내 콘텐츠 TF-IDF	상위 콘텐츠평균 TF-IDF	차이
B2B	0.089	0.083	+0.006
검색엔진	0.052	0.121	-0.069
리드	0.009	0.074	-0.065
세션 유지율	0.000	0.067	-0.067

이를 활용하면 상위 노출 콘텐츠의 키워드 중 'B2B'는 비슷하게 언급되었으나 '검색엔진', '리드', '세션 유지율' 같은 전환/성과 관련 키워드가 부족하다는 점을 알 수 있습니다. 따라서 이 키워드를 보강하도록 콘텐츠 리라이트를 진행할 수 있습니다.

실무 팁을 더하자면, 특정 키워드로 노출되기 위해 글을 작성하는 경우, 해당 키워드로 상위 노출되고 있는 콘텐츠들의 TF-IDF를 분석한 후 높은 점수를 가진 키워드를 중심으로 작성하는 것이 공수를 줄이는 방법이 될 수 있습니다.

2. 중복 콘텐츠 진단 및 내부 경쟁(카니발리제이션) 방지

예를 들어 238LAB의 사이트에 "워드프레스 SEO", "워드프레스 애드센스", "워드프레스 애드센스 SEO"라는 콘텐츠 3개가 있다면, 서로 너무 유사해 구글이 중복 콘텐츠로 인식할 우려가 있습니다. 이런 경우 공들여 작성한 3개의 콘텐츠 중 1개만 노출되는 상황이 발생할 수 있습니다.

이런 경우 세 글 각각의 TF-IDF 키워드(상위 30개)를 먼저 추출한 후 코사인 유사도 계산으로 콘텐츠 유사도를 판단해 볼 수 있습니다. 여기서 기준점을 0.9로 두고, 유사도가 0.9 이상이면 실질적으로 내용이 거의 유사하므로 문서 A와 B를 통합하거나, 문서 C는 "SEO 실무 전략"으로 주제를 확장하는 의사결정을 내릴 수 있습니다.

혹은 보다 적은 리소스로 상위 노출을 노리는 방식으로, TF-IDF 기준 상위 키워드를 다르게 설정해 차별화하여 콘텐츠를 재구성하는 방법도 있습니다.

3. 콘텐츠 전략 수립 서포트

콘텐츠 담당자가 글을 쓸 때 자주 하는 고민 중 하나는 '주 키워드 외에 어떤 관련 키워드를 함께 배치하면 좋을까?'입니다. TF-IDF 지표를 활용하면, 특정 키워드를 검색했을 때 나오는 경쟁 콘텐츠의 TF-IDF를 분석해 상위 키워드를 추출할 수 있습니다.

이렇게 추출한 키워드를 작성하는 글에 적절히 녹여낸다면, 전문적인 지식이 없더라도 적절한 콘텐츠 구성을 잡을 수 있습니다.

예를 들어 타깃 키워드가 "SEO 툴"이라면, TF-IDF 분석을 통해 "Ahrefs", "Semrush", "크롤러", "백링크", "데이터 시각화" 등이 자주 언급되는 것을 확인할 수 있습니다. 이 키워드들을 보조 키워드로 반영해 글을 작성하는 방식입니다.

'SEO 툴'이라는 경쟁 콘텐츠의 상위 TF-IDF 키워드를 수집하면 아래와 같은 결과가 나옵니다.

<'SEO 툴' 키워드의 TF-IDF 기준 상위 키워드 5개 예시>

키워드	TF-IDF 평균	등장률
ahrefs	0.0412	18/20
semrush	0.0389	17/20
백링크	0.0375	16/20
검색 트래픽	0.0312	15/20
키워드 분석	0.0277	14/20

이렇게 도출된 TF-IDF가 높은 키워드를 기준으로 콘텐츠 목차를 작성하면, 큰 고민 없이 콘텐츠를 구성할 수 있어 많은 시간을 아낄 수 있습니다.

이런 걸 다 고려해서 글을 쓰는 게 가능한가요?

솔직히 말씀드리면, 모든 것을 완벽하게 고려해 글을 쓰는 것은 사람 혼자서는 거의 불가능에 가깝습니다.

그런데 그것이 지금의 SEO 실무에서 중요한 포인트이기도 합니다. 실제로 SEO 용도로 콘텐츠를 작성해 보신 분들은 아시겠지만, 특정 키워드로 노출되기 위해 글을 쓸 때는 '해당 키워드의 검색 지면'을 유심히 살펴보는 과정을 거치는데, 이 과정에 상당한 시간이 소요됩니다.

그리고 SEO 콘텐츠 전문가들은 글을 쓸 때마다 아래 항목들을 실제로 고려하기도 합니다.

검색자의 검색 의도
핵심 키워드 + 관련 키워드
경쟁 콘텐츠의 TF-IDF 갭
EEAT, 구조화된 데이터, UX 요소
콘텐츠의 신선도 / 길이 / 링크 구조
내부 콘텐츠 간의 중복 여부
SERP 구성 (동영상, 쇼핑, 이미지 등)

이런 요소들을 글을 쓰면서 실시간으로 판단하고 반영한다는 것은, 거의 '기획 + 분석 + 글쓰기 + 설계 + 운영'을 동시에 해야 한다는 뜻입니다. 결론적으로 TF-IDF 기반 SEO는 "과하게 완벽하게 하려고 하면 무너진다"에 가깝습니다.

현실적으로 TF-IDF를 활용하는 실무 방법은, 이 로직을 최대한 시스템화하는 것입니다. 검토는 '시스템'이 하고, 초안은 '사람'이 작성하며, 점검과 보완은 '시스템'이 마무리하는 운영 측면의 전략적 구조를 수립하는 것이 가장 효율적이라고 생각합니다.

콘텐츠 담당자의 관리 운영 능력을 기르는 것, 즉 '전략적으로 부족한 점을 찾고 보완하는 구조'를 만드는 것이 핵심 로직입니다. 최근 AI가 급성장하면서 이러한 구조를 조금만 활용해도 보다 양질의 콘텐츠를 생산할 수 있습니다. 이러한 구조 수립이 어려운 분들을 위해, 238LAB에서 TF-IDF 관련 툴을 웹 서비스로 제공하려는 계획을 세우고 있으니 준비가 되면 제공하도록 하겠습니다.

저자소개

Joshua: 대표 SEO 컨설턴트

- SEO 경력 8년+ - SEO만으로 7,000억 딜 수주 - 저비용 / 고효율 마케팅 전문가 전) 금융사 마케팅 리드 현) SEO·GEO 에이전시 238LAB 운영 이력) 국내 1위 AI 커뮤니티 등 SEO 컨설팅 다수 진행