Engineering Note

[AI] TF-IDF(Term Frequency–Inverse Document Frequency) 본문

AI

[AI] TF-IDF(Term Frequency–Inverse Document Frequency)

Software Engineer Kim 2025. 11. 1. 20:15

TF-IDF(Term Frequency–Inverse Document Frequency)

- 텍스트 데이터를 수치화할 때, 단어의 중요도를 계산하기 위해 사용되는 방법

 

TF-IDF를 사용하는 대표적인 경우

  1. 문서 검색 및 정보 검색(IR, Information Retrieval)
    • 사용자가 검색한 키워드와 문서의 관련성을 계산할 때 사용
    • 예: 검색 엔진에서 “네이버 쇼핑” 검색 시, 문서마다 키워드 중요도를 계산해 순위를 매김
  2. 문서 요약 / 핵심 키워드 추출
    • 문서에서 중요한 단어나 주제를 뽑아내고 싶을 때
    • 예: 뉴스 기사에서 핵심 키워드만 추출
  3. 텍스트 분류 / 머신러닝 입력 데이터 생성
    • 문서를 벡터화해서 ML 모델에 넣고 싶을 때
    • 예: 이메일 스팸 분류, 감성 분석
  4. 유사도 계산
    • 두 문서 간의 유사도를 계산할 때 TF-IDF 벡터로 코사인 유사도를 계산
    • 예: 추천 시스템에서 비슷한 리뷰나 글 찾기

사용하지 않는 경우

  • 딥러닝 기반 임베딩을 쓸 때: BERT, GPT 같은 모델은 문맥과 의미까지 반영하기 때문에 TF-IDF를 직접 쓰지 않는 경우가 많음
  • 문서가 너무 짧거나 단어 수가 적을 때: 통계적 의미가 희박해서 중요도를 제대로 계산하기 어려움

'AI' 카테고리의 다른 글

[AI] Prompt Engineering  (0) 2025.08.06
[AI] 01 나의 첫 머신러닝  (0) 2021.01.25
Comments