✍️ 에세이/지각에세이

지각에세이_김윤아

윤아킴 2024. 11. 22. 17:47

[LDA, Top2Vec, BERTopic 모형의 토픽모델링 비교 연구]
- 국외 문헌정보학 분야를 중심으로 

 

논문 분석 및 정리

 

1. 연구 개요

Web of Science(WoS)에 등재된 문헌정보학(LIS) 분야 학술지 데이터를 가지고 LDA, Top2Vec, BERTopic 세 가지 토픽 모델링 기법을 비교함. LIS 분야 논문 55,442편의 초록 데이터를 사용해서 각 모델의 토픽 생성 결과를 분석함.

2. 연구 목적과 배경

  • LDA, Top2Vec, BERTopic의 성능과 특성을 비교함.
  • 데이터 분포, 토픽 수, 문서 할당 비율을 분석함.
  • LIS 분야에서 각 모델의 활용 가능성을 평가함.

3. 데이터 및 전처리

  • Web of Science에서 2001~2021년간 LIS 분야 85개 학술지 논문 초록 55,442편 수집함.
  • 전처리 과정:
    • LDA는 BOW 방식으로 변환.
    • Top2Vec과 BERTopic은 자연어 그대로 임베딩 처리함.
    • 불용어 제거, 단어 빈도 조정 등 기본 전처리 적용함.

4. 연구 방법

1차 실험: 기본 설정으로 비교함.

  • LDA: 100개 토픽 생성.
  • Top2Vec: 350개 토픽 생성.
  • BERTopic: 550개 토픽 생성.
  • 각 모델의 문서 당 평균 토픽 수와 분포 차이 분석함.

2차 실험: 동일한 토픽 수(25개)로 최적화해서 다시 비교함.

  • 토픽 수를 25개로 제한하고 결과 비교함.
  • LDA와 Top2Vec은 유사한 18개 토픽(72%) 생성.
  • BERTopic은 세부 토픽을 더 많이 생성함.

5. 결과 비교

1. LDA

안정성과 신뢰성
LDA는 전통적인 통계 기반 접근으로, 연구자들이 잘 이해하고 활용하기 쉬움. 토픽 수가 많지 않아도 주요 주제를 효과적으로 식별할 수 있음.

  • 적은 수의 토픽으로도 전체 데이터의 핵심을 파악할 수 있음.
  • 문헌정보학과 같은 특정 분야에서 중심 키워드와 주요 흐름을 빠르게 확인 가능함.
  • 토픽 간 독립성을 가정하는 점에서 대규모 데이터를 다룰 때 구조적인 이해를 제공함.
    • 제약 사항과 개선 방향
      LDA는 문맥 정보를 반영하지 않음. 단어 순서를 고려하지 않고, Bag-of-Words(BOW) 방식에 의존하기 때문에 정교한 주제 분석에는 한계가 있음.
      • 대안으로 Dynamic Topic Models(DTM)나 Correlated Topic Models(CTM)을 활용해 시간 변화나 토픽 간 관계를 고려하는 방식으로 확장 가능.
      • LDA는 전통적인 방식으로 안정적인 결과를 제공하지만, 딥러닝 기반 모델에 비해 세부 분석에서는 부족할 수 있음.
    2. Top2Vec
    • 임베딩 기반의 효율성
      Top2Vec은 단어와 문헌을 임베딩으로 변환해, 의미적 유사성을 바탕으로 클러스터링함. 이는 데이터 전처리에 드는 노력을 줄이고, 자연어 그대로 분석할 수 있는 장점을 제공함.
      • 전처리 없이도 문헌과 단어의 의미적 연관성을 파악함.
      • 고도로 세분화된 주제를 생성할 수 있어 연구자가 특정 주제에 깊이 들어갈 수 있음.
      • UMAP 및 HDBSCAN을 활용한 클러스터링은 비정형 데이터 분석에도 적합함.
    • 주요 응용 가능성
      기업 데이터 분석, 소비자 피드백 클러스터링, 소셜 미디어 데이터에서 특정 이슈를 발굴하는 데 유용함.
      • 특히 다국어 데이터 분석에 강점이 있어 글로벌 데이터셋에 활용 가능.
      • 임베딩 기반이기 때문에 신경망 모델과의 결합으로 확장 가능.
    • 한계와 개선점
      토픽 병합 과정에서 기존의 점유율이나 특성이 손실될 수 있음.
      • 병합 전후의 특징을 보존하면서 세부 주제를 결합하는 방법론이 필요함.
      • 문맥 반영에서 BERTopic보다 약할 수 있음.
    3. BERTopic
    • 최신 딥러닝 기법의 강점
      BERTopic은 BERT 기반 임베딩을 사용해 문맥 정보를 적극적으로 반영함. 이는 기존의 통계 기반 모델보다 문서의 의미적 깊이를 잘 파악할 수 있는 강점을 제공함.
      • 문맥이 중요한 데이터 분석에 적합함(예: 의료 데이터, 법률 데이터).
      • HDBSCAN을 활용한 클러스터링은 소수의 데이터에도 적합.
      • c-TF-IDF를 활용해 토픽 설명력을 높임.
    • 세분화와 다양성
      BERTopic은 더 많은 토픽을 생성하고, 토픽마다 세부적인 주제를 강조함.
      • 기존 모델이 다루지 못한 복잡한 주제를 탐구할 수 있음.
      • 토픽 생성 과정에서 이상치(outlier)를 분리해 데이터 노이즈를 줄임.
    • 응용 가능성
      딥러닝 기반 데이터 분석과 결합해 추천 시스템, 시맨틱 검색, 동적 토픽 분석 등에 활용 가능.
      • 특히 BERT와 같은 사전학습 모델이 다양한 분야에 적용 가능하다는 점에서 확장성이 높음.
      • 예를 들어, 소셜 미디어에서 감정 분석이나 제품 리뷰 분석에 활용 가능.
    • 한계와 개선점
      BERT 기반 모델은 계산 자원이 많이 필요함.
      • 데이터 크기와 복잡성에 따라 BERTopic의 이상치 비율이 높아질 수 있음.
      • 최적화 과정을 통해 클러스터링 품질을 높이는 연구가 필요함.
    4. 세 모델 간 비교에서 얻을 수 있는 종합 인사이트
    • 목적에 따른 모델 선택 중요성
      연구나 분석 목적에 따라 LDA, Top2Vec, BERTopic 중 적합한 모델을 선택하는 것이 중요함.
      • 단순한 데이터 분석: LDA가 적합함.
      • 세부 주제 발굴: Top2Vec이 강점.
      • 문맥 반영과 딥러닝 활용: BERTopic이 효과적임.
    • 모델 간 결합 가능성
      각 모델의 강점을 결합해 새로운 접근 방식을 개발할 수 있음.
      • LDA의 안정성과 Top2Vec의 세분화, BERTopic의 문맥 반영을 조합하면 더 강력한 토픽 모델링이 가능할 수 있음.
    • 실제 데이터 활용
      LIS 분야뿐만 아니라, 마케팅, 금융, 의료 등 다양한 분야에서 데이터의 특성과 목적에 따라 유연하게 적용할 수 있음.

6. 결론

  • LDA: 안정적이고 전통적인 방식.
  • Top2Vec: 빠르고 세부 주제 파악에 적합.
  • BERTopic: 최신 딥러닝 기법으로 문맥 정보 반영에 강점.
  • 각 모델은 목적에 따라 다르게 활용해야 함.

 

 

 

journal-58-1-5.pdf
2.25MB

'✍️ 에세이 > 지각에세이' 카테고리의 다른 글

이커머스 산업에서 데이터 분석가, PM의 역할  (6) 2024.11.11
지각 에세이_김세연  (1) 2024.08.02
지각에세이_이현진  (0) 2024.07.29
지각에세이_강구슬  (0) 2024.07.13
지각에세이_김정현  (0) 2024.05.06