[LDA, Top2Vec, BERTopic 모형의 토픽모델링 비교 연구]
- 국외 문헌정보학 분야를 중심으로
논문 분석 및 정리
1. 연구 개요
Web of Science(WoS)에 등재된 문헌정보학(LIS) 분야 학술지 데이터를 가지고 LDA, Top2Vec, BERTopic 세 가지 토픽 모델링 기법을 비교함. LIS 분야 논문 55,442편의 초록 데이터를 사용해서 각 모델의 토픽 생성 결과를 분석함.
2. 연구 목적과 배경
- LDA, Top2Vec, BERTopic의 성능과 특성을 비교함.
- 데이터 분포, 토픽 수, 문서 할당 비율을 분석함.
- LIS 분야에서 각 모델의 활용 가능성을 평가함.
3. 데이터 및 전처리
- Web of Science에서 2001~2021년간 LIS 분야 85개 학술지 논문 초록 55,442편 수집함.
- 전처리 과정:
- LDA는 BOW 방식으로 변환.
- Top2Vec과 BERTopic은 자연어 그대로 임베딩 처리함.
- 불용어 제거, 단어 빈도 조정 등 기본 전처리 적용함.
4. 연구 방법
1차 실험: 기본 설정으로 비교함.
- LDA: 100개 토픽 생성.
- Top2Vec: 350개 토픽 생성.
- BERTopic: 550개 토픽 생성.
- 각 모델의 문서 당 평균 토픽 수와 분포 차이 분석함.
2차 실험: 동일한 토픽 수(25개)로 최적화해서 다시 비교함.
- 토픽 수를 25개로 제한하고 결과 비교함.
- LDA와 Top2Vec은 유사한 18개 토픽(72%) 생성.
- BERTopic은 세부 토픽을 더 많이 생성함.
5. 결과 비교
1. LDA
안정성과 신뢰성
LDA는 전통적인 통계 기반 접근으로, 연구자들이 잘 이해하고 활용하기 쉬움. 토픽 수가 많지 않아도 주요 주제를 효과적으로 식별할 수 있음.
- 적은 수의 토픽으로도 전체 데이터의 핵심을 파악할 수 있음.
- 문헌정보학과 같은 특정 분야에서 중심 키워드와 주요 흐름을 빠르게 확인 가능함.
- 토픽 간 독립성을 가정하는 점에서 대규모 데이터를 다룰 때 구조적인 이해를 제공함.
-
- 제약 사항과 개선 방향
LDA는 문맥 정보를 반영하지 않음. 단어 순서를 고려하지 않고, Bag-of-Words(BOW) 방식에 의존하기 때문에 정교한 주제 분석에는 한계가 있음.- 대안으로 Dynamic Topic Models(DTM)나 Correlated Topic Models(CTM)을 활용해 시간 변화나 토픽 간 관계를 고려하는 방식으로 확장 가능.
- LDA는 전통적인 방식으로 안정적인 결과를 제공하지만, 딥러닝 기반 모델에 비해 세부 분석에서는 부족할 수 있음.
- 임베딩 기반의 효율성
Top2Vec은 단어와 문헌을 임베딩으로 변환해, 의미적 유사성을 바탕으로 클러스터링함. 이는 데이터 전처리에 드는 노력을 줄이고, 자연어 그대로 분석할 수 있는 장점을 제공함.- 전처리 없이도 문헌과 단어의 의미적 연관성을 파악함.
- 고도로 세분화된 주제를 생성할 수 있어 연구자가 특정 주제에 깊이 들어갈 수 있음.
- UMAP 및 HDBSCAN을 활용한 클러스터링은 비정형 데이터 분석에도 적합함.
- 주요 응용 가능성
기업 데이터 분석, 소비자 피드백 클러스터링, 소셜 미디어 데이터에서 특정 이슈를 발굴하는 데 유용함.- 특히 다국어 데이터 분석에 강점이 있어 글로벌 데이터셋에 활용 가능.
- 임베딩 기반이기 때문에 신경망 모델과의 결합으로 확장 가능.
- 한계와 개선점
토픽 병합 과정에서 기존의 점유율이나 특성이 손실될 수 있음.- 병합 전후의 특징을 보존하면서 세부 주제를 결합하는 방법론이 필요함.
- 문맥 반영에서 BERTopic보다 약할 수 있음.
- 최신 딥러닝 기법의 강점
BERTopic은 BERT 기반 임베딩을 사용해 문맥 정보를 적극적으로 반영함. 이는 기존의 통계 기반 모델보다 문서의 의미적 깊이를 잘 파악할 수 있는 강점을 제공함.- 문맥이 중요한 데이터 분석에 적합함(예: 의료 데이터, 법률 데이터).
- HDBSCAN을 활용한 클러스터링은 소수의 데이터에도 적합.
- c-TF-IDF를 활용해 토픽 설명력을 높임.
- 세분화와 다양성
BERTopic은 더 많은 토픽을 생성하고, 토픽마다 세부적인 주제를 강조함.- 기존 모델이 다루지 못한 복잡한 주제를 탐구할 수 있음.
- 토픽 생성 과정에서 이상치(outlier)를 분리해 데이터 노이즈를 줄임.
- 응용 가능성
딥러닝 기반 데이터 분석과 결합해 추천 시스템, 시맨틱 검색, 동적 토픽 분석 등에 활용 가능.- 특히 BERT와 같은 사전학습 모델이 다양한 분야에 적용 가능하다는 점에서 확장성이 높음.
- 예를 들어, 소셜 미디어에서 감정 분석이나 제품 리뷰 분석에 활용 가능.
- 한계와 개선점
BERT 기반 모델은 계산 자원이 많이 필요함.- 데이터 크기와 복잡성에 따라 BERTopic의 이상치 비율이 높아질 수 있음.
- 최적화 과정을 통해 클러스터링 품질을 높이는 연구가 필요함.
- 목적에 따른 모델 선택 중요성
연구나 분석 목적에 따라 LDA, Top2Vec, BERTopic 중 적합한 모델을 선택하는 것이 중요함.- 단순한 데이터 분석: LDA가 적합함.
- 세부 주제 발굴: Top2Vec이 강점.
- 문맥 반영과 딥러닝 활용: BERTopic이 효과적임.
- 모델 간 결합 가능성
각 모델의 강점을 결합해 새로운 접근 방식을 개발할 수 있음.- LDA의 안정성과 Top2Vec의 세분화, BERTopic의 문맥 반영을 조합하면 더 강력한 토픽 모델링이 가능할 수 있음.
- 실제 데이터 활용
LIS 분야뿐만 아니라, 마케팅, 금융, 의료 등 다양한 분야에서 데이터의 특성과 목적에 따라 유연하게 적용할 수 있음.
- 제약 사항과 개선 방향
6. 결론
- LDA: 안정적이고 전통적인 방식.
- Top2Vec: 빠르고 세부 주제 파악에 적합.
- BERTopic: 최신 딥러닝 기법으로 문맥 정보 반영에 강점.
- 각 모델은 목적에 따라 다르게 활용해야 함.
'✍️ 에세이 > 지각에세이' 카테고리의 다른 글
이커머스 산업에서 데이터 분석가, PM의 역할 (6) | 2024.11.11 |
---|---|
지각 에세이_김세연 (1) | 2024.08.02 |
지각에세이_이현진 (0) | 2024.07.29 |
지각에세이_강구슬 (0) | 2024.07.13 |
지각에세이_김정현 (0) | 2024.05.06 |