✍️ 에세이/결석에세이

[결석에세이_배나현] 딥러닝을 통한 비트코인 가격 예측

skgus 2025. 6. 4. 01:31

비트코인에 대해 아시나요? 비트코인을 두고 많은 사람들이 코인을 해라, 하지 마라 이야기를 많이 하죠. 비트코인을 직접 하진 않지만 평소에 관심있던 주제라 이렇게 에세이 주제로 가져오게 되었습니다.

 

제가 가져온 논문은 [GRU 분석 모델을 활용한 비트코인 시장 예측 : LSTMRandom Forest 모델 비교 분석]입니다.

 

[배경]

 

비트코인은 2009년 등장 이후 빠르게 성장하여 현재 대표적인 디지털 자산으로 자리잡았습니다. 최근에는 금융 자산으로서의 역할이 확대되면서 투자자와 학계의 주목을 받고 있는데요, 블록체인 기반의 비트코인은 거래의 투명성과 보안성을 제공하며, 높은 변동성으로 인해 위험 요소인 동시에 단기 수익 기회로 작용합니다. 특히 전통적인 금융 자산과는 달리, 비트코인 가격은 거시경제 지표보다 대중 심리, 뉴스, 소셜미디어 등의 비정형적 요인에 더 크게 반응한다는 특징을 가집니다. 금과의 상관관계도 낮아 안전 자산으로 보기 어렵지만, 불확실한 경제 상황에서는 대안적인 자신이 되기도 합니다. 이런 비트코인 시장은 예측이 어렵고 가격 변동성이 커서 투자자와 연구자들 사이에서도 중요한 관심 대상입니다. 다양한 예측 모델이 시도되고 있는데, 기술의 발전에 따라 전통적인 통계 기법을 넘어 머신러닝과 딥러닝 기반의 분석 방법으로 확장되고 있습니다. 기존에는 ARIMA 같은 전통 시계열 모델이 사용되었지만, 이는 비트코인의 비선형성과 복잡성으로 인해 예측에 한계가 존재합니다. 이에 따라 RNN이나 LSTM 같은 딥러닝 모델이 예측 정확성을 높이기 위해 도입되었는데, 최근에는 글로벌 경제 지표나 소셜 미디어 데이터를 통합한 다수 변수 모델, LSTM의 성능을 극대화하기 위한 하이퍼파라미터 최적화 연구도 활발히 진행되고 있습니다.

 

해당 연구에서는 비트코인 종가 외에도 다우지수(뉴욕 증권시장의 종합주가지수), S&P 500, 금 가격, 변동성 지수 등 주요 금융 지표를 포함한 데이터를 활용하여 비트코인 시장이 전통 자산과 어떻게 상호작용 하는지를 파악하고 GRU 모델을 중심으로 LSTMRandom Forest와의 비교 분석을 수행하였습니다.

 

 

[모델링]

 

(1) Gated Recurrent Unit (GRU)

GRU는 기존 순환 신경망(RNN)의 단점인 기울기 소실 문제를 해결하기 위해 고안된 딥러닝 모델로, 장기 의존성이 필요한 시계열 데이터 예측에 강점을 가집니다. GRU는 정보를 얼마나 기억하고, 얼마나 버릴지를 조절하는 두 개의 게이트를 가지고 있습니다. 하나는 리셋 게이트로 과거 정보를 어느 정도 무시할지를 결정하고 또 다른 하나인 업데이트 게이트는 과거와 현재 정보를 얼마나 섞을지 정합니다. 이를 통해 GRU는 필요한 정보만 효율적으로 기억하면서 예측을 하게 됩니다. GRULSTM보다 구조가 단순하고, 학습도 빠르며 메모리도 적게 사용해 컴퓨터 자원이 적은 상황에서도 유리하고, 비트코인처럼 가격 변동이 크고 예측하기 어려운 금융 데이터에 적용했을 때도 좋은 성능을 보입니다. Recurrent Dropout 적용을 통해 과적합도 방지할 수 있고, 최근에는 GRUCNN을 결합한 하이브리드 모델이 제안되어 더욱 복잡한 데이터에도 효과적으로 적용되고 있습니다.

 

 

 

(2) LSTM(Long Short-Term Memory)

LSTMRNN의 한 종류로, 장기 의존성 문제를 해결하기 위해 고안된 딥러닝 모델입니다. LSTM 내부에는 망각 게이트, 입력 게이트, 출력 게이트 구조를 사용해정보를 조절하는데, 망각 게이트는 어떤 과거 종보를 버릴지 결정하고, 입력 게이트는 새로운 정보를 얼마나 받아들일지 정하며, 출력 게이트는 최종적으로 어떤 정보를 결과로 낼지 조절합니다. 이런 구조로 중요한 정보는 잘 기억하고, 필요 없는 정보는 잊을 수 있어 예측이 더 정확해집니다. LSTM은 주가, 암호화폐, 자연어 처리, 의료 데이터 등 다양한 분야에서 활용되고 있으며, 복잡한 패턴과 장기 정보를 학습하는 데 탁월한 성능을 보입니다. 그러나 계산 비용이 높고 구조가 복잡해 하이퍼파라미터 조정과 최적화에 어려움이 있다는 한계도 존재합니다. 이를 보완하기 위해 Bidirectional LSTM, Attention 기법 등 다양한 확장 모델이 개발되고 있습니다.

 

(3) Random Forest

Random Forest는 여러 개의 결정 트리를 결합해 예측 성능을 높이는 앙상블 학습 알고리즘으로, 분류와 회귀 문제에 모두 활용합니다. Bagging 과 무작위 변수 선택을 통해 트리 간의 다양성을 확보하고 과적합을 방지하는데, Bagging은 데이터를 무작위로 나누어 각각 다른 트리들이 다른 데이터로 학습하게 만드는 방식이고, 무작위 변수 선택은 각 트리가 학습할 때 사용할 특징(변수)을 무작위로 선택해서 트리들 사이의 중복을 줄이고 다양성을 높이는 것입니다. 예측 결과는 다수결 또는 평균을 통해 결정되며, 높은 예측력과 안정성을 가집니다. 또한 변수 중요도 계산이 가능해 해석력이 높고, 결측치나 이상치에도 강인한 성능을 보입니다. 트리 수가 많아 계산 비용과 메모리 사용량이 크다는 점이 단점이지만, 이를 보완하기 위한 경량화 모델이나 병렬 처리 기법이 함께 연구되고 있습니다.

 

 

[연구 방법]

 

이 연구에서는 GRU. LSTM, Random Forest 세 가지 모델의 성능을 비교하기 위해, 비트코인 시장 예측에서 일반적으로 사용되는 변수들을 바탕으로 분석을 진행하였습니다. 사용된 변수는 비트코인 종가, 일일 거래량, 시카고옵션거래소 변동성 지수, 금 가격, S&P500 지수, 다우지수 등 총 6가지이며, investing.com에서 201911일부터 2025118일까지 약 5년간 수집되었습니다. 연구에서는 순수한 경제 지표만을 사용하기 위해 소비자 심리나 감성 데이터 등은 제외하였으며, 수집된 데이터는 훈련 데이터 80%, 검증 데이터 10%, 테스트 데이터 10%로 나누어 사용했고 주식 시장지표의 휴장일로 인한 결측치는 전날 평균값으로 보정하였습니다. 모델 성능을 평가하기 위해 사용된 지표는 평균 제곱 오차(MSE), 평균 절대 오차(MAE), 그리고 MSE의 제곱근인 RMSE입니다.

 

[연구 결과]

GRU 분석 결과, 전체적으로 비트코인 데이터의 패턴을 안정적으로 학습되었다는 것을 알 수 있었습니다. 과적합이나 미적합을 방지하기 위해 학습 횟수(Epoch)sms 20으로 설정하였고 GRU 모델은 R-squared 값이 0.9301로 매우 높은 설명력을 보였습니다. 예측 정확도를 나타내는 MAE,MSE,RMSE 지표에서도 실제 비트코인 가격과 근접한 결과를 도출하였습니다. 학습 초기에는 training LossValidation Loss 모두 높은 값에서 시작했지만, 학습이 진행되면서 빠르게 감소하였고, 9번째 Epoch 이후에는 손실 값의 변화가 크지 않아 학습이 안정된 것으로 나타났습니다. 또한 두 손실 값 간의 차이가 점차 줄어들면서, 학습 데이터와 검증 데이터 모두에서 과적합 없이 균형 있게 학습이 이루어졌음을 보여줍니다.

 

 

LSTM 모델은 GRU 동일하게 Epoch 20으로 설정하여 분석되었으며, 전반적으로 예측 능력은 높은 편이었지만 GRU 보다는 성능이 다소 낮았습니다. R-squared 값은 0.8251로 비교적 높은 설명력을 보였으나, MAERMSE 값은 GRU보다 크게 나타나 데이터 패턴을 덜 정확하게 포착한 것으로 해석됩니다. 학습 과정에서 초기 손실값은 높았지만 점차 감소하여 안정화 되었고, 특히 6~10 Epoch사이에 훈련 손실이 안정세를 보였습니다. 하지만 Validation Loss10Epoch 이후부터 감소가 정체되거나 다시 증가하는 양상을 보여, 일정 수준의 과적합 가능성이 존재함을 나타냈습니다.

 

 

Random Forest는 딥러닝 모델이 아니므로 Epoch 없이 성능 지표를 기준으로 다른 모델들과 비교하였습니다. 분석 결과, MAE, MSE, RMSE에서 GRULSTM보다 더 낮은 오차 값을 보여 단기 예측에는 효과적인 것으로 나타났습니다. 그러나 R-squared 값은 0.6110으로 가장 낮아, 전체적인 데이터 설명력은 부족했습니다. 실제 예측값과 실제값은 전반적으로 유사했지만 2019~2020년 초반의 큰 변동 구간은 예측하지 못하는 한계가 드러났습니다. 이는 Random Forest가 시계열 데이터의 시간적 흐름을 반영하지 못하고, 각 시점을 독립적으로 처리하기 때문으로 해석되며 따라서 비트코인처럼 복잡하고 변동성이 큰 시장에서는 Random Forest의 활용이 제한적일 수 있다는 것을 시사합니다.

 

 

 

 

[결론]

 

해당 연구는 비트코인 가격 예측을 위해 세 가지 모델의 성능을 비교 분석하였습니다. 분석 결과 GRU가 가장 높은 설명력과 안정적인 예측력을 보이며 최적의 성능을 나타냈습니다. LSTM은 설명력은 높았지만 GRU보다 오차가 컸고, 복잡한 구조로 인해 학습 효율이 떨어지는 한계를 보였습니다. Random Forest는 가장 낮은 오차를 기록해 단기 예측에는 효과적이었으나 시계열 구조 반영에 한계가 있었습니다.

연구는 딥러닝과 전통적 머신러닝의 성능을 비교하여 다양한 시계열 데이터 분석에 활용할 수 있는 모델 선택 기준을 제시하였으며, 기존 연구들과 달리 감성 데이터가 아닌 순수 금융 지표만으로 분석을 수행하여 실용적인 예측 프레임워크를 제안했다는 데 의의가 있습니다.