WIDA/DACON 분류-회귀

[DACON/김규리] 천체 유형 분류 대회를 위한 도메인 지식 알아보기

kyuree 2023. 3. 17. 00:23

월간 데이콘 천체 유형 분류 대회를 위한 지식 쌓기

 

 

1. 데이터 살펴보기

train.csv 기준

  • 컬럼 종류 
    • id 
    • type 
    • fiberID
    • psfMag 
      • psfMag_u
      • psfMag_g
      • psfMag_r
      • psfMag_i
      • psfMag_z
    • fiberMag 
      • fiberMag_u
      • fiberMag_g
      • fiberMag_r
      • fiberMag_i
      • fiberMag_z
    • petroMag
      • petroMag_u
      • petroMag_g
      • petroMag_r
      • petroMag_i
      • petroMag_z
    • modelMag
      • modelMag_u
      • modelMag_g
      • modelMag_r
      • modelMag_i
      • modelMag_z
  •  컬럼 설명(출처: http://classic.sdss.org/dr7/algorithms/photometry.html, https://brunch.co.kr/@tobesoft-ai/14,https://dacon.io/competitions/official/235573/talkboard/400354?page=3&dtype=recent)
    • type
      • 항성 종류들로 총 19가지의 값이 존재
    •  파장대(****_u,g,r,i,z)
      • 종류
        • u : Ultraviolet
        • g : Green
        • r : Red
        • i : Near infrared(근적외선)
        • z : Infrared(적외선)
          • 적외선: 빛의 스펙트럼에서 적색 바깥쪽을 적외선
          • 근적외선: 적외선은 가시광선보다 파장이 긴데, 그 중에서 파장이 가장 짧은 0.75~3㎛인 것을 근적외선이라 한다.(https://terms.naver.com/entry.naver?docId=1069620&cid=40942&categoryId=32298)
    • ***Mag
      • mag가 magnitudes 규모(중요도)를 의미하며 앞에 오는 psd, petro, model, fiber은 규모 측정 방법의 종류들을 뜻하는 것으로 추정됨
      • 그런데 규모가 아닌 광도로 보는 것이 맞지 않나 싶지만 참고한 사이트에서 규모라고 하였기에..
    •  psfMag
      • psf의 풀네임은 Point Spread Function
      • point spread function이란 이미징 기법을 사용하는 듯함
      • 광섬유 통과하는 빛의 밝기
    • petroMag
      • 천체 중심으로부터 특정 거리의 밝기
    • modelMag
      • 관측에 사용된 광섬유의 구분자
    •  fiberMag
      • 천체를 3인치 광섬유로 관측할 때 측정될 광도

 

 

 

2. Classification & Regression 

머신러닝의 종류는 크게 3가지

- Supervised Learning(지도학습) :  Classification (분류), Regression (회귀)

- Unsupervised Learning(비지도학습):Clustering (군집화)Dimension Reduction (차원 축소)Underlying Probability, Density Estimation (분포 추정)

- Reinforcement Learning(강화학습) : 의사결정 프로세스

 

 

그중 우리가 다룰 Classification 과 Regression에 대해 자세히 알아보자

두가지 모두 Supervised Learning(지도학습)에 속함

  • 지도학습? 입력값과 출력값 모두 제공해줘야 함, 사람이 직접 각 데이터 출력값에 라벨링해야 함

 

classification

  • 데이터가 어느 종류에 속하는지 판별하는 방법
  • 주로 Categorical Data(범주형 데이터)에 적용
  • 선형 모델에 속하는데 선 즉, 결정경계를 활용하여 데이터들을 분류
  • yes/ no와 같이 결과값이 이산적
  • 주로 쓰이는 사례
    • 컨텐츠 추천
    • 스팸메일 분류
    • 이미지·얼굴·글자·음성 인식
    • 질병 진단
    • 유전자 데이터 인식
    • 재정 위험 파악과 관리
    • 주가 예측

regression

  • 독립변수와 종속변수 간 연관성을 분석하는 방법
  • 주로 Continuous Data(연속적 데이터)에 적용
  • 이 또한 선형 모델에 속함
  • Continuous Number Variable(연속적인 숫자 변수)들 간의 상관관계를 파악하는 과정
  • 주로 쓰이는 사례
    1. 과거 온도 데이터들을 통해 내일 온도를 예측
    2. 주식시세 정보를 통해 미래 주식 가격을 예측
    3. 유동인구, 날씨, 가격정보를 이용해 음식점의 예상 매출을 예측
    4. 구매자의 나이, 연 소득을 이용해 특정 제품의 예상 판매량을 예측

 

머신러닝 파트 참고 사이트

https://dad-rock.tistory.com/702

 

[Machine Learning] Machine Learning Overview | 머신러닝 개요

Machine Learning Overview 머신러닝 개요 - 인공지능의 한 분야로, 인공지능의 패턴인식과 계산 학습 이론에서 발전한 컴퓨터과학의 한 분야이다. - 머신러닝에서는 주어진 데이터로부터 학습하고 예

dad-rock.tistory.com