월간 데이콘 천체 유형 분류 대회를 위한 지식 쌓기
1. 데이터 살펴보기
train.csv 기준
- 컬럼 종류
- id
- type
- fiberID
- psfMag
- psfMag_u
- psfMag_g
- psfMag_r
- psfMag_i
- psfMag_z
- fiberMag
- fiberMag_u
- fiberMag_g
- fiberMag_r
- fiberMag_i
- fiberMag_z
- petroMag
- petroMag_u
- petroMag_g
- petroMag_r
- petroMag_i
- petroMag_z
- modelMag
- modelMag_u
- modelMag_g
- modelMag_r
- modelMag_i
- modelMag_z
- 컬럼 설명(출처: http://classic.sdss.org/dr7/algorithms/photometry.html, https://brunch.co.kr/@tobesoft-ai/14,https://dacon.io/competitions/official/235573/talkboard/400354?page=3&dtype=recent)
- type
- 항성 종류들로 총 19가지의 값이 존재
- 파장대(****_u,g,r,i,z)
- 종류
- u : Ultraviolet
- g : Green
- r : Red
- i : Near infrared(근적외선)
- z : Infrared(적외선)
- 적외선: 빛의 스펙트럼에서 적색 바깥쪽을 적외선
- 근적외선: 적외선은 가시광선보다 파장이 긴데, 그 중에서 파장이 가장 짧은 0.75~3㎛인 것을 근적외선이라 한다.(https://terms.naver.com/entry.naver?docId=1069620&cid=40942&categoryId=32298)
- 종류
- ***Mag
- mag가 magnitudes 규모(중요도)를 의미하며 앞에 오는 psd, petro, model, fiber은 규모 측정 방법의 종류들을 뜻하는 것으로 추정됨
- 그런데 규모가 아닌 광도로 보는 것이 맞지 않나 싶지만 참고한 사이트에서 규모라고 하였기에..
- psfMag
- psf의 풀네임은 Point Spread Function
- point spread function이란 이미징 기법을 사용하는 듯함
- 광섬유 통과하는 빛의 밝기
- petroMag
- 천체 중심으로부터 특정 거리의 밝기
- modelMag
- 관측에 사용된 광섬유의 구분자
- fiberMag
- 천체를 3인치 광섬유로 관측할 때 측정될 광도
- type
2. Classification & Regression
머신러닝의 종류는 크게 3가지
- Supervised Learning(지도학습) : Classification (분류), Regression (회귀)
- Unsupervised Learning(비지도학습):Clustering (군집화), Dimension Reduction (차원 축소), Underlying Probability, Density Estimation (분포 추정)
- Reinforcement Learning(강화학습) : 의사결정 프로세스
그중 우리가 다룰 Classification 과 Regression에 대해 자세히 알아보자
두가지 모두 Supervised Learning(지도학습)에 속함
- 지도학습? 입력값과 출력값 모두 제공해줘야 함, 사람이 직접 각 데이터 출력값에 라벨링해야 함
classification
- 데이터가 어느 종류에 속하는지 판별하는 방법
- 주로 Categorical Data(범주형 데이터)에 적용
- 선형 모델에 속하는데 선 즉, 결정경계를 활용하여 데이터들을 분류
- yes/ no와 같이 결과값이 이산적
- 주로 쓰이는 사례
- 컨텐츠 추천
- 스팸메일 분류
- 이미지·얼굴·글자·음성 인식
- 질병 진단
- 유전자 데이터 인식
- 재정 위험 파악과 관리
- 주가 예측
regression
- 독립변수와 종속변수 간 연관성을 분석하는 방법
- 주로 Continuous Data(연속적 데이터)에 적용
- 이 또한 선형 모델에 속함
- Continuous Number Variable(연속적인 숫자 변수)들 간의 상관관계를 파악하는 과정
- 주로 쓰이는 사례
- 과거 온도 데이터들을 통해 내일 온도를 예측
- 주식시세 정보를 통해 미래 주식 가격을 예측
- 유동인구, 날씨, 가격정보를 이용해 음식점의 예상 매출을 예측
- 구매자의 나이, 연 소득을 이용해 특정 제품의 예상 판매량을 예측
머신러닝 파트 참고 사이트
https://dad-rock.tistory.com/702
'WIDA > DACON 분류-회귀' 카테고리의 다른 글
[DACON/김경은] 분류 모델 알아보기 (0) | 2023.03.23 |
---|---|
[DACON/김민혜] 분류 모델 알아보기 (1) | 2023.03.22 |
[DACON/최다예] 천체 유형 분류 대회를 위한 도메인 지식 알아보기 (0) | 2023.03.16 |
[DACON/김경은] 천체 유형 분류 대회를 위한 도메인 지식 알아보기 (0) | 2023.03.16 |
[DACON/김세연] 천체 유형 분류 대회를 위한 도메인 지식 알아보기 (0) | 2023.03.16 |