WIDA/DACON 분류-회귀

[DACON/최다예] 천체 유형 분류 대회를 위한 도메인 지식 알아보기

다예뻐 2023. 3. 16. 23:47

슬론 디지털 천체 관측(Sloan Digital Sky Survey:SDSS)

목표 : train data로 학습을 하고 test data의 천체의 type을 알아내는 것

 

[type] 

= Source type : 천체의 분류

 

QSO : 퀘이사

- 활동은하핵(Active Galactic Nucleus, AGN)을 갖는 매우 멀고 밝은 은하

- 가장 밝은 천체 중의 하나

- 넓은 선폭의 방출선을 가지며, 가시광선과 엑스선(X-ray) 영역대에서 강한 방출선을 가짐

- 적색편이 값은 매우 큼

(https://terms.naver.com/entry.naver?docId=5741238&cid=60217&categoryId=60217)

STAR_RED_DWARF : 적색왜성

STAR_WHITE_DWARF : 백색왜성

STAR_BROWN_DWARF : 갈색왜성

- 가장 가벼운 항성(이를테면 M9V인 적색왜성)과 가장 무거운 기체 행성(목성 질량의 약 13배 정도되는 거대 목성형 행성)사이의 질량을 가진 준항성천체(substellar object)

(https://terms.naver.com/entry.naver?docId=5753054&cid=62801&categoryId=62801)

STAR_SUB_DWARF : 왜소은하

- 질량이 보통은하의 1/100배에서 1/1000배에 불과한 작은 은하

(https://m.terms.naver.com/entry.naver?docId=3557852&cid=40942&categoryId=32290)

STAR_BHB : 수평거열성

STAR_CATY_VAR : 격변변광성

- 쌍성계 한쪽의 별이 백색왜성이나 중성자별ㆍ블랙홀이 되어 있으며, 다른 쪽의 적색거성의 대기가 유입되었을 때 급격한 증광을 보이는 천체

(https://terms.naver.com/entry.naver?docId=1621093&cid=50316&categoryId=50316)

SERENDIP_RED, SERENDIP_BLUE, SERENDIP_DISTANT : 항성 구역 외부에 놓인 천체

- 항성은 우리가 흔히 알고있는 별의 다른 이름

(https://astro.kasi.re.kr/learning/pageView/6372)

SERENDIPITY_FIRST : 첫 번째 관측에서 퀘이사로 분류되었지만, 이어진 관측에서는 더 흐릿한 천체

SERENDIPITY_MANUAL : 수동으로 관측된 천체

SKY : 빈 하늘

ROSAT_D : X-선 파장대에서 관측한 천체이지만, SDSS 망원경에서도 관측되는 천체

GALAXY : 은하

STAR_CARBON : 탄소별

- 대기에 산소보다 탄소를 더 많이 가지고 있는 별

SERENDIPITY_RED : ?

SPECTROPHOTO_STD : ?

REDDEN_STD : ?

ROSAT_D : ?

 

[빛의 밝기]

u : Ultraviolet (자외선)

g : Green

r : Red

i : Near Infrared (근적외선 : 적외선 중 파장이 가장 짧은 것)

z : Infrared

fiberID : 천체를 관측할 때 사용된 광섬유 식별번호

- 광섬유란 전반사를 통해 빛의 손실 없이 전달시키는 섬유

- 구리선에 비해 훨씬 많은 양의 데이터를 멀리까지 전달 가능

- 광섬유에 유리 섬유가 쓰이는 이유는 데이터 손실이 적고 전자기적인 간섭도 훨씬 적고 고온이 잘 버티기 때문

(https://terms.naver.com/entry.naver?docId=5741207&cid=60217&categoryId=60217)

psfMag : Point spread function magnitudes

- 먼 천체를 한 점으로 가정하여 측정한 빛의 밝기

fiberMag : Fiber magnitudes

- 천체를 3인치 광섬유로 관측할 때 측정 될 광도

- 광섬유를 통과하는 빛의 밝기

petroMag : Petrosian Magnitudes

- 천체의 위치와 거리에 상관없이 빛의 밝기를 비교하기 위한 수치

modelMag : Model magnitudes

- 천체 중심으로부터 특정 거리의 밝기 

(https://moondol-ai.tistory.com/m/59)

 


Regression과 Classification

 

Regression과 Classification은 머신러닝에서 매우 중요한 문제 유형으로, 데이터 분석에서 가장 일반적으로 사용됨

이 두 유형은 모두 지도학습(Supervised Learning)의 일부

지도학습은 입력 데이터와 정답(label)이 존재하는 데이터를 이용하여 모델을 학습시키는 방법으로, 학습된 모델은 새로운 입력값에 대해 정확한 예측을 수행함

 

  1. Regression

연속적인 값을 예측하는 문제

입력 변수와 출력 변수 사이의 관계를 찾아내는 것

입력 변수 = 독립 변수, 출력 변수 = 종속 변수

주로 Linear Regression, Polynomial Regression, Support Vector Regression 등의 알고리즘을 사용

이 알고리즘들은 입력 변수와 출력 변수 사이의 관계를 모델링하여, 새로운 입력 값에 대한 출력 값을 예측하는 데 사용

 

ex) 아파트의 가격을 예측 - 아파트의 면적, 위치, 층수 등의 독립 변수를 입력으로 받아 아파트의 가격을 예측

 

  1. Classification

입력 값을 몇 가지의 범주로 분류하는 문제

출력 값을 클래스(class) 또는 레이블(label)이라고 함

주로 Logistic Regression, Decision Tree, Random Forest, Naive Bayes, Support Vector Machine 등의 알고리즘을 사용

이 알고리즘들은 주어진 입력 데이터와 클래스 사이의 관계를 학습하여, 새로운 입력 값에 대한 클래스를 예측하는 데 사용

 

ex) 이메일이 스팸 메일인지 아닌지를 예측 - 이메일의 제목, 본문 등의 입력 변수를 사용하여 이메일을 스팸 메일인지 아닌지로 분류

 

 

Regression과 Classification은 머신러닝에서 가장 중요한 문제 유형으로, 데이터 분석에서 다양한 분야에서 사용됨

이 두 문제 유형에 대한 이해는 머신러닝의 기초를 이해하는 데 매우 중요