슬론 디지털 천체 관측(Sloan Digital Sky Survey:SDSS)
목표 : train data로 학습을 하고 test data의 천체의 type을 알아내는 것
[type]
= Source type : 천체의 분류
QSO : 퀘이사
- 활동은하핵(Active Galactic Nucleus, AGN)을 갖는 매우 멀고 밝은 은하
- 가장 밝은 천체 중의 하나
- 넓은 선폭의 방출선을 가지며, 가시광선과 엑스선(X-ray) 영역대에서 강한 방출선을 가짐
- 적색편이 값은 매우 큼
(https://terms.naver.com/entry.naver?docId=5741238&cid=60217&categoryId=60217)
STAR_RED_DWARF : 적색왜성
STAR_WHITE_DWARF : 백색왜성
STAR_BROWN_DWARF : 갈색왜성
- 가장 가벼운 항성(이를테면 M9V인 적색왜성)과 가장 무거운 기체 행성(목성 질량의 약 13배 정도되는 거대 목성형 행성)사이의 질량을 가진 준항성천체(substellar object)
(https://terms.naver.com/entry.naver?docId=5753054&cid=62801&categoryId=62801)
STAR_SUB_DWARF : 왜소은하
- 질량이 보통은하의 1/100배에서 1/1000배에 불과한 작은 은하
(https://m.terms.naver.com/entry.naver?docId=3557852&cid=40942&categoryId=32290)
STAR_BHB : 수평거열성
STAR_CATY_VAR : 격변변광성
- 쌍성계 한쪽의 별이 백색왜성이나 중성자별ㆍ블랙홀이 되어 있으며, 다른 쪽의 적색거성의 대기가 유입되었을 때 급격한 증광을 보이는 천체
(https://terms.naver.com/entry.naver?docId=1621093&cid=50316&categoryId=50316)
SERENDIP_RED, SERENDIP_BLUE, SERENDIP_DISTANT : 항성 구역 외부에 놓인 천체
- 항성은 우리가 흔히 알고있는 별의 다른 이름
(https://astro.kasi.re.kr/learning/pageView/6372)
SERENDIPITY_FIRST : 첫 번째 관측에서 퀘이사로 분류되었지만, 이어진 관측에서는 더 흐릿한 천체
SERENDIPITY_MANUAL : 수동으로 관측된 천체
SKY : 빈 하늘
ROSAT_D : X-선 파장대에서 관측한 천체이지만, SDSS 망원경에서도 관측되는 천체
GALAXY : 은하
STAR_CARBON : 탄소별
- 대기에 산소보다 탄소를 더 많이 가지고 있는 별
SERENDIPITY_RED : ?
SPECTROPHOTO_STD : ?
REDDEN_STD : ?
ROSAT_D : ?
[빛의 밝기]
u : Ultraviolet (자외선)
g : Green
r : Red
i : Near Infrared (근적외선 : 적외선 중 파장이 가장 짧은 것)
z : Infrared
fiberID : 천체를 관측할 때 사용된 광섬유 식별번호
- 광섬유란 전반사를 통해 빛의 손실 없이 전달시키는 섬유
- 구리선에 비해 훨씬 많은 양의 데이터를 멀리까지 전달 가능
- 광섬유에 유리 섬유가 쓰이는 이유는 데이터 손실이 적고 전자기적인 간섭도 훨씬 적고 고온이 잘 버티기 때문
(https://terms.naver.com/entry.naver?docId=5741207&cid=60217&categoryId=60217)
psfMag : Point spread function magnitudes
- 먼 천체를 한 점으로 가정하여 측정한 빛의 밝기
fiberMag : Fiber magnitudes
- 천체를 3인치 광섬유로 관측할 때 측정 될 광도
- 광섬유를 통과하는 빛의 밝기
petroMag : Petrosian Magnitudes
- 천체의 위치와 거리에 상관없이 빛의 밝기를 비교하기 위한 수치
modelMag : Model magnitudes
- 천체 중심으로부터 특정 거리의 밝기
(https://moondol-ai.tistory.com/m/59)
Regression과 Classification
Regression과 Classification은 머신러닝에서 매우 중요한 문제 유형으로, 데이터 분석에서 가장 일반적으로 사용됨
이 두 유형은 모두 지도학습(Supervised Learning)의 일부
지도학습은 입력 데이터와 정답(label)이 존재하는 데이터를 이용하여 모델을 학습시키는 방법으로, 학습된 모델은 새로운 입력값에 대해 정확한 예측을 수행함
- Regression
연속적인 값을 예측하는 문제
입력 변수와 출력 변수 사이의 관계를 찾아내는 것
입력 변수 = 독립 변수, 출력 변수 = 종속 변수
주로 Linear Regression, Polynomial Regression, Support Vector Regression 등의 알고리즘을 사용
이 알고리즘들은 입력 변수와 출력 변수 사이의 관계를 모델링하여, 새로운 입력 값에 대한 출력 값을 예측하는 데 사용
ex) 아파트의 가격을 예측 - 아파트의 면적, 위치, 층수 등의 독립 변수를 입력으로 받아 아파트의 가격을 예측
- Classification
입력 값을 몇 가지의 범주로 분류하는 문제
출력 값을 클래스(class) 또는 레이블(label)이라고 함
주로 Logistic Regression, Decision Tree, Random Forest, Naive Bayes, Support Vector Machine 등의 알고리즘을 사용
이 알고리즘들은 주어진 입력 데이터와 클래스 사이의 관계를 학습하여, 새로운 입력 값에 대한 클래스를 예측하는 데 사용
ex) 이메일이 스팸 메일인지 아닌지를 예측 - 이메일의 제목, 본문 등의 입력 변수를 사용하여 이메일을 스팸 메일인지 아닌지로 분류
Regression과 Classification은 머신러닝에서 가장 중요한 문제 유형으로, 데이터 분석에서 다양한 분야에서 사용됨
이 두 문제 유형에 대한 이해는 머신러닝의 기초를 이해하는 데 매우 중요
'WIDA > DACON 분류-회귀' 카테고리의 다른 글
[DACON/김민혜] 분류 모델 알아보기 (1) | 2023.03.22 |
---|---|
[DACON/김규리] 천체 유형 분류 대회를 위한 도메인 지식 알아보기 (0) | 2023.03.17 |
[DACON/김경은] 천체 유형 분류 대회를 위한 도메인 지식 알아보기 (0) | 2023.03.16 |
[DACON/김세연] 천체 유형 분류 대회를 위한 도메인 지식 알아보기 (0) | 2023.03.16 |
[DACON/조아영] 천체 유형 분류 대회를 위한 도메인 지식 알아보기 (0) | 2023.03.16 |