WIDA/DACON 분류-회귀

[DACON/김민혜] 천체 유형 분류 대회를 위한 도메인 지식 알아보기

알 수 없는 사용자 2023. 3. 16. 17:00

Dacon 천체 유형 분류 경진대회

대회 개요

천체 데이터인 ‘슬론 디지털 천체 관측(SDSS)’ 데이터를 활용하여 새로운 천체 유형 분류를 위한 예측 분류 모델을 생성.

천체를 관측하여 측정된 21개의 데이터를 이용하여 이미 정의된 19개의 천체 유형을 분류하는 대회

출처:  https://brunch.co.kr/@tobesoft-ai/14

  • 5개 종류의 천체 관측 데이터 → 규모(magnitude) 데이터는 5개의 세부 데이터를 가짐

 

기본지식

  • 천체의 종류 (출처: 🔗LINK)
    • 항성 star
      DEF) 핵융합 반응을 통해 스스로 빛을 내는 천체
    • 행성 planet
      DEF) 항성을 중심으로 공전하고 있는 천체
      • 관측하기 쉬운 편
      • 밝게 빛나는 것이 많으며 육안으로 찾기도 쉽다
      • 소구경 망원경으로도 형태를 쉽게 관찰할 수 있음
    • 위성 satellite
      DEF) 행성을 공전하고 있는 천체
      • 특징이 매우 다양해 태양계 내에서 주목할 만한 천체들
    • 산개성단 open cluster
      DEF) 산개되어있는 별의 무리
      • 비교적 젊은 별들로 구성되어 있음
      • 육안 관측이 가능하거나 소구경 쌍안경으로 즐길 수 있음
    • 구상성단 globular cluster
      DEF) 항성들이 질량중심을 기준으로 구의 형태로 모여있는 집단
      • 나이가 많은 별들로 구성되어 있음
      • 발생원인 불명확
      • 좁은 영역 안에 모여 있어 배율이 높은 천체망원경으로 관측해야 함
    • 은하 galaxy
      DEF) 매우 많은 항성이 모여 만들어진 것
      • 질량중심을 기준으로 상호 인력에 의해 붙잡혀있는 항성들로 구성됨
      • 은하 안에 구상성단이나 성운 등도 함께 포함되어 있음
    • 성운 nebular
      DEF) 가스나 성간물질이 밀도 높게 모여있는 지역
      • 성분에 따라 다른 색, 생성원인에 따라 다른 모양을 띰
      • 밀도가 높은 지역에서는 항성이 생성되기도 함

 

  • 항성분류 (출처: 🔗LINK)⇒ 주로 표면온도와 분광학적 특징 두 가지에 의해 항성을 분류한다.
    : 항성들을 특정 기준에 따라 구별하는 것 
    • 항성분광학의 발전으로 흡수선의 양상에 따라 거리에 관계없이 항성을 분류하는 것이 가능해졌다.
  • QSO 퀘이사 (출처: Link)
    : 일반적인 은하보다도 훨씬 밝은 활동을 보이는 활동은하핵의 한 종류
    • 초대질량 블랙홀 천체이며, 지구로부터 너무 멀어 관측이 쉽지 않음
    • 퀘이사의 광도곡선을 재구성하여 중력렌즈 현상을 겪은 퀘이사를 찾아내는 것이 관측방법
  • SDSS(Sloan Digital Sky Survey) (출처: Link)
    • 대규모 다중 분광 영상화 및 분광학적 적색편이 탐사 계획
    • 특별한 천체를 지목하지않고 최대한 넓은 하늘 영역의 데이터를 얻어내는 방식
    • 약 5억 개의 천체에 대한 측광 자료와 300만 개 이상의 천체의 스펙트럼을 수집함
      • 주요 은하 표본은 적색편이 중간값이 z = 0.1
      • 밝은 적색 은하에 대하여 적색편이 z = 0.7
      • 퀘이사에 대하여 적색편이 z = 5
    • 관측
      • 전용으로 구비된 2.5 m 광각 광학망원경을 사용하고 있음
      • 필터 다섯개(u, g, r, i, z)로 구성된 측광계를 사용하여 촬영됨
        • 이 사진들은 점상 혹은 은하와 같이 퍼진상으로 보이는지, CCD가 검출하는 밝기가 어떤 방식으로 여러 종류의 밝기 등급과 연관되는가에 따른 다양한 parameter들의 목록 작성에도 쓰인다고 한다.
      • 각 광학 필터는 순서에 따라 평균 여과 파장이 355.1, 468.6, 616.5, 748.1, 893.1 nm
      • 분광카메라는 알루미늄판에 뚫려 있는 구멍을 통해 보이는 각 표적에 광섬유를 공급하여 작동
      • 참고 : SDSS parameter 받기 (3) Object Crossid 이용하기

Data 톺아보기

항성 종류

  1. QSO- 퀘이사
  2. STAR_RED_DWARF - 적색왜성
  3. STAR_BHB - 수평거열성
  4. STAR_CATY_VAR - 격변변광성
  5. SERENDIP_RED, SERENDIP_BLUE, SERENDIP_DISTANT : 항성 구역 외부에 놓인 천체
  6. SERENDIPITY_FIRST : 첫번째 관측에서 퀘이사로 분류되었지만, 이어진 관측에서는 더 흐릿한 천체
  7. SERENDIPITY_MANUAL : 수동으로 관측된 천체
  8. sky : 빈 하늘
  9. ROSAT_D : X-선 파장대에서 관측한 천체이지만, SDSS 망원경에서도 관측되는 천체

알파벳(u, g, r, i, z)의 의미

알파벳은 파장대를 의미한다고 하며 각각 아래와 같은 의미를 지니고 있다.

u : Ultraviolet

g : Green

r : Red

i : Near Infrared

z : Infrared

[데이콘답변요청]데이터 라벨에대한 추가설명 부탁드립니다.

 

 

데이터사이언스 Data Science

분류와 회귀 모델에 대해 이해하려면 먼저 데이터사이언스datascience의 큰 틀부터 알아야 할 필요성을 느꼈다.

빅데이터

최근 얻을 수 있게 된 데이터의 총칭으로서 5V라고 불리는 5가지 특징을 띤다.

  • 크기 Volume
  • 속도 Velocity
  • 다양성 Variety
  • 정확성 Veracity
  • 가치 Value

인공지능과 데이터 과학의 접점은 머신러닝으로, 자동화할 부분은 자동화하고 전체의 흐름을 제어하는 것이 데이터 사이언티스트의 업무라고 할 수 있겠다.

파이프라인

  1. 무엇을 할 것인가 [가설수립]
  2. 어떤 데이터를 모을 것인가
  3. 필요한 이론과 요소, 기술을 조합해 프로그램으로 구현
  4. 피드백을 바탕으로 개선을 반복. [plan-do-check-action]
  • 데이터 수집법(1)
    Open data: 누구나 널리 활용할 수 있도록 데이터를 만들어 공개한 것
    • 각국 정부가 제공하는 사회 전반 통계 데이터
    • 위키피디아 등 공동 협력으로 모은 정보를 데이터베이스화 한 것
    • 데이터 과학 블로그가 공개한 데이터
    • 케글 데이터
    • DeepAnalystics
    • etc.
  • 데이터 수집법(2)
    Web API: Application Programming Interface; 서비스 제공자가 소프트웨어 일부나 보유중인 데이터를 다른 사용자도 효과적으로 활용할 수 있도록 공개하는 서비스
    • 국회도서관
    • 라쿠텐
    • 구루나비
    • Google
    • Facebook
    • New York Times
    • Associated Press
  • 데이터 수집법(3)
    웹 스크레이핑: 웹사이트에 있는 정보를 수집하는 행위
    • 수집 가능 여부 → page address/robos.txt로 확인

 

머신러닝 Machine Learning

DEF) 컴퓨터과학에서 컴퓨터를 적극적으로 이용한 통계학

학습 시나리오(=머신러닝에서의 문제 설정)

지도학습

  • 입력 데이터와 출력 데이터가 세트로 되어 있는 데이터를 다루는 것
  • ex. 주택 가격을 특정량(설명변수)을 이용해 회귀모델로 예측하는 문제, 회귀, 분류, 랭킹이런 수식을 설정했을 때, 지도학습의 목적은 f를 추정하는 것.
  • Y = f(X) + 오차항
  • f를 추정함으로써
    ⇒ 주택가격 예측 가능
    ⇒ 데이터 해석
  • 학습용 데이터 집합(training data set)을 사람이 만들어 줘야 함

비지도학습

  • 입력 데이터만 주어진 상황
  • 입력/출력이 구분되지 않는 단순한 “데이터들의 관계”에서 특정한 규칙을 찾아내는 것
  • ex. 클러스터링, 차원삭감, 행력보완, 다양체학습

준지도학습

  • 양쪽 측면을 포함함. 일부 데이터에는 출력 데이터O, 나머지는 X.
  • ex. SNS 등에서 수집된 우호 관계 네트워크와 일부 성별이 판명된 데이터 세트가 있는 경우

 

예측

DEF) 숫자, 문서, 이미지, 음성, 영상 등의 여러 가지 입력 데이터를 주면, 데이터 분석의 결과로 다른 데이터를 출력하는 분석 방법

더보기

📌 examples
- 부동산의 위치, 주거환경, 건축연도 등을 주면 해당 부동산의 가치를 추정
- 꽃잎의 길이와 너비 등 식물의 외형적 특징을 주면 해당하는 식물의 종을 알아내기
- 얼굴 사진을 주면 해당하는 사람의 이름을 출력

- 현재 바둑돌의 위치들을 주면 다음 바둑돌의 위치 지정 

  • 데이터 분석 작업 중 가장 많이 사용되는 유형 중 하나
  • 데이터 분석에서 ‘예측’은 시간상으로 미래의 의미는 포함X
  • 출력데이터: 추정하거나 예측하고자 하는 목적 데이터로 보통 알파벳 ‘Y’로 표기 ← 종속변수, 라벨, 레이블… 입력데이터: 분석의 기반이 되는 데이터로 보통 알파벳 ‘X’로 표기 ← 독립변수, 특징, 설명변수…
  • 보통 컴퓨터가 다루는 데이터는 숫자형 데이터이나, 카테고리값도 다룰 수 있는 데이터 중 하나임
    • 카테고리형(범주형)
      • 숫자 값과 달리 주로 기호로 표시되며 비연속적
      • 두 개의 데이터가 있을 때 이들의 크기나 가치, 혹은 순서를 비교할 수 X
        • ex. 고양이 vs 개 ⇒ 크기나 가치를 비교할 수 X
        • 비연속적이지만 숫자처럼 비교 가능한 경우: 학점(“A”, “B”, “C”, “D”)을 주는 경우는 비연속적이고 기호로 표시되지만, 크기 혹은 순서를 비교할 수 있음
      • 일반적으로 가질 수 있는 경우의 수가 제한되어 있음: 클래스(class) → 이진 클래스(binary class), 다중 클래스(multi class)
  • 예측 문제는 출력하고자 하는 데이터가 숫자 값인가 카테고리값인가에 따라 사용하는 방법이 완전히 달라짐
    • 회귀 vs 분류

 

회귀분석 regression analysis

  • 출력하고자 하는 값이 연속된 실수 값일 경우
  • 전통적인 통계분석에서 많이 사용하는 예측 방법
  • 어떤 변수 Y의 값을 예측하는 모델을 구축하는 과정

분류 classification

  • 출력하고자 하는 값이 카테고리값인 경우
  • 독립변수값이 주어졌을 때 그 값과 가장 연관성이 큰 종속변수값(클래스)을 예측하는 문제
    • 즉, 어떤 표본에 대한 데이터가 주어졌을 때 그 표본이 어떤 카테고리 혹은 클래스에 속하는지
    • ex. 이미지를 컴퓨터에 입력했을 때 “개”인지 “고양이”인지 판별하는 문제
  1. 확률적 모형
    : 주어진 데이터에 대해 각 카테고리 혹은 클래스가 정답일 조건부확률 계산
    => 직접 조건부확률 함수의 모양을 추정하는 확률적 판별(discriminative)모형과 베이즈 정리를 사용하여 간접적으로 조건부확률을 구하는 확률적 생성(generative)모형 으로 나뉨
  2. 판별함수 모형
    : 주어진 데이터를 카테고리에 따라 서로 다른 영역으로 나누는 경계면을 찾아낸 다음, 이 경계면으로부터 주어진 데이터가 어느 위치에 있는지를 계산하는 판별함수(discriminant function) 이용
  • 여러 분류모형과 방법론

모형 방법론

LDA/QDA 확률적 생성모형
나이브 베이지안 확률적 생성모형
로지스틱 회귀 확률적 판별모형
의사결정나무 확률적 판별모형
퍼셉트론 판별함수 모형
서포트벡터머신 판별함수 모형
인공신경망 판별함수 모형
  • QDA(Quadratic Discriminant Analysis), 나이브 베이지안 모형(Naive Bayesian)
    • 조건부확률 기반 생성(generative) 모형의 하나
    • 베이즈 정리 사용
    • 클래스가 3개 이상인 경우에도 바로 적용할 수 있음

  • 로지스틱 회귀 모형
    • 확률론적 판별 모형에 속함
    • 회귀를 사용해 데이터가 어떤 범주에 속할 확률을 0~1 사이의 값으로 예측, 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류

  • 퍼셉트론(Perceptron)
    • 가장 단순한 판별함수 모형
    • 직선이 경계선(boundary line)으로 데이터 영역을 나눔

 

  • 커널 SVM(Kernel Support Vector Machine)
    • 복잡한 형태의 경계선 생성 가능

 

더보기

❓ 아직 다양한 분류모형이 어떤 차이가 있는지 사용한 코드를 기반으로 파악하기 어렵고 이해가 되지 않는다. 앙상블 모델에 대해 알아봐야할 필요성을 느꼈다.

 

[Data Science] 데이터 사이언스 개념 - 6.분류문제

이 자료는 읽어봤는데 개념이 어렵고 이해가 바로 되지 않아 SOS를 요청합니닷.