분류 전체보기 487

[DACON/김민혜] 천체 분류 경진대회

너무 늦게 올려 죄송합니다아!! 개요 이번 프로젝트에 대한 간단한 개요를 설명하자면 다음과 같다. 천체 데이터인 ‘슬론 디지털 천체 관측(SDSS)’ 데이터를 활용하여 측정된 21개의 데이터를 이용하여 이미 정의된 19개의 천체 유형을 분류하는 대회이다. Data 톺아보기 대회에 올라온 데이터셋을 살펴봤을 때 등장하는 천체들의 종류에 대해 정리하면 다음과 같다. 더보기 ☝🏻 천체 종류 QSO- 퀘이사 STAR_RED_DWARF - 적색왜성 STAR_BHB - 수평거열성 STAR_CATY_VAR - 격변변광성 SERENDIP_RED, SERENDIP_BLUE, SERENDIP_DISTANT : 항성 구역 외부에 놓인 천체 SERENDIPITY_FIRST : 첫번째 관측에서 퀘이사로 분류되었지만, 이어진 관..

[DACON/조아영] 천체 분류 경진대회

과정 1. EDA 및 전처리 2. 모델링 및 결과 3. 인사이트 도출 1. EDA 및 전처리 Training set의 경우 총 23개의 column으로 이루어져 있으며 데이터는 약 20만건이 존재한다. Test set의 경우 총 22개의 column으로 Training set과는 다르게 'type' column이 존재하지 않는다. 이는 Test set을 이용해 예측 후 submission 파일을 만들어 제출하는 용도이기 때문이다. Submission file의 경우 column은 test set의 데이터 id, 별들의 type들이 존재한다. 각 type을 어느정도의 확률로 예측했는지 기록 후 제출하는 형태이다. 평가 방법은 log_loss를 이용하라고 했으나, 일단은 정확도와 전반적인 예측 확률 위주로 ..

[DACON/최다예] 프로젝트 에세이

목표 슬론 디지털 천체 관측 데이터를 가지고 천체의 타입을 분류해내는 것을 목표로 한다. 이를 위해서 train data로 학습을 하고 test data로 확인을 하는 과정을 거친다. EDA (Exploratory Data Analysis : 탐색적 데이터 분석) 수집한 데이터를 다양한 각도에서 관찰하고 이해하는 과정이다. # 필요한 패키지 import import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.model_selection import cross_val_score, train_test_split from sklearn.neighbors import KNeighborsClassifier from sk..

[DACON/김경은] 프로젝트 에세이

EDA (Exploratory Data Analysis) 라이브러리 불러오기 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns 데이터 불러오기 train = pd.read_csv("C:/Users/twink/Documents/카카오톡 받은 파일/train.csv") test = pd.read_csv("C:/Users/twink/Desktop/test.csv") sub = pd.read_csv("C:/Users/twink/Desktop/sample_submission.csv") 데이터를 불러와서 어떤 형태의 데이터가 있는지 살펴보기 shape 확인하기 #행과 열의 개수 print(train...

[DACON/김규리] 프로젝트 에세이

1. EDA & 전처리들어가며천체 유형 분류 대회배경 안녕하세요 여러분! 천체 유형 분류 대회에 오신 것을 환영합니다. 최근 인류에게 다가온 빅데이터라는 단어는 우주와 천문학에게 낯설지 않습니다. 찰나의 순간에도 우주는 천문학적인 양의 데이터를 생산해왔고, 오래 전부터 천문학자들은 우주를 관측했으며 그 방대함에 비례하는 데이터를 수집 및 분석했기 때문입니다. 슬론 디지털 천체 관측(Sloan Digital Sky Survey: 이하 SDSS)는 세계적 천체 관측 프로젝트로, 우주에 대한 천문학적인 규모의 데이터를 수집하고 있습니다. 이곳에서 수집한 데이터는 약 6,000개 논문에 사용되었고, 25만 회 이상 인용되었을 정도로 천문학에 큰 기여를 했습니다. 점점 거대해지는 규모에 따라 데이터 처리에는 머신..

[1팀/한규림] 6차시 파이썬 스터디 - 문자열

6주차 주제는 문자열입니다. 1. 문자열의 이해 1) 문자열의 개념 시퀀스 자료형 : 리스트와 같이 데이터를 순차적으로 메모리에 저장하는 형식의 데이터 문자열(string)은 애플리케이션을 만들거나 데이터를 분석할 때 매우 중요하게 다뤄지는 자료형 중 하나로, 시퀀스 자료형(sequence data type)이다. 2) 문자열과 메모리 공간 문자열을 저장하기 위해서는 영문자 한 글자당 1바이트의 메모리 공간을 사용함 1바이트 = 8비트 = 2의 8승인 256까지의 숫자를 저장할 수 있음. import sys print(sys.getsizeof("a"), sys.getsizeof("ab"), sys.getsizeof("abc")) # 출력 결과 50 51 52 sys.getsizeof( ) : 특정 변수(..

[2팀/김가림, 최다예] 6차시 파이썬 스터디 - 문자열

참고도서 : 데이터 과학을 위한 파이썬 프로그래밍, 최상철 문자열의 개념 문자열은 시퀀스 자료형 시퀀스 자료형 : 데이터를 순차적으로 메모리에 저장하는 형식의 데이터 문자열과 메모리 공간 일반적으로 영문자 한 글자당 1바이트의 메모리 공간을 사용 # 문자열이 저장된 공간의 크기 확인 >>> import sys >>> print(sys.getsizeof("a"), sys.getsizeof("ab"), sys.getsizeof("abc")) # 특정 변수(또는 값)의 메모리 공간을 측정하는 함수 50 51 52 # 50바이트, 51바이트, 52바이트 코드의 출력 결과는 컴퓨터마다 다를 수 있음 하나의 문자를 저장하기 위해 저장되는 문자 자체를 제외하고도 변수와 관련된 여러 정보 등을 위해 49바이트가 필요한..

[3팀/이지현] 6차시 파이썬 스터디 - 문자열

본 강의 자료는 데이터 과학을 위한 파이썬 프로그래밍/최성철을 참고 하여 제작하였습니다. 🖋️ 문자열의 이해 문자열의 개념 문자열(string)은 애플리케이션을 만들거나 데이터를 분석할 때 매우 중요하게 다루어지는 자료형 중에 하나입니다. 문자열은 리스트와 같이 데이터를 순차적으로 메모리에 저장하는 형식인 시퀀스 자료형입니다. 문자열의 인덱싱 앞에서 문자열은 시퀀스 자료형이라고 설명하였는데요. 따라서 문자열의 특징 중 하나가 바로 인덱싱입니다. 리스트처럼 글자 하나하나가 상대적인 주소를 가지는데요, 이 주소를 사용해 저장된 값을 가져오는 인덱싱을 사용할 수 있습니다. 즉, 아래와 같이 문자열의 처리가 가능합니다. 실제 코드에서는 다음과 같이 사용합니다. >>> a = "abcde" >>> print(a[..

[1팀/허서원] 6차시 파이썬 스터디 - 문자열

참고도서 - 데이터 과학을 위한 파이썬 프로그래밍 문자열 학습 목표 문자열의 개념과 메모리 공간에 대해 이해한다. 문자열의 인덱싱과 슬라이싱에 대해 학습한다. 문자열의 연산과 문자열 함수에 대해 알아본다. 문자열의 형식을 정하여 출력하는 서식 지정에 대해 이해한다. 01 문자열의 이해 문자열(string)의 개념 애플리케이션을 만들거나 데이터를 분석할 때 매우 중요하게 다루어지는 자료형 중 하나 문자열을 이해하기 위해서는 문자열의 특징을 이해해야 한다. 먼저 문자열은 시퀀스 자료형 (sequence data type)이다. 시퀀스 자료형은 리스트와 같이 데이터를 순차적으로 메모리에 저장하는 형식의 데이터 문자열과 메모리 공간 일반적으로 문자열을 저장하기 위해서는 영문자 한 글자당 1바이트의 메모리 공간을..