jupyter notebook ํ๊ฒฝ์์ ์์ ํด๋ดค์ต๋๋ค~
ํ์ํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๋ถ๋ฌ์ค๊ธฐ
#ํ์ํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๋ถ๋ฌ์ค๊ธฐ
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
color = sns.color_palette()
sns.set_style('darkgrid')
# ๊ทธ๋ํ ํด์๋ ์
๊ทธ๋ ์ด๋
%config InlineBackend.figure_format = 'retina'
# ๊ฒฝ๊ณ ๋ฌธ ๋ฌด์
import warnings
warnings.filterwarnings('ignore')
- %matplotlib inline์ ์๋ฏธ
- notebook์ ์คํํ ๋ธ๋ผ์ฐ์ ์์ ๋ฐ๋ก ๊ทธ๋ฆผ์ ๋ณผ ์ ์๊ฒ ํด์ฃผ๋ ๊ฒ
- ์ฌ์ฉํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ
- pandas
- seaborn
- matplotlib
- import warnings?
- jupyter notebook ์์์ ๊ฒฝ๊ณ ๋ฉ์ธ์ง ์จ๊ฒจ์ฃผ๊ธฐ
๋ฐ์ดํฐ ์ดํด๋ณด๊ธฐ
#๋ฐ์ดํฐ ๋ถ๋ฌ์ค๊ธฐ
train = pd.read_csv("C:/Users/jenny/train.csv")
#๋ฐ์ดํฐ ํ์ธํ๊ธฐ
train.head()
## ํ/์ด ํ์ธ
print(train.shape)
(199991, 23)
#๋ฐ์ดํฐ ์์ฝ์ ๋ณด ํ์ธํ๊ธฐ
print(train.info())
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 199991 entries, 0 to 199990
Data columns (total 23 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 id 199991 non-null int64
1 type 199991 non-null object
2 fiberID 199991 non-null int64
3 psfMag_u 199991 non-null float64
4 psfMag_g 199991 non-null float64
5 psfMag_r 199991 non-null float64
6 psfMag_i 199991 non-null float64
7 psfMag_z 199991 non-null float64
8 fiberMag_u 199991 non-null float64
9 fiberMag_g 199991 non-null float64
10 fiberMag_r 199991 non-null float64
11 fiberMag_i 199991 non-null float64
12 fiberMag_z 199991 non-null float64
13 petroMag_u 199991 non-null float64
14 petroMag_g 199991 non-null float64
15 petroMag_r 199991 non-null float64
16 petroMag_i 199991 non-null float64
17 petroMag_z 199991 non-null float64
18 modelMag_u 199991 non-null float64
19 modelMag_g 199991 non-null float64
20 modelMag_r 199991 non-null float64
21 modelMag_i 199991 non-null float64
22 modelMag_z 199991 non-null float64
dtypes: float64(20), int64(2), object(1)
memory usage: 35.1+ MB
None
- object ํ
- 'type'
- ์ซ์ํ
- int64
- 'id','fiberID'
- float64
- ์ด์ธ ๋ชจ๋
- int64
-> ์์น์ ์ ๊ทผ์ด ํ์ํ๊ฒ ๊ตฌ๋~!
#id ์ปฌ๋ผ ์ ๊ฑฐ
train = train.drop(['id'], axis=1)
train.info()
- ํ๋ค์ค ์ปฌ๋ผ ๋ฐ์ดํฐ ์ญ์ : .drop()
- axis=1 : ํน์ ์ปฌ๋ผ ์ญ์ , axis=0 : ํน์ ๋ก์ฐ(์ธ๋ฑ์ค) ์ญ์
#๊ฒฐ์ธก์น ์กด์ฌ ์ฌ๋ถ ํ์ธํ๊ธฐ
## ๊ฒฐ์ธก์น ์กด์ฌ ์ฌ๋ถ ํ์ธ -> ์์
print(train.isnull().sum())
type 0
fiberID 0
psfMag_u 0
psfMag_g 0
psfMag_r 0
psfMag_i 0
psfMag_z 0
fiberMag_u 0
fiberMag_g 0
fiberMag_r 0
fiberMag_i 0
fiberMag_z 0
petroMag_u 0
petroMag_g 0
petroMag_r 0
petroMag_i 0
petroMag_z 0
modelMag_u 0
modelMag_g 0
modelMag_r 0
modelMag_i 0
modelMag_z 0
dtype: int64
- ํ๋ค์ค์ ๊ฒฐ์ธก์น ํ์ธ ํจ์: isnull().sum()
- True or False
- True :๊ฒฐ์ธก์น ์์ -> 1
- False :๊ฒฐ์ธก์น ์์ -> 0
- .sum()
- isnull์ด ๊ฐ ๊ฐ์ ๋ํด ๊ฒฐ์ธก์น ๊ฒ์ฌํ๊ธฐ ๋๋ฌธ์ sum()์ ๋ง๋ถ์ฌ ์ฌ์ฉํ์ฌ ์ปฌ๋ผ๋ณ ๊ฒฐ์ธก์น ์ด ํฉ ํ์ธ
- True or False
#๊ธฐ์ดํต๊ณ๋ ํ์ธํ๊ธฐ
#flaotํ ๋ณ์์ ์ ๋ณด ํ์ธํ๊ธฐ
train.describe(include='float64')
- mean
- ํ๊ท
- std
- ํ์คํธ์ฐจ, ํผ์ง ์ ๋
- ์ ์ ์๋ ์
- ํ๊ท
- 'psfMag_u'๋ง ์์์ ๊ฐ ๋์ถ๋จ
- ๊ทธ์ธ์ ์ปฌ๋ผ์ ๋๊ฐ 17~22 ์ฌ์ด์ ๊ฐ
- 'fiberMag_u'์ ๊ฒฝ์ฐ 1์ ๋์ ๊ฐ
- => ํ์ฅ์ด ์์ธ์ ์ผ ๋์ ํน์ง์ธ๊ฐ ์ถ์์ง๋ง ๋ค๋ฅธ ์ปฌ๋ผ์ xxx_u๊ฐ์ ์๋์์
- ์์ง ์ด๋ฌํ ์์น๋ค๋ก๋ ๋๋ ทํ ๋ฐ์ดํฐ ์์ ํน์ง ํ์ ์ด๋ ค์
- ํ๊ท
์ปฌ๋ผ๋ณ ์ดํด๋ณด๊ธฐ
#ํ ๊ฐ์ง ๊ฐ๋ง ์กด์ฌํ๋ ์ปฌ๋ผ ์ฐพ๊ธฐ --> ์์
one_value_columns = []
for i in train.columns[2:]:
if len(train[i].value_counts()) < 2:
one_value_columns.append(i)
print(len(one_value_columns))
print(one_value_columns)
0
[]
#์ปฌ๋ผ๋ค์ ๊ด๊ณ ํ์
ํ๊ธฐ
## 'type' ์ปฌ๋ผ ์ ์ธํ๊ณ ํํธ๋งต ๊ทธ๋ฆฌ๊ธฐ
plt.figure(figsize=(15, 8))
sns.heatmap(train.drop(['type'], axis=1).corr(), annot=True)
- figsize
- ๊ฐ๋ก, ์ธ๋ก ๊ธธ์ด ์ค์
- corr()
- ์๊ด๊ด๊ณ
๊ทธ๋ค์ง ๋๋๋ฌ์ง๋ ํน์ง ์์ด๋ณด์
fiberID
#fiberID
#์ข
๋ฅ๋ณ ๊ฐ์ ํ์
train['fiberID'].value_counts()
fiberID
624 373
122 371
618 370
350 369
14 365
...
809 11
807 11
737 10
991 10
853 9
Name: count, Length: 1000, dtype: int64
- ์ข์ธก ์ด์ ๊ฐ: ๊ฐ๋ค์ ์ข ๋ฅ
- ์ฐ์ธก ์ด์ ๊ฐ: ๊ฐ ๊ฐ๋ค์ ๊ฐ์
-> ์ข ๋ฅ๋ ๋ง์ ๋ฟ๋๋ฌ, ์ ์๋ฏธํ์ง ์์ ๊ฒ ๊ฐ์ ์๊ฐํ ๋ถํ์ํ๋ค๊ณ ํ๋จ
type
#์ฒ์ฒด ์ ํ๋ณ ๊ฐ์ ํ์
train['type'].value_counts()
type
QSO 49680
GALAXY 37347
SERENDIPITY_BLUE 21760
SPECTROPHOTO_STD 14630
REDDEN_STD 14618
STAR_RED_DWARF 13750
STAR_BHB 13500
SERENDIPITY_FIRST 7132
ROSAT_D 6580
STAR_CATY_VAR 6506
SERENDIPITY_DISTANT 4654
STAR_CARBON 3257
SERENDIPITY_RED 2562
STAR_WHITE_DWARF 2160
STAR_SUB_DWARF 1154
STAR_BROWN_DWARF 500
SKY 127
SERENDIPITY_MANUAL 61
STAR_PN 13
Name: count, dtype: int64
fig = plt.figure(figsize=(18,9))
plt.subplots_adjust(hspace=.5)
plt.subplot2grid((3,3), (0,0), colspan = 3)
train['type'].value_counts()[:100].plot(kind='bar', alpha=0.7)
plt.title('train_data : type values')
- QSO๋ ๋ญ๋ฐ ๊ฐ์ฅ ๋ง์ด ๊ด์ธก๋์๊น?
- ๋จผ ๊ฑฐ๋ฆฌ์์ ๋ฐ๊ฒฌ๋๋ ๋งค์ฐ ํ๋์ ์ธ ์ด๋์ง๋ ๋ธ๋ํ
- ์ฐ์ฃผ์์ ๊ฐ์ฅ ๋ฐ์ ๋จ์ผ ์ฒ์ฒด ์ค ํ๋์ด๋ฉฐ ๊ทธ ๋ฐ๊ธฐ๋ ์ต๋ ํ์์ 700์กฐ ๋ฐฐ์ ๋ฌํ๊ธฐ๋ ํจ
- ๊ฐ์๊ด์ ๋ฟ๋ง ์๋๋ผ ๋ชจ๋ ํ์ฅ์์ ๋ง๋ํ ์๋์ง๋ฅผ ๋ฟ์ด๋ด๊ณ ..
psfMag
fig, ax = plt.subplots(nrows=2)
sns.distplot(train['psfMag_g'], ax=ax[0])
sns.distplot(train['psfMag_r'], ax=ax[1])
- > ์ค์ ๊ทธ๋ํ๋ ์๋ฏธ๊ฐ ์๋ ๊ฒ ๊ฐ์์ ๊ฐ๋ค์ ์ ์ฒด์ ์ธ ๋ถํฌ๋ฅผ ์ดํด๋ณด๊ธฐ ์ํด์ ์ฐ์ ๋ ๊ทธ๋ํ์ ๋์
sns.set_style('whitegrid')
y = train['psfMag_u'].value_counts()
sns.scatterplot(data= train, x='psfMag_u', y=y)
์๋ฌด๊ฒ๋ ์ ๋์๋ค..
์ฌ๊ธฐ๊น์ง ํ์ต๋๋ค,,, ใ .,ใ
์ถ์ฒ
- [Dacon/python] ์ ์ฃผ๋ ๋๋ก ๊ตํต๋ ์์ธก (velog.io)
[Dacon/python] ์ ์ฃผ๋ ๋๋ก ๊ตํต๋ ์์ธก
์ ์ฃผ๋ ๋๋ก ๊ตํต๋ ์์ธก AI ๋ชจ๋ธ ๊ฐ๋ฐ์ฃผ์ : ์ ์ฃผ๋ ๋๋ก ๊ตํต๋ ์์ธก AI ๋ชจ๋ธ ๊ฐ๋ฐ์์ฝ: ์ ์ฃผ๋์ ๊ตํต ์ ๋ณด๋ฅผ ์ด์ฉํ์ฌ ๋๋ก ๊ตํต๋์ ์์ธกํ๋ ๋ชจ๋ธ ๊ฐ๋ฐ์ ์ฃผ๋ ๋ด ์ฃผ๋ฏผ๋ฑ๋ก์ธ๊ตฌ๋ 2022๋ ๊ธฐ์ค
velog.io
- My first EDA (์ฒ์ฒด ์ ํ ๋ถ๋ฅ) - DACON
My first EDA (์ฒ์ฒด ์ ํ ๋ถ๋ฅ)
์๊ฐ ๋ฐ์ด์ฝ ์ฒ์ฒด ์ ํ ๋ถ๋ฅ ๋ํ
dacon.io
- ์ด์ธ์ ํ๋ค์ค , ๋งทํ๋กญ, ์จ๋ณธ์ ํจ์ ๋ฐ ์ธ์ ํ์์ ์ํด ์ฐธ๊ณ ํ ์ฌ๋ฌ ๊ฐ์ง์ ๊ธ๋ค..
'๐ก WIDA > DACON ๋ถ๋ฅ-ํ๊ท' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[DACON/์ฐธ๊ณ ์๋ฃ] SVM ์ฐธ๊ณ ์๋ฃ (0) | 2023.04.26 |
---|---|
[DACON/์ต๋ค์] ํ์ด์ฌ์ ์ด์ฉํ EDA (0) | 2023.04.07 |
[DACON/๊น๊ฒฝ์] ํ์ด์ฌ์ ์ด์ฉํ EDA (0) | 2023.04.07 |
[DACON/๊น์ธ์ฐ] ํ์ด์ฌ์ ์ด์ฉํ EDA (0) | 2023.04.07 |
[DACON/์กฐ์์] ํ์ด์ฌ์ ์ด์ฉํ EDA (0) | 2023.04.07 |