빅분기 7장(통계분석 프로세스)

통계분석 프로세스¶

통계란 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현¶

표본조사 : 조사하고자 하는 대상의 일부만을 조사하는 방법, 표본을 추출하는 방식은 분석 결과에 큰 영향을 준다.¶

1. 모잡단 : 연구자가 알고싶어 하는 대상 혹은 집단 전체¶

2.모수(Parameter) : 구하고자 하는 모집단에 대한 정보¶

3.표본(sample) : 연구자가 측정 또는 관찰한 결과들의 집합¶

전체흐름¶

통계분석의 목적도 머신러닝과 마찬가지로 데이터를 보고 어떠한 insight를 찾거나 어떠한 가설을 증명하는 데 있기 때문이다.¶

가설검정¶

모집단의 모수를 추정하는 과정에서 이루어짐¶

예를 들어, 하나의 표본평균을 가지고 모집단의 평균을 추정하거나, 두 개의 표본집단을 가지고 두 모집단의 평균을 비교하는 과정에서 이루어짐¶

대립가설(H1) : 새롭게 주장하고자 하는 가설¶

귀무가설(H0) : 현재 믿어지고 있는 가설¶

귀무가설을 기각하는 기준을 유의수준 이라하며¶

유의수준은 분석가와 산업에 따라 정해진다.(보통 0.05)¶

p-value 값이 유의수준보다 작다면, 귀무가설을 기각(대립가설이 유의미하다 판단)¶

t-test : 검정통계량이 귀무가설 하에 t-분포를 따르는 통계적 가설 검정 방법.¶

예를 들어 "A집단과 B집단에서 표본을 추출하고 몸무게의 평균 차이를 비교하였을 떄, 2kg의 차이가 났다. 과연, 이 몸무게의 차이는 두 집단의 몸무게가 차이가 난다고 할 수 있을까??"¶

통계적 분석에서는 2kg의 차이가 나타났더라도, 분산에 따라 이 차이는 유의할 수도, 유의하지 않을 수도 있다. 이와 같이 통계적 분석 개념에는 분산을 이용한다!!!!¶

일표본 T-검정(One Sample t-test)¶

단일모집단에서 관심있는 연속형 변수의 평균값을 특정 기준값과 비교한다.¶

가정 : 모집단의 구성요소들이 정규분포를 이룬다는 가정!!!!¶

1. 종속변수는 연속형이어야 한다.¶

2. 검증하고자 하는 기준값이 있어야 한다.¶

정규성 검정¶

1. 만족 : stats.ttest¶

2. 만족X : 월콬슨의 부호 순위 검정(wilcoxon's signed rank test)¶

파이썬을 활용한 일표본 t-test¶

cats 데이터에서 고양이들의 평균몸무게가 2.6kg인지 아닌지 통계적 검정을 수행하고, 결과를 해석해보자(양측검정, 유의수준 = 0.05)¶

In [5]:

#데이터 불러오기
import pandas as pd
cats = pd.read_csv('https://raw.githubusercontent.com/ADPclass/ADP_book_ver01/main/data/cats.csv')

#cats 데이터 정보확인
#Bwt는 고양이 몸무계를 의미
#Hwt는 고양이 길이를 의미
cats.info()

#먼저 정규성 검정부터 수행
#고양이 몸무게가 2.6kg인지를 검정하므로 mu 변수에 2.6을 할당
#그리고 고양이의 몸무게만 추출하여 shapiro test를 통해 데이터의 정규성을 검정한다
# scipy.stats: 통계 분석을 위한 함수와 확률 분포를 제공합니다
import scipy.stats as stats
from scipy.stats import shapiro
mu = 2.6
shapiro(cats['Bwt'])

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 144 entries, 0 to 143
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Sex     144 non-null    object 
 1   Bwt     144 non-null    float64
 2   Hwt     144 non-null    float64
dtypes: float64(2), object(1)
memory usage: 3.5+ KB

Out[5]:

ShapiroResult(statistic=0.9518786668777466, pvalue=6.730248423991725e-05)

검정통계치 : 0.9518786668777466¶

p-value : 6.730248423991725e-05¶

p-value가 유의수준보다 작으므로 '데이터가 정규분포를 따른다' 라는 귀무가설을 기각한다!!!¶

즉, cats 데이터의 Bwt변수는 정규분포를 따르지 않는다....¶

데이터가 정규분포를 따르지 않으므로 wilcoxon test로 t-test진행¶

만약 정규분포를 따른다면 stats.ttest_1samp(cats.Bwt, popmean=mu)¶

In [6]:

#wilcoxon test로 t-test진행
stats.wilcoxon(cats.Bwt - mu, alternative = 'two-sided')

Out[6]:

WilcoxonResult(statistic=3573.0, pvalue=0.02524520294814093)

wilconxon test 결과 p-value는 유의수준 0.05보다 작으므로 고양이의 몸무게가 2.6kg이다 라는 귀무가설을 기각할 수 있다!!!! 즉, 유의수준 0.05하에 고양이의 평균 몸무게는 2.6kg라고 할 수 없다!!!¶

대응표본 T-검정¶

단일모집단에 대해 어떤 처리를 가했을 떄, 처리 전후에 따른 평균의 차이를 비교할 떄 사용!!!¶

표본 내에 개체들에 대해 두 번의 측정을 한다¶

모집단의 관측값이 정규성을 만족해야 한다는 가정!!!¶

정규성검정¶

1. 정규성 만족 >>> stats.ttest_rel(X_pre.variable, X_post.variable)¶

2. 정규성 만족 x >>> 윌콕슨의 부호 순위 검정¶

귀무가설(H0) : 두 모평균 사이의 차이는 없다.¶

대립가설(H1) : 두 모평균 사이의 차이는 있다.¶

파이썬을 활용한 대응표본 t-test¶

10명의 환자 대상 수면영양제 복용 전과 후의 수면시간을 측정하였다.¶

영양제의 효과가 있는지를 판단해보자¶

In [7]:

import pandas as pd
data = {'before':[7,3,4,5,2,1,6,6,5,4],
        'after':[8,4,5,6,2,3,6,8,6,5]}

data = pd.DataFrame(data)
data

Out[7]:

	before	after
0	7	8
1	3	4
2	4	5
3	5	6
4	2	2
5	1	3
6	6	6
7	6	8
8	5	6
9	4	5

In [8]:

# 'before' 데이터에 대한 정규성 검정
stat, p_value = shapiro(data['before'])
print("Before: Shapiro-Wilk test statistic =", stat, ", p-value =", p_value)

# 'after' 데이터에 대한 정규성 검정
stat, p_value = shapiro(data['after'])
print("After: Shapiro-Wilk test statistic =", stat, ", p-value =", p_value)

# p-value 값이 유의수준(0.05) 보다 크면 귀무가설 채택(정규성 만족함) 
# 작으면 기각(정규성 만족안함)
#여기서는 정규성을 만족함

Before: Shapiro-Wilk test statistic = 0.9644594192504883 , p-value = 0.8352694511413574
After: Shapiro-Wilk test statistic = 0.9456835985183716 , p-value = 0.6177982091903687

해당 데이터를 검정하기 위한 가설을 수립한다¶

귀무가설(H0) : 수면제 복용 전과 후의 수면시간 차이는 없다.¶

대립가설(H1) : 수면제 복용 전과 후의 수면시간 차이는 있다.¶

가설을 수립하고 대응표본 t-test를 진행해보자¶

In [10]:

stats.ttest_rel(data['after'], data['before'], alternative='greater')

Out[10]:

Ttest_relResult(statistic=4.743416490252569, pvalue=0.0005269356285082764)

pvalue가 0.05보자 작으므로 귀무가설을 기각한다¶

대립가설 채택!!!¶

즉, 수면영양제를 복용하기 전과 후의 평균 수면시간의 차이는 통계적으로 유의하며, 영양제를 복용한 후 수면시간이 늘었다는 결론을 낼 수 있다.¶

독립표본 t-test¶

두 개의 독립된 모집단의 평균을 비교할 떄 사용¶

모집단, 모수,표본이 모두 두개씩 존재(등분산성 가정을 해주어야 함.)¶

두 모집단은 정규성을 만조해야 한다.¶

두 모집단의 분산이 서로 같아야 한다(등분산성 가정)¶

정규성검정¶

1. 정규성 만족(귀무가설 채택) >>> 등분산 검정¶

2. 정규성 불만족(귀무가설 기각) : 윌콕슨의 부호 순위 검정¶

등분산 검정¶

1. 등분산 만족(귀무가설 채택) : stats.ttest_ind(X1, X2, equal_var = True)¶

2. 등분산 불만족(귀무가설 기각) : stats.ttest_ind(X1, X2, equal_var = False)¶

파이썬을 활용한 독립표본 t-test¶

수컷 고양이와 암컷 고양이의 몸무게 차이를 비교¶

귀무가설(H0) : 수컷과 암컷 고양이의 몸무게 차이는 없다.¶

대립가설(H1) : 수컷과 암컷 고양이의 몸무게 차이는 있다.¶

In [12]:

import pandas as pd
cats = pd.read_csv('https://raw.githubusercontent.com/ADPclass/ADP_book_ver01/main/data/cats.csv')
cats

Out[12]:

	Sex	Bwt	Hwt
0	F	2.0	7.0
1	F	2.0	7.4
2	F	2.0	9.5
3	F	2.1	7.2
4	F	2.1	7.3
...	...	...	...
139	M	3.7	11.0
140	M	3.8	14.8
141	M	3.8	16.8
142	M	3.9	14.4
143	M	3.9	20.5

144 rows × 3 columns

In [20]:

male = cats.loc[(cats['Sex']=='M'),'Bwt']
female = cats.loc[(cats['Sex']=='F'),'Bwt']

In [21]:

stat, p_value = shapiro(male)
print(stat, p_value)
stat, p_value = shapiro(female)
print(stat, p_value)

0.9788321852684021 0.11895745247602463
0.8909613490104675 0.0003754299250431359

In [23]:

# cats데이터에서 등분상성 검정을 진행한다. 
stats.levene(female, male)

Out[23]:

LeveneResult(statistic=19.43101190877999, pvalue=2.0435285255189404e-05)

0.5보다 작으므로 귀무가설 기각 대립가설 채택¶

즉, 등분산성을 만족하지 않음¶

stats.ttest_ind(female, male, equal_var=False)¶

In [24]:

stats.ttest_ind(female, male, equal_var=False)

Out[24]:

Ttest_indResult(statistic=-8.70948849909559, pvalue=8.831034455859356e-15)

pvalue는 유의수준보다 작음.. 즉, 유의하다고 판단 귀무가설 기각 대립가설 채택, 수컷과 암컷 고양이의 몸무게 차이는 존재한다고 할 수 있다.¶

'빅데이터분석기사 준비' 카테고리의 다른 글

빅분기 모의고사 2회차 (0)	2023.06.16
빅분기 모의고사 1회차 (0)	2023.06.14
빅분기 2유형 문제연습(회귀-2) (0)	2023.06.08
빅분기 2유형 문제연습(회귀-1) (0)	2023.06.05
빅분기 2유형 문제연습(분류) (0)	2023.05.30

빅분기 7장(통계분석 프로세스)

통계분석 프로세스¶

통계란 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현¶

표본조사 : 조사하고자 하는 대상의 일부만을 조사하는 방법, 표본을 추출하는 방식은 분석 결과에 큰 영향을 준다.¶

1. 모잡단 : 연구자가 알고싶어 하는 대상 혹은 집단 전체¶

2.모수(Parameter) : 구하고자 하는 모집단에 대한 정보¶

3.표본(sample) : 연구자가 측정 또는 관찰한 결과들의 집합¶

전체흐름¶

통계분석의 목적도 머신러닝과 마찬가지로 데이터를 보고 어떠한 insight를 찾거나 어떠한 가설을 증명하는 데 있기 때문이다.¶

가설검정¶

모집단의 모수를 추정하는 과정에서 이루어짐¶

예를 들어, 하나의 표본평균을 가지고 모집단의 평균을 추정하거나, 두 개의 표본집단을 가지고 두 모집단의 평균을 비교하는 과정에서 이루어짐¶

대립가설(H1) : 새롭게 주장하고자 하는 가설¶

귀무가설(H0) : 현재 믿어지고 있는 가설¶

귀무가설을 기각하는 기준을 유의수준 이라하며¶

유의수준은 분석가와 산업에 따라 정해진다.(보통 0.05)¶

p-value 값이 유의수준보다 작다면, 귀무가설을 기각(대립가설이 유의미하다 판단)¶

t-test : 검정통계량이 귀무가설 하에 t-분포를 따르는 통계적 가설 검정 방법.¶

예를 들어 "A집단과 B집단에서 표본을 추출하고 몸무게의 평균 차이를 비교하였을 떄, 2kg의 차이가 났다. 과연, 이 몸무게의 차이는 두 집단의 몸무게가 차이가 난다고 할 수 있을까??"¶

통계적 분석에서는 2kg의 차이가 나타났더라도, 분산에 따라 이 차이는 유의할 수도, 유의하지 않을 수도 있다. 이와 같이 통계적 분석 개념에는 분산을 이용한다!!!!¶

일표본 T-검정(One Sample t-test)¶

단일모집단에서 관심있는 연속형 변수의 평균값을 특정 기준값과 비교한다.¶

가정 : 모집단의 구성요소들이 정규분포를 이룬다는 가정!!!!¶

1. 종속변수는 연속형이어야 한다.¶

2. 검증하고자 하는 기준값이 있어야 한다.¶

정규성 검정¶

1. 만족 : stats.ttest¶

2. 만족X : 월콬슨의 부호 순위 검정(wilcoxon's signed rank test)¶

파이썬을 활용한 일표본 t-test¶

cats 데이터에서 고양이들의 평균몸무게가 2.6kg인지 아닌지 통계적 검정을 수행하고, 결과를 해석해보자(양측검정, 유의수준 = 0.05)¶

검정통계치 : 0.9518786668777466¶

p-value : 6.730248423991725e-05¶

p-value가 유의수준보다 작으므로 '데이터가 정규분포를 따른다' 라는 귀무가설을 기각한다!!!¶

즉, cats 데이터의 Bwt변수는 정규분포를 따르지 않는다....¶

데이터가 정규분포를 따르지 않으므로 wilcoxon test로 t-test진행¶

만약 정규분포를 따른다면 stats.ttest_1samp(cats.Bwt, popmean=mu)¶

wilconxon test 결과 p-value는 유의수준 0.05보다 작으므로 고양이의 몸무게가 2.6kg이다 라는 귀무가설을 기각할 수 있다!!!! 즉, 유의수준 0.05하에 고양이의 평균 몸무게는 2.6kg라고 할 수 없다!!!¶

대응표본 T-검정¶

단일모집단에 대해 어떤 처리를 가했을 떄, 처리 전후에 따른 평균의 차이를 비교할 떄 사용!!!¶

표본 내에 개체들에 대해 두 번의 측정을 한다¶

모집단의 관측값이 정규성을 만족해야 한다는 가정!!!¶

정규성검정¶

1. 정규성 만족 >>> stats.ttest_rel(X_pre.variable, X_post.variable)¶

2. 정규성 만족 x >>> 윌콕슨의 부호 순위 검정¶

귀무가설(H0) : 두 모평균 사이의 차이는 없다.¶

대립가설(H1) : 두 모평균 사이의 차이는 있다.¶

파이썬을 활용한 대응표본 t-test¶

10명의 환자 대상 수면영양제 복용 전과 후의 수면시간을 측정하였다.¶

영양제의 효과가 있는지를 판단해보자¶

해당 데이터를 검정하기 위한 가설을 수립한다¶

귀무가설(H0) : 수면제 복용 전과 후의 수면시간 차이는 없다.¶

대립가설(H1) : 수면제 복용 전과 후의 수면시간 차이는 있다.¶

가설을 수립하고 대응표본 t-test를 진행해보자¶

pvalue가 0.05보자 작으므로 귀무가설을 기각한다¶

대립가설 채택!!!¶

즉, 수면영양제를 복용하기 전과 후의 평균 수면시간의 차이는 통계적으로 유의하며, 영양제를 복용한 후 수면시간이 늘었다는 결론을 낼 수 있다.¶

독립표본 t-test¶

두 개의 독립된 모집단의 평균을 비교할 떄 사용¶

모집단, 모수,표본이 모두 두개씩 존재(등분산성 가정을 해주어야 함.)¶

두 모집단은 정규성을 만조해야 한다.¶

두 모집단의 분산이 서로 같아야 한다(등분산성 가정)¶

정규성검정¶

1. 정규성 만족(귀무가설 채택) >>> 등분산 검정¶

2. 정규성 불만족(귀무가설 기각) : 윌콕슨의 부호 순위 검정¶

등분산 검정¶

1. 등분산 만족(귀무가설 채택) : stats.ttest_ind(X1, X2, equal_var = True)¶

2. 등분산 불만족(귀무가설 기각) : stats.ttest_ind(X1, X2, equal_var = False)¶

파이썬을 활용한 독립표본 t-test¶

수컷 고양이와 암컷 고양이의 몸무게 차이를 비교¶

귀무가설(H0) : 수컷과 암컷 고양이의 몸무게 차이는 없다.¶

대립가설(H1) : 수컷과 암컷 고양이의 몸무게 차이는 있다.¶

0.5보다 작으므로 귀무가설 기각 대립가설 채택¶

즉, 등분산성을 만족하지 않음¶

stats.ttest_ind(female, male, equal_var=False)¶

pvalue는 유의수준보다 작음.. 즉, 유의하다고 판단 귀무가설 기각 대립가설 채택, 수컷과 암컷 고양이의 몸무게 차이는 존재한다고 할 수 있다.¶

'빅데이터분석기사 준비' 카테고리의 다른 글

관련글

티스토리툴바