소품집

[다변량 분석] 검정 및 신뢰구간 추정 본문

Statistics

[다변량 분석] 검정 및 신뢰구간 추정

sodayeong 2021. 9. 29. 22:20

 

library(UsingR)
library(ggplot2)
library(MASS)

# 1.단일 모집단의 모평균에 대한 검정 및 신뢰구간 추정(1) 
data_1 <- c(13.1, 14.7, 17.4, 16.8, 15.0, 15.9, 16.0, 14.7, 15.5, 15.6)

# 귀무가설: 모집단의 평균이 17이다. 
# 대립가설: 모집단의 평균은 17보다 작다. 
# 유의수준: 0.05
hist(data_1)
stem(data_1)
t.test(data_1,mu=17, alternative = 'less', conf.level = 0.95) 
# -> 유의수준 0.05에서 p-value는 0.001496로 귀무가설을 기각하게 된다. 따라서 모집단의 평균은 17보다 작다. 


# 1.단일 모집단의 모평균에 대한 검정 및 신뢰구간 추정(2)
# 귀무가설: 선수들의 평균 출루율은 0.330이다. 
# 대립가설: 선수들의 평균 출루율은 0.330이 아니다
# 유의수준: 0.05 
# -> 유의수준 0.05에서 p-value는 0.8663로 귀무가설을 채택하게 된다. 따라서 선수들의 평균 출루율은 0.330이다. 
hist(OBP)
stem(OBP)
t.test(OBP, mu=0.330, conf.level = 0.99, alternative = 'two.sided')


# 2. 두 모집단의 모평균 차이에 대한 검정 및 신뢰구간 추정 

# case (1) 두 표본이 독립인 경우
# 두 표본이 서로 독립인 경우(1)
set.seed(12345)
n <- 100
x1 <- rnorm(n, sd=sqrt(2))
x2 <- rnorm(n, mean=1, sd=sqrt(2))

# 검정 전 확인해야 할 사항 > 두 모집단의 분산이 같은가? 
# 귀무가설: 두 모집단의 분산이 같다. 
# 대립가설: 두 모집단의 분산이 다르다.
# 유의수준: 0.05
var.test(x1, x2, var.equal=T) # 유의수준 0.05에서 p-value는 0.339로 귀무가설을 채택. 따라서 두 모집단의 분산이 같다. 
boxplot(x1, x2)

# 귀무가설: 두 변수는 독립이다. 
# 대립가설: 두 변수는 독립이 아니다. (연관이 있다.)
# 유의수준: 0.05
t.test(x1, x2, var.equal = T, conf.level = 0.95) # 유의수준 0.05에서 p-value는 0.009049로 귀무가설 기각. 따라서 두 변수는 독립이 아니다. 


# 두 표본이 서로 독립인 경우(2)

# 귀무가설: 수동변속기 자동차가 자동변속기의 차량보다 연비가 좋다.
# 대립가설: 수동변속기 자동차가 자동변속기의 차량보다 연비가 좋지 않다. 
# 유의수준: 0.05

# 검정 전 확인해야 할 사항 > 두 모집단의 분산이 같은가? 
# 귀무가설: 두 모집단의 분산이 같다. 
# 대립가설: 두 모집단의 분산이 다르다. 
# 유의수준: 0.05
var.test(mpg~am, data=mtcars) # 유의수준 0.05에서 p-value는 0.06691로 귀무가설 채택. 따라서 두 모집단의 분산이 같다. 
boxplot(mtcars$mpg,mtcars$am)
t.test(mpg~am, data=mtcars, alternative='less', var.equal=F)


# case (2) 두 표본이 서로 짝을 지을 수 있는 경우 (대응표본)
# 두 표본이 서로 짝을 지을 수 있는 경우(1)

# 귀무가설: 집단 A, B 두 종류 신발의 닳는 정도가 평균적으로 같다. 
# 대립가설: 집단 A, B 두 종류 신발의 닳는 정도가 평균적으로 같지 않다. 
t.test(shoes$A, shoes$B, paired=T) # paired=T(쌍체비교)
# 유의수준 0.05에서 p-value는 0.008539로 귀무가설을 기각한다. 따라서 집단 A, B 두 종류 신발의 닳는 정도가 평균적으로 같지 않다. 


# 3. 단일 모집단의 모비율에 대한 검정 및 신뢰구간 추정

# 단일 모집단인 경우(1)
# 귀무가설: 빈곤층의 비율이 2002년에 더 증가했다. 
# 대립가설: 빈곤층의 비율이 2002년에 감소했다. 
# 유의수준: 0.05

prop.test(x=5850, n=50000, p=0.113, alternative='greater')
# 유의수준 0.05에서 p-value는 0.002415로 귀무가설을 기각하게 된다.따라서 빈곤층의 비율이 2002년에 감소했다. 

# 단일 모집단인 경우(2)
income <- cfb$INCOME >100000
mean(income)
prop.test(x=sum(income), n=length(income))$conf.int
# 따라서 변수 INCOME의 값이 100,000을 초과하는 가구의 95% 신뢰구간의 영역은 [0.1119570~0.1549263]다. 

# 4. 두 모집단의 모비율 차이에 대한 검정 및 신뢰구간 추정

phat <- c(0.38, 0.435)
n <- c(500, 600)
x <- phat*n
# 귀무가설: 두 도시의 지지율에 유의적인 차이가 있다. 
# 대립가설: 두 도시의 지지율에 유의적인 차이가 없다. 
prop.test(x=x, n=n, alternative = 'less', conf.level = 0.95)

# 유의수준 0.05에서 p-value는 0.03711로 귀무가설을 기각한다. 따라서 두 도시의 지지율에 유의적인 차이가 없다.

티스토리 코드블록 R도 추가됐네? 우왕 

728x90
Comments