일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 딥러닝
- KT AIVLE
- SQL
- Ai
- kaggle
- SQLD
- 웹크롤링
- KT 에이블스쿨
- 기계학습
- 다변량분석
- 시각화
- 한국전자통신연구원
- r
- dx
- 가나다영
- 빅데이터분석기사
- matplot
- ML
- 프로그래머스
- 머신러닝
- httr
- 하둡
- 시계열
- 에이블스쿨
- python
- Eda
- arima
- 에트리 인턴
- cnn
- ggplot2
- hadoop
- kt aivle school
- 서평
- 지도학습
- 빅분기
- 에이블러
- 한국전자통신연구원 인턴
- ETRI
- 하계인턴
- 소셜네트워크분석
Archives
- Today
- Total
소품집
[다변량 분석] 검정 및 신뢰구간 추정 본문
728x90
library(UsingR)
library(ggplot2)
library(MASS)
# 1.단일 모집단의 모평균에 대한 검정 및 신뢰구간 추정(1)
data_1 <- c(13.1, 14.7, 17.4, 16.8, 15.0, 15.9, 16.0, 14.7, 15.5, 15.6)
# 귀무가설: 모집단의 평균이 17이다.
# 대립가설: 모집단의 평균은 17보다 작다.
# 유의수준: 0.05
hist(data_1)
stem(data_1)
t.test(data_1,mu=17, alternative = 'less', conf.level = 0.95)
# -> 유의수준 0.05에서 p-value는 0.001496로 귀무가설을 기각하게 된다. 따라서 모집단의 평균은 17보다 작다.
# 1.단일 모집단의 모평균에 대한 검정 및 신뢰구간 추정(2)
# 귀무가설: 선수들의 평균 출루율은 0.330이다.
# 대립가설: 선수들의 평균 출루율은 0.330이 아니다
# 유의수준: 0.05
# -> 유의수준 0.05에서 p-value는 0.8663로 귀무가설을 채택하게 된다. 따라서 선수들의 평균 출루율은 0.330이다.
hist(OBP)
stem(OBP)
t.test(OBP, mu=0.330, conf.level = 0.99, alternative = 'two.sided')
# 2. 두 모집단의 모평균 차이에 대한 검정 및 신뢰구간 추정
# case (1) 두 표본이 독립인 경우
# 두 표본이 서로 독립인 경우(1)
set.seed(12345)
n <- 100
x1 <- rnorm(n, sd=sqrt(2))
x2 <- rnorm(n, mean=1, sd=sqrt(2))
# 검정 전 확인해야 할 사항 > 두 모집단의 분산이 같은가?
# 귀무가설: 두 모집단의 분산이 같다.
# 대립가설: 두 모집단의 분산이 다르다.
# 유의수준: 0.05
var.test(x1, x2, var.equal=T) # 유의수준 0.05에서 p-value는 0.339로 귀무가설을 채택. 따라서 두 모집단의 분산이 같다.
boxplot(x1, x2)
# 귀무가설: 두 변수는 독립이다.
# 대립가설: 두 변수는 독립이 아니다. (연관이 있다.)
# 유의수준: 0.05
t.test(x1, x2, var.equal = T, conf.level = 0.95) # 유의수준 0.05에서 p-value는 0.009049로 귀무가설 기각. 따라서 두 변수는 독립이 아니다.
# 두 표본이 서로 독립인 경우(2)
# 귀무가설: 수동변속기 자동차가 자동변속기의 차량보다 연비가 좋다.
# 대립가설: 수동변속기 자동차가 자동변속기의 차량보다 연비가 좋지 않다.
# 유의수준: 0.05
# 검정 전 확인해야 할 사항 > 두 모집단의 분산이 같은가?
# 귀무가설: 두 모집단의 분산이 같다.
# 대립가설: 두 모집단의 분산이 다르다.
# 유의수준: 0.05
var.test(mpg~am, data=mtcars) # 유의수준 0.05에서 p-value는 0.06691로 귀무가설 채택. 따라서 두 모집단의 분산이 같다.
boxplot(mtcars$mpg,mtcars$am)
t.test(mpg~am, data=mtcars, alternative='less', var.equal=F)
# case (2) 두 표본이 서로 짝을 지을 수 있는 경우 (대응표본)
# 두 표본이 서로 짝을 지을 수 있는 경우(1)
# 귀무가설: 집단 A, B 두 종류 신발의 닳는 정도가 평균적으로 같다.
# 대립가설: 집단 A, B 두 종류 신발의 닳는 정도가 평균적으로 같지 않다.
t.test(shoes$A, shoes$B, paired=T) # paired=T(쌍체비교)
# 유의수준 0.05에서 p-value는 0.008539로 귀무가설을 기각한다. 따라서 집단 A, B 두 종류 신발의 닳는 정도가 평균적으로 같지 않다.
# 3. 단일 모집단의 모비율에 대한 검정 및 신뢰구간 추정
# 단일 모집단인 경우(1)
# 귀무가설: 빈곤층의 비율이 2002년에 더 증가했다.
# 대립가설: 빈곤층의 비율이 2002년에 감소했다.
# 유의수준: 0.05
prop.test(x=5850, n=50000, p=0.113, alternative='greater')
# 유의수준 0.05에서 p-value는 0.002415로 귀무가설을 기각하게 된다.따라서 빈곤층의 비율이 2002년에 감소했다.
# 단일 모집단인 경우(2)
income <- cfb$INCOME >100000
mean(income)
prop.test(x=sum(income), n=length(income))$conf.int
# 따라서 변수 INCOME의 값이 100,000을 초과하는 가구의 95% 신뢰구간의 영역은 [0.1119570~0.1549263]다.
# 4. 두 모집단의 모비율 차이에 대한 검정 및 신뢰구간 추정
phat <- c(0.38, 0.435)
n <- c(500, 600)
x <- phat*n
# 귀무가설: 두 도시의 지지율에 유의적인 차이가 있다.
# 대립가설: 두 도시의 지지율에 유의적인 차이가 없다.
prop.test(x=x, n=n, alternative = 'less', conf.level = 0.95)
# 유의수준 0.05에서 p-value는 0.03711로 귀무가설을 기각한다. 따라서 두 도시의 지지율에 유의적인 차이가 없다.
티스토리 코드블록 R도 추가됐네? 우왕
728x90
'Statistics' 카테고리의 다른 글
[다변량 분석] 모형 적합성, 회귀계수 유의성 검정, 결정계수(R^2) 해석 (0) | 2021.10.13 |
---|---|
[다변량 분석] 캐글 Mushrooms Data Classification (2) | 2021.09.29 |
[다변량 분석] Survey Data를 이용한 다변량분석 (0) | 2021.09.29 |
statistics (2) | 2020.12.05 |
p-value and 신뢰구간 (0) | 2020.12.01 |
Comments