본문 바로가기
공부/ADsP

4-1. 통계분석. 자료분석

by green_day 2022. 7. 29.
  • 자료분석

데이터에서 변수와 관측치를 확인함. 모수(전체)를 대상으로 분석할 수 없으므로 표본을 추출하여 자료를 분석함.

자료 분석을 위해 변수와 상수를 사용함.

 

* 모수: 전체 집단을 설명하는 진실된 값. 통계는 전수조사를 할 수 없기에 모수와 표본 간의 오차 범위를 예측함

* 잔차: 관측 값과 계산 값의 차이를 의미. 잔차를 연구하여 각종 오차를 계산함

 

  • 변수(Variable)

측정결과가 조사대상과 다른 값으로 나타날 수 있는 속성 혹은 특성

수량화 할 수 있는지 여부로 양적변수질적 변수로 나뉨

어떤 값이라도 가질 수 있는지, 특정 수치만 가질 수 있는지에 따라 연속변수비연속변수로 나뉨

변수들 간의 상호관련성, 인과관계가 있는지에 따라 독립변수종속변수로 나뉨

 

독립변수와 종속변수

- 독립변수: 설명변수로 원인이 되는 변수

- 종속변수: 결과변수로 독립변수에 영향을 받아서 결과가 되는 변수

 

 질적변수와 양적변수

- 질적변수: 수치로 나타낼 수 없는 변수(빈도 분석) - 회사명, 직종, 혈액형 등

- 양적변수: 수치로 나타낼 수 있는 변수(평균, 분산 등으로 계산) - 체중, 온도, 나이, 키 등

 

이산변수와 연속변수

- 이산변수: 하나하나 셀 수 있는 정수 값을 가진 변수 (인원수)

- 연속변수: 수치로 나타낼 수 있는 변수 (체중, 온도, 나이, 키) 등 소수점 표현 가능

 

명복변수와 서열변수

- 명목변수: 자료를 서로 다른 범주로 구분하기위해, 각 범주에 수치부여 (남성: 1, 여성: 2)

- 서열변수: 자료에 서열 부여 (만족 1, 매우만족 2, 매우매우 만족 3)

 

등간변수와 비변수(비율변수)

- 등간변수: 자료를 서열뿐 아니라 상대적 차이까지 제시

- 비율변수: 자료를 분류, 서열, 차이와 함께 절대영점까지 표현 (키 180cm=90*2배이다.)

 

 

 

 

 

 

 

 

'공부 > ADsP' 카테고리의 다른 글

4-3. 기술통계 + 예상문제  (0) 2022.08.01
4-2. 표본조사  (0) 2022.07.29
3-4. 예상문제  (0) 2022.07.28
3-3. 결측값 처리와 이상값 검색  (0) 2022.07.28
3-2. R 기초와 데이터 마트  (0) 2022.07.28

댓글