The PLT Blog

Hanging memories by one progress at a time.

통계학의 기초 개념(도시통계분석 4강, 4/10)

통계학 이란?

통계학은 ‘자료를 의사결정에 도움이 되는 의미있는 정보로 전환하는 방법에 관하여 연구하는 학문’이다.

통계학은 크기 기술통계(Descriptive Statistics)와 추론통계(Inferential Statistics)로 나눌 수 있는데

  • 기술 통계는 자료를 적절하게 그림, 도표 또는 수치로 특성을 요약하고 기술하는 것을 말하며
  • 추론통계는 모집단으로부터 추출한 표본의 통계량을 이용하여 모집단 모수를 추정하거나 가설을 검정하는데 사용하는 통계를 말한다.
위 그림에서처럼 모집단의 모수와 표본을 통한 통계값은 다르게 표기하고 있는데,
모집단 모수(parameter)의 경우에는 뮤, 시그마 등으로 표기하고, 표본의 통계량( Statistic)의 경우에는 엑스바, variance와 standard deviation의 기호로 S제곱과 S를 사용한다.

통계학의 주요 목적

통계학의 주요 목적은 모호하지만 측정가능한 값들을 비교하고, 시각화 하여 의미있는 정보를 추출하는 과정에 익숙해 지는 것으로 볼 수 있다.

이를 통해 숫자에 대한 감각을 익히고, 데이터를 보고 관리하고, 시각화 하는 작업을 수행할 수 있어야 한다.

주의해야 할 점

데이터의 관리를 위해서는 실험을 통한 데이터인지, 관찰을 통해 얻어진 데이터 인지 data source를 잘 관리해야 하고, 실제 측정하는 변수에 영향을 주는 lurking variable에 유의해야 하며 데이터를 통해 얻어진 결론이 항상 정확하지 않을 수 있다는 점도 인지해야 한다.

주요한 개념들

  • 개체(Individual) : 사람, 동물, 사물 등 각각 관찰의 대상
  • 변수(Variable): 개체의 특성이며 상이한 개체에 대해 상이한 값을 취할 수 있음.
  • 범주형 변수 – Categorical Variable
  • 정량형 변수 – Quantitative/Numerical Variable
*참고가능한 세부 분류

데이터 분류에 따른 시각화 방법

  • 범주형 변수
    • 파이 그래프(Pie charts)
    • 막대 그래프(Bar graphs)
  • 정량 변수(Quantitative Variables)
    • 히스토그램(Histogram)
    • 스템플롯(Stemplots, stem-and-leaf plots)

정량변수 분포 분석 시 주의사항

  • 전반적 패턴을 관찰
  • Deviation을 관찰
  • 데이터의 형태(Shape)관찰
  • 데이터의 중앙(Center of the data)관찰
  • 데이터의 퍼진 정도(Spread of the data – variation)를 관찰
  • 이탈값/아웃라이어(Outlier)를 관찰
    • 아웃라이어의 경우 자연발생/측정오류/기록오류/단위 오류 등 다양한 원인에 의해 발생이 가능

데이터의 분포 형태

대다수 자연적 통계데이터는 대칭적(Symmetric) 형태를 띠는 경우가 많으며, 오른쪽으로 기울어지거나(Skewed to the right), 왼쪽으로 기울어지는(Skewed to the left) 경우도 발생한다(*상단의 그림 참조)

발생 빈도가 가장 높은 값의 봉우리가 하나이거나(Unimodal) 두 개(Bimodal)일 수도 있는 등 다양한 형태가 발생 가능하다.

히스토그램(Histogram)

히스토그램은 위에서 언급된 데이터 분포를 이해하기에 좋은 형식의 그래프이며 값을 가지는 정량적 변수에 사용하여 동일한 너비의 면적으로 분포를 확인하는 방법이다.

Interval의 개수는 통상적으로 표본 수의 square root값을 반올림하여 사용할 수 있다.

  • 히스토그램 작성법
    • 자료의 최대값과 최소값을 찾는다
    • 자료 크기에 따른 적절한 계급 수를 정한다(예시: 샘플 수의 square root)
    • 중복되지 않고 동일한 간격을 갖는 계급구간을 정함
    • 각 계급에 속하는 관찰 값 수를 확인
    • 각 계급을 연속적으로 표시하며 관찰값이 없는 구간도 포함한다
    • 각 계급도수를 총 도수로 나누어 상대도수를 계산한다.
      • *절대도수는 발생한 사건의 수, 상대도수는 전체집단에서 발생한 사건이 차지하는 비율이며 관측이나 실험으로 측정된 확률을 나타낸다.

다변량 자료의 히스토그램

줄기잎 도표( Stem-and-leaf plots)

타임 플롯(Time Plots)

주요 분포 관련 통계

  • 데이터 중앙(Center of the data)
    • 평균
    • 중앙값
      * 분포가 대칭인 경우 두 값은 비슷하나 분포가 기울어 진 경우 평균값은 통상 중앙값보다 꼬리가 긴 쪽으로 쏠리게 된다.
  • 데이터 분포(Variation)
    • 범위(최댓값 – 최소값)
    • 4분위 수 : quartiles
    • Interquartile range: 25%지점 ~ 75%지점
    • 분산(Variance)
    • 표준편차(Standard deviation)

Five-Number Summary

박스플롯(Boxplot)

박스플롯은 Five Number를 시각화 한것으로 이해하면 되며 최소값과 최댓값, 4분위수와 interquartile range를 표현할 수 있다.

마지막으로, 과제 실습을 통해 서울시에서 제공하는 2019년 행정동 별 총 인구 데이터를 다운 받아 다음 기초 통계분석을 실시하려고 한다.

1. 서울시 행정동 인구, 총 남자 인구수, 총 여자 인구수와 기초 통계량의 계산

2. 행정동 인구, 총 남자인구수, 총 여자 인구수 분포를 히스토그램으로 나타내기

3. 분석값을 바탕으로 행정동 인구, 총남자 인구수, 총 여자 인구수 분포의 특징을 간략히 설명

위의 과제물은 다음 포스팅에서 공개하도록 하겠습니다 🙂

-끝.

Leave a Reply