본문 바로가기
SOA/SRM(Statistics for Risk Modeling)

SRM 정리 - Chapter 1. Basics of Statistical Learning

by sunnyduck 2024. 7. 23.

Chapter 1.1 Statistical learning

 

예를들어, 컨설턴트가 광고비와 매출 간의 관계를 조사하라고 의뢰받았다고 가정하자. 이때 $Y$는 매출, $X_i$는 $Y$를 추정하는데 사용되는 변수인 TV, 라디오, 신문 광고비 등 이다.

매출과 각 광고비 사이의 상관관계를 그래프로 나타내면 위와 같다. 이를 함수로 표현하면 다음과 같이 표현할 수 있다. 

$Y = f(X_1, X_2, X_3, \ldots) + \varepsilon$ 

이때 f는 fix되었지만 모르는 함수이고, $ \varepsilon$은 이 함수로 설명할 수 없는 error이다.  $Y$를 추정하는데 사용되는 변수 $X_i$는 explanatory variables, independent variables, features, predictors라고 하며 추정한 변수 $Y$는 dependent variable, response라고 한다. 

 

Statistical learning이 사용되는 것은 다음과 같다.

1. Prediction and Inference

$X$는 보통 쉽게 관측이되지만 $Y$는 쉽게 얻기 어렵기 때문에 함수 $f$를 이용해 예측한다.

$Y$를 예측할 때 정확도는 reducible error와 irreducible error로 구분할 수 있다. Reducible error는 적절한 모델을 찾아서 줄일 수 있는 error를 뜻한다. 따라서 우리의 목표는 reducible error를 최소화하는 모형을 찾는 것이다. 하지만 $Y$는 $X$만으로 모두 설명할 수 있는 것이 아니기 때문에 아무리 적절한 모델을 찾아도 줄일 수 없는 error가 존재한다. 이것이 irreducible error이다. 이를 수식으로 나타내면 다음과 같다.

\begin{align*}
\mathbb{E}(Y - \hat{Y})^2 &= \mathbb{E}[f(X) + \epsilon - \hat{f}(X)]^2 \\
&= \underbrace{\mathbb{E}[f(X) - \hat{f}(X)]^2}_{\text{Reducible}} + \underbrace{\text{Var}(\epsilon)}_{\text{Irreducible}},
\end{align*}

Inference(추론)에서는, $X$와 $Y$사이의 관계, 즉 $f$를 알고싶은 것이다. 이때는 $X$ 변수들 중 어떤 변수가 $Y$와 관련이 있는지, $X$와 $Y$사이에 무슨 관계가 있는지 추론한다. 

eg. 위의 그래프 예제에서, 어떤 media가 매출과 연관있는지, TV가 매출에 얼마나 큰 영향을 미치는지에 대해 추론할 수 있다. 

2. Parametric and non-parametric

Statistical learning에는 두가지 방법이 있는데 parametric(모수적) 방법은 함수를 명시하고, 그 함수의 계수를 추정하는 것이다. 예를 들어 함수가 선형함수 $f(X) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_p X_p$라면 데이터를 이용하여 선형함수의 계수$\beta_0, \beta_1, \ldots, \beta_p$를 추정한다. 이 계수를 추정하는데 사용된 데이터는 더 이상 사용되지 않는다. 모수적 방법은 적절한 함수 형태를 가정하지 않으면 예측 성능이 좋지 않은 단점이 있다. 이 문제를 다양한 형태가 될 수 있는 함수를 이용함으로써 해결할 수 있지만, 이는 많은 parameter를 추측해야 하고, overfitting이 될 수 있다는 단점이 있다.

Non-parametric(비모수적) 방법은 함수를 명시하지 않는다. 이 방법은 데이터를 사용하여 모든 점에 가까운 함수를 나타낸다. 이는 특정 함수 형태를 가정하지 않음으로써 실제 함수와 크게 다를 가능성을 갖고 있지 않다. 하지만 정확한 추정을 위해 매우 많은 수의 observation이 필요하다. 

3. Flexibility versus interpretability

Flexibility는 관찰된 데이터에 모델이 더 유연하게 맞춰지는 것을 의미한다. Flexible할수록 해석력이 떨어지는 단점이 있다. 아래 그래프는 앞으로 배울 모델링 방법들을 flexible 정도와, 해석력으로 나열해놓은 것이다. 

예를 들어, linear 함수는 비교적 restrictive하지만 $X$와 $Y$의 관계를 해석하기 쉬운 장점이 있고, spline 함수는 매우 flexible하지만 변수 사이의 관계를 이해하기 어려운 단점이 있다. 일반적으로 해석이 필요한 추론을 할 때에는 restrictive한 함수를 사용, 예측을 할 때에는 flexible한 함수를 사용하지만, 너무 flexible한 경우 overfitting되어 오히려 예측력이 떨어질 수 있다.

4. Supervised and Unsupervised learning

Supervised learning은 independent variable(설명변수)에 의해 dependent variable(반응변수)가 영향을 받는 학습을 의미한다. 반면 Unsupervised learning(비지도 학습)은 dependent variable $Y$를 갖고 있지 않다. 비지도학습은 데이터의 패턴을 찾는다. 지도 학습은 예측의 정확도를 측정할 수 있는 반면, 비지도 학습은 정확도를 측정할 수 없기 때문에 지도 학습보다 더 어렵다. 

eg. 비지도 학습의 예로, 마케팅에서 잠재고객에 대한 정보를 가지고 있을 때, 그룹화하여 어떤 유형의 고객이 유사한지 이해할 수 있다. 

5. Regression versus classification problems

$Y$가 연속적인 경우 regression problem(회귀문제), $Y$가 이산적인 경우(finite한 경우)에는 classification problem(분류문제)로 분류할 수 있다. 회귀문제의 경우 $Y$의 값을 추정, 분류 문제의 경우에는 분류 확률을 추정한다.

회귀문제의 quality는 mean squared error(MSE)를 사용해서 측정할 수 있다. MSE의 식은 다음과 같다.

$$\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2.$$

분류문제의 quality는 test data의 오분류율을 측정하여 계산한다. 이를 수식으로 나타내면 다음과 같다.

$$\text{Ave}\left(I(y_0 \neq \hat{y}_0)\right).$$

 

MSE 식에서 $\hat{y}_i$는 모델로 추정한 데이터 $y_i$는 test data(model을 fit하는데에 사용되지 않은 데이터)이다. Train data가 아닌, test data를 사용하는 이유는 train data는 이미 알고 있는 data이므로 이것을 얼마나 잘 예측했는지는 상관없기 때문이다. 모르는 데이터인 test data의 예측도에 관심이 있다. 또한 train data는 이미 알고 있으므로 더 flexible한 모델을 사용하면 error를 계속 줄일 수 있다. 이는 overfitting(train data에는 있는 패턴이 test data에는 존재하지 않는 것)으로 이어져, 오히려 test data에서의 MSE는 증가한다.

$$ E\left( y_0 - \hat{f}(x_0) \right)^2 = \text{Var}\left( \hat{f}(x_0) \right) + \left[ \text{Bias}\left( \hat{f}(x_0) \right) \right]^2 + \text{Var}(\epsilon)$$

 

MSE는 위의 식처럼 variance, squared bias, irreducible error의 sum으로 표현할 수 있다. 낮은 MSE를 위해서는 low variance, low bias를 동시에 만족해야 한다. Variance는 다른 train data를 사용할 때, 추정치가 얼마나 변하는 지를 측정한 것이다. 따라서 flexible할수록 variance가 크다. 반면 bias는 기댓값과 실제값의 차이를 측정한 것이다. 따라서 일반적으로 flexible한 모델일수록 bias를 줄일 수 있다. Irreducible error는 모델 수정으로 줄일 수 없는 error이고, variance와 squared bias는 어느 한쪽이 줄어들면, 다른쪽은 늘어나는 관계성(bias-variance trade-off)을 가지고 있으므로, 상대적인 변화속도에 따라 MSE를 최소화하는 추정치를 구할 수 있다.

 

위의 그래프에서 가로 점선은 irreducible error를 의미한다. MSE는 이 irreducible error보다 무조건 커야 한다. Flexible할수록 variance 증가량이 큰지, bias 감소량이 큰지에 따라 MSE의 최솟값 위치가 달라지게 된다.

 

Chapter 1.2 Types of variables

 

1. Continuous variables

eg. Claim amount

2. Categorical variables (Qualitative variables)

eg. Male/Female

- nominal variable (변수 사이에 순서 없음)

eg. 고양이, 개, 토끼

- ordinary variable (변수 사이에 순서 있음)

eg. 1(아주 좋음), 2(좋음), 3(보통), 4(안좋음), 5(아주 안좋음)

3. Count variables

eg. Number of claims

 

Chapter 1.3 Graphs

 

1. Scatter plots

$X$,$Y$ 모두 continuous variable일 때 사용, 변수들의 분포를 보여준다.

eg.

ISLR 교재의 Wage 데이터를 이용한 scatter plot이다. Scatter plot(산점도)를 통해 대략적인 변수의 분포를 보여줄 수 있다. 위의 그래프에서는 age와 wage 사이의 관계를 나타낸 곡선도 표현하였다. 나이가 많을수록 임금은 올라가는 경향이 있으나 60세 이후부터는 감소하는 경향을 보인다. 하지만 산점도를 통해 알 수 있듯이 변동성이 크기 때문에 나이만으로는 임금을 정확히 예측하기 어렵다. 

 

2. Box plots

$X$가 categorical variable, $Y$가 continuous variable일 때 사용, 상자의 아래 선은 first quantile($q_1$), 위의 선은 third quantile($q_3$), 가운데 선은 median($q_2$)을 나타낸다. 이때 $(q_3-q_1)$는 interguartile range라고 한다. $h=1.5\cdot(q_3-q_1)$을 이용해서 박스 위아래로 $q_1-h$, $q_3+h$를 나타내는 선(whiskers)을 그리고 이 선을 넘는 값은 outlier(이상치)로 표시된다.

eg.

ISLR 교재의 Wage 데이터를 활용한 box-plot이다. 각 교육수준 별로 box-plot을 나타내며 box안의 선은 median, 박스 위아래의 선을 넘는 값은 outlier로 점으로 표현하였다. 각 교육수준 별로 색깔을 다르게 표현하였으며, 교육수준이 높을수록 높은 임금을 받는 경향이 있다. 

 

3. q-q plots

두 분포의 quantile를 비교하는 그래프이다. 보통 observed quantile과 fitted quantile을 비교한다. 선은 75번째 quantile과 25번째 quantile을 연결하는 선이며, 이 선에 가까울수록 model에 잘 fit된 것이다.

 

위의 그래프는 RMAF 교재에서 reference distribution으로 normal 분포를 사용한 injury data에 대한 qq-plot이다. 각 점에서 세로 축은 sample분포를 사용한 quantile, 가로 축은 normal curve를 사용한 quantity이다. 위의 그래프에서 작은 sample quantile은 theoretical quantile보다 일관되게 작으며, 이는 분포가 왼쪽으로 치우쳐 있음을 나타낸다. 이는 기존 정규분포보다 꼬리가 더 큰 분포로 해석될 수 있다.