# 유의성 검정과 모델 적합도 판단 지표

#### 통계적 가설검정의 기초 개념

회귀분석에서 도출된 모델이 주어진 자료를 잘 설명하는지, 혹은 특정 계수가 통계적으로 유의한지 판별하기 위해 통계적 가설검정 기법이 사용된다. 가설검정은 귀무가설과 대립가설을 설정한 뒤 관측된 통계량의 분포를 분석하여 귀무가설을 기각할 수 있는지 여부를 결정한다. 모델에서 추정된 회귀계수들이 실제로 0이 아니라고 말하려면, 이 계수 추정치가 단순히 표본오차에 의해 우연히 커진 것이 아닐 확률이 충분히 높아야 한다. 그런 확률을 평가하는 절차가 가설검정이다.

가설검정은 표본에서 측정된 통계량을 통해 확률분포 모형을 설정한 뒤, 귀무가설이 옳다는 전제에서 관측값보다 극단적인 결과가 나올 확률, 즉 유의확률을 계산한다. 유의확률이 사전에 정한 유의수준보다 작으면 "귀무가설을 기각할 만큼 충분한 근거가 있다"고 해석한다. 회귀분석에서는 보통 각 계수에 대한 t-검정 혹은 모델 전체에 대한 F-검정을 사용한다.

#### 단순선형회귀에서의 모형 설정

최소제곱법을 통한 단순선형회귀 모형은

$$
\begin{align} y &= \beta\_0 + \beta\_1 x + \epsilon \end{align}
$$

의 형태로 가정하고, $y$는 종속변수, $x$는 독립변수, $\beta\_0$와 $\beta\_1$은 미지의 계수, $\epsilon$은 오차항이다. 실제로는 관측된 자료를 벡터와 행렬로 나타내어 일반화된 선형회귀 형태

$$
\begin{align} \mathbf{y} &= \mathbf{X} \boldsymbol{\beta} + \boldsymbol{\epsilon} \end{align}
$$

로 해석한다. 여기서

$$
\mathbf{y} \in \mathbb{R}^{n}, \quad  \mathbf{X} \in \mathbb{R}^{n \times p}, \quad \boldsymbol{\beta} \in \mathbb{R}^{p}, \quad \boldsymbol{\epsilon} \in \mathbb{R}^{n}
$$

이다. 행렬 $\mathbf{X}$의 각 행은 독립변수들의 값으로 구성되고, $\boldsymbol{\beta}$는 회귀계수 벡터이다.

최소제곱법에서는 다음의 최적화 문제를 푼다.

$$
\min\_{\boldsymbol{\beta}} |\mathbf{y} - \mathbf{X}\boldsymbol{\beta}|^2
$$

이것을 풀면 보통

$$
\hat{\boldsymbol{\beta}} = (\mathbf{X}^\top \mathbf{X})^{-1}\mathbf{X}^\top \mathbf{y}
$$

로 추정치를 얻는다(단 $\mathbf{X}^\top \mathbf{X}$가 가역이라고 가정). 이렇게 얻어진 $\hat{\boldsymbol{\beta}}$가 유의미한지, 즉 계수 하나하나가 참으로 0이 아닌지를 검정하고자 할 때 t-검정을 수행하게 된다.

#### t-검정과 회귀계수의 유의성

일반적인 선형회귀에서 모형 오차 $\boldsymbol{\epsilon}$는 정규분포 $\mathcal{N}(0, \sigma^2 \mathbf{I})$를 따른다고 가정한다. 이때 회귀계수 추정치 $\hat{\boldsymbol{\beta}}$ 역시 정규분포를 갖고, 각 계수 $\hat{\beta}\_j$에 대해서 다음과 같은 통계량을 정의한다.

$$
t\_j = \frac{\hat{\beta}\_j}{\mathrm{SE}(\hat{\beta}\_j)}
$$

여기서 $\mathrm{SE}(\hat{\beta}\_j)$는 $\hat{\beta}\_j$의 표준오차이다. 귀무가설 $H\_0: \beta\_j = 0$와 대립가설 $H\_1: \beta\_j \neq 0$를 가정하면, $t\_j$는 자유도 $(n - p)$를 갖는 t-분포를 따른다. 주어진 유의수준(예: 0.05)에서 t-분포의 양측 검정 한계값을 구하여 $|t\_j|$가 그보다 크면 계수 $\beta\_j$가 유의하다고 결론짓는다.

t-통계량의 개념은 표본이 제한적이더라도, 정규오차 가정하에서 해당 계수 추정이 오차분산을 고려할 때 과연 0이 아니라고 볼 수 있는지를 테스트하는 데 중요한 역할을 한다. 각 계수별 검정결과가 유의하다면 그 계수가 모델에서 실제로 의미 있는 변수가 될 가능성이 높음을 시사한다.

#### F-검정과 전체 모형의 유의성

모델 전체가 유의한지 판단하기 위해서는 다음과 같은 F-검정을 수행한다. 만약 기존에 다른 독립변수가 포함되지 않은 단순 모델(귀무모형)과 지금의 복잡한 모형(대립모형)을 비교한다고 하자. 귀무가설은 "추가된 회귀계수는 모두 0이다"라는 것이고, 대립가설은 "추가된 회귀계수 중 적어도 하나는 0이 아니다"라는 뜻이다.

F-통계량은 주로 회귀분석에서 다음과 같이 정의된다.

$$
\begin{align} F &= \frac{\big(\mathrm{SSR}\_0 - \mathrm{SSR}\big) / (p - p\_0)}{\mathrm{SSR} / (n-p)} \end{align}
$$

여기서 $\mathrm{SSR}\_0$는 귀무모형의 잔차제곱합, $\mathrm{SSR}$은 대립모형의 잔차제곱합, $p\_0$는 귀무모형의 계수 개수, $p$는 대립모형의 계수 개수, $n$은 표본 수이다. F-분포를 기반으로 유의확률을 산정하며, 귀무가설 하에서 이 값이 충분히 크게 나오면(즉 유의확률이 작으면) "추가된 계수들이 모형의 설명력을 유의하게 개선한다"고 판단한다.

이를 좀 더 일반화하면 다음처럼 모형의 제곱합을 비교해 유의성 여부를 테스트하기도 한다.

$$
\begin{align} F &= \frac{\mathrm{MSR}}{\mathrm{MSE}} \\
\mathrm{MSR} &= \frac{\mathrm{SSR}}{p-1} \\
\mathrm{MSE} &= \frac{\mathrm{SSE}}{n-p} \end{align}
$$

$\mathrm{SSR}$은 회귀제곱합(Regression Sum of Squares), $\mathrm{SSE}$는 잔차제곱합(Error Sum of Squares), $\mathrm{MSR}$과 $\mathrm{MSE}$는 각각 회귀제곱평균과 오차제곱평균이다. F-분포의 특성상, $F$값이 특정 임계값보다 크면 "모형이 귀무모형보다 우수"하다고 본다.

#### 결정계수 $R^2$

회귀분석에서 모델 적합도를 가장 직관적으로 표현하는 지표 중 하나가 결정계수 $R^2$이다.

$$
\begin{align} R^2 &= 1 - \frac{\mathrm{SSE}}{\mathrm{SST}} \end{align}
$$

여기서 $\mathrm{SSE}$는 잔차제곱합, $\mathrm{SST}$는 총제곱합(Total Sum of Squares)이다. $R^2$ 값은 0과 1 사이에 있으며, 1에 가까울수록 해당 모형이 데이터를 더 잘 설명한다는 의미를 갖는다. 즉, 종속변수 $y$의 총 분산 중에서 회귀직선(혹은 면, 초평면 등)이 얼마나 설명해주는지를 비율로 나타낸 값이다.

단, $R^2$는 독립변수를 추가하기만 해도 계속 커지는 특성을 갖고 있으므로, 자유도 조정을 고려한 수정된 결정계수 $R\_{\text{adj}}^2$도 많이 사용한다. 수정된 결정계수는 다음과 같이 정의된다.

$$
\begin{align} R\_{\text{adj}}^2 &= 1 - \frac{\mathrm{SSE}/(n-p)}{\mathrm{SST}/(n-1)} \end{align}
$$

여기서 $n$은 표본 수, $p$는 모형에 포함된 계수(절편 포함)의 개수이다. $R^2$와 다르게 $R\_{\text{adj}}^2$는 자유도에 대한 보정을 하기 때문에 불필요하게 독립변수를 늘리는 것에 대한 벌칙을 준다.

#### 추가적인 적합도 지표와 해석

$R^2$와 F-검정을 넘어, AIC(Akaike Information Criterion)나 BIC(Bayesian Information Criterion) 같은 정보기준을 활용하여 모형의 적합도를 비교하기도 한다. 이러한 지표들은 실제 예측력이 좋아야 한다는 점에서, 단순히 잔차제곱합뿐 아니라 모형의 복잡도, 자유도, 표본 크기 등을 모두 고려하게 한다. AIC나 BIC는 값이 작을수록 모형 적합도가 좋다고 본다.

추가로 오차항에 대한 잔차분석이나 Q-Q 플롯, 누적잔차도 등을 검사하여 정규성, 등분산성, 자기상관 등이 만족되는지도 함께 살펴야 한다. 모델의 유의성 검정 결과가 좋다고 해서 가정이 충분히 만족된다고 단정할 수 없으므로, 이를 위해서는 다양한 진단기법을 종합적으로 사용하는 것이 중요하다.

#### 잔차분석과 오차항 가정의 검증

고전적 선형회귀모형에서는 보통 오차항이 정규분포를 따르며, 서로 독립이고, 등분산인 것으로 가정한다. 이를 확인하기 위해 잔차분석을 수행한다. 잔차 $\hat{\epsilon}\_i$는 모형으로부터 예측된 값과 실제 관측값의 차이를 의미한다.

$$
\hat{\epsilon}\_i = y\_i - \hat{y}\_i
$$

여기서 $\hat{y}\_i$는 $\mathbf{X}\hat{\boldsymbol{\beta}}$를 통해 계산된 예측치이다. 잔차 분석에서 중요한 것은 아래와 같은 사항을 주로 확인한다.

오차의 정규성: 잔차가 정규분포에 가까운지 Q-Q 플롯 등으로 평가한다. 등분산성: 잔차가 예측값 혹은 독립변수의 크기에 따라 체계적으로 달라지지 않는지 산점도 등을 통해 살펴본다. 독립성: 잔차가 서로 상관관계를 갖지 않는지 검토한다. 시계열 자료의 경우 자기상관이 있을 수 있으므로 Durbin-Watson 검정 등 보조적 방법을 쓴다.

만약 정규성이나 등분산성, 독립성 가정이 크게 위배된다면, 모형에서 추정한 계수 및 그에 대한 t검정, F검정 결과가 왜곡될 수 있다. 필요하다면 로그 변환, 가중회귀, 혹은 적절한 모형 재설정 등을 통해 문제를 교정하거나, 로버스트 회귀(Robust Regression)와 같은 기법을 활용하기도 한다.

#### 부분 F검정(Partial F-Test)

회귀분석에서는 모델 간의 비교로 모형의 유의성을 따지는 경우가 많다. F검정에서도 귀무모형과 대립모형을 설정하여 비교하는 방식을 택한다. 이 가운데 특정 변수(혹은 변수 집합)의 추가 유의성을 검사하는 기법을 부분 F검정이라 부른다.

예를 들어, 기존에 $p\_0$개의 독립변수가 포함된 모델이 있고, 새로 $k$개의 독립변수를 추가하여 총 $p = p\_0 + k$개의 독립변수를 포함한 모델을 얻었다고 하자. 이때 귀무가설은

$$
H\_0: \beta\_{p\_0+1} = \beta\_{p\_0+2} = \cdots = \beta\_{p\_0+k} = 0
$$

이고, 대립가설은 최소 하나 이상이 0이 아니다로 설정한다. 이때의 F통계량은 다음과 같이 정의된다.

$$
\begin{align} F &= \frac{\big(\mathrm{SSR}\_{0} - \mathrm{SSR}\big)/k}{\mathrm{SSR}/(n - p)} \end{align}
$$

이 값이 충분히 크면(유의확률이 작으면) 추가된 $k$개의 변수가 회귀모형 설명력 향상에 기여한다고 결론짓는다.

부분 F검정은 "새로 추가된 변수가 정말로 필요한가"를 단일 계수가 아니라 변수 집합 단위로도 평가할 수 있는 방법이다. 이는 여러 변수가 상호 연관되어 있을 때, 변수를 하나씩 개별적으로 추가하는 t-검정보다 훨씬 더 강력한 증거를 제시할 수 있다.

#### 과대적합(Overfitting) 문제

회귀모형에 변수를 많이 추가하면 일반적으로 $R^2$가 커지고, 잔차제곱합이 줄어들어 예측오차가 감소하는 것처럼 보인다. 하지만 변수 수가 많아질수록 실제로는 불필요한 변수까지 포함하여 "과대적합"이 일어나기 쉽다. 과대적합 상태에서는 표본 내 잔차는 작아지지만, 새로운 관측값에 대한 예측오차가 커질 가능성이 높다.

이를 방지하기 위해서는 모형 선택 시에 AIC, BIC, 혹은 수정된 결정계수 $R\_{\text{adj}}^2$ 등을 참고하여 모델 단순화와 예측성능 간 균형을 유지할 필요가 있다. 또한 교차검증(Cross-Validation) 기법 등을 통해, 모형이 처음 보지 못한 자료에 대해서도 안정적인 예측 성능을 내는지 확인하기도 한다.

#### 교차검증(Cross-Validation)

단순 통계적 적합도 지표만으로는 예측성능을 제대로 평가하기 어렵기 때문에, 교차검증 기법이 많이 사용된다. 가장 간단한 형태로 홀드아웃(Hold-Out) 방식이 있으며, 이를 좀 더 체계화한 방식이 K겹 교차검증(K-Fold Cross-Validation)이다.

K겹 교차검증에서는 다음의 절차를 수행한다.

1. 표본 데이터를 K개로 균등분할한다.
2. 그 중 하나를 검증용 세트로, 나머지를 학습용 세트로 삼아 회귀분석 모형을 적합한다.
3. 검증용 세트에서 예측오차를 측정한다.
4. 이를 K번 반복하며, 모든 검증용 세트의 예측오차를 평균한다.

이 과정을 통해 계산된 평균제곱오차(MSE) 등을 비교함으로써, 여러 모형 간 예측력을 비교할 수 있다. 단순히 $R^2$가 높다고 좋은 모형이 아니라, 교차검증 오차가 작은 모형이 새로운 데이터에 대해서도 안정적으로 예측할 가능성이 높다.

#### AIC, BIC에 의한 모형 비교

정보기준인 AIC(Akaike Information Criterion)와 BIC(Bayesian Information Criterion)은 모형의 적합도와 모형 복잡도(변수 수 등)를 동시에 고려하여 모형을 비교하는 지표이다. 선형회귀의 경우, 잔차제곱합 $\mathrm{SSE}$와 추정된 오차분산 $\hat{\sigma}^2$ 등을 이용하여 대략

$$
\mathrm{AIC} \sim n \ln(\hat{\sigma}^2) + 2p
$$

$$
\mathrm{BIC} \sim n \ln(\hat{\sigma}^2) + p \ln(n)
$$

와 같은 형태로 계산할 수 있다(세부 상수항은 생략). 작은 값일수록 "이 자료에 더 잘 맞는 모형"이라 판단한다. AIC와 BIC는 변수의 개수가 늘어날수록 벌칙 항이 커지므로, 불필요하게 많은 변수를 포함한 모형에 대해 불이익을 준다. AIC는 예측 오차 관점에서, BIC는 베이지안 관점에서 모델을 해석하는 차이가 있으나, 일반적으로는 값이 낮을수록 좋은 모형으로 본다.

#### 다중공선성과 계수의 해석

회귀분석에서 독립변수 간의 상관관계가 매우 큰 상태를 다중공선성(Multicollinearity)이라고 한다. 다중공선성이 심하면 회귀계수의 추정량이 불안정해지고, 각 계수에 대한 t검정이 왜곡될 수 있다. 예컨대, 실제로는 중요한 변수인데도 t-값이 유의하지 않게 나오거나, 혹은 반대로 계수 부호가 직관과 어긋나게 나타날 수 있다.

다중공선성을 진단하기 위해서 분산팽창계수(VIF; Variance Inflation Factor) 등을 사용한다. 각 변수마다 VIF가 크면(일반적으로 10 이상이라면) 그 변수와 다른 변수 간 상관이 커서 계수 추정이 불안정해질 우려가 있다는 뜻이다. 이 때는 차원축소기법(PCA 등), 규제(Regularization) 기법(Ridge, Lasso), 혹은 변수 제거 등을 고려할 필요가 있다.

#### 규제회귀(Regularized Regression)에서의 유의성

독립변수 수가 많거나 다중공선성이 심할 때, 회귀계수를 직접 0으로 축소하거나 작은 값으로 만드는 규제회귀가 효과적일 수 있다. 대표적으로 Ridge 회귀와 Lasso 회귀가 많이 사용된다.

Ridge 회귀에서는 계수 제곱합을 벌칙 항으로 추가하여 계수가 지나치게 커지는 것을 억제한다. Lasso 회귀는 절댓값 합을 벌칙으로 사용하여 일부 계수를 정확히 0으로 만들 수 있다. 이러한 규제회귀를 사용하면 변수 선택과 회귀 추정이 동시에 이루어져서, 변수가 많을 때도 해석이 용이하다.

규제회귀에서의 유의성 판단은 일반적인 t-검정이나 F-검정만으로 해석하기 어렵다. 왜냐하면 벌칙 항이 계수 추정을 직접적으로 왜곡(축소)하기 때문이다. 따라서 CV 기준 최소 오차 모형, 1-SE 규칙 등을 사용해 적합한 벌칙계수를 탐색하고, 최종 선택된 변수들의 해석에 주의를 기울이는 것이 좋다.

#### 비선형 회귀와 일반화선형모형

지금까지 설명한 유의성 검정과 적합도 판단은 주로 선형모형을 전제로 하였지만, 현실 문제에서 종속변수가 선형적 관계를 보이지 않는 경우도 많다. 예를 들어 다항회귀(Polynomial Regression), 지수회귀, 로지스틱회귀 등 다양한 비선형 형태를 모형화해야 할 수 있다.

다항회귀의 예시로 2차항을 추가한 모델은

$$
y = \beta\_0 + \beta\_1 x + \beta\_2 x^2 + \epsilon
$$

처럼 표현된다. 이 경우에도 최소제곱법을 그대로 적용할 수 있으며, 계수 유의성 검정, 모델 적합도 지표, F검정, 결정계수 등 기본적인 틀은 동일하게 확장 가능하다. 다만 비선형항이 추가되면서 과적합 위험이 커질 수 있으니, 교차검증 등으로 모형 선택을 신중히 해야 한다.

더 나아가 로지스틱회귀, 포아송회귀 같은 일반화선형모형(GLM)은 잔차제곱합 대신 우도함수의 최대화와 이탈도(Deviance) 등을 통해 모형 적합을 평가하고, 유의성 검정에는 점근적 지분포(Chi-Square) 통계량을 사용하는 경우가 많다.

#### 아웃라이어(Outlier)와 영향점(Influential Point)

회귀분석에서 특정 관측값이 극단적인 위치에 있어 모델 추정이나 검정 결과에 큰 영향을 주는 경우가 있다. 이를 아웃라이어 혹은 영향점이라 부른다. 데이터에 아웃라이어가 존재하면, 최소제곱 추정치와 계수 유의성 검정 결과가 왜곡될 수 있다. 또한 모델 적합도 판단 지표($R^2$, AIC, BIC 등) 역시 극단값에 의해 민감하게 변할 수 있다.

아웃라이어를 발견하기 위해서는 모델 잔차를 살펴야 한다. 보통 정규 Q-Q 플롯이나 잔차 vs 예측값 그래프 등을 통해 눈에 띄게 큰 잔차를 가진 점이 존재하는지 확인한다. 만약 잔차가 크더라도 독립변수의 범위 중앙부에 위치해 있으면 영향력은 상대적으로 작을 수 있으나, 독립변수 범위의 경계 근처에서 동시에 큰 잔차를 갖는 점은 회귀계수 추정치에 강한 영향을 줄 가능성이 높다.

이러한 영향점을 정량적으로 평가하기 위해서는 아래와 같은 여러 가지 측도들이 사용된다.

#### Cook’s Distance

Cook’s Distance는 한 관측점 $i$를 제거했을 때 회귀계수 추정치가 얼마나 바뀌는지를 측정한다. 관측점 $i$가 제거된 상태에서의 추정계수를 $\hat{\boldsymbol{\beta}}\_{(i)}$라 하고, 전체 표본으로 추정한 계수를 $\hat{\boldsymbol{\beta}}$라 할 때, 어떤 가중합 형태로 두 계수의 차이를 비교한다. 아웃라이어이면서 동시에 높은 레버리지(leverage)를 가진 점은 Cook’s Distance가 크게 나타날 수 있으며, 보통 경험적으로 $D\_i > 1$이면 영향점으로 의심되는 경우가 많다고 알려져 있다.

#### 레버리지(Leverage)

레버리지는 독립변수 공간에서 특정 관측값이 얼마나 극단적인 위치에 있는지를 나타내는 지표이다. 행렬 $\mathbf{X}$가 주어졌을 때, 모자행렬(hat matrix)

$$
\mathbf{H} = \mathbf{X}(\mathbf{X}^\top \mathbf{X})^{-1}\mathbf{X}^\top
$$

의 대각원소 $h\_{ii}$를 레버리지라고 한다. 레버리지가 크면 그 관측값이 해당 위치에서 회귀직선(혹은 초평면)을 잡아당기듯 큰 영향을 미칠 수 있다. 보통 $h\_{ii}$가 평균 레버리지 값 $\frac{p}{n}$보다 충분히 큰 경우, 그 점은 예측오차에 의해서도 모델 추정에 큰 왜곡을 일으킬 수 있음을 의미한다.

#### DFFITS와 DFBETAS

DFFITS는 특정 관측값 $i$가 제거되었을 때의 예측치 변화 정도를 정규화한 값을 말한다. 만약 관측값 $i$가 없어졌을 때 예측치가 크게 변하면, 그 관측값은 모델에 상당한 영향을 끼친다고 볼 수 있다. 비슷한 지표로 DFBETAS는 관측값 $i$를 제거했을 때 개별 회귀계수 $\beta\_j$가 얼마나 바뀌는지 정규화한 값이다. 예를 들어, DFBETAS가 큰 변수는 그 변수의 계수 추정치에 특정 관측값이 과도하게 기여하고 있음을 시사한다.

이처럼 아웃라이어 및 영향점을 진단하고 제거할지, 혹은 로버스트 회귀(가중제곱합 최소화 기법 등)를 적용할지의 여부는 추가적인 맥락과 자료에 대한 이해를 바탕으로 결정해야 한다. 단순히 모델 적합도를 높이고자 극단값을 무턱대고 제거해버리면, 중요한 관측정보를 놓칠 수도 있기 때문이다.

#### 부분잔차(Partial Residual) 플롯

회귀모형에서 특정 독립변수 $x\_j$와 종속변수 $y$가 어느 정도의 관계를 갖는지 시각적으로 확인하기 위해 부분잔차 플롯(Partial Residual Plot)을 사용할 수 있다.

모형

$$
y = \beta\_0 + \beta\_1 x\_1 + \cdots + \beta\_j x\_j + \cdots + \beta\_p x\_p + \epsilon
$$

에서 $x\_j$를 제외한 다른 변수들의 효과를 잔차에 반영하고, $x\_j$만을 독립변수로 했을 때의 단순관계가 얼마나 되는지를 시각적으로 파악함으로써, 특정 변수의 실제 효과 및 아웃라이어의 존재를 더 명확히 드러낼 수 있다.

#### 사례 연구(Python 예시)

아래 예시는 Python에서 회귀분석 후 부분잔차 플롯을 그려보는 단순 예시이다.

```python
import numpy as np
import pandas as pd
import statsmodels.api as sm
import matplotlib.pyplot as plt
from statsmodels.graphics.regressionplots import partial_residual_plot

# 예시용 가상 데이터 생성
np.random.seed(0)
X1 = np.random.randn(100)
X2 = np.random.randn(100)
y = 3 + 2*X1 - 1*X2 + 0.5*np.random.randn(100)

df = pd.DataFrame({'X1': X1, 'X2': X2, 'y': y})
X = sm.add_constant(df[['X1', 'X2']])
model = sm.OLS(df['y'], X).fit()

# 부분잔차 플롯 (X1에 대해)
fig, ax = plt.subplots()
partial_residual_plot(model, 'X1', ax=ax)
plt.show()
```

이 코드는 statsmodels 패키지의 OLS 모델로부터 추정한 결과를 바탕으로, 독립변수 X1에 대한 부분잔차 플롯을 단순 시각화하는 예시다. 아웃라이어나 특이점을 확인하고, 변수와 종속변수 간의 관계를 더 명확히 파악하는 데 도움이 된다.

#### 모형 선택과 단계적 회귀(Stepwise Regression)

독립변수가 많거나, 어느 변수가 정말 중요한지 모를 경우에는 단계적으로 변수를 추가하거나 제거하여 모형을 탐색하기도 한다. 전진선택법(Forward Selection)은 아무 변수도 포함하지 않은 상태에서 출발해, 가장 유의성이 높은 변수를 하나씩 추가한다. 후진제거법(Backward Elimination)은 모든 변수를 포함한 모형에서 유의성이 낮은 변수부터 하나씩 제거한다. 단계적 방법(Stepwise)은 둘을 혼합하여, 필요하면 변수 추가도 하고 제거도 한다.

이러한 기법들은 변수 개수가 많을 때 빠르게 모형을 탐색할 수 있지만, 지역 최적해에 빠질 위험이나, 데이터에 대한 예측력보다 통계적 유의성을 우선시한다는 단점이 있을 수 있다. 또한 교차검증, AIC, BIC 등을 종합적으로 활용하지 않으면, 불필요한 변수가 포함되거나 중요한 변수가 누락될 수도 있다.

#### 로버스트 회귀(Robust Regression)

최소제곱법은 제곱오차를 사용하기 때문에 아웃라이어에 민감하다. 로버스트 회귀는 오차항 분포에 대한 강한 가정을 완화하고, 아웃라이어가 있더라도 극단값에 덜 민감하도록 설계된 기법이다. 예를 들어 M-추정(M-estimation)을 사용하거나, Huber 함수 등 적절한 가중함수를 도입하여 잔차가 매우 큰 점에 부여되는 영향력을 줄인다.

로버스트 회귀를 수행하면, 표준 회귀계수 추정에서 무시되거나 크게 왜곡될 수 있었던 극단값의 문제를 어느 정도 해결할 수 있다. 다만 이 경우에도 모든 데이터가 로버스트 회귀의 가정 조건을 만족하는지, 모델 잔차가 과도하게 왜곡되지는 않는지 확인해야 한다.

#### 일반화된 최소제곱(Generalized Least Squares; GLS)

오차항 간에 등분산성 가정이 성립하지 않거나, 자기상관이 있는 자료를 다룰 때는 일반화된 최소제곱(GLS) 기법을 활용한다. GLS는 오차공분산 구조를 $\mathbf{\Sigma}$로 두고,

$$
\min\_{\boldsymbol{\beta}} (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})^\top \mathbf{\Sigma}^{-1} (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})
$$

를 최소화하는 방식으로 회귀계수를 추정한다. 오차항이 등분산, 독립적이지 않아도 효율적으로 추정량을 구할 수 있다. 일반화선형모형(GLM)과 달리, GLS는 여전히 선형 구조를 유지하되, 오차항 분포에 대한 추가 가정을 반영해 좀 더 일반화된 형태로 접근하는 방법이다.

#### 가중최소제곱(Weighted Least Squares; WLS)

등분산성이 성립하지 않으면, 회귀계수의 추정값이 불편이더라도 그 분산 추정이 정확하지 않을 수 있다. 이럴 때 각 관측값마다 고유한 가중치 $w\_i$를 주어

$$
\min\_{\boldsymbol{\beta}} \sum\_{i} w\_i (y\_i - \beta\_0 - \beta\_1 x\_{i1} - \dots - \beta\_p x\_{ip})^2
$$

을 최소화하도록 하는 가중최소제곱(WLS)을 적용한다. 적절한 가중치를 부여하면, 오차가 큰 구간에 대한 신뢰도는 낮추고, 비교적 오차가 작은 구간에 대해서는 더 높은 중요도를 부여하는 형태로 계수를 추정할 수 있다.

#### 마할라노비스 거리와 다변량 이상점 판별

독립변수가 여러 개인 다변량 환경에서는 단순 잔차만으로는 아웃라이어를 파악하기 어렵다. 이때 마할라노비스 거리(Mahalanobis Distance)를 사용하면 공분산 구조를 고려한 거리 측정을 할 수 있어, 다변량 이상점 판별에 도움이 된다. 마할라노비스 거리가 평균값으로부터 멀리 떨어져 있으면서 공분산 행렬에 비추어볼 때도 이례적인 지점은 다중공선성이나 예측 왜곡을 일으킬 우려가 크다.

마할라노비스 거리 역시 레버리지와 함께 살펴보고, 필요하면 Cook’s Distance, DFFITS 같은 2차 진단을 진행하여 해당 점이 실제로 영향점인지, 혹은 단순 예외치인지 판단해야 한다.

#### 부트스트랩(Bootstrap) 기반 유의성 평가

통계적 검정에서는 이론적 분포(t분포, F분포 등)를 가정하는 대신, 표본을 재표본추출(resampling)하는 부트스트랩 방식을 이용해 계수의 분포와 유의성을 살펴볼 수도 있다. 부트스트랩은 자료의 크기가 충분히 크고, 독립 표본이라는 가정이 크게 훼손되지 않는 한에서 적용 가능한 강력한 기법이다.

부트스트랩 절차의 핵심 아이디어는 원본 표본 크기만큼 데이터를 복원추출하여 여러 가상의 표본을 얻고, 각 표본에서 회귀계수를 추정하고, 이 분포를 통해 추정치의 표준오차, 신뢰구간 등을 추론하는 것이다. 예를 들어 회귀계수 $\beta\_j$에 대해, 다음과 같은 부트스트랩 추정 분포를 얻을 수 있다.

1. 원본 표본에서 $n$개를 복원추출하여 가상의 표본을 만든다. 이를 $B$번 반복한다.
2. 각 가상 표본마다 $\hat{\beta}*{j}^{(b)}$를 추정하고, 그 집합 ${\hat{\beta}*{j}^{(1)}, \hat{\beta}*{j}^{(2)}, \dots, \hat{\beta}*{j}^{(B)}}$를 얻는다.
3. 이를 기반으로 추정치의 평균, 표준편차, 신뢰구간(예: 분위수 방법) 등을 계산한다.

부트스트랩 추정에서 계수 분포가 0을 포함하는 비율이 작다면, 해당 계수를 유의하다고 볼 근거가 생긴다. 이 방법은 잔차의 정규성 가정이 명확히 성립하기 어려운 경우에도 적용 가능하며, 특히 관측치 수가 많지 않거나 모형에서 사용되는 가정이 엄격할 때 보완책으로 유용하다.

#### 퍼뮤테이션 검정(Permutation Test)

퍼뮤테이션 검정은 가상의 귀무분포를 직접 구성한다는 점에서 부트스트랩과 유사하지만, 재표본추출하는 방식이 다르다. 가령 회귀분석의 경우, 종속변수 $y$와 독립변수 $X$의 짝을 무작위로 재배열하여 "독립변수와 종속변수가 무관하다"는 귀무가설을 시뮬레이션한다. 그리고 실제 표본에서 관측된 검정 통계량(예: $t\_j$, $F$ 등)과 무작위 재배열로 얻은 검정 통계량 분포를 비교함으로써 유의확률을 구한다.

퍼뮤테이션 검정은 표본 크기가 적을 때 특히 유의하다. 이 방법을 통해 “귀무가설이 참이면, 실제 데이터만큼 극단적인 상관관계(또는 회귀계수)가 얼마나 자주 발생할까”를 직관적으로 해석할 수 있다. 다만 독립표본이라는 가정이 흔들리거나, 시계열 등 순서 정보가 중요한 자료에는 그대로 적용하기 어렵다.

#### 랙 오브 핏(Lack-of-Fit) 검정

회귀분석을 할 때, 오차항의 정규성이나 등분산성은 잘 성립하더라도 “모형에 포함된 독립변수가 실제로는 종속변수를 제대로 설명하지 못한다”는 상황이 있을 수 있다. 이를 구체적으로 확인하는 방법 중 하나가 랙 오브 핏(lack-of-fit) 검정이다.

회귀모형

$$
y = \beta\_0 + \beta\_1 x\_1 + \cdots + \beta\_p x\_p + \epsilon
$$

이 주어졌을 때, 특정 $x$ 값에 대해 관측치가 여러 개 존재한다면 “동일한 $x$에서 $y$가 어느 정도 산포를 갖는지”를 통해 순수오차(pure error)를 추정할 수 있다. 그리고 전체 잔차제곱합 $\mathrm{SSE}$를 pure error와 lack-of-fit error로 분해한다.

$$
\mathrm{SSE} = \mathrm{SSPE} + \mathrm{SSLOF}
$$

순수오차는 같은 $x$에서 발생한 랜덤오차로 인한 변동을 의미하고, lack-of-fit 오차는 모형이 구조적으로 실제 현상을 충분히 반영하지 못해서 생기는 오차다. lack-of-fit 검정에서는 다음과 같은 F통계량을 계산한다.

$$
\begin{align} F\_{\text{LOF}}  &= \frac{\mathrm{SSLOF} / (\text{df}*{\text{LOF}})}{\mathrm{SSPE} / (\text{df}*{\text{PE}})} \end{align}
$$

여기서 $\mathrm{SSLOF}$는 lack-of-fit 제곱합, $\mathrm{SSPE}$는 pure error 제곱합, $\text{df}*{\text{LOF}}$와 $\text{df}*{\text{PE}}$는 각각 해당 항에 대응하는 자유도다. $F\_{\text{LOF}}$가 충분히 크면, “이 모형으로는 데이터 분산을 충분히 설명하지 못한다”라고 판단하고 모형을 재고하거나 더 복잡한 항(다항식, 상호작용, 비선형 항 등)을 고려해야 할 가능성이 있다.

#### 신뢰구간과 예측구간

회귀선이나 회귀면을 통해 어떤 특정한 $x^*$에서의 예측값 $\hat{y}^*$를 구하면, 이에 대한 신뢰구간(confidence interval)과 예측구간(prediction interval)을 설정할 수 있다. 신뢰구간은 모형의 평균응답, 즉 $E\[y|x^\*]$에 대한 불확실성을 나타내는 구간이다. 반면 예측구간은 새 관측치가 실제로 도달할 범위를 예측하는 데 사용되므로, 신뢰구간보다 더 넓은 범위를 갖는다.

간단히 말해 신뢰구간은 “해당 $x^*$에서의 평균 반응값”에 대한 구간이고, 예측구간은 “해당 $x^*$에서 실제 관측될 개별 값”에 대한 구간이다. 일반적 선형회귀에서 예측구간은 잔차분산뿐 아니라 $x^\*$의 추정 불확실성과 오차항의 개별 분산까지 포함하기 때문에 폭이 커진다.

#### 감마회귀, 음이항회귀 등 확장

지금까지의 설명은 주로 선형회귀나 그 변형(로지스틱, 포아송 등) 위주였다. 그러나 실무에서는 종속변수가 연속형이더라도 양수만 나오는 데이터, 예측값이 0 근방에서 비정상적으로 많은 데이터 등을 자주 접하게 된다. 이 경우 일반화선형모형(GLM)이라는 큰 틀 안에서, 감마분포나 음이항분포 같은 다른 가족(family)을 가정하고 최대우도추정(MLE)에 기반한 검정과 적합도 평가를 수행할 수 있다.

예컨대 감마회귀(Gamma Regression)는 종속변수가 양의 실수이고 분산이 평균의 제곱에 비례할 때 유용하다. 음이항회귀(Negative Binomial Regression)는 포아송보다 분산이 큰 데이터(over-dispersed count data)에 적합하다. 이때는 잔차제곱합 대신 이탈도(Deviance) 등을 적합도 판단 지표로 사용하며, 유의성 검정에는 점근적으로 카이제곱 분포를 따른다는 가설하에서 우도비(Likelihood Ratio) 검정이 활용된다.

#### 다중비교 문제와 p-value 보정

회귀분석에서 매우 많은 변수 혹은 다양한 모형을 비교하다 보면, 우연히 통계적으로 유의해 보이는 결과가 나올 위험이 커진다(다중비교 문제). 예컨대 100가지 변수를 개별적으로 t검정을 했을 때, 유의수준을 0.05로 고정하면 약 5개 변수는 무작위로도 유의해질 가능성이 있다.

이를 완화하기 위해서 보통 Bonferroni 보정, Holm 보정, Benjamini-Hochberg 절차 등 p-value 보정 기법을 사용한다. Benjamini-Hochberg는 거짓발견율(FDR; False Discovery Rate)을 일정 수준으로 유지하는 대표적인 방법이며, 전체 오류율 대신 “유의하다고 선언된 결과 중에서 잘못된 결론일 확률”에 초점을 둔다. 다중비교 문제는 변수 탐색이 많은 상황에서 꼭 고려해야 하며, 이를 무시하면 p-값 해석이 크게 왜곡될 수 있다.

#### 베이지안 선형회귀와 MCMC

베이지안 접근에서는 회귀계수 $\boldsymbol{\beta}$에 사전분포(prior distribution)를 설정하고, 관측 데이터로부터 사후분포(posterior distribution)를 갱신하여 추정한다. 유의성 검정은 “계수가 0일 확률”과 같은 사후확률을 직접 구해 해석할 수 있다.

선형회귀에서 사전분포로는 정규분포를 사용하는 것이 일반적이며, 사후분포 역시 정규분포로 해석 가능하다(단, 오차분산에 대한 사전도 함께 고려). 표본수가 많지 않거나 강력한 주관적 정보(사전지식)가 있을 때는 베이지안 접근이 유리할 수 있다. 실제 계산은 Markov Chain Monte Carlo(MCMC) 기법으로 사후분포를 시뮬레이션하여 계수의 분포와 예측분포를 추정한다.

베이지안 접근에서는 $p$값 대신 사후확률(Posterior Probability)이나 베이지안 신뢰구간(Credible Interval)을 주로 사용한다. 예를 들어 계수 $\beta\_j$가 0보다 클 확률이 0.95 이상이라면, “베이지안 관점에서 $\beta\_j$가 양의 효과를 갖는다고 볼 근거가 95%”라는 식으로 해석할 수 있다.

#### 인과추론(Causality)과 회귀분석

회귀분석의 유의성 검정과 적합도 지표들은 “주어진 자료 내에서의 상관관계 혹은 함수적 근사”를 평가하는 것이지, 인과관계가 확립되었음을 보장하지 않는다. 예컨대 어떤 독립변수 $x\_j$가 통계적으로 유의하다고 해서 실제로 $x\_j$가 $y$에 인과적 영향을 준다는 결론에 도달할 수는 없다. 혼란변수(Confounder), 서수편향(Selection Bias) 등 다양한 요인이 존재할 수 있기 때문이다.

인과추론을 위해서는 무작위 실험설계, 도구변수(Instrumental Variable), 준실험법(IV 추정, 이중차분, 매칭기법 등), 구조방정식 모형(SEM) 같은 추가적이고 엄격한 방법론이 필요하다. 따라서 “회귀모형의 유의성”을 파악했다는 것은 “자료의 상관적 혹은 예측적 설명력을 확인했다” 정도로 이해하는 것이 가장 안전하다.

#### 머신러닝 관점에서의 모델 적합도

회귀분석은 전통적 통계학과 머신러닝의 교집합에 위치하는 기법이다. 머신러닝에서는 일반적으로 테스트 세트 오차나 교차검증 오차를 줄이는 것이 주된 목표다. 이때 모델 선정, 하이퍼파라미터 튜닝, 변수 선택 등을 모두 교차검증 오류를 최소화하는 방향으로 수행한다.

통계적 유의성 검정과 달리, 머신러닝에서는 $p$값 자체를 직접적으로 다루지 않을 때가 많다. 대신 예측정확도(MSE, RMSE, MAE 등), AUC(이진분류 시), 혹은 R-squared 점수의 일반화 성능 등을 확인한다. 물론 해석이 중요한 응용분야에서는 여전히 회귀계수 유의성 검정, 결정계수, AIC, BIC 등을 종합적으로 고려해야 한다.

#### 상호작용(Interaction)과 고차항

변수간 상호작용이 존재하는지, 비선형성이 있는지를 평가하기 위해서는 단순 선형항만 사용한 모형의 적합도와, 상호작용항 혹은 다항항을 추가한 모형의 적합도를 비교하는 것이 일반적이다. 예컨대 2차항과 상호작용항까지 포함한 모델

$$
y = \beta\_0 + \beta\_1 x\_1 + \beta\_2 x\_2 + \beta\_3 x\_1^2 + \beta\_4 x\_1 x\_2 + \dots + \epsilon
$$

등을 고려할 수 있으며, 이를 F검정이나 AIC, BIC 비교로 평가한다. 상호작용항이 유의하다면 “특정 변수 값이 클 때 다른 변수의 효과가 달라진다”라는 식의 해석이 가능하다.

그러나 상호작용항이나 고차항이 너무 많아지면 과대적합 위험이 커지고 해석 또한 난해해진다. 따라서 교차검증으로 예측력을 확인하고, 변수 중요도나 p값 등을 함께 고려하여 적절한 모형 복잡도를 선택하는 전략이 필요하다.

#### 스플라인(Spline) 회귀

선형 또는 다항식 회귀모형으로는 포착하기 어려운 복잡한 곡선 형태를 다루기 위해, 스플라인 함수를 이용한 회귀기법이 널리 쓰인다. 스플라인 기법은 전체 구간을 여러 개의 소구간(piecewise)으로 나누어, 각 구간마다 저차 다항식을 적합하되 구간 경계점(노드, 혹은 절점이라 함)에서 연속성과 매끄러움을 보장하도록 한다.

예를 들어 1차 스플라인은 구간별로 1차 다항식을 적합하며, 구간 접합점에서 함수값이 동일하도록 조건을 둔다. 2차 스플라인이나 3차 스플라인은 이차, 삼차 다항식을 사용하고, 접합점에서 1차 미분계수 혹은 2차 미분계수가 연속이 되도록 추가 조건을 부여한다.

스플라인 회귀를 회귀모형화하면 다음처럼 행렬 형태로 표현할 수 있다.

$$
\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon}
$$

이때 $\mathbf{X}$는 독립변수(혹은 독립변수의 다항 변환)뿐 아니라, 스플라인 항들을 포함하는 확장된 설계행렬이다. 최소제곱법 또는 (일반화)선형회귀의 틀에서 추정이 가능하며, 노드 수와 배치 방법에 따라 유연성이 달라진다. 노드가 많아질수록 모델은 데이터를 더 정밀하게 근사할 수 있지만, 과적합 위험도 커진다.

스플라인 회귀의 적합도와 유의성 검정은 기본적으로 선형회귀와 유사하다. 각 스플라인 계수(베이시스 함수 계수)에 대한 t-검정, 전체 모형에 대한 F-검정, AIC/BIC 등을 확인한다. 단, 노드 위치와 개수를 사전에 결정해야 하므로, 교차검증을 통해 최적 노드 구성을 탐색하거나, 페널티(벌칙)을 부여한 P-스플라인(페널티 스플라인) 방법 등을 고려하기도 한다.

#### GAM(Generalized Additive Models)

일반화적분산형모형(GLM)에서는 로지스틱, 포아송 등 다양한 분포 형태를 다룰 수 있다. 하지만 GLM이 여전히 선형 예측식을 사용한다는 점에서, 비선형성을 반영하기엔 한계가 있을 수 있다. GAM(Generalized Additive Models)은 연결함수 내에 여러 개의 스플라인이나 기타 비선형 함수를 합(additive) 형태로 결합해 모델화한다.

예를 들면 다음과 같은 로지스틱 GAM을 생각할 수 있다.

$$
\mathrm{logit} \bigl(\mathbb{E}\[y|x\_1,\dots,x\_p]\bigr) = \beta\_0 + f\_1(x\_1) + f\_2(x\_2) + \dots + f\_p(x\_p)
$$

이때 $f\_j$는 $x\_j$에 대해 스플라인 혹은 적절한 함수기저를 통한 적합을 진행한다. 이를 통해 변수별로 복잡한 비선형 효과를 추정할 수 있으며, 각 $f\_j$는 다른 변수와 독립적으로 추정되는(additive) 구조를 갖는다.

모델 적합 후에는 유의성 검정과 잔차진단을 통해 각 $f\_j$가 실제로 자료에 유의하게 기여하는지 살핀다. 예를 들어 $f\_j$가 0 함수에 가깝다면(스플라인 계수들이 거의 0에 수렴한다면), 해당 변수는 굳이 비선형 항을 추가할 필요가 없을 수 있다. 또한 변수별 효과함수 $f\_j$의 그래프를 시각화하면, 어떤 구간에서 어떤 방식으로 종속변수에 영향을 미치는지 쉽게 해석할 수 있다.

#### 국소회귀(LOESS, LOWESS)

스플라인이나 다항식으로 전 구간을 커버하기 어려울 때, 국소회귀(Local Regression)를 적용하기도 한다. LOESS(또는 LOWESS)는 특정 지점 $x\_0$ 근방에 있는 데이터들에게만 가중을 두고, 그 근방에서만 저차 다항식을 적합하는 기법이다. $x\_0$에서 예측값을 구할 때, $x\_0$에 가까운 관측값엔 가중을 높이고, 먼 관측값엔 가중을 작게 줘서, 국소적으로 데이터 패턴을 추정한다.

LOESS/LOWESS는 전역적 방정식을 두지 않고 점마다 국소적 추정치를 계산하는 비모수(non-parametric) 방식이어서, 복잡한 곡선 패턴을 유연하게 모형화할 수 있다. 하지만 데이터 크기가 클 경우 계산량이 상당히 늘어나고, 예측 함수 전체 형태를 파악하기가 어렵다는 단점이 있다. 또한 통계적 유의성 검정이 표준 선형회귀만큼 간단하지 않고, 교차검증을 통한 적절한 국소폭(span) 또는 대역폭(bandwidth) 설정이 필요하다.

#### 다중 반응변수 회귀(Multivariate Multiple Regression)

지금까지는 하나의 종속변수 $y$를 회귀분석으로 예측했다고 가정했으나, 실제로 서로 밀접한 관련이 있는 여러 종속변수를 동시에 모형화해야 할 수도 있다. 이를 다중 반응변수 회귀 또는 MANOVA(다변량 분산분석) 접근으로 확장한다.

다중 반응변수 회귀에서 종속변수를 벡터 $\mathbf{y}\_i \in \mathbb{R}^m$로 정의하고, 공분산 구조까지 고려하여 적합도를 판단한다. MANOVA에서는 Pillai’s trace, Wilks’ lambda 같은 다변량 통계량을 이용해 독립변수 전체 효과를 검정한다. 적합도 지표 역시 단순 $R^2$ 대신 다변량 구조를 반영한 통합 척도를 사용하거나, 각 종속변수별로 별도의 적합도 지표를 비교하기도 한다.

#### 고차원 데이터와 차원축소

독립변수 개수 $p$가 관측치 수 $n$보다 많거나 비슷할 정도로 큰 고차원 상황이라면, 전통적 회귀분석(t-검정, F-검정 등)은 바로 적용하기 어렵다. 이럴 때 PCA(주성분분석), SVD(특잇값 분해) 등을 통한 차원축소, 혹은 규제회귀(Ridge, Lasso, Elastic Net) 같은 방법으로 변수를 축소·선택한 후 유의성 검정을 진행한다.

차원축소 후 회귀를 시행하면, 변환된 축(주성분, 혹은 저차 공간)에서 회귀모형을 설정하기에 실제 변수별 해석은 어려울 수 있지만, 예측 및 모델 안정성 측면에서 이점이 있다. 반면 규제회귀(Lasso 등)는 해석가능성을 보존하면서도 회귀계수를 희소(sparse)하게 만들어, 일부 변수들만 선택하는 효과가 있다.

#### 시계열성과 자기상관

잔차가 시간축을 따라 자기상관을 보이면, 독립성 가정이 깨져서 회귀계수 추정과 그 분산 추정이 왜곡된다. 시계열 자료에서는 회귀모형을 직접 적용하기보다는, 시차변수를 추가하거나 ARIMA, Vector Autoregression(VAR) 등의 전용 모형을 고려한다. 그래도 단순 회귀분석을 수행할 때는 Durbin-Watson 검정, Breusch-Godfrey 검정 등으로 자기상관을 확인하고, Cochrane-Orcutt 절차나 GLS를 통해 보정하는 방법이 있다.

이처럼 시계열 회귀는 전통적 선형회귀와는 다른 가정(정상성, 비정상성, 계절성 등)을 추가로 따져야 하므로, 유의성 검정과 적합도 지표 역시 시계열 전용 통계량과 예측오차(예: MAPE, RMSE 등)를 함께 검토한다.

#### 패널데이터(Panel Data)

개체(개인, 기업, 지역 등)마다 시계열 관측이 누적된 형태를 패널데이터라 부르며, 이를 분석하는 회귀모형으로는 고정효과(Fixed Effects) 혹은 랜덤효과(Random Effects) 모형이 활용된다. 고정효과 모형은 개체별로 고유한 절편을 허용하여 통제되지 않은 이질적 특성을 제거하고, 랜덤효과 모형은 개체 고유효과가 확률변수라고 가정한다.

패널데이터 모형에서는 전통적 OLS 잔차분석 대신, 집단 내, 집단 간 분산구조를 고려한 진단 절차가 필요하다. 유의성 검정 또한 고정효과 모형에서는 집단 간 차이를 선형 모형 내에서 어떻게 처리하는지, 랜덤효과 모형에서는 $\mathbf{\Sigma}$(공분산 행렬) 구조를 어떻게 가정하는지에 따라 달라진다. AIC, BIC, 혹은 Hausman 검정 등을 통해 어떤 모형이 더 타당한지 비교하기도 한다.

#### M-추정, R-추정, S-추정

로버스트 회귀에서 다양하게 발전된 추정 방식으로는 M-추정, R-추정, S-추정 등이 있다. M-추정(M-estimation)은 잔차함수에 Huber 함수, Hampel 함수, Tukey’s biweight 함수 등을 사용해 극단값의 영향력을 줄이는 방식이다. R-추정(R-estimation)은 순위(rank)에 기반한 검정 기법에서 파생된 개념이고, S-추정(S-estimation)은 잔차의 분산추정(Scale estimation)을 안정적으로 수행하기 위한 방식이다.

이러한 로버스트 추정 방법들은 아웃라이어가 존재할 때도 비교적 안정적인 계수 추정을 가능하게 하며, 각 기법별로 잔차가 크게 벗어난 점들에 가하는 페널티(가중함수)가 다르다. 따라서 어느 함수를 채택하느냐에 따라 유의성 검정과 적합도 판단이 조금씩 달라질 수 있다. 통계 소프트웨어에서 구현된 함수를 활용해, 아웃라이어가 심한 데이터에서 전통적 OLS 결과와 비교해보는 식으로 실무에서 응용한다.

#### 이상치 검출과 진단의 자동화

실무에서 데이터 양이 매우 많거나, 관측 차원이 높으면 일일이 잔차를 확인하며 아웃라이어와 영향점을 판별하기 어렵다. 이때는 머신러닝 기반의 이상치 검출(Outlier Detection) 알고리즘이나, 고차원에서의 로버스트 PCA, Isolation Forest, One-Class SVM 등을 병행해 잠재적 극단값 후보를 찾고, 이를 회귀모형 분석 전·후로 비교·점검하기도 한다.

그렇다고 무조건 이상치를 제거하는 것은 권장되지 않는다. 왜냐하면 해당 이상치가 실제로 측정 오류가 아니라, 중요한 특이 현상을 반영하는 핵심 데이터일 수 있기 때문이다. 따라서 이상점 후보를 발견했다면, 도메인 지식을 고려하여 제거 혹은 로버스트 처리 등을 신중하게 결정해야 한다.

#### 머신러닝 모델에서의 피처 중요도와 해석

랜덤 포레스트나 그래디언트 부스팅 같은 앙상블 기법은 강력한 예측력을 보여주는 반면, 회귀계수 개념이 없으므로 전통적 t-검정, F-검정과 같은 유의성 평가가 바로 적용되지 않는다. 대신 피처 중요도(feature importance), SHAP(SHapley Additive exPlanations), LIME(Local Interpretable Model-agnostic Explanations) 등의 해석 도구를 사용한다.

SHAP 같은 방법은 개별 예측에 대해 각 독립변수가 결과에 얼마나 기여했는지 추론하고, 전체 데이터 수준에서도 평균 효과량을 산출하여 “어떤 변수가 모델 예측에 중요한 역할을 하는가”를 시각화한다. 이는 통계적 p-값과는 해석 목표가 다르지만, 복잡 모델을 어느 정도 설명 가능한 형태로 바꾸어주어, 유사한 의미에서의 “중요 변수”를 식별할 수 있게 한다.

#### 반응표면분석(Response Surface Methodology)

산업공정 최적화나 실험계획(Design of Experiments) 분야에서는, 각 독립변수(공정 인자)의 변화에 따른 반응(종속변수)의 변화를 2차 혹은 고차다항으로 근사한 뒤 최적점을 찾는 반응표면분석 기법이 많이 쓰인다. 이 경우도 최소제곱법을 사용하여 계수를 추정하고, F-검정 등으로 유의성 및 적합도를 평가한다.

반응표면분석에서는 상호작용 항이 매우 중요한 의미를 지니며, 이를 통해 “두 인자를 동시에 변화시킬 때, 단순 합보다 더 큰(혹은 더 작은) 반응 개선이 있는지”를 확인할 수 있다. 모델 적합 후에는 표면 플롯(3D 그래프)나 등고선(contour) 플롯으로, 반응값의 변화를 직관적으로 파악하고 실험 최적조건을 추정한다.

#### 최종 정리

지금까지 유의성 검정과 모델 적합도 판단 지표에 대해, 전통적 선형회귀에서의 t-검정, F-검정, 결정계수, AIC, BIC, 교차검증, 그리고 로버스트 회귀, 스플라인, GAM, 시계열, 패널데이터, 머신러닝 모형 등 확장적 맥락에서의 유용한 진단 및 검정 기법을 살펴보았다. 이처럼 회귀분석은 매우 풍부한 가정과 응용 상황을 포함하므로, 단순히 p-값 하나만 보고 모델 타당성을 결론짓기보다는, 여러 지표 및 진단 기법을 종합적으로 고려하고, 가능한 한 교차검증 등 예측 성능 평가까지 병행해야 한다.
