회 ZINB 현실 세계의 데이터는 생각보다 단순하지 않다. 특히 반복적으로 발생하는 사건을 다루는 경우, 단순 평균이나 기본적인 확률 모형으로는 설명이 어려운 상황이 자주 나타난다. 예를 들어 특정 사고가 매달 반복적으로 기록되지만, 어떤 달에는 전혀 발생하지 않고 어떤 달에는 급격히 증가하는 경우가 있다. 이처럼 반복 발생 데이터를 분석할 때 활용되는 통계 모형 중 하나가 바로 ZINB 모형이다. ZINB는 Zero Inflated Negative Binomial의 약자로, 제로가 과도하게 많은 음이항 분포 모형을 의미한다. 회라는 개념과 연결하면 반복적으로 발생하는 사건 데이터에서 제로가 비정상적으로 많이 나타나는 구조를 설명하는 통계적 접근이라 할 수 있다.
반복 발생 데이터는 특정 사건이 일정 기간 동안 몇 번 발생했는지를 기록한 형태다. 예를 들어 하루 교통사고 건수, 월별 질병 신고 건수, 고객 불만 접수 횟수 등이 이에 해당한다. 이러한 데이터는 대개 정수 값으로 구성되며 음이 아닌 값을 가진다. 즉 0, 1, 2, 3처럼 카운트 값 형태다. 문제는 실제 데이터에서 0이 매우 많이 나타나는 경우다. 예를 들어 한 지역에서 매달 특정 질병이 발생하지만 대부분의 달에는 0건이고 가끔 몇 건이 집중적으로 발생한다면 단순 포아송 모형으로는 설명이 어렵다. 이때 제로 인플레이션 구조를 고려해야 한다.
| 카운트 데이터 | 0 이상의 정수 |
| 반복 기록 | 일정 기간 단위 |
| 과산포 가능성 | 분산이 평균보다 큼 |
| 제로 집중 | 0 값이 과도하게 많음 |
회 ZINB 기본적인 카운트 데이터 분석에는 포아송 모형이 사용된다. 그러나 포아송 모형은 평균과 분산이 같다는 가정을 가진다.
현실에서는 분산이 평균보다 훨씬 큰 경우가 많다. 이를 과산포라고 한다. 과산포가 존재하면 포아송 모형은 실제 변동성을 제대로 설명하지 못한다. 이때 음이항 모형이 대안으로 사용된다. 음이항 모형은 평균과 분산이 다를 수 있도록 설계되어 있어 변동성이 큰 반복 발생 데이터를 더 잘 설명한다.
| 포아송 | 평균과 분산 동일 | 단순 구조 |
| 음이항 | 분산이 평균보다 큼 | 과산포 대응 |
| 일반 선형 모형 | 정규 분포 가정 | 카운트 데이터 부적합 |
음이항 모형으로도 설명이 어려운 경우가 있다. 바로 0 값이 지나치게 많은 경우다.
예를 들어 특정 질병이 거의 발생하지 않지만 특정 환경에서만 집중적으로 발생한다면 대부분의 관측치는 0이고 일부 관측치만 양수 값을 가진다. 이 경우 데이터는 두 가지 과정이 결합된 형태로 볼 수 있다. 하나는 절대적으로 발생하지 않는 구조, 다른 하나는 발생 가능성이 있는 구조다. 이를 반영하기 위해 제로 인플레이션 구조가 도입된다.
| 제로 비율 적음 | 적합 | 가능 |
| 제로 비율 매우 높음 | 부적합 | 적합 |
| 과산포 존재 | 대응 가능 | 대응 가능 |
| 이중 구조 가정 | 불가능 | 가능 |
회 ZINB 회 ZINB는 반복 발생 데이터를 설명하면서 동시에 제로 인플레이션을 반영하는 모형이다. 이 모형은 두 부분으로 구성된다. 첫째는 제로 발생 여부를 설명하는 이항 구조다. 둘째는 실제 발생 횟수를 설명하는 음이항 구조다. 즉 어떤 관측치는 아예 발생하지 않는 집단에 속하고, 다른 관측치는 발생 가능 집단에 속한다는 가정을 기반으로 한다.
| 제로 부분 | 발생하지 않는 확률 추정 |
| 음이항 부분 | 발생 횟수 추정 |
| 이중 구조 | 두 과정 결합 |
| 적합 대상 | 반복 발생 카운트 데이터 |
회 ZINB 공공 보건 분야에서 특정 지역의 월별 감염 건수를 분석할 때 ZINB 모형이 사용된다. 대부분의 달은 0건이지만, 특정 계절에는 집중 발생이 나타난다. 또한 보험 분야에서는 고객의 연간 청구 건수를 분석할 때 활용된다. 많은 고객은 청구가 없고 일부 고객만 여러 건의 청구를 한다. 이처럼 반복 구조와 제로 집중 현상이 동시에 나타나는 데이터에서 ZINB는 강력한 분석 도구가 된다.
| 공공 보건 | 질병 발생 건수 |
| 보험 | 청구 횟수 |
| 범죄 통계 | 특정 범죄 건수 |
| 제조업 | 불량 발생 횟수 |
ZINB 모형은 강력하지만 해석이 단순하지 않다. 제로 부분과 음이항 부분의 계수를 각각 해석해야 한다. 제로 부분의 계수는 발생하지 않을 확률에 영향을 주는 요인을 의미한다. 음이항 부분은 발생 횟수 증가 요인을 의미한다. 두 구조를 혼동하면 잘못된 정책 결정을 내릴 수 있다. 따라서 모형 선택과 해석은 신중해야 한다.
| 제로 계수 | 발생 여부 영향 |
| 음이항 계수 | 발생 강도 영향 |
| 적합도 지표 | 모형 비교 |
| 분산 파라미터 | 변동성 수준 |
반복 발생 데이터 분석에서는 먼저 데이터 분포를 확인해야 한다. 제로 비율과 평균 분산 관계를 점검하는 것이 출발점이다.
단순 포아송 모형으로 시작해 과산포 여부를 검정하고, 필요시 음이항이나 ZINB 모형으로 확장한다.
정책 분석이나 리스크 관리에서는 제로 발생 구조를 이해하는 것이 중요하다. 발생 자체를 줄이는 전략과 발생 강도를 줄이는 전략은 다르기 때문이다.
| 데이터 탐색 | 제로 비율 확인 |
| 모형 비교 | 적합도 검정 |
| 해석 분리 | 제로와 강도 구분 |
| 정책 적용 | 구조별 대응 전략 |
회 ZINB 회 ZINB는 반복 발생 데이터에서 제로가 과도하게 많은 구조를 설명하는 강력한 통계 모형이다. 단순 음이항 모형으로는 설명되지 않는 이중 구조를 반영한다는 점에서 의미가 크다. 공공 보건, 보험, 범죄 통계 등 다양한 분야에서 활용되며, 반복과 강도 분석을 동시에 수행할 수 있다. 데이터를 정확히 이해하려면 분포 구조를 먼저 파악해야 한다. 회 ZINB는 복잡한 반복 발생 데이터를 정교하게 설명하는 핵심 도구다.