엔트로피는 결과의 불확실성을 측정. 확률이 균등할 때 불확실성이 최대가 되므로 가장 높음
과적합 방지
- 엔트로피 추정: 각 노드에서 충분한 샘플을 사용해 엔트로피를 안정적으로 계산.
- 분할 중단 조건: 유의미한 정보 이득이 없는 경우 분할을 중단.
- 가지치기: 트리를 완성한 후 복잡도를 줄이기 위해 가지치기 수행.
- 최소 설명 길이: 트리의 크기와 예외 크기를 동시에 줄여 모델 복잡도를 최적화.
Rule post-pruning
1. 트리를 동등한 규칙 집합으로 변환
2. 규칙을 독립적으로 가지치기
3. 최종 규칙 정렬
낮은 분류 오류를 가진 규칙이 우선적으로 사용되도록 정렬
- Advantage – can potentially correct bad choices made close to the
root
- Post pruning based on validation set is the most commonly used
method in practice
Classification of instances
Unique classification
- 리프노드가 0이고 missing attribute value가 없는 경우 가능
Most likely or probabilistic classification
- 리프 노드의 클래스 분포에 기반
- missing attribute value가 없는 경우