Journal Search Engine

ISSN : 1229-3431(Print)
ISSN : 2287-3341(Online)

Journal of the Korean Society of Marine Environment and Safety Vol.32 No.1 pp.164-172
DOI : https://doi.org/10.7837/kosomes.2026.32.1.164

A Comparative Study of Machine Learning Models for Fault Type Classification in Predictive Maintenance Systems

Changjo Yang^*†, Haechang Jeong^**

^*Professor, Division of Marine Systems Engineering, Mokpo National Maritime University, Mokpo 58628, Korea
^**Assistant Professor, Division of Cadet Training, Mokpo National Maritime University, Mokpo 58628, Korea

* First Author : cjyang@mmu.ac.kr, 061-240-7228

^† Corresponding Author : cjyang@mmu.ac.kr, 061-240-7228

Received December 23, 2025 Review February 20, 2026 Accepted February 26, 2026

Abstract

This study developed a machine learning-based predictive maintenance system for industrial equipment in port logistics. Using the AI4I Predictive Maintenance Dataset from UCI Repository, 10,000 data points were analyzed for two tasks: binary classification to predict equipment failure occurrence and multi-class classification to categorize failure types. During data preprocessing, the SMOTE technique addressed class imbalance, and StandardScaler performed normalization. Principal component analysis identified temperature variables, machine power output, and tool wear as primary predictive features. Five machine learning algorithms were compared: Logistic Regression, K-Nearest Neighbors, Support Vector Machine, Random Forest, and XGBoost. Evaluation metrics. Analysis results showed XGBoost achieved optimal performance in both tasks, attaining F1 scores of 0.958 for binary classification and 0.989 for multi-class classification. While KNN demonstrated relatively lower performance, it provided faster response times. This research emphasizes the importance of selecting appropriate models based on enterprise requirements, balancing prediction accuracy and response speed.

Key Words : Predictive maintenance , Machine learning , Machine failure prediction , Multi-class classification , XGBoost

고장 유형 분류를 위한 예지정비용 머신러닝 모델 성능 비교

양창조^*†, 정해창^**

^*국립목포해양대학교 기관시스템공학부 교수
^**국립목포해양대학교 승선실습과정부 조교수

초록

본 연구는 항만물류 분야의 산업 설비에 대한 머신러닝 기반 예지정비 시스템 개발을 목적으로 수행되었다. UCI Repository의 Dataset을 활용하여 10,000개의 데이터 포인트를 분석하였으며, 설비 고장 발생 여부를 예측하는 이진 분류와 고장 유형을 분류하는 다중 클래스 분류 과제를 수행하였다. 데이터 전처리 과정에서 클래스 불균형 문제 해결을 위해 SMOTE 기법을 적용하였고, StandardScaler를 이용한 정규화를 수행하였다. 주성분 분석을 통해 온도 변수, 기계 출력, 공구 마모가 주요 예측 변수로 확인되었다. 로지스틱 회귀, K-최근접 이웃, 서포트 벡터 머신, 랜덤 포레스트, XGBoost 등 다섯 가지 머신러닝 알고리즘을 적용하여 성능을 비교하였다. 분석 결과, KNN은 상대적으로 낮은 성능을 보였으나 빠른 응답속도를 제공하였고, XGBoost가 모두에서 최고 성능을 보였으며, 이진 분류에서 F1 점수 0.958, 다중 클래스 분류에서 0.989를 달성하였다.

키워드 : 예지정비 , 머신러닝 , 기계 고장 예측 , 다중 클래스 분류 , XGBoost

This article has been cited by 0 article in crossref

Cited-By

Funding:

1. 서 론

기술의 발전과 산업의 고도화에 따라 MRO(Maintenance, Repair, and Overhaul)의 개념은 근본적인 변화를 겪어왔다 (Bokrantz et al., 2020;Li et al., 2021). 사용되는 기술 수준이 높아질수록, 기계의 결함이나 고장은 더 심각하고 중대한 문제로 이어질 가능성이 커지게 되었다(Errandonea et al., 2020). 이에 따라 기업들은 잘못된 전략으로 인해 발생할 수 있는 손실을 최소화하기 위해 다양한 방법론을 모색하고 있다(Tiddens et al., 2022).

특히, 항만물류 분야의 유지보수란 조직 체계 내의 모든 시스템, 기계, 장비 또는 차량이 최대 성능을 유지하면서 지속적으로 운영될 수 있도록 보장하는 과정이다. 유지보수의 실패는 막대한 재정적 손실, 제품 품질 저하, 운영 비용 증가를 초래할 수 있는 중대한 위험 요소가 된다. 또한 생산성과 효율성은 감소하게 되며, 공급망의 아주 작은 부분에서 발생한 장애조차도 전체 공급망에 부정적인 영향을 미칠 수 있다.

효과적인 유지보수 프로세스의 설계와 구현은 적절한 유지보수 전략을 결정하는 것에서 시작된다. 유지보수 전략은 유지보수 정책, 장비 개선 여부, 자원 배분, 예비 장비 확보, 점검·수리·교체에 관한 의사결정을 종합적으로 고려하여 결정된다(Tinga, 2013). 다양한 유지보수 전략이 존재 하며, Bateman(1995)은 이를 사후 유지보수(Reactive), 예방 유지보수(Preventive), 예측 유지보수(Predictive)의 세 가지로 분류하였다.

사후 유지보수는 고장이나 결함이 발생한 이후에 수행되는 유지보수 방식으로, 교정 유지보수(Corrective Maintenance)와 탐지 유지보수(Detective Maintenance)로 나뉜다. 교정 유지 보수는 장비가 실제로 고장나거나, 고장이 발생할 것으로 관측될 때 수행되는 유지보수이다(Roberto et al., 2020). 반면 선제적 유지보수는 고장이 발생하기 이전에 조치를 취하는 접근 방식으로, 예방 유지보수(Preventive Maintenance)와 기회적 유지보수(Opportunistic Maintenance)로 구분된다. 기회적 유 지보수란, 특정 장비를 정비하는 과정에서 유지보수가 필요한 다른 장비를 함께 정비하는 전략을 의미한다(Bevilacqua and Braglia, 2000). 예방 유지보수는 고장이 발생하기 전에 부품을 교체하거나 수리하는 방식으로, 고장 발생 시 심각한 결과를 초래할 수 있는 시스템에서 주로 활용된다. 공격적 유지보수는 시스템 전체를 재검토하고 재설계 및 개선하여 장비 고장 발생 빈도를 줄이는 전략이다. Tinga(2013)는 전사적 생산보전을 공격적 유지보수의 하위 유형으로 분류하였으며, 이는 시스템 내 모든 구성원이 유지보수에 참여하고, 작업자가 자신이 사용하는 장비의 유지보수에 책임을 지며, 고장 예방을 통해 효율 향상을 추구하는 유지보수 정책이다.

선제적 유지보수 접근법에서 가장 큰 과제는 고장을 사전에 예측하는 것이다. 이를 위해 모니터링 시스템, 고급 통계 분석, 데이터 분석, 머신러닝 모델, 인공지능 기술 등이 활용되고 있다. 머신러닝 모델은 모니터링 시스템으로부터 수집된 대규모 데이터를 분석함으로써 복잡한 관계와 패턴을 학습할 수 있으며, 이를 통해 고장 발생 시점을 효과적으로 예 측할 수 있다. 오랜 기간 연구되어 온 선제적 유지보수 전략은 현대 기술의 발전으로 인해 더욱 효과적이고 효율적인 방식으로 구현되고 있다.

특정 기계가 고장을 일으킬 것인지 여부뿐만 아니라, 고장의 유형까지 사전에 판단할 수 있는 방법을 확보하는 것은 산업에서 매우 중요하다. 그 주된 이유는 일반적으로 고장난 기계를 수리하거나 교체하는 데 드는 비용이 단일 부품을 교체하는 데 필요한 비용보다 훨씬 크기 때문이다. 따라서 기계의 상태를 지속적으로 모니터링하고 적절한 정보를 수집하는 센서를 설치하는 것은 산업 현장에서 상당한 비용 절감 효과를 가져올 수 있다.

특히 4차 산업혁명 시대를 거치며 인공지능(AI)의 일상적 활용은 급격한 변화를 가져왔다. Geoffrey Hinton은 인공지능의 작동 방식이 인간의 뇌와 유사하게 점점 복잡해져 이해하기 어려워지고 있음을 설명한다(Pelley, 2023). 그는 유지보수 분야의 학습 알고리즘의 설계를 진화의 원리를 설정하는 과정에 비유하였으며, 데이터와 상호작용한 이후 생성되는 복잡한 신경망의 정확한 작동 원리는 아직 완전히 규명되지 않았다고 지적한다.

따라서 본 연구에서는 이러한 요구를 충족하기 위해 UCI Repository에 공개된 AI4I 2020 Predictive Maintenance Dataset (2020)을 사용하여 분석을 수행하였다. 특히 본 작업은 전형적인 머신러닝 응용 절차에 따라 구성되었다. 먼저 데이터셋에 대한 탐색을 통해 기저 진실을 충분히 이해할 수 있는 기반 지식을 확보하였다. 이후 예측에 사용할 알고리즘에 적합하도록 데이터를 준비하기 위해 여러 전처리 기법을 적용하였다.

또한, 본 연구에서는 두 가지 주요 과제를 다룬다. 첫 번째는 특정 기계가 고장을 일으킬 가능성이 있는지를 판단하는 것이며, 두 번째는 발생할 고장의 유형을 규명하는 것이다. 마지막으로, 다양한 모델을 통해 얻은 결과를 비교·분석하여, 적절한 평가 지표를 통해 성능을 평가함과 동시에 각 모델의 해석 가능성에 대해서도 논의한다.

2. 방법론

2.1 예지정비 데이터셋

실제 예지정비(predictive maintenance) 데이터셋은 일반적으로 확보하기가 어렵고, 특히 공개하기가 매우 까다롭다. 이러한 이유로 UCI 저장소에서 제공하는 본 데이터(AI4I 2020 Predictive Maintenance Dataset, 2020)는, 산업 현장에서 실제로 발생하는 예지정비 상황을 최대한 충실히 반영한 합성 데이터셋(synthetic dataset)이다. Table 1과 같이 이 데이터셋은 총 10,000개의 데이터 포인트로 구성되어 있으며, 각 행(row)은 하나의 관측치를, 각 열(column)은 14개의 특성(feature)을 나타낸다.

위의 고장 모드 중 하나라도 발생하면 공정은 실패하며, 이 경우 machine failure 레이블은 1로 설정된다. 따라서 머신러닝 모델의 관점에서는 어떤 고장 모드가 실제 실패의 원인이 되었는지에 대한 정보는 직접적으로 제공되지 않는다.

2.2 탐색적 분석(EDA, Exploratory data analysis)

데이터 탐색은 각 관측치가 고유하며 중복된 값이 없는지를 확인하는 것부터 시작한다. 이를 위해 고유한 Product ID 의 개수가 전체 관측치 수와 일치하는지를 검증하였다. 이후 각 열에 대해 결측값이 존재하는지 확인하였다.

Product ID의 첫 글자는 기계의 Type에 해당하며, 뒤따르는 숫자 시퀀스는 동일한 특성을 기준으로 세 개의 구간을 정의하고 있음을 확인할 수 있다.

Fig. 1은 각 칼럼의 히스토그램을 보인다. 회전 속도(Rotational Speed)와 토크(Torque)의 경우, 최댓값이 제3사분위 수(Q3)와 크게 차이가 나기 때문에 이상치가 존재할 가능성을 추정할 수 있다. 특히 회전 속도의 경우에는 가우시안 분포가 한쪽으로 치우쳐 있으며, 높은 회전 속도를 가진 소수의 관측치가 실제로 고장으로 이어질 가능성이 존재한다.

한편, 전체 데이터셋에서 기계 고장의 발생 비율이 3.31% 에 불과할 정도로 매우 낮다는 점이다. 머신러닝 문제에서 클래스 불균형은 모델의 학습 과정뿐만 아니라 결과 해석에도 큰 영향을 미칠 수 있다. 이러한 문제를 방지하고 특정 클래스에 대한 모델의 편향을 줄이기 위해, SMOTE 기법을 사용하여 데이터 증강(data augmentation)을 수행하였다. 먼저 소수 클래스에서 임의의 샘플을 하나 선택하고, 해당 샘플의 k-최근접 이웃(KNN, k-nearest neighbors)을 찾는다. 그중 하나의 이웃을 선택한 뒤, 현재 데이터 포인트와 이웃 간의 벡터를 계산한다. 이 벡터에 0과 1 사이의 임의의 값을 곱한 후, 이를 기존 데이터 포인트에 더함으로써 새로운 합성 데이터 포인트를 생성하였다.

또한 분석 알고리즘에서 데이터를 효과적으로 활용하기 위해 두 가지 변환을 적용하였다. 먼저 범주형 열에 대해 레이블 인코딩(label encoding)을 수행하였다. Type은 순서형(ordinal) 특성이며, Cause는 하나의 열로 표현되어야 하므로 레이블 인코딩이 적절하다. 인코딩 규칙은 다음과 같다.

Type: {L = 0, M = 1, H = 2}
Cause: {Working = 0, PWF = 1, OSF = 2, HDF = 3, TWF = 4}

다음으로 StandardScaler를 사용하여 각 열의 스케일링을 수행하였다. 이는 PCA(Principal component analysis)나 KNN과 같이 거리 기반(metric space)에 의존하는 기법들이 원활하게 작동하도록 하는 데 특히 유용하다. 또한 MinMaxScaler를 사용하는 경우보다 StandardScaler를 적용했을 때 성능이 다소 더 우수함을 확인하였다. 본 연구에서는 특성 선택을 수행하는 대신, 데이터를 시각적으로 이해하기 위한 또 하나의 방법으로 주성분 분석(PCA)을 수행하였다. Fig. 2와 같이 주성분 가중치에 대한 막대그래프를 통해 각 주성분이 무엇을 의미하는지 쉽게 파악할 수 있다. PC1은 두 온도 특성과 밀접하게 연관됨을, PC2는 회전 속도(Rotational Speed)와 토크(Torque)의 곱인 기계 출력(Power)을 PC3는 공구 마모(Tool Wear)를 나타낸다. 이 세 축으로 구성된 공간에 데이터를 투영한 결과, 다음과 같은 특징이 두드러진다.

TWF는 다른 모든 고장 유형과 가장 명확하게 분리되는 클래스이며, 거의 전적으로 PC3(공구 마모)에 의존하는 것으로 보인다. PWF는 PC2(출력) 축을 따라 양극단 영역에 분포하며, 나머지 두 주성분과는 독립적인 특성을 보인다.

OSF와 HDF 클래스는 다른 클래스들에 비해 분리가 다소 덜 명확하지만, OSF는 높은 공구 마모와 낮은 출력, HDF는 높은 온도와 낮은 출력이라는 특징을 지니는 것을 확인할 수 있다.

Fig. 3은 온도와 관련된 특성들 간에는 높은 상관관계가 존재하며, 출력과 관련된 특성들 역시 서로 강하게 상관되어 있음을 보여준다. 공구 마모는 두 개의 타깃 변수 모두와 높은 상관성을 보여, PCA 분석을 통해 관찰한 결과를 다시 한번 확인해 준다. 또한, 토크(Torque)와 두 타깃 변수 사이에서도 상대적으로 약하지만 분명한 상관관계가 관찰된다.

한편, 모델을 정량적인 관점에서 평가하기 위해, 분류 결과의 몇 가지 특성을 요약해 주는 지표들을 사용한다.

1) 정확도(Accuracy): 전체 인스턴스 중에서 올바르게 분류된 비율을 나타내며, 분류 문제에서 가장 직관적으로 사용되는 지표이다.

$A c c u r a c y = \frac{T P + T N}{T P + T N + F T + F N}$

(1)
2) AUC: 참양성(True Positive)과 참음성(True Negative) 간의 분리 정도를 측정하는 지표로 볼 수 있으며, 즉 모델이 서로 다른 클래스를 구분하는 능력을 의미한다. 구체적으로는 ROC 곡선 아래의 면적을 나타내며, 이는 가능한 모든 참음 성비율(True Negative Rate) 값에 대해 참양성비율(True Positive Rate, Recall)을 추정하여 계산된다.
3) F1 점수(F1-score): 정밀도(Precision)와 재현율(Recall)을 동시에 고려하여 모델의 분류 성능을 평가하는 지표로, 두 요소에 동일한 가중치를 부여한다.

$F_{1} = 2 \frac{P r e c i s i o n * R e c a l l}{P r e c i s i o n + R e c a l l}$

(2)

일반적으로 AUC는 효과적인 지표이지만, 이진 분류 문제와 같이 클래스 불균형이 심한 경우에는 성능을 과대평가할 수 있다. 반면 F1 점수는 이러한 상황에서 더 신뢰할 수 있는 지표이다. 본 연구에서는 특히 F1 점수를 중요하게 고려하는데, 이는 고장이 임박한 기계를 정상으로 분류하는 경우(재현율 문제)와 정상 기계를 고장으로 분류하는 경우(정밀도 문제)를 균형 있게 조정해 주기 때문이다.

4) F2 점수(F2-score): 보다 구체적으로는 정밀도보다 재현율에 더 큰 중요성을 두기 위해, β 파라미터를 적용한 조정된 F1 점수도 함께 평가한다.

$F_{β} = (1 + β^{2}) \frac{P r e c i s i o n * R e c a l l}{β^{2} P r e c i s i o n + R e c a l l}$

(3)

문헌에서 흔히 사용되는 값인 β = 2를 선택함으로써 재현율의 영향력을 더 크게 반영하였다. 이러한 선택은 설비 유지보수 비용을 최적화하기 위해 불필요한 교체 자재의 구매를 줄이는 것도 중요하지만, 이미 고장 난 이후에 기계를 교체해야 하는 상황을 피하는 것이 훨씬 더 중요하기 때문이다. 일반적으로 후자의 경우가 더 큰 비용을 초래한다.

3. 결과 및 고찰

3.1 이진 분류

본 절의 목적은 기계 고장(Machine Failure) 발생 여부를 예측하기 위한 이진 분류 모델 중 최적의 모델을 도출하는 데 있다. 분류 알고리즘은 데이터 마이닝의 한 분야로, 지도학습 기반의 머신러닝 기법을 활용하여 데이터에 대한 예측을 수행한다. 구체적으로, 두 개 이상의 클래스에 속하도록 이미 구분(라벨링)된 데이터 집합이 입력으로 제공되며, 이를 통해 분류 모델이 생성된다. 이렇게 학습된 모델은 이후 새로운 미분류(비라벨) 데이터에 대해 적절한 클래스를 할당하는 데 사용된다.

일반적으로 초기 데이터셋은 세 가지 그룹으로 분할된다. 첫째, 모델 학습에 사용되는 학습 데이터셋(training dataset), 둘째, 하이퍼파라미터 조정 과정에서 학습된 모델의 성능을 평가하는 데 사용되는 검증 데이터셋(validation dataset), 셋째, 최종적으로 모델의 성능을 검증하기 위한 테스트 데이터셋 (test dataset)이다. 본 연구에서는 분할 전략을 실험한 결과, 가장 우수한 성능을 보인 80% / 10% / 10% 비율을 데이터 분할 방식으로 채택하였으며, 로지스틱 회귀(Logistic Regression), K-최근접 이웃(KNN), 서포트 벡터 머신(Support Vector Machine, SVM), 랜덤 포레스트(Random Forest), XGBoost 분류 기법을 적용하였다.

먼저, Fig. 5에 상관관계 히트맵과 탐색적 데이터 분석(EDA)을 통해 도출한 분석 결과를 바탕으로 특성 선택을 시도하였다. ‘공정 온도(Process temperature)’와 ‘공기 온도(Air temperature)’는 양의 상관관계를 보였으며, ‘토크(Torque)’와 ‘회전 속도(Rotational speed)’는 음의 상관관계를 나타냈다.

데이터셋 설명에 따르면, PWF 고장은 ‘토크’와 ‘회전 속도’의 곱이 특정 범위에 있을 때 발생하며, 이와 유사하게 HDF 고장은 ‘공기 온도’와 ‘공정 온도’의 차이가 일정 임계 값을 초과할 경우 발생한다. 이러한 점을 고려할 때, 물리적 의미를 유지하면서 변수들을 쌍으로 결합하여 새로운 특성을 생성했을 때의 영향을 분석하는 것은 충분히 합리적인 접근이라고 판단하였다. 이에 따라, 어떠한 하이퍼파라미터 조정도 수행하지 않은 상태에서 분류 모델을 학습시키고, 다음 네 가지 데이터셋에 대해 결과를 Fig. 4와 같이 비교하였다.

1) 원본 데이터셋
2) ‘공정 온도’와 ‘공기 온도’ 변수를 제거하고, 두 변수의 곱으로 이루어진 하나의 변수로 대체한 데이터셋
3) ‘토크’와 ‘회전 속도’ 변수를 제거하고, 두 변수의 곱으 로 이루어진 하나의 변수로 대체한 데이터셋
4) 위 두 가지 변환을 모두 적용한 데이터셋

분석 결과, 전체 데이터셋을 사용한 경우에 적용된 모든 모델이 특성 수를 줄여 생성한 데이터셋을 사용했을 때보다 더 우수한 성능을 보이는 것을 확인하였다.

한편, 본 연구에서는 로지스틱 회귀를 본 과제의 기준 모델(Benchmark)로 사용하였다. 로지스틱 회귀는 기본 모델과 이후 절에서 심층적으로 분석할 보다 복잡한 모델들 사이의 중간 단계에 해당하는 모델이다. 본 절에서는 로지스틱 회귀 모델을 적용하여 얻은 결과와 함께, 해당 모델의 해석 가능성에 대해 살펴보고자 한다. 로지스틱 회귀의 오즈(odds)는 모델이 어떻게 작동하는지를 이해하는 데 도움을 준다. 특히 토크(Torque)와 회전 속도(Rotational Speed)에 비현실적으로 높은 중요도가 부여되고 있음을 확인할 수 있다. 이는 주로 해당 특성들이 지니는 자연적인 분산 때문인데, 특히 고장 사례만을 살펴볼 경우 그 분산이 매우 커지며, 이로 인해 모델이 편향되거나 ‘왜곡’되는 경향이 있다. 그러나 탐색적 분석을 바탕으로 볼 때, 앞의 네 가지 특성이 마지막 두 가지 특성보다 훨씬 더 중요한 관련성을 지닌다고 판단하는 것이 타당하다. 또한 현재 여기서 분산되어 나타나는 효과들이 특정 고장 유형 주변에 국지적으로 나타날 것으로 예상되므로, 다중 클래스 과제에 로지스틱 회귀를 적용할 경우 오즈 값의 신뢰성이 더욱 높아질 것으로 기대된다.

선택된 모든 모델은 검증 데이터셋에서 유사한 성능을 보였으며(KNN은 다소 낮은 성능을 보임), 이러한 값들만으로는 어떤 모델이 더 우수한지 판단하기가 어렵다. 또한 테스트 데이터셋으로 넘어갔을 때 성능이 크게 저하되지 않아, 과적합이 효과적으로 방지되었음을 확인할 수 있다.

Fig. 5와 Table 2에서와 같이 테스트 데이터셋에서 얻은 혼동 행렬(confusion matrix)과 평가 지표를 통해 각 모델의 결과를 분석하였다. 이러한 방식으로 살펴보면 사용된 모델들 간의 성능 관계가 보다 분명해진다. 즉, 특정 모델에 대한 모든 지표가 다른 모델들에 비해 일관되게 더 크거나 혹은 더 작게 나타나며, 하이퍼파라미터 탐색에 소요되는 시간 또한 KNN을 제외하면 대체로 유사하였다. 구체적으로는 KNN이 가장 낮은 성능을 보였고, XGB가 가장 우수한 성능을 나타냈으며, 그 중간에는 매우 유사한 결과를 달성한 SVC와 RFC가 위치한다.

문헌 조사(Bergstra and Bengio, 2012;Daniel and Manjaiah, 2021;Doaa et al., 2024)를 통해 각 모델에서 중요하다고 알려진 파라미터들을 대상으로 그리드 서치(Grid Search)를 수행하였다. 탐색할 파라미터 값의 범위는 선행연구와 다양한 실험 결과를 바탕으로 설정하였으며, 최적값을 찾는 과정에서의 계산 비용을 과도하게 증가시키지 않도록 고려하였다. 흥미로운 점은 RFC와 XGB의 최적 파라미터가 서로 정반대의 특성을 보인다는 것이다. 전자는 비교적 적은 수의 추정기(estimator)를 사용하되 트리의 깊이를 깊게 설정하는 반면, 후자는 더 많은 추정기를 사용하면서 각 트리의 분할 수는 상대 적으로 적게 사용한다. 또한 XGB는 정량적 성능 측면에서는 가장 우수한 분류기이지만, 정성적 측면에서는 그렇지 않다는 점도 고려해야 한다. 실제로 SVC와 XGB는 결과를 명확하게 해석할 수 있는 방법이 부족한 반면, RFC는 알고리즘이 어떻게 작동했는지를 비교적 완전하게 이해할 수 있게 해준다.

그럼에도 불구하고 예측에 있어 어떤 특성들이 더 중요한 역할을 했는지를 파악하기 위해, 본 연구에서는 Fig. 6과 같이 순열 특성 중요도(permutation feature importance)를 막대그래프 형태로 제시하였다.

Type은 탐색적 분석에서 관찰된 바와 같이 중요도가 가장 낮은 특성이다. 그러나 고려된 모든 경우에서 그 중요도는 일관되게 양(+)의 값을 유지하므로, 이를 완전히 제거할 경우 유의미한 계산 비용 절감에 비해 예측 성능 저하가 발생했을 것이다.

또한 로지스틱 회귀와는 달리, 본 연구에서 시험한 모델들은 Tool wear뿐만 아니라 Torque와 Rotational Speed에도 높은 중요도를 부여한다. Tool wear는 특정 고장 유형과 단독으로 강하게 연관되어 있으며, Machine failure에 대한 커널 밀도 추정을 크게 왜곡시키는 특성이다. 그럼에도 불구하고 이러한 특성에 높은 중요도가 부여되었다는 점은 모델들이 데이터의 핵심 패턴을 적절히 학습하며 정상적으로 작동했음을 시사한다.

3.2 다중 클래스 분류

이 절에서는 고장이 발생하는지 여부뿐만 아니라 발생하는 고장의 유형까지 예측하는 것이다. 따라서 본 과제는 각 샘플이 오직 하나의 레이블에만 할당된다고 가정하는 다중 클래스 분류 문제에 해당한다.

다중 클래스 타깃에 대해 AUC, F1 점수, F2 점수를 계산할 때에는 "average" 파라미터를 설정해야 한다. 본 연구에서는 클래스 불균형을 고려하기 위해 "average=weighted"를 선 택하였다. 실제로 데이터 전처리가 완료된 이후, 전체 데이터 중 약 80%는 정상 작동(WORKING) 상태의 기계이며, 약 20%만이 고장 상태에 해당한다. 이진 분류 과제와 마찬가지로, 기준 모델(baseline model)로는 로지스틱 회귀를 선택하였으며, 선택한 평가 지표에서 더 높은 값을 보이는 모델들을 탐색하였다. 특히 이전 절에서 개발한 모델들을 다중 클래스 문제에 맞게 확장하여 적용하였다.

K-최근접 이웃(KNN), 랜덤 포레스트(Random Forest), XGBoost 와 같은 많은 분류 알고리즘은 본질적으로 두 개 이상의 클래스를 자연스럽게 처리할 수 있다. 반면 로지스틱 회귀나 서포트 벡터머신(SVM)과 같은 일부 알고리즘은 본래 이진 분류 알고리즘이지만, 다양한 전략을 통해 다중 클래스 분류기로 확장할 수 있다. 본 프로젝트에서는 각 클래스마다 하나의 분류기를 학습시키고, 해당 클래스의 샘플을 양성(positive), 나머지 모든 샘플을 음성(negative)으로 설정하는 One-vs-Rest(OvR) 접근법(Xu et al., 2009;Belete and Manjaiah, 2022)을 사용하였다. 이는 다른 접근법에 비해 계산 효율성이 높기 때문이다.

각 모델에 대해 하이퍼파라미터 최적화를 위한 그리드 서치(Grid Search)를 수행하였으며, 모델 평가 지표로는 가중 평균 F2 점수(weighted average F2 score)를 사용하였다. 이진 분류 사례와 마찬가지로, 각 모델에서 중요하다고 알려진 파라미터들을 중심으로 그리드서치를 진행하였고, 탐색할 파라미터 값의 범위는 여러 차례 수행한 실험 결과를 바탕으로 설정하였다.

Fig. 7와 Table 3에서와 같이 도출된 결과를 비교해 보면, KNN이 가장 낮은 성능을 보이는 모델이며 정확도 또한 로지스틱 회귀보다 다소 낮다. 그럼에도 불구하고 평가 지표 값이 여전히 높고, 무엇보다도 즉각적인 결과를 제공한다는 장점이 있으므로, 이를 사전에 완전히 배제할 수는 없다. 따라서 상황을 빠르게 파악해야 할 경우에는 KNN을 활용하고, 시간이 더 허용될 때에는 다른 모델을 적용하는 전략을 취할 수 있다.

그 외의 모든 모델들은 기준 모델보다 더 나은 성능을 보였으며, 검증 데이터셋과 테스트 데이터셋 모두에서 선택한 평가 지표에 대해 높은 값을 달성하였다. SVC와 RFC의 성능은 서로 매우 유사한 반면, XGB는 이들보다 더 우수한 성능을 보인다. 학습 단계에서의 소요 시간을 살펴보면, SVC 와 RFC는 동일한 시간이 걸리는 반면, XGB는 이들보다 네 배 이상 더 많은 시간이 소요된다. 그러나 XGB를 통해 얻는 성능 향상이 약 1.5% 수준에 불과하므로, 사용 목적과 요구 사항에 따라 적합한 모델을 선택할 수 있다.

다중 클래스 KNN과 SVC의 최적 파라미터는 이진 분류 경우와 동일한 반면, XGB와 RFC의 경우에는 두 과제 유형에 대해 그리드서치 결과로 서로 다른 파라미터가 도출되었다. 또한 이진 분류에서 다중 클래스 문제로 전환할 때, XGB를 제외한 모든 모델에서 추정 학습 시간은 거의 동일하게 유지되었으나, XGB의 경우에는 학습 시간이 약 세 배로 증가하였다.

각 특성이 예측에 어떻게 기여하는지를 이해하기 위해, 이제 각 모델에 대한 Fig. 8과 같이 순열 특성 중요도(Permutation Feature Importance)를 살펴보았다.

모델들이 토크(Torque), 공구 마모(Tool wear), 회전 속도(Rotational Speed)에 높은 중요도를 부여하는 반면, Type의 기여도는 매우 낮다는 것을 확인할 수 있다. 이는 앞에서 수행한 데이터셋 탐색 과정에서의 관찰 결과와 일치하며, 이진 분류 과제에서의 순열 특성 중요도 결과와도 일관된다.

KNN은 Type에 상대적으로 더 높은 중요도를 부여하는 모델이지만, 이진 분류의 경우와는 달리 다중 클래스 문제에서는 모든 모델에서 Type의 기여도가 거의 0에 가깝게 나타난다. 이에 따라 Type 열을 제거한 새로운 데이터셋을 기존 데이터셋으로부터 생성하여 모델을 다시 테스트하였다.

그 결과, KNN과 SVC에서는 이미 매우 우수했던 평가 지표 값이 미미하게 개선되는 정도에 그쳤으며, RFC와 XGB에서는 평가 지표 값의 변화가 전혀 관찰되지 않았다. 또한 두 경우 모두에서 모델별 학습 시간은 거의 동일하였다.

한편, 본 연구는 UCI의 합성 데이터셋을 활용하였으므로, 실제 항만 현장에서 발생하는 센서 오류, 결측값, 환경적 노이즈 등 비정형 데이터의 복잡성을 충분히 반영하지 못한다는 한계가 있다. 합성 데이터는 통계적으로 이상적인 분포를 가정하는 반면, 실제 현장 데이터는 불규칙한 노이즈 패턴과 예측 불가능한 운영 조건을 포함하므로 모델 성능이 저하될 가능성이 있다. 향후 연구에서는 실제 항만 설비에서 수집된 현장 데이터를 적용하여 모델의 현장 적용 가능성을 검증하고, 도메인 적응 기법을 활용한 예지정비 모델 개발이 필요하다.

4. 결 론

본 연구에서는 두 가지 핵심 과제를 설정하였다. 첫째는 기계의 고장 발생 여부를 예측하는 이진 분류이며, 둘째는 발생 가능한 고장의 유형을 규명하는 다중 클래스 분류이다. 모델 개발에 앞서 최적의 성능을 확보하기 위해 체계적인 데이터 전처리를 수행하였다. 전처리 과정에서는 해석이 모호한 샘플을 제거하고, 범주형 변수에 레이블 인코딩을 적용하였으며, StandardScaler를 통해 수치형 변수의 정규화를 수행하였다.

탐색적 데이터 분석을 통해 초기에 이상치로 간주되었던 데이터 포인트들이 실제로는 데이터의 자연스러운 변동성을 나타내며, 분류 과제에서 중요한 역할을 한다는 사실을 확인하였다. 주성분 분석(PCA) 결과, 전체 분산의 대부분이 처음 세 개의 주성분으로 설명되었으며, 이들은 각각 두 온도 변수의 조합, 기계 출력(회전 속도와 토크의 곱), 공구 마모로 해석되었다. 이를 통해 해당 변수들이 예측 성능에 가장 크게 기여하는 핵심 특성임을 규명하였다.

모델 성능 평가 결과, 두 과제 모두에서 XGBoost가 가장 우수한 성능을 보였으며, KNN이 가장 낮은 성능을 나타냈다. XGBoost는 이진 분류에서 F1 점수 0.958, 다중 클래스 분류에서 0.989를 달성하여 탁월한 예측 정확도를 입증하였다. 반면 KNN은 상대적으로 낮은 성능에도 불구하고 빠른 응답 속도라는 강점을 보였다. 특히 XGBoost는 다중 클래스 분류 과제에서 학습 시간이 크게 증가하는 특성을 나타냈다.

따라서 실무 적용 시 모델 선택은 운영 환경과 우선순위에 따라 결정되어야 한다. 실시간 모니터링과 신속한 의사결정이 요구되는 환경에서는 KNN을, 높은 예측 정확도가 중요한 상황에서는 XGBoost를 활용하는 것이 적절하다. 본 연구는 머신러닝 기반 예지정비 시스템 구축을 위한 실무적 지침을 제공하며, 산업 현장에서의 효과적인 유지보수 전략 수립에 기여할 것으로 기대된다.

사 사

본 과제(결과물)는 2025년도 교육부 및 전라남도의 재원으로 전라남도 RISE 센터의 지원을 받아 수행된 지역혁신중심 대학지원체계(RISE)의 결과입니다. (2025-RISE-14-002)

Figure

Fig. 1.

Numeric features histogram.

Fig. 2.

Loadings magnitude.

Fig. 3.

Data in 3D PCA space.

Fig. 4.

Classification metrics.

Fig. 5.

Confusion Matrices.

Fig. 6.

Permutation Feature Importance on binary task.

Fig. 7.

Confusion Matrices.

Fig. 8.

Permutation Feature Importance on multi-class task.

Table

Table 1.

Dataset Description

^*Machine failure: TWF(Tool Wear Failure), HDF(Heat Dissipation Failure), PWF(Power Failure), OSF(Overstrain Failure), RNF(Random Failure)

Data	Description
UID	Unique identifier ranges from 1 to 10000
Type [L/M/H]	Quality variants consist of a Low, Medium, or High product
Air Temperature [K]	Created through a random walk process and then standardized to have a standard deviation of 2 K centered around 300 K.
Process Temperature [K]	Created through a random walk process and then standardized to have a standard deviation of 1 K and increased the air temperature plus 10 K.
Rotational Speed [RPM]	Derived from a power of 2860 W and combined with normally distributed noise.
Torque [Nm]	Normal distribution around 40 Nm with a standard deviation of 10 Nm and with no negative values.
Tool Wear [min]	Quality levels, H/M/L, contribute 5/3/2 minutes of tool wear to the utilized tool during the process.
Machine Failure*	Label that shows whether the machine has breakdown or not.

Table 2.

Test scores on binary task

Test scores	KNN	SVC	RFC	XGB
ACC	0.966	0.973	0.972	0.983
AUC	0.954	0.992	0.997	0.998
F1	0.916	0.934	0.931	0.958
F2	0.927	0.941	0.945	0.956

Table 3.

Test scores on multi-class task

Test scores	KNN	SVC	RFC	XGB
ACC	0.966	0.973	0.972	0.989
AUC	0.956	0.995	0.997	0.999
F1	0.966	0.973	0.972	0.989
F2	0.966	0.973	0.972	0.989

Reference

Bokrantz, J., A. Skoogh, C. Berlin, T. Wuest, and J. Stahre ( 2020), Smart Maintenance: an empirically grounded conceptualization, Int. J. Prod. Econ. Vol. 223.
Li, X., Y. Ran, H. Yu, Y. Chen, and G. Zhang ( 2021), Maintenance decision of meta-action unit based on Grey-BWM, IOP Conf. Ser. Mater. Sci. Eng. Vol. 1043(3).
Errandonea, I., S. Beltr´an, and S. Arrizabalaga ( 2020), Digital Twin for maintenance: a literature review, Comput. Ind. Vol. 123.
Tiddens, W., J. Braaksma, and T. Tinga ( 2022), Exploring predictive maintenance applications in industry, J. Qual. Maint. Eng. Vol. 28(1), pp. 68-85,
Tinga, T. ( 2013), Principles of loads and failure mechanisms; Applications in maintenance, reliability and design.
Bateman, J. F. ( 1995), Preventive maintenance: stand alone manufacturing compared with cellular manufacturing, Ind. Manag. Vol. 37.
Roberto, C., C. Lima, J. Carlos, and M. Vital ( 2020), Total Productive Maintenance and the Impact of Each Implemented Pillar in the Overall Equipment Effectiveness, Artic, Int. J. Eng. Manag. Res. pp. 142-150.
Bevilacqua, M. and M. Braglia ( 2000), The analytic hierarchy process applied to maintenance strategy selection, Reliab. Eng. Syst. Saf. Vol. 70(1), pp. 71-83
Pelley, S. ( 2023), Geoffrey Hinton on the promise, risks of artificial intelligence | 60 Minutes - CBS News.
AI4I 2020 Predictive Maintenance Dataset (2020), UC Irvine Machine Learning Repository, https://archive.ics.uci.edu
Bergstra, J. and Y. Bengio ( 2012), Random Search for Hyper-Parameter Optimization, Journal of Machine Learning Research 13, pp. 281-305.
Daniel, M. B. and D H Manjaiah ( 2021), Grid search in hyperparameter optimization of machine learning models for prediction of HIV/AIDS test results,International Journal of Computers and Applications, Vol. 44(1), pp. 1-12.
Doaa, E. S., T. Ahmed, and A. Mohamed ( 2024), Machine learning and deep learning models based grid search cross validation for short-term solar irradiance forecasting, Vol. 11, 134.
Xu, L., G. Zhao, and H. Gu ( 2009), Novel one-vs-rest classifier based on SVM and multi-spheres, Journal of Zhejiang University, Engineering Science Edition 43(2).
Belete, D. M. and D. H. Manjaiah ( 2022), Grid search in hyperparameter optimization of machine learning models for prediction of HIV/AIDS test results, International Journal of Computers and Applications, Vol. 44. pp. 875-886.