1. 서 론
현대 해양 산업은 기술의 발전과 함께 급격한 변화를 겪 고 있다. 이 중에서도 스마트 항만 시스템과 자율운항 시스 템은 주요한 발전 분야로 부상하고 있다. 스마트 항만 시스 템은 항만 기술 분야에서 미래 항만의 첨단화, 청정화, 고도 화를 위해 무인 자동화, 고생산성화, 그린화 등을 적용한 첨 단 항만을 지향한다(Choe, 2012). 자율운항 시스템은 수면 상 에서 사람의 개입을 최소화하거나 없이 운항하는 선박 및 그 인프라를 의미하며, 지능항해 시스템과 기관 자동화 시 스템 등이 그 핵심 구성요소이다(Kim and Jang, 2019).
이러한 시스템에서 필요한 다양한 정보를 수집하고 관리 하기 위해서는 공통 플랫폼 기술이 필수적이며, 선박의 안 전 운항을 위해선 항해 통신장비, 엔진, 기관 등으로부터 데 이터를 수집하고 분석하는 기술이 중요하다(Jeong et al., 2018). 이러한 발전 과정에서 핵심 역할을 하는 것이 데이터 분석 기법이며, 스마트 항만 시스템과 자율운항 시스템에는 블록체인, 사이버 보안, 해상 교통 분석 등에 데이터 분석이 활용되고 있다(Lee, 2020;Hwang et al., 2022).
이러한 발전 흐름을 따라가며 데이터 분석의 한 영역인 자연어 처리 기법을 활용하고자 한다. 자연어 처리는 사람 의 언어를 기계 언어로 분석하여 컴퓨터가 읽고 작동할 수 있는 형태로 만들거나, 그 반대로 기계 언어를 인간이 이해 할 수 있는 자연어로 표현하는 기법이다(Hyun et al., 2020;Jeong and Kim, 2016;Lee, 2018). 이미 항공 분야와 재난 안전 분야에서 자연어 처리 기법이 활용되고 있으며(Kim and Lee, 2023, Lee et al., 2015;Kwon et al., 2020), 이 기술을 선박 운항 분야에서의 해양 사고 관련 문서 분석에 적용하면 정확한 텍스트 기반 정보를 도출할 수 있으므로(Noh and Kang, 2021;Weihong et al., 2021) 사고 예방에 기여할 것으로 기대한다.
이를 목적으로 해양 사고 관련 문서 중 본 연구에서는 중앙해양안전심판원의 재결서를 분석하여 선박 사고에 영 향을 주는 요인을 식별하고자 하였다. 중앙해양안전심판원 은 선박충돌사고 원인의 제공비율 정도를 밝혀 해양사고의 재발방지를 목적으로 1999년 2월 ‘선박충돌사고 원인제공 비율 산정제도’를 마련하였으며, 2007년 1월 원인제공비율 산정지침을 제정하여 시행해 오고 있다. 하지만 해양사고 에 2인 이상이 관련되어 있고, 원인 제공 비율을 밝혀달라 는 해양사고 관련자의 요청이 있을 시 양 선박의 비율을 밝혀주며(Park, 2015) 비율에 표시에 있어서 객관적인 기준과 정량성 및 전문성의 확보가 필요하다는 지적이 있다(Kim, and Hong, 2012;Park, 2016).
따라서 본 연구에서는 자연어 처리 기법을 활용하여 재결 서를 분석하고, 선박 충돌사고의 원인 제공 비율을 학습하 게 한 후 새로운 재결서 입력 시 결과 비율을 예측하는 모델 을 개발하고자 하였다. 본 연구는 이러한 목적을 위해 제작 한 모델의 정확도를 분석하고, 모델의 실무 적용 가능성을 검토함과 동시에 충돌사고 재발방지 및 해양사고 당사자들 의 분쟁 해결에 기여할 것으로 기대한다.
2. 연구의 방법
선박 충돌사고의 원인 제공 비율을 예측하는 모델 개발을 위해 충돌사고 재결서의 텍스트를 추출하여 원인 제공 비율 의 영향을 주는 핵심 키워드를 도출한 후 가중치 부과를 통 해 양 선박의 과실 비율을 계산하였다. 예측모델의 원인제 공비율 분석과정은 Fig. 1과 같다.
2.1 재결서 데이터 수집 및 전처리
데이터는 해양안전심판원의 2014년부터 2021년까지 8년 간 충돌사고 재결서를 수집하였다. Table 1은 수집된 데이터 현황을 보여준다.
데이터 추출범위는 재결서 “원인” 목차만 추출하여 자연 어 처리 기법을 사용하여 전처리하였다. 자연어 처리 기법 (Natural Language Processing)이란, 인간이 발화하는 언어 현상 을 기계적으로 분석하여 컴퓨터가 이해 가능한 형태로 만들 거나 그러한 형태를 다시 인간이 이해할 수 있는 언어로 표 현한 기법으로(Lee et al., 2023) 자연어 처리 과정은 Fig. 2와 같이 4단계로 이루어진다.
형태소 분석은 자연어 처리를 위한 첫 단계로, 의미를 가 진 최소 단위로 구분한다. 세부 품사 구분 단계에서는 분류 한 형태소에 대해 각각 단어의 품사가 무엇인지 결정하는 과정을 거친다. 구문 분석은 품사 태깅이 완료된 문장에 대 해 구문 구조를 적용하는 단계로써, 문법에 맞게 단어들을 배치한다. 의미 분석은 구문 분석 단계에서 구조화된 문장 을 인식하는 단계로, 의미상 어색한 문장이나 구문의 제거, 생략 단어 추정 등 의미 파악을 통해 처음 입력된 문장을 온 전히 인식한다(Lee at al., 2015).
이러한 자연어 처리 기법은 재결서의 텍스트 데이터 중 유의미한 단어만을 추출하여 분석하기에 적합하였다. 재결 서에서 추출한 텍스트를 정제하여 모델이 이해하기 쉬운 형 태로 가공하고, 영문, 한자, 그리고 숫자를 제거함으로써 명 확한 항법 내용을 유지하며, 불필요한 요소들을 배제하여 데이터의 일관성을 확보하였다.
2.2 적용 항법의 결정
데이터의 추출범위는 재결서의 목차 중 원인 제공 비율의 결정을 위해 충돌 사고 당시 적용 항법이 명시되어 있는 “원 인” 부분을 특정하였으며, 연구에서는 적용 항법을 중앙해 양안전심판원의 해양사고심판사례집에서 충돌사고를 분류 한 항법으로 선택하였으며, 그 중 해양수산부의 선박 충돌 원인제공 산정기준에 제시된 항법인 좁은 수로에서의 항법, 통항분리 수역, 정면 상태, 횡단상태, 추월 상태, 선박 간의 책임, 제한 시계로 지정하였다.
모델이 입력된 재결서 데이터에 따라 사고 당시 항법을 결정하기 위해 항법과 관련된 키워드를 기반으로 텍스트를 분류하였다. 항법별 분류된 키워드는 해당 항법과 관련된 법률 용어, 판례 등을 고려한 주요 단어로, 추출된 재결서 데이터에서 지정한 항법과 일치하지 않게 표현된 용어 중에 서 가장 빈번하게 등장한 단어들을 기준으로 선정하였다. 이를 기반으로, 적용 항법은 주요 키워드가 추출된 재결서 의 ‘원인’에 포함되어 있는지 여부로 결정하였다. Table 2는 주요 항법 및 발췌된 키워드를 보여준다.
2.3 핵심 키워드 도출 및 가중치 부과
각 재결서의 원인 제공 비율에 영향을 미치는 핵심 키워 드를 추출하기 위해 재결서의 “원인”, “판시사항”의 내용을 추출하고, 이를 의미를 가진 최소 단위로 구분하였다. 도출 된 단위가 결합한 형태를 N-gram이라 하며, N-gram화를 통해 핵심 키워드를 생성하였다. 아래 Fig. 3은 Bi-gram과 Tri-gram 으로 생성된 핵심 키워드의 예시를 보여주며, 여기에 각 키워드의 가중치를 부과하기 위해 회귀분석기법을 사용하 였다.
2.4 원인 제공 비율 계산
해양안전심판원의 적용 항법에 따른 원인 제공 비율 기준 과 비율 산정 관련 핵심 키워드의` 가중치를 종합하여 각 선 박의 최종 원인 제공 비율을 도출하였다. 원인 제공 비율의 계산식은 다음과 같다.
Ratio는 모델 1로 결정된 원인 제공 비율, V가 특정 선박 의 재결서 데이터라고 할 때 원인 제공 핵심 키워드의 가중 치(trained Model.predicFcn)를 포함한 원인 제공 비율(R)의 계 산은 식(1)과 같다. 재결서의 두 선박을 a, b 선박이라고 할 때, 위 식으로 계산한 원인 제공 비율을 아래 식(2)와 같이 백분율로 변환하면 a 선박의 최종 원인 제공 비율(FinalRa)이 도출된다.
3. 연구의 결과 및 논의
3.1 적용 항법의 결정
2014년에서 2021년까지의 재결서 중 충돌사고는 459개이 며, 각 재결서의 충돌 사고 당시 적용 항법을 결정할 수 있 는 핵심 내용이 담긴 “원인” 부분만을 특정하여 추출하였다. 추출된 단어 중 영문, 한자 및 숫자를 제거하여 데이터의 일 관성이 확보되도록 처리하였다. 추출된 재결서 데이터는 대 부분 ‘이 충돌사건은’으로 시작하며, 사고 당시 시계와 해당 선박 간 항법 상황에 대해 설명하는 문장의 형태로 구성되 어 있었다. 데이터 내에서 각 재결서가 좁은 수로에서의 항 법, 통항분리 수역, 정면 상태, 횡단상태, 추월 상태, 선박 간 의 책임, 제한 시계의 주요 키워드를 포함하는지 여부를 확 인하여 적용되는 항법을 결정하였다. Table 3은 재결서의 결 정된 항법의 일부를 보여준다.
재결서의 결정된 항법은 횡단상태가 40%로 가장 많은 비 율을 차지하였고, 선박 간의 책임이 32%, 제한시계가 18%를 차지하였다. 다음으로 정면 상태와 추월 상태가 4%, 좁은 수 로가 2%, 통항분리 수역이 1%를 차지하였다. 이는 Fig. 4와 같이 표현된다.
3.2 핵심 키워드 도출 및 가중치 부과
충돌사고의 원인 제공 비율에 영향을 주는 핵심 키워드를 도출하기 위해 재결서의 ‘원인’과 ‘판시사항’ 부분을 특정하 여 추출하여 의미를 가진 최소 단위로 구분하였고, 이를 N-gram화하였다. Fig. 5는 충돌 사고의 원인 제공 비율에 영 향을 주는 핵심 표현으로 추출된 키워드별 빈도를 시각적으 로 보여준다. 키워드의 빈도가 높을수록 워드 클라우드에서 크게 표현이 되며, ‘경계 소홀히 하다’가 49회로 가장 빈도수 가 높게 나타났다. 이는 충돌사고의 원인 중 경계를 소홀히 하지 않은 원인이 가장 많은 비율로 발생하였음을 의미한다.
추출된 Tri-gram들을 회귀분석을 통해 재결서 별로 명시된 양 선박의 원인 제공 비율의 결과와 대응시켜 각각의 Tri-gram들이 비율 산출에 미치는 가중치를 학습하였다.
Fig. 6은 회귀분석을 통한 기계학습 결과의 일부를 보여준 다. 추출된 Tri-gram 중 518번째 키워드는 F518로 ‘소홀히 레 이더 관측’이고, 979번째 키워드는 F979로‘저인망 조업 하다’ 이었는데, 모델에 입력된 재결서에 해당 키워드가 포함되면 기계학습의 결과와 같이 원인 제공 비율에 F518은 +7, F979 은 -7.5가 적용되어 계산됨을 확인하였다.
3.3 원인 제공 비율 계산
모델이 학습한 재결서 중 임의로 부산해심의 제 2013-006 호 재결서를 지정해 적용 항법에 따른 원인 제공 비율을 계 산하였다. Fig. 7은 재결서에서 명시한 양 선박의 원인 제공 비율을 보여주며, 제 307 상진호의 선박의 원인 제공 비율이 65%, 보우메이트 선박을 35%로 재결하였다.
개발한 예측 모델이 예측한 결과값은 Table 4과 같이 제 307 상진호가 약 64%, 보우메이트호가 약 36%로 재결서와 1%의 오차가 있음을 알 수 있다.
3.4 모델의 검증
제작한 모델의 정확도를 검증하기 위해 10 반복 교차 검 증(10-fold cross validation) 방법을 사용하였다. MATLAB을 통 한 회귀학습과정에서 데이터들을 전체 재결서의 90%인 413 개는 모델 학습용, 10%인 46개는 검증용 데이터 세트로 분 류하였으며 1~10까지 모든 세트에 대해 테스트 데이터를 바 꿔가며 검증하였다. 검증 결과 모델은 약 1~3%의 차이를 보 였음을 확인하였다.
이후 분석 및 검증하지 않은 2022년도의 새로운 재결서를 모델을 통해 계산하였다. Fig. 8은 목포해심 제 2022-022호 재 결서를 발췌한 것이며, 대진호의 원인 제공 비율이 70%, 대 명 11호가 30%로 재결되었다. Table 5는 원인 제공 비율 예 측 모델에 목포해심 제 2022-022호 재결서를 입력하여 계산 한 결과이다. 모델의 결과값은 대진호가 약 67%, 대명11호가 약 33%로 약 3%의 오차가 있음을 의미한다.
3.5 모델의 효용성
해양안전심판원의 충돌사건 재결에서 명시되는 윈인 제 공 비율은 해당 사고의 전반적인 상황을 고려하여 심판관이 결정하고 있으며 이러한 심판관의 직무권한에 관하여는 어 떠한 외적 요인도 개입할 수 없다. 따라서 본 연구에서 제시 한 모델은 이러한 심판관의 직무에 관한 개입의 개념일 수 는 없으며, 단지 보조의 개념으로 이해하여야 할 것이다.
또한, 인공지능(AI)의 학습정도와 판단 능력에 대하여 사 회구성원 모두가 수긍할 수 있는 객관적인 기준이 존재하기 전까지는 본 연구에서 제시한 모델은 심판관의 업무를 보조 할 수 있는 방안의 하나로 받아들여져야 할 것으로 보인다. 그리고 이러한 데이터가 장기적으로 축적되면 선박 충돌 사 고의 원인이 되는 선박 내적 요인 및 외적 요인의 식별에 기 여할 수 있다는 것이며, 이는 선박 충돌사고의 방지에 크게 기여할 수 있을 것이다.
4. 결 론
스마트 항만 시스템과 자율운항 시스템이 현대 해양 산업 에서 주목받는 발전 분야로 떠오르고 있는 가운데, 데이터 분석 기술의 중요성이 강조되고 있다. 이에 따라 다양한 기 법들이 활용되고 있었으며, 특히 이러한 스마트 기술 중 자 연어 처리 기법의 활용에 집중하고자 하였다. 연구 목표는 이러한 기법을 활용하여 선박 충돌 사고의 원인 제공 비율 을 예측하는 모델을 개발하는 것이었다.
구체적인 연구 내용은, 2014년부터 2021년까지의 충돌 사 고 재결서 데이터를 수집하고, 각 재결서에서 사고 당시의 항법을 결정하고 관련 핵심 키워드를 추출하여 이를 통해 원 인 제공 비율에 영향을 미치는 키워드와 가중치를 도출하였 다. 이를 기반으로 모델은 적용 항법과 핵심 키워드의 가중 치를 이용하여 사고의 원인 제공 비율을 계산하였다. 연구에 서는 모델에서의 적용 항법을 국제 해상 충돌 예방 규칙에서 정의된 7개의 항법으로 제한하여 계산을 수행하였다.
본 연구의 한계점으로는, 충돌 사고에 한정된 내용을 다 뤘기 때문에, 좌초, 전복, 침몰, 화재 등과 같은 다양한 사고 유형에 대한 재결서의 자연어 분석에 대한 추가적인 연구가 필요하다는 점이 있다. 이러한 다양한 사고 유형은 선박 관 련 사고 중에서도 각기 다른 상황을 다루고 있으며, 따라서 각 사고 유형에 특화된 모델이 필요할 것으로 예상된다.
본 연구의 후속 연구 방향으로는 모델의 정교성을 향상하 기 위해 더 많은 데이터 수집과 다양한 변수 고려를 통한 심 화 연구를 진행할 예정이다. 또한, 재결서의 문장 구조나 언 어적 특성을 고려하여 모델을 개선하고, 결과의 보완을 위 해 재결서의 원인 비율과 자연어 분석 결과의 차이를 고려 하는 방향으로 발전시킬 것이다. 이를 통해 제작한 모델의 성능 향상과 모델의 실무 적용 가능성을 높여 나갈 수 있을 것이다.
본 연구에서 제시한 모델을 활용한 충돌사고의 원인 제공 비율 산정에서는 실제로 심판관들이 사고의 모든 상황을 고 려하여 산정한 원인 제공 비율과 약 1~3%의 근소한 차이를 보였다. 이는 이 모델에서 산정하는 원인 제공 비율이 유의 미한 가치를 가진다는 것을 증명하고 있다고 판단된다.
심판관의 직무권한에 관하여는 어떠한 외적 요인도 개입 할 수 없으므로, 본 연구에서 제시한 모델은 심판관의 업무 를 보조할 수 있는 방안의 하나로 받아들여져야 할 것이지 만, 이러한 데이터가 장기적으로 축적되면 선박 충돌 사고 의 원인이 되는 선박의 내적 요인 및 외적 요인의 식별에 기 여할 수 있을 것이며, 이는 선박 충돌사고의 방지에 크게 기 여할 수 있을 것이다.