Journal Search Engine
Search Advanced Search Adode Reader(link)
Download PDF Export Citaion korean bibliography PMC previewer
ISSN : 1229-3431(Print)
ISSN : 2287-3341(Online)
Journal of the Korean Society of Marine Environment and Safety Vol.30 No.5 pp.415-425
DOI : https://doi.org/10.7837/kosomes.2024.30.5.415

Study on Navigation Data Preprocessing Technology for Efficient Route Clustering

Dae-Han Lee*
*PhD Candidate, Graduate School of Mokpo National Maritime University, Mokpo 58628, Korea
Corresponding Author : ydhan@mmu.ac.kr, 061-240-7054
June 28, 2024 August 5, 2024 August 29, 2024

Abstract


The global maritime industry is developing rapidly owing to the emergence of autonomous ship technology, and interest in utilizing artificial intelligence derived from marine data is increasing. Among the diverse technological developments, ship-route clustering is emerging as an important technology for the commercialization of autonomous ships. Through route clustering, ship-route patterns are extracted from the sea to obtain the fastest and safest route and serve as a basis for the development of a collision-prevention system. High-quality, well-processed data are essential in ensuring the accuracy and efficiency of route-clustering algorithms. In this study, among the various route-clustering methods, we focus on the ship-route-similarity-based clustering method, which can accurately reflect the actual shape and characteristics of a route. To maximize the efficiency of this method, we attempt to formulate an optimal combination of data-preprocessing technologies. Specifically, we combine four methods of measuring similarity between ship routes and three dimensionality-reducing methods. We perform k-means cluster analysis for each combination and then quantitatively evaluate the results using the silhouette index to obtain the best-performing preprocessing combination. This study extends beyond merely identifying the optimal preprocessing technique and emphasizes the importance of extracting meaningful information from a wide range of ocean data. Additionally, this study can be used as a reference for effectively responding to the digital transformation of the maritime and shipping industry in the Fourth Industrial Revolution era.



효율적인 항로 군집화를 위한 항해 데이터 전처리 기술에 관한 연구

이대한*
*국립목포해양대학교 해상운송시스템학과 박사과정

초록


세계 해양산업은 자율운항선박 기술의 등장으로 급속도로 발전하고 있으며, 해양 데이터에서 파생된 인공지능 활용에 관한 관심이 높아지고 있다. 다양한 기술 발전 중에서 선박 항로 군집화는 자율운항선박 상용화를 위한 중요한 기술로 부각되고 있다. 항로 군집화를 통해 해상에서 선박 항로 패턴을 추출하여 가장 빠르고 안전한 항로를 최적화하고 충돌 방지 시스템의 개발에 기반이 된다. 항로 군집화 알고리즘의 정확성과 효율성을 보장하기 위해 고품질의 잘 처리된 데이터가 필수적이다. 본 연구에서는 다양한 항로 군집화 방법 중 항로의 실제 형태와 특성을 정확히 반영할 수 있는 선박 항로 유사도 기반 군집화 방식에 주목하였다. 이러한 방식의 효율을 극대화하기 위해 최적의 데이터 전처리 기술 조합을 구성하고자 한다. 구체적으로, 4가지의 선박 항로 간 유사도 측정법과 3가지의 차원 축소 방법을 조합하여 연구를 진행하였다. 각 조합에 대해 k-means 군집 분석을 수행하고, 그 결과를 Silhouette Index를 통해 정량적으로 평가하여 최고 성능을 보이는 전처리 기법 조합을 도출하였다. 본 연구는 단순히 최적의 전처리 기법을 찾는 것에 그치지 않고, 광범위한 해양 데이터에서 의미 있는 정보를 추출하는 과정의 중요성을 강조한다. 이는 4차 산업혁명 시대의 해양 및 해운 산업이 직면한 디지털 전환에 효과적으로 대응하기 위한 기초 연구로서 의의를 갖는다.



    1. 서 론

    4차 산업혁명 기술의 발전과 고도화는 해양·해운 분야에서도 디지털 전환을 가속화하고 있다. 정보통신기술(Information & Communication Technology, ICT)을 기반으로 한 디지털화와 첨단화는 블록체인을 포함한 다양한 기술을 활용하여 해운 선사들이 화물 운송의 가시성을 높이고, 서류 작업을 디지털화하여 파트너와 공유함으로써 공급사슬 내 오류를 방지하고 운송 및 환적 시간을 최적화하는 방식으로 발전하고 있다(Balkan, 2020).

    디지털 전환과 자동화로 특징지어지는 4차 산업혁명의 도래는 특히 자율운항선박(Maritime Autonomous Surface Ship, MASS)의 개발과 통합을 통해 해상운송 분야에 큰 변화를 가져올 것으로 예상된다(Askari and Hossain, 2022). 이러한 변화는 업계의 효율성, 안전성 및 지속 가능성을 향상시키는 것을 목표로 선박 설계, 운영 및 인력 배치에 혁명을 일으킬 것으로 예상된다(Hahbakhsh et al., 2022).

    인공지능(Artificial Intelligence, AI), 사물 인터넷(Internet of Things, IoT), 로봇 공학(Robot Engineering)과 같은 첨단 기술을 활용하는 자율운항선박은 안전 오류 감소, 경로 계획의 최적화, 운영 비용 절감을 기대하게 한다.

    국제해사기구(International Maritime Organization, IMO)는 Table 1과 같이 정의하고 있으며, 2030년까지 완전 무인 자율 운항선박 상용화를 목표로 하고 있으며, 자율운항선박 관련 다양한 산업들이 융합하여 새로운 해양 산업 생태계가 구축될 것으로 예상하고 있다(IMO, 2018).

    해양·해운 분야의 4차 산업혁명으로 가는 새로운 장에서 다양한 출처의 해사 빅데이터는 해운, 항만, 선박 운항, 물류 등 해양 운영의 모든 측면을 포괄하며, 매일 생성되는 수억 개의 데이터를 활용하여 의사 결정을 강화하고, 유지 관리 및 운영 요구 사항을 예측하며, 전반적인 효율성과 지속 가능성을 향상시킬 수 있는 중요한 요소이다(Bui and Nguyen, 2021).

    수억 개의 데이터를 활용하기 위해서는 데이터 전처리 과정이 매우 중요하다. 데이터 전처리는 데이터 마이닝 과정과 기계 학습 모델 개발에서 중요한 역할을 한다. 데이터를 정리, 변환, 통합 및 축소하여 품질을 향상시키고, 정확하고 효과적인 분석 결과를 얻기 위한 필수 단계이다. 누락된 값, 노이즈(Noise), 관련 없는 데이터 등의 문제를 해결함으로써 데이터가 분석에 더욱 적합해지며, 더욱 신뢰할 수 있고 통찰력 있는 결과를 얻는 데 기여한다(Fan et al., 2021).

    해사 빅데이터는 선박 운항 중에 수집되는 광범위한 항해 및 운영 데이터를 포괄한다. 이 데이터 범주에는 주로 선박 항해의 안전과 효율성을 보장하는 데 중요하고 다양한 유형의 항해 데이터가 포함된다. 주요 항해 데이터는 항해사들의 결정에 도움을 주는 항해 장비로부터 얻을 수 있는 방대한 데이터가 존재한다.

    해상의 물체를 감지하고 가시성이 좋지 않은 조건에서 충돌 회피 및 탐색을 위한 중요한 정보를 제공하는 RADAR, 자동으로 표적을 추적하고 항로와 속도를 계산하여 RADAR 기능을 향상해 안전한 탐색에 도움을 주는 ARPA, 정확한 위치 데이터를 제공하여 항로 계획 및 모니터링을 쉽게 돕는 GPS 등 많은 항해 장비들이 있다.

    특히, 인근 선박 및 해안 당국과 선박의 중요한 정보를 자동으로 교환하는 AIS의 데이터를 활용하는 연구들이 활발하게 이루어지고 있다(Svanberg et al., 2019).

    처음부터 연구 목적으로 개발된 장비는 아니지만 광범위 한 선박의 이동 추적이 가능하고, 선박의 주요 정보를 포함하고 있어 선박 운항의 통계, 패턴, 예측 등의 연구를 통해 해양 안전 및 보안 그리고 환경 보호 등에 기여하고 있다 (Emmens et al., 2021).

    본 연구에서는 AIS의 방대한 데이터를 활용하여 선박 운항의 패턴 및 예측을 위한 선박 항로 군집화 연구 및 기술에서 데이터 전처리 단계의 중요성과 결과의 유효성 및 신뢰성 향상에 더해 분석 속도를 향상하는 방안을 제시한다.

    2. 선행연구

    2.1 데이터 전처리의 중요성

    데이터 전처리는 데이터 분석의 중요한 초기 단계이며, 특히 AI 및 데이터 과학과 같은 분야에서 강조된다. 입력 데이터의 품질은 분석 결과의 품질에 직접적인 영향을 미치므로 데이터 세트의 특정 요구와 특성에 맞는 의미 있고 정확한 통찰력을 도출하려면 적절한 데이터 전처리가 필수 적이다.

    데이터 전처리의 중요성은 기계학습 모델의 성능 향상과 데이터 분석의 정확성 향상으로까지 확장된다. 데이터의 고유한 속성과 목적을 고려하여 데이터 수집 및 전처리에 대한 신중한 계획과 실행이 필요하다. García et al.(2016)은 데이터 전처리가 데이터 마이닝 알고리즘에 올바르고 유용한 데이터 세트를 제공하는 중요한 단계임을 강조한다. 결측치 대체, 노이즈 필터링, 차원 축소 등을 포함한 다양한 전처리 기법을 소개한다. Fan et al.(2021)은 데이터 전처리가 건물 운영 데이터 분석의 기초로서 결측치 대체 및 이상치 탐지와 같은 기법을 포함한다고 설명한다. Obinwanne et al.(2023)은 공급망 관리(Supply Chain Management, SCM) 분야에서 데이터 전처리의 중요성을 다루며, 데이터 변환과 데이터 통합에 대한 추가 연구 필요성을 언급하였다.

    Durlik et al.(2023)은 해양 IoT 애플리케이션에서 데이터 분석의 잠재력을 강조하고 해양 운영 개선을 위한 실제 사례 연구를 활용하는 데 데이터 전처리의 중요성을 강조하였다. Liu et al.(2023)은 데이터 마이닝 방법을 통해 해상 교통 네트워크를 추출하기 위한 프레임워크를 개발한 연구에서 항해 효율성과 안전을 위한 전처리의 필요성이 강조되었다. Karagiannidis and Themelis(2021)은 선박 추진을 위한 데이터 기반 모델에 대한 연구에서는 선박 연료 소비 및 속도 손실 예측에 대한 데이터 전처리 기술의 큰 영향을 강조하고, 분석 정확도에서 전처리의 중요성을 보여주었다. Velasco and Lazakis(2022)는 스마트 유지 관리 연구를 향한 해운 업계의 움직임은 해양 시스템 센서 데이터에 대한 데이터 전처리의 중요한 측면을 지적하며 스마트 유지 관리에서 기본 역할을 제안했다.

    데이터 전처리의 과정은 연구자마다 의견이 다르지만 크게 다음의 4가지를 공통으로 다루고 있으며 세부 하위 내용은 견해 차이가 있다.

    • 데이터 정리 : 누락된 값 채우기, 노이즈 제거, 이상값 식별 및 제거

    • 데이터 통합 : 여러 소스의 데이터 결합, 스키마 통합

    • 데이터 변환 : 수치 데이터 집계, 일반화, 정규화, 속성 구성

    • 데이터 축소 : 차원 축소, 데이터 크기 축소, 분류 또는 분할

    본 연구에서는 데이터 세트의 데이터 전처리 과정 중 연구에서 제안하는 데이터 변환과 축소 과정을 통해 선박 항로 군집화의 결과를 향상하는 방안을 제시한다.

    2.2 데이터 변환

    데이터 변환은 다양한 분야에서 데이터 분석과 모델링의 정확성과 효율성을 높이는 데 중추적인 역할을 한다. 이 과정에서는 데이터를 한 형식에서 다른 형식으로 변환하고, 특정 분석 도구 또는 데이터베이스에 대한 호환성과 유용성을 보장하며 궁극적으로 더욱 효과적인 의사 결정과 예측을 촉진하는 작업이 포함된다.

    선박 항로 군집화를 위한 데이터 변환 과정에서는 선박 항로 간의 유사도를 측정하는 기법을 활용하여 데이터를 변환한다. 선박 항로 간 유사도를 측정하는 방법으로는 거리 기반, 각도 기반 등 다양한 방법이 있다.

    Atev et al.(2010)은 차량 경로를 군집화하는 새로운 방법으로 두 가지 스펙트럼 군집화 방법의 아이디어를 결합하고 Hausdorff distance 측정법으로 경로의 유사도 측정에 활용하였다. Huang et al.(2021)은 그래프 간의 유사도를 측정하는 방법으로 Neighborhood Information Aggregation(NIA)에만 의존하지 않고 경로 기반 방법에 중점을 두어 그래프 특징 추출에 Wasserstein Distance를 사용하였다. Morris and Trivedi(2009) 은 경로 패턴을 이해하기 위해 다양한 유사도 측정 및 군집화 방법론을 평가했다. Dynamic Time Warping(DTW) 경로 군집화에서 좋은 결과를 보였다고 주장했다. Vlachos et al.(2002) 는 2차원 또는 3차원 공간에서 Longest Common Subsequence (LCSS)를 기반으로 비계량적 유사도 함수의 형식화를 통해 경로를 분석하고 검색하는 방법을 제시한다.

    데이터 변환 과정은 위의 연구에서 활용한 거리 기반 경로 유사도 측정 방법으로 비교 분석하였다.

    2.2.1 Modified Hausdorff Distance(MODH)

    Hausdorff distance는 크기가 같지 않은 두 집합을 비교할 때 일반적으로 사용되지만, 순서를 고려하지 않기 때문에 경로를 비교할 때는 적합하지 않다. Modified Hausdorff Distance를 살펴보면 식(1)의 MMODH (Fi, Fj)는 점의 시간 순서를 고려하면서 이상값에 대한 민감도를 줄이도록 설계되었다(Atev et al., 2010).

    M M O D H ( F i , F j ) = N ( max ( h ( F i , F j ) , h ( F j , F i ) ) ) = or d f i , t F i α h ( f i , t , F j )
    (1)

    • Fi, Fj : 비교하고자 하는 두 항로, α : 상한값

    N ()은 지점의 값을 결정하는 데 사용되는 영역, C(fi,t) 는 Fi 내의 지점 fi,t에 해당하는 Fj내의 지점을 나타낸다. or d f i , t F i α h ( f i , t , F j ) Fi 내의 지점 fi,tFj 사이의 관계나 유사도를 측정하는 값이다. 식(2)의 α퍼센트보다 큰 모든 h 값 중에서 특정한 값 h(fi,t, Fj)을 의미한다.

    h ( f i , k , F j ) = min f j , τ N ( C ( f i , t ) ) d E ( f i , k , f j , τ )
    (2)
    • dE : 유클리디안 거리 함수

    fik번째 특징점과 fj의 모든 특징점 사이에서 유클리디안 거리를 계산하고 그 중 최소 거리를 가진 값을 선택한다.

    2.2.2 Wasserstein Distance(WSD)

    Wasserstein Distance는 두 확률 분포 간의 거리를 측정하는 방법이며, 두 분포가 얼마나 차이가 나는지를 식(3)과 같이 나타낸다(Vaserstein, 1969).

    W W D ( F i , F j ) = ( γ Π ( F i , F j ) E ( x , y ) γ [ d ( x , y ) ] )
    (3)

    • Fi, Fj : 비교하고자 하는 두 항로, γ : 결합 확률 분포

      E : γ에 따른 기대값

    (Fi, Fj)는 FiFj의 모든 가능한 결합 분포를 나타내며, d(x, y)는 xy사이의 거리를 측정한다. 이 거리는 두 분포 사이의 연관성을 측정하고, 그 기댓값이 가장 작을 때의 거리를 찾는다.

    2.2.3 Dynamic Time Warping(DTW)

    경로 간의 거리 측정에는 관측 간격이 유동적이기 때문에 일반적으로 발생하지 않는 고정 길이의 경로가 필요하다. DTW는 일치하는 지점 사이의 총 거리를 최소화하는 시간 왜곡(Time warping)을 찾아 길이가 같지 않은 신호를 비교하는 데 사용되며 식(4)와 같이 나타낸다(Berndt and Clifford, 1994).

    D D T W ( F i , F j ) = ( d D T W ( F i , F j ) + d D T W ( F i , F j ) ) 2
    (4)

    • Fi, Fj : 비교하고자 하는 두 항로

    식(5)에서 ϕiϕj은 정렬된 점 사이의 거리를 최소화하는 시간 왜곡 함수이고, mt은 경로 가중치 계수이며, Mϕ은 경로 정규화 팩터이다. 왜곡 경로 ϕ는 동적 프로그래밍을 사용하여 효율적으로 찾을 수 있다.

    d D T W ( F i , F j ) = 1 T i t = 1 T i d E ( ϕ i , t , ϕ j , t ) m t / M ϕ
    (5)

    • Ti : Fi의 길이, mt : 경로 가중치 계수

    • MΦ : 경로 정규화 팩터

    2.2.4 Longest Common Subsequence(LCSS)

    LCSS는 길이가 같지 않은 경로 데이터를 위한 또 다른 정렬 도구이지만, 모든 데이터 지점을 일치시킬 필요가 없으므로 DTW보다 노이즈와 이상값에 더 강하다. 지점과 지점 사이의 매핑이 제대로 일치하지 않는 지점의 경우를 무시하여 불공정한 편향을 방지할 수 있다. LCSS에서 제안한 거리는 다음 식(6)과 같이 정의된다(Bergroth et al, 2000).

    D L C S S ( F i , F j ) = 1 L C S S ( F i , F j ) min ( T i , T j )
    (6)

    • Fi, Fj : 비교하고자 하는 두 항로

    LCSS (Fi, Fj)값은 두 경로 사이의 일치하는 점의 수를 지정하다. {f1, f2, ⋯, ft}는 시간 t까지 경로 F 의 모든 벡터를 나타낸다.

    2.3 데이터 축소

    차원 축소는 고려 중인 무작위 변수의 수를 줄이는 것을 목표로 하는 데이터 과학 및 기계 학습에서 중요한 기술이다. 이 과정은 가능한 한 많은 중요한 정보를 유지하려고 노력하면서 고차원 공간의 데이터를 저차원 공간으로 변환한다. 차원 축소의 가장 중요한 목표는 중요한 정보를 손상시키지 않고 데이터를 단순화하여 더 쉽게 시각화, 분석 및 예측 모델링을 가능하게 하는 것이다. 이러한 단순화는 복잡 성과 계산 비용을 줄이는 데 도움이 되며, 다양한 특징 선택(Feature Selection) 및 특징 추출(Feature Extraction) 기술을 통해 데이터 분석 및 기계 학습 모델이 효율성을 향상시킨다.

    Salem and Hussein(2019)은 대규모 데이터 세트의 차원을 줄이기 위한 비지도 학습 기술인 Principal Component Analysis (PCA) 적용에 관해 설명한다. 기계 학습 및 지능형 시스템, 특히 다양한 실제 문제를 해결하기 위해 많은 양의 데이터를 처리할 수 있는 알고리즘 개발에서 PCA의 중요한 역할을 강조한다. Little et al.(2022)는 Classical Multi-Dimensional Scaling(CMDS)에 대한 포괄적인 분석과 이론적 프레임워크를 제공하면서 차원 축소 및 군집화에서 CMDS의 성능을 이해하는 데 중요한 이론적 기여를 제공하고 데이터 분석에 적용하기 위한 실용적인 지침을 제공했다. Van der Maaten and Hinton(2008)은 저차원 공간에서 고차원 데이터를 시각화하기 위해 설계된 비선형 차원 축소 기술이다. 고차원 데이터들 사이의 쌍별 거리를 확률화하고, 저차원 공간으로 임베딩 된 데이터들의 쌍별 거리 관계가 고차원에서와 같이 유지되도록 차원을 축소한다.

    2.3.1 Principal Component Analysis(PCA)

    PCA는 데이터 차원을 줄이기 위해 사용하는 다변량 통계 기법이다(Hotelling, 1933). 대량의 데이터를 쉽게 처리할 수 있을 뿐만 아니라 계산 속도 역시 향상시킨다. PCA의 기본 개념은 특정 상관관계가 있는 변수를 서로 상관관계가 없는 새로운 통합 변수 집합으로 재구성하는 것이다.

    변수가 k 개인 샘플이 n개 있다고 가정하면, n-by-k 데이터를 구성할 수 있으며 이를 행렬 X라 칭한다(Abdi and Williams, 2010).

    다음 식(7)로 데이터를 표준화한다. 이 과정은 각 특성의 평균을 0, 분산을 1로 만든다.

    KOSOMES-30-5-415_EQ7.gif
    (7)

    • x : 원본 데이터

    상관 행렬을 계산하고 모든 고유값 λj를 계산할 수 있다. 이후, 관련된 모든 고유 벡터 Ej 는 해당 고유값을 얻는다.

    식(8)로 Principal Component 수(α)를 결정한다. 이는 각 주 성분이 설명하는 분산의 비율을 계산한다.

    α i = λ i i = 1 k λ i
    (8)

    표준화된 행렬을 식(9)와 같이 Principal Component로 전환한다. aiji번째 주성분에 대한 j번째 특성의 가중치로, 고유 벡터의 요소이다. 이 전환을 통해 원본 데이터는 서로 상관관계가 없는 새로운 Principal Component로 표현된다.

    Z 1 = a 11 x 1 + a 12 x 2 + + a 1 k x k Z 2 = a 21 x 1 + a 22 x 2 + + a 2 k x k Z m = a m 1 x 1 + a m 2 x 2 + + a m k x k 1 m k
    (9)

    2.3.2 Classical Multi-Dimensional Scaling(CMDS)

    CMDS는 지도에서 측정된 거리와 같이 개체들의 거리를 바탕으로 한 유사도를 표현하는 행렬 형태의 데이터를 사용한다. 개체 간의 거리를 측정하기 위해 개체의 x, y 좌표에 대하여 유클리디안 거리(Euclidean Distance)를 사용하는데 적용 방식은 식(10)과 같이 정의된다(Wickelmaier, 2003).

    C a b = ( x a x b ) 2 + ( y a y b ) 2
    (10)

    xaya는 객체 a의 x와 y의 좌표, xbyb는 객체 b의 x 와 y 좌표이다.

    2.3.3 t-Stochastic Neighbor Embedding(t-SNE)

    t-SNE에서 유사도를 측정할 때, 유클리디안 거리 등의 일반적인 방식을 거리 계산에 사용하는 대신 다음 식(11) 및 식(12)와 같이 고차원(pj|i) 및 저차원(qj|i )을 조건부 확률로 유사도를 표현한다(Min, 2018).

    p j | i = exp ( x i x j 2 / 2 σ i 2 ) k i exp ( x i x k 2 / 2 σ i 2 )
    (11)

    q j | i = exp ( y i y j 2 ) k i exp ( y i y k 2 )
    (12)

    σixi를 중심으로 하는 가우시안 분포(Gaussian distribution)의 표준편차로 분석에 사용되는 데이터에 의해 결정된다. 고차원 데이터 xi에 대해서 pj|iqj|i를 유사하게 만드는 저차원 임베팅 yi를 찾기 위해서 두 분포 사이의 쿨백-라이블러(Kullback-Leibler divergence) 발산을 최소화한다.

    저차원과 고차원이 비슷할수록 0에 가까운 값을 가진다. 하지만 t-SNE은 비대칭적인 조건부 확률을 사용한다는 점과 고차원의 데이터를 저차원으로 임베딩할 경우 고차원에서 멀리 떨어진 데이터를 저차원에서는 구현하지 못하는 과밀 문제(Crowding Problem)를 갖고 있다.

    따라서, 이에 대한 대안으로 일부 수정한 최종적인 t-SNE 는 식(13) 및 식(14)와 같이 나타낼 수 있다.

    p i j = p j | i + p i | j 2
    (13)

    q i j = ( 1 + y i y j 2 ) 1 k l ( 1 + y i y l 2 ) 1
    (14)

    3. 성능 비교

    3.1 데이터 세트 준비

    선박 항로 군집화를 위한 데이터 전처리 과정 중 데이터 변환과 축소 방법 조합들의 성능 비교·분석을 위해 다음과 같이 데이터 세트를 준비하였다.

    선박 항로 데이터는 AIS에서 수신되는 경·위도 데이터를 사용하였으며 목포항을 중심으로 데이터를 수집하였다. 데이터 변환과 축소 과정 이전에 광범위하며 대량의 데이터를 정리하기 위해 연구 조사 대상 해역의 범위를 축소하고 잡음 및 이상치를 제거하였다. 선박식별번호별 데이터를 정리하면서 위치 데이터의 선형 보간법을 활용하여 결측값을 채웠다. 마지막으로 유사도 측정법의 공정한 비교, 계산 효율성 향상, 결과 해석의 용이성 등의 다양한 이점을 위해 선박 식별번호별 데이터의 수를 동일하게 만들면서(Dubuisson and Jain, 1994) 입·출항 선박이 산재되어 있어 방향성이 다른 데이터를 방향성 역시 동일하게 정리하였다.

    3.2 데이터 변환

    선박 항로 간의 거리 기반 유사도 측정 방법 4가지를 활용하여 776개의 선박 항로 데이터 세트를 변환하였다. 데이터 세트 변환 결과는 Table 2와 같다.

    3.3 데이터 축소

    데이터 변환 과정에서 선박 항로 간 유사도 측정 결과, 776 by 776의 데이터 세트로 변환되었다. 선박 항로 간 유사도를 군집 분석하기 위해 776 by 776 데이터 세트를 2 by 776 데이터 세트로 축소, 이를 위해 차원 축소 기법을 활용하였다. 3가지의 차원 축소 방법으로 2 by 776의 데이터를 산점도 그래프로 나타내면 Fig. 1과 같다.

    3.4 성능 비교

    군집화는 데이터를 유사한 특성을 가진 그룹으로 나누는 과정이다. 군집화 알고리즘은 다양하게 존재하지만, 데이터의 특성에 따라 군집의 개수를 사전에 결정하거나 군집화 결과를 비교하기 위해 군집화의 성능을 평가하는 방법이 필요하다.

    군집화 평가 방법에는 크게 내부 평가 지표와 외부 평가 지표로 나눌 수 있으며, 내부 평가 지표에는 Silhouette Index 와 Davies-Bouldin Index가 대표적이다. 외부 평가 지표에는 Rand Index 및 Mutual Information based measures 등이 있다.

    본 연구에서는 군집화 알고리즘에서 일반적으로 가장 잘 알려지고 사용되는 분할 기법인 k-means 군집 분석 기법(Macqueen, 1967)을 활용하여 군집 분석 결과를 Silhouette Index(Rousseeuw, 1987)로 평가하였다. k-means 군집 분석의 특징으로 군집의 수를 분석 전에 미리 설정해야 한다. 따라서 군집의 수를 점차 증가시켰을 때의 Silhouette score를 Fig. 2와 같이 비교하여 가장 높은 점수의 평가를 받은 데이터 전처리 조합과 군집의 수를 확인하였다.

    k-means 군집 분석 기법을 적용한 결과를 Silhouette Index로 군집 Table 3의 Silhouette Index 평가 결과, 선박 항로 간 유사도 측정 기법으로 Modified Hausdorff Distance로 데이터 변환 후 Principal Component Analysis로 차원 축소한 전처리 된 데이터를 k-means 군집 분석하였을 때, 군집 수가 6개로 설정 Silhouette 점수 0.92로 가장 높은 결과를 확인하였다.

    4. 결 론

    선박 항해 데이터는 수억 개의 메시지를 전 세계적으로 제공한다. 이 엄청난 양의 데이터의 잠재력은 분명하며 선박의 항해 안전과 해상 교통 관리에서 중요한 역할을 하고 있다. 또한 방대한 선박 항해 데이터는 해양 교통 효율성, 환경 평가, 무역 분석, 선박 교통 패턴 인식에 대한 데이터 마이닝 연구의 기반을 제공한다. 그중 선박 항로 군집화(Ship trajectory clustering)는 항적 분석 및 예측, 이상 탐지, 충돌 회피 등 많은 연구의 기초를 이루고 있다.

    이런 방대한 데이터를 활용하기 위한 중요한 초기 단계가 데이터 전처리이다. AI 및 데이터 과학과 같은 분야에서 분석을 위해 잘 처리된 고품질 데이터를 사용하는 것은 분석 결과의 품질에 직접적인 영향을 미치기에 매우 중요하다.

    기계학습 모델의 성능 향상과 데이터 분석의 정확성 향상을 위해 데이터의 고유한 속성과 목적을 고려하여 데이터 수집 및 전처리 과정을 신중하게 계획하고 실행해야 한다.

    본 연구에서는 AIS를 통해 수집된 선박 항로 데이터로 선박 항로 군집화의 정확성 향상 및 계산의 효율 강화를 위해 데이터 변환 과정으로 선박 항로 간 유사도를 데이터화하고 데이터 축소 과정으로 차원 축소하여 데이터를 처리 과정을 제안했다.

    가장 효율적인 데이터 변환 및 축소를 위한 선박 항로 간 유사도 측정 방법과 차원 축소 방법의 조합을 구성하여 비교하였다.

    선박 항로 간 유사도 측정 방법으로는 Modified Hausdorff Distance, Wasserstein Distance, Dynamic Time Warping, Longest Common Subsequence 측정법과 차원 축소 방법으로는 Principal Component Analysis, Classical Multi-Dimensional Scaling, t-Stochastic Neighbor Embedding 기법을 조합하여 총 12가지 조합을 비교하였다.

    비교 방법은 12가지 조합의 과정을 거친 데이터 세트를 k-means 군집 분석하였을 때 군집화 알고리즘의 효율성을 Silhouette Index 방법으로 평가한 점수로 분석하였다.

    그 결과, Modified Hausdorff Distance 측정법과 Principal Component Analysis 기법 조합의 Silhouette score 0.92로 가장 높은 평가를 확인하였다.

    본 연구에서는 복잡하고 긴 항로의 군집화에 적용 가능한 선박 항해 데이터 전처리 방법을 제시하고 항만의 특성에 따라 생성되는 관습적인 항로(Conventional Route)를 탐색할 수 있을 것으로 기대된다. 또한, 해양·해운 분야의 기초 연구로 널리 활용할 수 있는 선박 항로 군집화의 정확도 및 계산 효율 향상을 위한 데이터 전처리 과정으로 활용될 수 있다고 판단된다.

    본 연구에서는 선박 항로 군집화를 위해 널리 사용되는 k-means 군집 분석을 적용하였으며, Silhouette Index를 통해 군집화 성능을 평가하였다. 그러나 이러한 접근 방식에는 몇 가지 한계점이 존재하며, 이를 보완하기 위한 향후 연구 과제를 다음과 같이 제시한다.

    우선, k-means 외의 다양한 군집 분석 방법의 적용 가능성을 탐색할 필요가 있다. 예를 들어, DBSCAN, Hierarchical Clustering, Gaussian Mixture Models 등의 알고리즘을 적용하여 각 방법의 장단점을 비교·분석하고, 선박 항로 데이터의 특성에 가장 적합한 군집화 방법을 도출하는 연구가 요구된다. 또한, 군집 성능 평가 방법의 다각화가 필요하다. Silhouette Index 외에도 Calinski-Harabasz Index, Davies-Bouldin Index 등 다양한 평가 지표를 활용하여 군집화 결과의 신뢰성을 검증해야 한다.

    이러한 한계점들을 극복하고 제시된 연구 과제들을 수행함으로써, 선박 항로 군집 분석의 정확성과 신뢰성을 높일 수 있을 것으로 기대된다.

    Figure

    KOSOMES-30-5-415_F1.gif

    Results of data reduction.

    KOSOMES-30-5-415_F2.gif

    Silhouette score comparison graph of data preprocessing combinations for k-means clustering.

    Table

    The level of autonomy for MASS by IMO (IMO, 2018)

    Results of data transformation

    Cluster count and score results from data preprocessing combinations

    Reference

    1. Abdi, H. and L. J. Williams (2010), Principal Component Analysis, Wiley Interdisciplinary Reviews: Computational Statistics, Vol. 2, No. 4, pp. 433-459.
    2. Askari, H. R. and M. N. Hossain (2022), Towards utilizing autonomous ships: A viable advance in industry 4.0, Journal of International Maritime Safety, Environmental Affairs, and Shipping, Vol. 6, No. 1, pp. 39-49.
    3. Atev, S. , G. Miller, and N. P. Papanikolopoulos (2010), Clustering of vehicle trajectories, Transactions on Intelligent Transportation Systems, Vol. 11, No. 3, pp. 647-657.
    4. Balkan, D. (2020), Maritime 4.0 And Expectations in Maritime Sector, Akademik İncelemeler Dergisi, Vol. 15, No. 1, pp. 133-170.
    5. Bergroth, L. , H. Hakonen, and T. Raita (2000), A survey of longest common subsequence algorithms, Proceedings Seventh International Symposium on String Processing and Information Retrieval, pp. 39-48.
    6. Berndt, D. J. and J. Clifford (1994), Using Dynamic Time Warping to Find Patterns in Time Series, Proceedings of the 3rd International Conference on Knowledge Discovery and Data Mining, pp. 359-370.
    7. Bui, V. D. and H. P. Nguyen (2021), A Comprehensive Review on Big Data-Based Potential Applications in Marine Shipping Management, International Journal on Advanced Science, Engineering and Information Technology, Vol. 11, No. 3, pp. 1067-1077.
    8. Dubuisson, M. P. and A. K. Jain (1994), A modified Hausdorff distance for object matching, Proceedings of 12th International Conference on Pattern Recognition, Vol. 1, pp. 566-568.
    9. Durlik, I. , T. Miller, D. Cembrowska-Lech, A. Krzemińska, E. Złoczowska, and A. Nowak (2023), Navigating the sea of data: A comprehensive review on data analysis in maritime IoT applications, Applied Sciences, Vol. 13, No. 17, 9742.
    10. Emmens, T. , C. Amrit, A. Abdi, and M. Ghosh (2021), The promises and perils of Automatic Identification System data, Expert Systems with Applications, Vol. 178, 2021, 114975.
    11. Fan, C. , M. Chen, X. Wang, J. Wang, and B. Huang (2021), A review on data preprocessing techniques toward efficient and reliable knowledge discovery from building operational data, Frontiers in Energy Research, Vol. 9, 652801.
    12. García, S. , J. Luengo, and F. Herrera (2016), Tutorial on practical tips of the most influential data preprocessing algorithms in data mining, Knowledge-Based Systems, Vol. 98, pp. 1-29.
    13. Hahbakhsh, M. , G. R. Emad, and S. Cahoon (2022), Industrial revolutions and transition of the maritime industry: The case of Seafarer’s role in autonomous shipping, Asian Journal of Shipping and Logistics, Vol. 38, No. 1, pp, 10-18.
    14. Hotelling, H. (1933), Analysis of a Complex of Statistical Variables Into Principal Components, Journal of Educational Psychology, Vol. 24, No. 6, pp. 417-441.
    15. Huang, J. , Z. Fang, and H. Kasai (2021), LCS graph kernel based on Wasserstein distance in longest common subsequence metric space, Signal Processing, Vol. 189, 108281.
    16. IMO (2018), Regulatory Scoping Exercise for the Use of Maritime Autonomous Surface Ships (MASS), MSC. 99, WP. 9.
    17. Karagiannidis, P. and N. Themelis (2021), Data-driven modelling of ship propulsion and the effect of data pre-processing on the prediction of ship fuel consumption and speed loss. Ocean Engineering, Vol. 222, 108616.
    18. Little, A. , Y. Xie, and Q. Sun (2022), An analysis of classical multidimensional scaling with applications to clustering, Information and Inference: A Journal of the IMA, Vol. 12, No. 1, pp. 72-112.
    19. Liu, Z. , H. Gao, M. Zhang, R. Yan, and J. Liu (2023), A data mining method to extract traffic network for maritime transport management, Ocean & Coastal Management, Vol. 239, 106622.
    20. MacQueen, J. (1967), Some methods for classification and analysis of multivariate observations, In Proceedings of the fifth Berkeley symposium on mathematical statistics and probability, Vol. 1, pp. 281-297.
    21. Min, Y. H. (2018), Cluster analysis of daily electricity demand with t-SNE, Journal of the Korea Society of Computer and Information, Vol. 23, No. 5, pp. 9-14.
    22. Morris, B. and M. Trivedi (2009), Learning trajectory patterns by clustering: Experimental studies and comparative evaluation, In 2009 IEEE Conference on Computer Vision and Pattern Recognition, pp. 312-319.
    23. Obinwanne, T. , C. Udokwu, R. Zimmermann, and P. Brandtner (2023), Data Preprocessing in Supply Chain Management Analytics - A Review of Methods, the Operations They Fulfill, and the Tasks They Accomplish.: Data Preprocessing in Supply Chain Management Analytics, Proceedings of the 2023 6th International Conference on Computers in Management and Business, pp. 93-99.
    24. Rousseeuw, P. J. (1987), Silhouettes: a graphical aid to the interpretation and validation of cluster analysis. Journal of computational and applied mathematics, Vol. 20, pp. 53-65.
    25. Salem, N. and S. Hussein (2019), Data dimensional reduction and principal components analysis, Procedia Computer Science, Vol. 163, pp. 292-299.
    26. Svanberg, M. , V. Santen, A. Horteborn, H. Holm, and C. Finnsgard (2019), AIS in maritime research, Marine Policy, Vol. 106, 103520.
    27. Van der Maaten, L. and G. Hinton (2008). Visualizing Data using t-SNE, Journal of machine learning research, Vol. 9, No. 11, pp. 2579-2605.
    28. Vaserstein, L. N. (1969), Markov processes over denumerable products of spaces, describing large systems of automata, Problemy Peredachi Informatsii, Vol. 5, No. 3, pp. 64-72.
    29. Velasco, C. and I. Lazakis (2022), PreONA: A Data Preprocessing Tool for Marine Systems Sensor Data, Ocean And Marine Engineering, pp. 1-16.
    30. Vlachos, M. , G. Kollios, and D. Gunopulos (2002), Discovering similar multidimensional trajectories, Proceedings 18th International Conference on Data Engineering, pp. 673-684.
    31. Wickelmaier, F. (2003), An introduction to MDS, Sound Quality Research Unit at Alaborg University, Vol. 46, No. 5, pp. 1-26.