Journal Search Engine

ISSN : 1229-3431(Print)
ISSN : 2287-3341(Online)

Journal of the Korean Society of Marine Environment and Safety Vol.30 No.7 pp.717-727
DOI : https://doi.org/10.7837/kosomes.2024.30.7.717

Research on the Development and Measurement Methods of Deep Learning-Based Marine Life Detection Technology

Sang-Yeup Jin^*, Heung-Bae Choi^**†, Hyo-tae Lee^***, Yong-kwan Kim^****

^*Associate Research Engineer, GeoSystem Research Corp., Gyeonggi 15870, Korea
^**Executive Director, GeoSystem Research Corp., Gyeonggi 15870, Korea
^***Assistant Manager, Korea Fisheries Resources Agency, Busan 46041, Korea
^****CEO, Infinity Ocean Corp, Yeosu 59663, Korea

* First Author : syjin@geosr.com, 031-5180-5875

^† Corresponding Author : hbchoi@geosr.com, 031-5180-5862

Received October 30, 2024 Review December 2, 2024 Accepted December 27, 2024

Abstract

This study focuses on comparing the performance of YOLO(You Only Look Once)-segmentation-based marine life detection models and developing a deep learning model for correcting color distortion in underwater images. The detection models were constructed using instance segmentation models YOLOv5-Seg, YOLOv8-Seg, YOLOv9-Seg, and YOLOv11-Seg, officially provided by Ultralytics. The models were trained on an identical dataset of 22 marine species to ensure consistency across versions. The results demonstrated that YOLOv9c-Seg achieved the highest performance with a precision of 0.908, recall of 0.912, and mAP@50 of 0.943, making it the optimal model for marine life detection. To address color distortion in underwater environments and improve detection accuracy, a PhysicalNN-based image correction model was developed, incorporating RGB transformation techniques such as CLAHE, White Balance, and Image Filtering. Using the selected detection and image correction models, we accurately identified the locations of marine organisms within underwater footage. Additionally, employing a Monocular Depth Estimation (MDE) algorithm and a guide stick as a reference point, we estimated the distance and size of detected organisms. This research highlights the potential of indirectly estimating the size (10.0–35.0 cm) and weight of marine life in a 3D space using single-camera footage, offering practical implications for future marine ecosystem monitoring.

Key Words : Deep Learning , Instance Segmentation , YOLO , Image Correction , Marine Life Detection

딥러닝 기반 해양생물 탐지 기술 개발 및 계측 방안 연구

진상엽^*, 최흥배^**†, 이효태^***, 김용관^****

^*㈜지오시스템리서치 전임
^**㈜지오시스템리서치 상무
^***한국수산자원공단 자원회복실 대리
^****㈜인피니티오션 대표

초록

본 연구는 YOLO(You Only Look Once)-Segmentation 기반 해양생물 탐지 모델의 성능 비교와 수중 이미지의 색상 왜곡 보정을 위한 딥러닝 모델 구축에 중점을 둔다. 탐지 모델 구축에는 Ultralytics에서 공식적으로 배포하는 YOLO의 버전별 객체분할 모델인 YOLOv5-Seg, YOLOv8-Seg, YOLOv9-Seg, YOLOv11-Seg를 활용하였으며, 22종의 해양생물 데이터셋을 사용해 동일한 학습 과정을 거쳤다. 이 를 통해 각 버전의 탐지 성능을 비교한 결과, YOLOv9c-Seg 모델이 정밀도(Precision) 0.908, 재현율(Recall) 0.912, mAP@50 0.943으로 가장 높 은 성능을 기록하며 최적의 모델로 선정되었다. 또한, 수중 환경에서 발생하는 색상 왜곡 문제를 해결하고 탐지 정확도를 높이기 위해 CLAHE, White Balance, Image Filter 등의 RGB 요소 변환 기법을 적용한 PhysicalNN 기반 이미지 보정 모델을 구축하였다. 선정된 탐지 모델 과 이미지 보정 모델을 이용해 수중영상 내 탐지된 생물의 위치를 정확히 파악하고, Monocular Depth Estimation(MDE) 알고리즘과 거리 및 크기 측정을 위한 가이드 스틱을 활용하여 대상 생물의 거리와 크기를 추정하였다. 이를 통해 단안 카메라 영상만으로도 3차원 공간의 해 양생물 크기와 이에 따른 체중을 간접적으로 추정하였으며, 향후 해양 생태계 모니터링에 활용할 수 있는 가능성을 시사한다.

키워드 : 딥러닝 , 객체분할 , YOLO , 이미지 보정 , 해양생물 탐지

This article has been cited by 0 article in crossref

Cited-By

1. 서 론

지속 가능한 수산자원 관리와 해양 생태계 보존은 전 세계적으로 중요한 이슈로 대두되고 있다. 우리나라 역시 급속한 산업화와 연안 개발, 해양기후변화로 인해 해양생물의 서식지와 산란지가 줄어들고 어종의 다양성이 감소하는 등의 문제에 직면해 있다. 이에 따라 한국수산자원공단(FIRA)은 다양한 수산자원 증대사업을 통해 인공어초 설치, 연안 바다목장 조성, 바다숲 조성 등 생태계 복원 활동에 주력하고 있다. 이러한 사업이 수산자원의 지속 가능한 공급과 해양 생태계 건강을 유지하는데 필수적이므로, 사업의 효율성을 평가하고 생태계에 미치는 영향을 분석하는 효과조사 기법의 중요성은 더욱 커지고 있다. 기존 한국수산자원공단에서 수행하고 있는 효과조사 기법은 자망(Gillnet), 저인망 (Trawl)과 같은 어구를 활용한 직접 어획 방식이나, 다이버에 의한 수중영상 촬영 후 영상 내 출현한 개체 수와 종을 직접 계수하는 방법에 의존해 왔다. 이러한 방법은 어구에 의한 생물 서식지 파괴 위험, 높은 노동력 소모, 안전관리의 어려움 등으로 인해 효율적이면서도 환경 비파괴적인 효과조사 기법 개발이 요구되었다.

이와 관련하여, 한국수산자원공단은 2022년부터 딥러닝을 활용한 어획효과 조사와 수산자원 증대사업 효과 분석을 위한 새로운 기술을 개발하고 있다. 이 연구에는 영상에서 해양생물을 탐지하고 분류하며, 추적(Tracking)하여 개체 수를 분석하는 딥러닝 기반 탐지 모델이 포함된다. 또한, 단안 카메라 영상에 Monocular Depth Estimation(MDE) 알고리즘을 적용해 깊이를 추정함으로써 개체의 위치와 크기 계측하는 방법, 스테레오 비전 분석 기술을 통한 정밀 계측기술 개발 등이 진행되고 있다. 이러한 기술의 발전은 향후 수중영상을 통해 대상 종의 자원량을 자동으로 산출할 수 있는 토대를 마련할 것으로 기대된다.

컴퓨터 비전과 딥러닝 기술을 활용한 수중 생태계 연구 및 생물자원 관리는 여러 분야에서 활발히 이루어지고 있다. 예를 들어, Deformable Parts Model(DPM), R-CNN, Fast R-CNN 등을 이용하여 12종의 어류 탐지 및 분류 성능을 비 교한 연구(Xiu et al., 2015), Single Shot Detector(SSD) 모델을 활용한 수중 영상 내 어류 탐지 연구(Akgül et al., 2020;Tian et al., 2021) 등이 있으며, 이러한 객체탐지(Object Detection) 모델을 활용해 영상으로부터 대상 종을 분석하는 연구가 꾸준히 수행되었다. Shin et al.(2021)의 연구에서는 YOLOv4 기반의 어류 탐지 모델과 바운딩 박스(Bounding Box) 기반 추적 알고리즘을 결합하여 스마트 양식을 위한 어류 이동 경로 추적 기술을 연구하기도 하였다.

최근에는 단순 탐지 및 분류 기술을 넘어, 영상에서 대상 체의 크기를 정확히 측정하는 연구가 활발히 이루어지고 있다. Climent-Perez et al.(2024)은 객체 분할(Instance Segmentation) 기반의 YOLACT(Bolya et al., 2019) 모델을 활용하여 육상 실험실 환경에서 어류를 탐지 및 분류하고, 이미지 픽셀을 기 반으로 전장(Total Length, TL) 측정을 시도하였다. Garcia et al.(2020)은 Mask R-CNN 모델과 수중 스테레오 카메라 시스템을 이용하여 수족관 환경에서 어류 단일 클래스를 탐지한 후, 탐지된 객체 마스크(Mask)와 스테레오 비전 분석을 통해 정확한 크기 계측을 수행하였다. 이와 같은 연구들은 수산 자원 관리와 해양 생태계 모니터링의 효율성을 크게 향상시킬 수 있는 잠재력을 보여주고 있다.

따라서, 본 연구에서는 수산자원 증대사업 대상종 중 대표 22종에 대해 실시간 객체분할 모델인 YOLO(You Only Look Once)-Segmentation의 버전별 성능을 비교하고, 최적의 모델을 선정하고자 한다. 선정된 모델은 수중 이미지 보정 모델과 MDE 알고리즘과 결합하여 실제 수중 환경에서 촬영한 영상을 통해 탐지된 객체의 거리 및 크기를 계측하는 방법을 제시한다.

기존 연구들은 주로 육상 실험실 또는 수족관 환경에서 수행되었는데 이들 환경은 실제 수중 환경과 여러 차이가 있다. 수족관 환경은 부유물이 없고 시야가 매우 깨끗하여 탐지 작업이 상대적으로 용이하며 실험실 환경은 실험대와 같은 2차원 평면에서 동일한 높이(거리)에서 촬영되어 거리값을 사전에 알고 있으므로 이를 기반으로 크기 측정을 진행한다. 반면, 본 연구에서 다룬 실제 수중 환경은 부유물과 조명 변화로 인해 시야가 제한적이며, 거리와 깊이를 추정해야 하는 복잡한 3차원 공간에서의 탐지 및 분석을 필요로 한다.

본 연구는 이러한 실제 수중 환경에서 딥러닝 모델의 적용 가능성을 검증하는 데 중점을 두었다. 딥러닝 모델과 컴퓨터 비전 기술의 결합은 우수한 추론 속도와 높은 정확도로 수중 환경에서의 복잡한 탐지와 분류 작업을 보다 효율적으로 수행하며, 신속하게 개체를 분석할 수 있는 기반을 마련한다. 이를 통해 본 연구는 수산자원의 관리 효율성과 지속 가능한 발전에 중요한 역할을 할 것으로 기대되며, 자원 관리 방법의 혁신을 위한 새로운 접근을 제안한다.

2. 연구 방법

2.1 탐지 모델 구축

본 연구에서는 해양생물 탐지를 위한 최적 모델을 선정하기 위해 YOLO-Segmentation의 여러 버전(YOLOv5-Seg, YOLOv8-Seg, YOLOv9-Seg, YOLOv11-Seg)을 비교하였다. YOLO 모델은 Ultralytics 플랫폼에서 공식적으로 배포하는 모델을 활용하였으며 객체탐지 모델은 YOLOv5부터 YOLOv11까지 다양한 버전을 제공하고 있다. 이 중 객체분할 기능이 포함된 모델은 YOLOv5, YOLOv8, YOLOv9, YOLOv11로 한정되어 있어, 해당 모델들을 대상으로 비교를 수행하였다. YOLO-Segmentation 모델은 실시간 객체탐지와 객체분할 기능을 통합한 구조로, 수중 환경과 같이 복잡하고 변화가 심한 상황에서도 높은 정확도와 효율성을 유지할 수 있다. YOLO 모델은 객체의 위치와 크기를 예측하는 단일 네트워크 패스(single network pass) 방식을 채택하여 전체 이미지를 빠르게 분석할 수 있으며, 이를 통해 탐지 속도와 정확도를 동시에 확보할 수 있다(Singh et al., 2023).

모델 구축에는 PyTorch 프레임워크와 Ultralytics 플랫폼을 사용하여 각 YOLO-Segmentation 버전을 동일한 22종의 해양 생물 데이터셋에 대하여 학습하였으며, 데이터 증강(Data Augmentation) 기법을 적용하여 모델의 일반화 성능을 강화 하였다.

모델의 성능평가는 Padilla et al.(2020)와 Dumitriu et al.(2023) 의 연구를 참고하여 정밀도(Precision), 재현율(Recall), mAP(mean Average Precision)를 기준으로 이루어졌다. 정밀도는 모델이 양성으로 예측한 결과 중 실제 양성인 비율을 나타내며, 이는 False Positive(FP), 즉 잘못된 양성 예측의 수를 줄이는 것이 중요하다. 정밀도는 다음과 같은 방식으로 계산된다.

$\Pr e c i s i o n = \frac{T P}{T P + F P} = \frac{T P}{A l l \det e c t i o n s}$

(1)

이때 True Positive(TP)는 모델이 정확하게 양성으로 분류한 예측의 수를 의미한다.

재현율은 실제 양성 데이터 중 모델이 정확히 양성으로 예측한 비율로 정의되며, 모델이 양성 데이터를 놓치지 않고 예측하는 능력을 평가한다. 재현율을 높이려면 False Negative(FN), 즉 양성을 음성으로 잘못 예측한 수를 최소화 하는 것이 필요하며, 식은 다음과 같다.

$R e c a l l = \frac{T P}{T P + F N} = \frac{T P}{A l l g r o u n d t r u t h s}$

(2)

평균 정밀도(Average Precision, AP)는 다양한 임계값(Threshold)에서의 정밀도와 재현율의 관계를 측정한 평균값 이다. 객체탐지 분야에서는 Intersection over Union(IoU) 임계 값을 통해 예측 영역과 실제 영역이 얼마나 일치하는지를 평가하며, IoU는 예측 영역과 실제 영역의 교집합을 두 영역의 합집합으로 나눈 값으로 정의된다.

$I o U (T r u e, \Pr e d i c t) = \frac{| T r u e \cap P r e d i c t |}{| T r u e \cup P r e d i c t |}$

(4)

AP는 여러 IoU 임계값에서 정밀도와 재현율을 측정하여 계산되며, 이는 재현율 변화에 따른 정밀도의 가중 평균으로 구해진다. 식은 다음과 같으며, 여기서는 평가에 사용되는 임계값들의 순번을 의미한다.

$A P = \sum_{k} (R e c a l l_{k} - R e c a l l_{k - 1}) \times P r e c i s i o n_{k}$

(5)

mAP₅₀은 모든 클래스에 대해 AP를 평균한 값으로, IoU 임계 값이 0.5일 때 모델의 성능을 나타내며, 계산식은 다음과 같다.

$m A P_{50} = \frac{1}{N} \sum_{i = 1}^{N} A P_{i}$

(6)

학습을 마친 각 모델의 성능 지표를 산출하고 비교 분석하여 최적의 모델을 선정한 후, 이를 탐지 및 분석에 활용하였다.

2.2 이미지 보정 모델 구축

수중 환경에서 빛의 산란과 흡수로 인해 이미지의 색상이 왜곡되고 객체 선명도가 저하되는 현상 해결을 위해, 본 연구 에서는 6단계 이미지 보정 알고리즘(Fig. 1)을 적용하였다. 이 알고리즘은 화이트 밸런스(White Balance), 선명화(Sharpening), 히스토그램 평활화를 위한 Contrast Limited Adaptive Histogram Equalization(CLAHE) 등 보정 기법과 함께 Bornfree(2022)의 Image Filter 알고리즘을 결합하여 손실된 색상정보를 복원하고 객체 가시성을 향상시키는 데 중점을 두고 있다.

보정된 이미지와 원본 이미지는 Chen et al.(2021)에서 제안된 PyTorch 기반의 PhysicalNN 모델에 학습하여 딥러닝 기반의 수중 이미지 보정 모델을 구축하였다. PhysicalNN 모델은 PReLU(Parametric Rectified Linear Unit)와 확장된 합성곱(Dilated Convolution)을 활용하여 시각적 품질을 최적화하고, 신속한 처리 속도를 제공할 수 있도록 설계되었다.

보정 성능을 정량적으로 평가하기 위해 수중 이미지 보정 모델을 다양한 이미지에 적용하고, UCIQE(Underwater Color Image Quality Evaluation; Yang and Sowmya, 2015)와 UIQM (Underwater Image Quality Measurement; Panetta et al., 2015) 지표를 산출하여 이미지 품질을 비교하였다.

UCIQE는 이미지의 크로마(C), 밝기(S), 채도(U) 요소를 바탕으로 품질을 평가하는 지표로, 다음의 계산식을 통해 산출된다.

$U C I Q E = c_{1} \times δ_{c} + c_{2} \times c o n_{l} + c_{3} \times μ_{s}$

(7)

δ_c : The standard deviation of chroma(C)
μ_s : The mean of luminance(S)
σ_u : The standard deviation of saturation(U)
c₁, c₂, c₃ : Weights are determined experimentally

UIQM은 색상 선명도와 대조도를 포함한 시각적 품질 요소를 종합하여 평가하는 지표로, 다음과 같은 계산식으로 정의된다.

$U I Q M = þ_{1} \times U I C M + þ_{2} \times U I S M + þ_{3} \times U I c o n M$

(8)

w₁, w₂, w₃ : Weights assigned to each component

2.3 거리 및 크기 추정 방법

일반적으로 단안 카메라를 이용한 3차원 공간에서 거리와 크기를 정확히 추정하는 것은 불가능하기 때문에 기존에는 스테레오 카메라가 일반적으로 사용되어왔다. 스테레오 카메라는 두 개의 렌즈 간의 시차(Disparity)를 기반으로 깊이 정보를 추정하여 객체의 위치와 크기를 파악할 수 있다. 그러나 최근 MDE 알고리즘이 등장하면서 단안 카메라 영상만으로도 원근감 또는 깊이 추정이 가능해졌다.

MDE 알고리즘은 KITTI(Geiger et al., 2013), NYUv2(Silberman et al., 2012)와 같은 스테레오 카메라, 라이다 등으로 측정된 깊이 맵과 매칭되는 이미지로 이루어진 데이터셋을 딥러닝 모델에 학습시킨 것으로 이를 통해 단안 카메라 영상에서도 깊이 추정을 가능하게 한다.

MDE 알고리즘은 초기 CNN 기반의 회귀 문제로 정의된 단일 이미지에서 깊이를 추정하는 방법(Eigen et al., 2014)에서 시작하여 최근 MiDas v3.1(Birkl et al., 2023)와 DepthAnything v2(Yang et al., 2024)와 같은 고성능 모델들이 등장하였다. 특히 DepthAnything v2는 가장 최신의 MDE 알고리즘으로 KITTI 데이터셋에 검증한 결과 MiDas v3.1과 비교하여 절대 상대 오차(AbsRel)가 0.127에서 0.074로 감소하여 약 41.7%의 성능 개선을 보였다.

특히, DepthAnything v2는 6,150만 장의 방대한 이미지와 깊이 데이터 쌍을 학습하였으며, 이 중 6%는 수중 이미지로 구성되어 기존 모델 대비 수중에서도 뛰어난 성능을 보인다 (Fig. 2). DepthAnything v2의 작동 방식은 입력받은 이미지의 각 픽셀값을 딥러닝 모델에 입력하여 상대적 깊이 정보를 산출하고, 이를 후처리하여 최종 깊이 맵으로 변환하여 사용자에게 제공한다.

따라서 본 연구에서는 DepthAnything v2 MDE 알고리즘을 활용하여 실험을 위해 촬영된 영상을 바탕으로 탐지된 해양생물의 크기를 추정하였다. 이 과정에서 카메라 렌즈 전방에 설치된 가이드 스틱 상단의 10cm 간격으로 배치된 2.5×2.5cm의 정사각형 마커를 기준으로, MDE 알고리즘에서 출력된 밝기값과 실제 거리 간 관계식을 수립하였다. 이후 탐지된 객체의 중심 좌표 밝기값과 마스크의 좌우 길이 정보를 활용하여 거리 및 크기를 추정하였다(Fig. 3).

3. 사용 자료

3.1 해양생물 데이터셋

YOLO-Segmentation 모델 학습을 위한 해양생물 이미지 데이터셋은 한국수산자원공단의 ‘어류 딥러닝 기반 어획 효과 조사 기법 개발(2022)’과 ‘딥러닝 기반 수산자원 증대사업 효과조사 기법(2023, 2024)’을 수행하며 수집된 데이터셋을 활용하였다. 해당 데이터셋은 다이버와 원격조종 수중로봇 및 해저면 고정형 카메라를 이용하여 촬영된 영상자료와 한국 지능정보사회진흥원(NIA)의 AIHub 내 ‘어류 개체 촬영 영상’ 이미지, 웹 수집 자료 등으로 구성되었다. 이 중 직접 촬영된 영상은 우리나라 남해 및 제주 일대의 산란·서식장 조성 해역에서 촬영되었으며 망상어, 돌돔, 말쥐치 등을 대상으로 수심 약 5∼15m에서 촬영되었다.

데이터셋은 Table 1의 22종의 해양생물 이미지 60,593장과 가이드 스틱 마커 이미지를 포함하며 데이터 증강이 적용된 총 385,364쌍의 이미지 및 텍스트 형식의 객체 마스크 라벨 파일로 이루어져 있다. 데이터 증강은 좌우 반전(Horizontal Flip), 원근 변환(Perspective Conversion), 전단 변환(Shear Conversion), 색상(Hue) 및 채도(Saturation) 변환과 수중 이미지 보정이 무작위로 적용되었다.

3.2 수중 이미지 보정 모델 데이터셋

수중 이미지 보정 모델의 학습을 위해, 우리나라 주변 해역의 특성을 반영한 데이터셋을 구축하였다. 이를 위해 카메라 및 원격조종 수중로봇을 활용하여 촬영한 영상만을 사용하였다. 영상으로부터 총 11,723장의 스냅샷 이미지를 추출하였으며, 이들 이미지에 6단계 보정 알고리즘을 적용하여 원본-보정 이미지 쌍을 생성하였다. 이 과정에서 원본 이미지는 모델의 입력자료로, 보정 이미지는 목표값(정답)으로 사용하였다.

3.3 분석 영상 취득

본 연구에서 해양생물을 탐지하고 거리 및 크기 추정을 위한 영상 획득을 위해 수중에서 장기간 촬영이 가능한 플랫폼을 활용하였다. 카메라 설치는 Fig. 4에 나타낸 제주 판 포 해역으로 선정하였으며, 해당 위치는 한국수산자원공단에서 수산자원 증대를 위한 인공어초 설치 및 말쥐치 치어 방류사업을 실시한 장소로 효과조사가 필요한 해역이다. 따라서, 수심 약 15m 지점에 인공어초를 전방 약 5m 지점에서 고정형 카메라가 바라볼 수 있도록 설치하였으며(Fig. 5), 로 프로 프레임을 고정하여 유실을 방지하였다.

Fig. 6의 플랫폼은 철제 프레임 위에 방수 하우징을 장착하고, 하우징 내 카메라와 라이트, 배터리 시스템을 내장하여 최대 15일간 연속 촬영이 가능하도록 구성되었다. 프레임과 카메라 및 배터리 제원은 Table 2와 같으며, 저장용량 및 배터리 시간을 고려하여 FHD(1920×1080)의 해상도와 30FPS 의 프레임레이트로 녹화를 진행하였다. 녹화 기간은 2024년 9월 13일 오전 7시경 시작하여 2024년 9월 28일 오전 8시경 종료하여 총 15일의 영상을 획득하였다.

3.4 모델 학습 환경 및 조건

모델 학습과 추론은 NVIDIA GeForce RTX 3090 GPU 4way 구성을 통해 이루어졌으며, 관련된 소프트웨어 환경으로는 Python 3.10, Pytorch 2.3.0, Ultralytics 8.3.7, CUDA 12.0을 사용 하였다.

YOLO-Segmentation 모델 학습시 입력 이미지는 640 × 640 픽셀의 정방형 이미지로 변환되며, 모델 사이즈별 동일한 학습조건 구성을 위해 배치 사이즈(Batch Size)는 128로 고정하였다. 또한, 학습 에포크(Epochs)는 최대 1,000회로 지정하고 과적합(Overfitting) 방지를 위해 20회 동안 모델의 성능 개선이 이루어지지 않으면 학습을 조기 종료(Early Stopping)하도록 매개변수를 설정하였다.

수중 이미지 보정 모델 학습시 해상도 저하를 방지하기 위해 1920 × 1080 해상도의 원본 이미지를 입력하였으며, 이미지 해상도 증가에 따라 배치 사이즈는 64로 설정하였다. 이외 학습 에포크 및 조기 종료 매개변수는 YOLO-Segmentation 모델 학습과 동일하게 설정하였다.

4. 연구 결과

4.1 탐지 모델 성능 비교

본 연구에서는 앞서 언급된 해양생물 이미지 데이터셋과 실험 환경, 설정된 매개변수를 바탕으로 버전별 YOLO-Segmentation 모델의 학습을 수행하였다. 각 모델은 최적의 에포크에서 학습된 상태로 평가 데이터셋에 적용되었으며, 성능은 정밀도, 재현율, mAP@50을 기준으로 평가되었다. Table 3에는 각 모델의 마스크 예측에 대한 정밀도, 재현율 및 mAP@50 수치가 요약되어 있다.

평가 결과, 모든 모델의 정밀도와 mAP@50은 0.9(90%) 이상으로 우수한 탐지 및 분류 성능을 보였다. 이는 본 연구에서 사용된 데이터셋이 충분히 균형 있게 구축되어 모델 간 성능 격차가 크지 않음을 보여준다. 또한, YOLO 모델은 최신 버전으로 갈수록 단순히 성능 향상만을 목표로 하지 않고, 적은 파라미터로도 준수한 성능을 발휘하거나 더 높은 효율성을 제공할 수 있도록 설계되었다는 점에서 의미가 있다.

다만, 각 모델 간 세부적인 지표에서는 차이를 확인할 수 있었다.

YOLOv5m-Seg 모델은 정밀도 0.907, 재현율 0.892, mAP@50 0.928을 기록하며, mAP@50에서 다른 모델들보다 낮은 성능을 보였다. 이는 모델이 균형 잡힌 성능을 보이지만, 탐지 정확도에서는 다소 부족할 수 있음을 시사한다.
YOLOv8m-Seg 모델은 정밀도 0.910으로 가장 높은값을 보여 탐지된 객체의 정확도가 우수하였으나, 재현율은 0.892로 다소 낮아 전체 객체 중 일부 탐지가 누락될 가능성을 나타낸다. 이는 높은 탐지 정확도를 요구하는 환경에서 유리하지만, 포괄적인 탐지가 필요한 경우 제한적일 수 있다.
YOLOv9c-Seg 모델은 정밀도 0.908, 재현율 0.912, mAP@50 0.943으로 재현율과 mAP@50에서 가장 높은 성능을 보였다. 이는 모델이 단일 IoU 임계값(0.5)에서 매우 안정적이고 높은 정확도를 유지함을 의미하며, 다양한 객체를 누락 없이 탐지할 수 있는 모델로 평가된다.
YOLOv11m-Seg 모델은 정밀도 0.904, 재현율 0.900, mAP@50 0.936을 기록하여 최신 모델임에도 불구하고 YOLOv9c-Seg 모델 성능에 미치지 못하였다. 이는 파라미터 및 구조가 개선되었음에도 특정 데이터셋에서 최적화가 다소 부족할 수 있음을 시사한다. 따라서 YOLOv5 이후 버전은 PyTorch 기반으로 사용이 쉬워지고 경량화되었으며, 속도, 정확도, 효율성을 모두 유사한 성능을 제시하고 있지만, 탐지하고자 하는 대상과 사용 목적에 따라 적절히 선택할 수 있다.

결론적으로, 해양생물 탐지에서 가장 우수한 성능을 보인 모델은 YOLOv9c-Seg로 평가되었으며, 이 모델을 활용 하여 추가적인 거리 및 크기 추정 연구를 수행하였다. YOLOv9c-Seg의 높은 재현율과 mAP@50 성능은 해양생물 객체탐지에서 안정성과 정확성을 제공하여 실험 환경에서 가장 적합한 모델로 선정되었다. Fig. 7에는 YOLOv9c-Seg를 이용한 해양생물 탐지 결과 중 일부를 나타내었다.

Table 4에는 YOLOv9c-Seg 모델의 대상종 별 성능평가 지표 산출결과를 나타내었다. 대부분의 대상종에서 높은 정밀도와 재현율을 기록하였으며 mAP@50이 0.9 이상을 기록하며 우수한 탐지 및 분류 성능을 보였다. 특히, 문어(정밀도 0.991, 재현율 1.000, mAP@50 0.995), 대게(정밀도 0.998, 재현율 0.991, mAP@50 0.995), 감성돔(정밀도 0.942, 재현율 0.959, mAP@50 0.988)과 같은 종에서 높은 지표가 산출되었다. 그러나 일부 종에서는 상대적으로 낮은 성능을 보였다. 도루묵(정밀도 0.813, 재현율 0.629, mAP@50 0.773)의 경우, 비교적 작은 크기의 개체가 군집을 이루어 이동하는 데이터 특성이 주를 이루었으며 이는 모델이 개체 간 경계를 명확히 구분하기 어려웠던 주요 원인으로 분석된다. 한편, 해삼(정밀도 0.983, 재현율 0.636, mAP@50 0.797)은 일정하지 않은 형태와 배경과의 낮은 대비로 인해 객체 경계를 명확히 학습하는 데 어려움을 겪은 것으로 보인다. 이러한 결과는 특정 종의 데이터셋 특성과 환경적 요인이 모델 성능에 영향을 미쳤음을 의미한다.

4.2 이미지 보정 효과 분석

구축된 수중 이미지 보정 모델을 이용하여 데이터셋 중 일부 이미지에 대해 보정 전후의 품질 평가지표를 산출하여 수치를 비교하였다. Fig. 8에는 이미지 보정 결과를, Table 5 에는 각 이미지의 품질 평가지표 산출 결과를 제시하였다. UCIQE 및 UIQM 품질 평가지표는 값이 높을수록 이미지의 채도, 선명도, 색 재현도가 우수함을 의미하며, 모든 이미지에서 품질이 향상된 것으로 나타났다.

원본 이미지 (a)와 (b)에서는 녹색 파장의 빛이 지배적으로 나타났으나, 보정 후 녹색 빛이 상당 부분 제거되었으며 가이드 스틱의 노란색 마커, 어류의 색상, 바위 및 콘크리트 소재의 인공어초 등이 실제 색상에 가깝게 복원된 것을 확인할 수 있다. 또한, 원본 이미지 (c)에서는 청색 파장이 강하게 나타났으나, 보정을 통해 청색 빛이 상당 부분 감소되었고, 시야가 개선됨에 따라 먼 거리에 있는 소형 어류의 선명도도 향상되었다.

지표 산출 결과, 원본 이미지(a)는 UCIQE가 23.38, UIQM 이 0.12에서 보정 후 각각 28.51, 1.38로 크게 상승하여 색 재현도와 선명도가 개선되었다. 이미지 (b)는 보정 전 UCIQE 29.56, UIQM 0.13을 기록했으나, 보정 후 UCIQE는 약간 감소한 29.09로 나타난 반면 UIQM은 0.64로 크게 향상되었다. 이는 특정 색상 파장의 보정 과정에서 선명도 변화가 있었으나, 색 재현성과 대비가 강화되었음을 의미한다. 이미지 (c) 의 경우, UCIQE는 30.38로 변동이 없으나 UIQM이 0.68에서 1.85로 크게 향상되어, 청색 파장 감소로 원거리의 작은 객체가 더욱 선명하게 표현되었음을 확인할 수 있다.

결과적으로, 모든 이미지에서 UIQM의 향상이 두드러지며, 이 모델이 수중 이미지의 채도, 색재현 및 선명도 개선에 우수한 성능을 보임을 확인하였다. 이를 바탕으로 해당 모델을 영상을 통한 해양생물 개체 분석에 적용하였다.

4.3 거리 및 크기 추정 결과

YOLOv9c-Seg 해양생물 탐지 모델, 수중 이미지 보정 모델, DepthAnything v2 MDE 알고리즘을 결합한 개체 분석 모듈을 이용하여, 제주도 판포 해역 촬영 영상에 출현한 말쥐치의 크기를 추정하였다. 매 프레임마다 수중 이미지 보정을 수행한 후, 탐지 모델로 말쥐치를 검출하면 계측 프로세스를 진행하도록 하였다. 계측은 DepthAnything v2를 이용해 이미지의 모든 지점에 대한 깊이를 추정하되, 최대 거리 추정 가능 범위를 5m로 제한하였다. 이후 탐지된 말쥐치의 중심 좌표에 대응하는 픽셀의 밝기값을 추출하는 방식으로 이루어졌다. 이를 바탕으로, 거리-밝기 다항회귀식을 산출하여 말쥐치의 밝기값을 거리로 변환하였다. 이후 가이드 스틱 마커의 크기 및 거리 값을 이용해 크기-거리 다항회귀식을 생성하고, 말쥐치의 마스크에서 최외접 사각형의 긴 변 길이를 사용해 최종적으로 크기를 추정하였다.

2주간 촬영된 영상을 분석한 결과, 총 726개체의 말쥐치가 탐지되었으며 크기는 최소 10.0cm에서 최대 35.0cm, 평균 18.6cm로 산출되었다. Fig. 9에는 보정, 탐지, 깊이 추정이 이루어진 각 이미지가 포함되어 있다. 다만, Fig. 8의 이미지 (c)와 같이 시야 및 배경 조건으로 인해 일부 이미지에서는 말쥐치의 깊이 추정이 불명확해 배경과의 분리가 어려운 경우가 있었으며, 이로 인해 일부 과대 또는 과소 추정이 발생한 것으로 보인다.

5. 결 론

본 연구는 지속 가능한 해양 생태계 관리와 수산자원 보호를 위해 수중 환경에서 해양생물의 탐지 및 계측을 수행 할 수 있는 새로운 기법을 개발하고 검토하였다. YOLO-Segmentation 모델의 여러 버전을 비교하여 최적 성능을 보인 YOLOv9c-Seg 모델을 선정하고, 이를 수중 이미지 보정 모델 및 DepthAnything v2 MDE 알고리즘과 결합하여 통합적인 탐지 및 분석 모듈을 구축하였다.

수중 이미지 보정 모델은 빛의 흡수와 산란으로 왜곡된 이미지를 보정하여 UCIQE 및 UIQM 지표에서 성능 개선을 보였으며, DepthAnything v2 MDE 알고리즘은 단일 카메라 기반으로 거리 추정을 가능하게 하였다. 이를 통해 해양생물 의 실제 색상과 형태를 복원하고, 거리-밝기 및 크기-거리 회귀식을 활용해 생물 개체의 크기를 정량적으로 산출할 수 있었다.

특히, 본 연구는 이러한 단안 카메라 기반의 거리 및 크기 추정 기법을 활용하여 유의미한 결과를 도출하였으며, 이를 고도화함으로써 보다 정확한 크기 추정과 시공간적 분석을 통한 해양생물 자원량 추정으로의 확장 가능성을 제시할 예정이다.

결론적으로, 본 연구는 기존의 자원량 조사 방식에서 벗어나 수중 영상을 활용한 대체적 접근 가능성을 제시하는 데 기여하였다. 향후 기술 고도화를 통해 보다 정밀한 계측 기술을 구축하고, 이를 바탕으로 해양생물의 시공간적 분석과 자원량 추정에 실질적으로 활용할 수 있을 것으로 기대 된다.

감사의 글

본 연구는 한국수산자원공단의 ‘딥러닝 기반 수산자원 증대사업 효과조사 기법 개발(3년차, 2024)’ 사업의 지원을 받아 수행되었으며, 한국지능정보사회진흥원(NIA) AIHub의 ‘어류 개체 촬영 영상’ 자료를 활용하였습니다.

Figure

Fig. 1.

Steps to apply underwater image correction algorithm.

Fig. 2.

Results of applying DepthAnything v2 to underwater images (Yang et al., 2024).

Fig. 3.

Flowchart of Measurement Process Using Deep Learning Detection Model, Image Correction, and MDE Algorithm.

Fig. 4.

Fixed camera installation point in Jeju island.

Fig. 5.

Underwater video recorded in the coastal waters of Panpo, Jeju Island, in September 2024

Fig. 6.

Fixed camera platform type and underwater installation photo.

Fig. 7.

Example Image of Marine Life Detection Using the YOLOv9c-Seg Model.

Fig. 8.

Comparison of Pre- and Post-Correction of Underwater Images.

Fig. 9.

Images with applied correction, detection, and measurement results.

Table

Table 1.

Marine species targeted for training and the number of original image data per species

Class ID	Species (Korean)	Species (English)	Number of images
1	감성돔	Acanthopagrus schlegelii	3,741
2	말쥐치	Thamnaconus modestus	3,607
3	망상어	Ditrema temminckii	2,143
4	쥐노래미	Hexagrammos otakii	2,099
5	조피볼락	Sebastes schlegelii	2,793
6	넙치	Paralichthys olivaceus	3,946
7	참돔	Pagrus major	4,800
8	돌돔	Oplegnathus fasciatus	4,802
9	바리류	Epinephelus	3,015
10	꼼치	Liparis tanakae	2,223
11	대구	Gadus macrocephalus	2,043
12	홍어	Okamejei kenojei	2,093
13	문어	Enteroctopus dofleini	3,303
14	꽃게	Portunus trituberculatus	2,409
15	도루묵	Arctoscopus japonicus	2,194
16	임연수어	Pleurogrammus azonus	2,001
17	고등어	Scomber japonicus	2,171
18	갈치	Trichiurus lepturu	2,500
19	대게	Chionoecetes opilio	2,223
20	갑오징어	Sepia officinalis	2,200
21	살오징어	Todarodes pacificus	2,271
22	해삼	Holothuroidea	2,016

Table 2.

Frame, Camera and battery specifications

Table 3.

Performance evaluation result of YOLO-Segmentation models

Model	Precision	Recall	mAP@50
YOLOv5m-Seg	0.907	0.892	0.928
YOLOv8m-Seg	0.910	0.892	0.936
YOLOv9c-Seg	0.908	0.912	0.943
YOLOv11m-Seg	0.904	0.900	0.936

Table 4.

Performance evaluation result of YOLO-Segmentation models

Class ID	Species	Precision	Recall	mAP@50
1	감성돔	0.942	0.959	0.988
2	말쥐치	0.879	0.951	0.954
3	망상어	0.905	0.959	0.979
4	쥐노래미	0.936	1.000	0.995
5	조피볼락	0.876	0.953	0.974
6	넙치	0.670	0.945	0.831
7	참돔	0.945	0.952	0.979
8	돌돔	0.905	0.953	0.982
9	바리류	0.920	1.000	0.988
10	꼼치	0.920	1.000	0.995
11	대구	0.932	0.952	0.971
12	홍어	0.907	0.980	0.982
13	문어	0.991	1.000	0.995
14	꽃게	0.976	0.998	0.980
15	도루묵	0.813	0.629	0.773
16	임연수어	0.846	0.900	0.944
17	고등어	0.910	0.829	0.942
18	갈치	0.831	0.856	0.901
19	대게	0.998	0.991	0.995
20	갑오징어	0.963	0.706	0.833
21	살오징어	0.925	0.920	0.965
22	해삼	0.983	0.636	0.797

Table 5.

Quality Evaluation Metrics of Underwater Images

Image	Original image	Correction image
(a)	UCIQE : 23.38 UIQM : 0.12	UCIQE : 28.51 UIQM : 1.38
(b)	UCIQE : 29.56 UIQM : 0.13	UCIQE : 29.09 UIQM : 0.64
(c)	UCIQE : 30.38 UIQM : 0.68	UCIQE : 30.38 UIQM : 1.85

Reference

Akgül, T., N. Çalik, and B. U. Töreyın ( 2020). Deep Learning-Based Fish Detection in Turbid Underwater Images. 2020 28th Signal Processing and Communications Applications Conference (SIU), Gaziantep, Turkey, pp. 1-4.
Birkl, R., D. Wofk, and M. Müller ( 2023). MiDaS v3.1 - A Model Zoo for Robust Monocular Relative Depth Estimation. arXiv preprint arXiv:2307.14460. https://arxiv.org/abs/2307.14460.
Bolya, D., C. Zhou, F. Xiao, and Y. J. Lee ( 2019). YOLACT: Real-Time Instance Segmentation. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), pp. 9156-9165.
Bornfree ( 2022). Dive Color Corrector. Available at: https://github.com/bornfree/dive-color-corrector.
Chen, X., P. Zhang, L. Quan, C. Yi, and C. Lu ( 2021). Underwater Image Enhancement Based on Deep Learning and Image Formation Model. arXiv preprint arXiv:2101.00991. https://arxiv.org/abs/2101.00991.
Climent-Perez, P., A. Galán-Cuenca, N. E. Garcia-d’Urso, M. Saval-Calvo, J. Azorin-Lopez, and A. Fuster-Guillo ( 2024). Simultaneous, vision-based fish instance segmentation, species classification and size regression. PeerJ Computer Science, 10, e1770.
Dumitriu, A., F. Tatui, F. Miron, R. T. Ionescu, and R. Timofte ( 2023). Rip Current Segmentation: A Novel Benchmark and YOLOv8 Baseline Results. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), pp. 1261-1271.
Eigen, D., C. Puhrsch, and R. Fergus ( 2014). Depth Map Prediction from a Single Image Using a Multi-Scale Deep Network. Advances in Neural Information Processing Systems (NIPS), pp. 2366-2374.
Garcia, R., R. Prados, J. Quintana, A. Tempelaar, N. Gracias, S. Rosen, H. Vågstøl, and K. Løvall ( 2020). Automatic segmentation of fish using deep learning with application to fish size measurement. ICES Journal of Marine Science, 77(4), pp. 1354-1366.
Geiger, A., P. Lenz, C. Stiller, and R. Urtasun ( 2013). Vision meets robotics: The KITTI dataset. International Journal of Robotics Research (IJRR), 32(11), pp. 1231-1237.
Panetta, K., C. Gao, and S. Agaian ( 2015). Human-Visual- System-Inspired Underwater Image Quality Measures. IEEE Journal of Oceanic Engineering, 41, pp. 541-551.
Padilla, R., S. L. Netto, and E. A. B. Da Silva ( 2020). A Survey on Performance Metrics for Object-Detection Algorithms. 2020 International Conference on Systems, Signals and Image Processing (IWSSIP), pp. 237-242.
Shin, Y. H., J. H. Choi, and H. S. Choi ( 2021). Deep Learning based Fish Object Detection and Tracking for Smart Aqua Farm. The Journal of the Korea Contents Association, 21(1), pp. 552-560.
Singh, N., P. Saini, and D. Yadav ( 2023). Underwater Marine Life Study Using YOLO V8. International Journal for Multidisciplinary Research (IJFMR), 5(6), November-December. E-ISSN: 2582-2160.
Silberman, N., D. Hoiem, P. Kohli, and R. Fergus ( 2012). Indoor segmentation and support inference from RGBD images. Proceedings of the European Conference on Computer Vision (ECCV), pp. 746-760.
Tian, G., D. Li, W. Li, L. Zhang, H. Zhang, and Q. Duan ( 2021). A detection method of the turned white belly fish based on improved SSD. Journal of Physics: Conference Series, 1856(1), 012035.
Xiu, L., M. Shang, H. Qin, and L. Chen ( 2015). Fast accurate fish detection and recognition of underwater images with Fast R-CNN. OCEANS 2015 - MTS/IEEE Washington, pp. 1-5.
Yang, L., B. Kang, Z. Huang, Z. Zhao, X. Xu, J. Feng, and H. Zhao ( 2024). Depth Anything V2: Monocular depth estimation with synthetic data and pseudo-labeled real images. Proceedings of the 38th Conference on Neural Information Processing Systems (NeurIPS 2024).
Yang, M. and A. Sowmya ( 2015). An Underwater Color Image Quality Evaluation Metric. IEEE Transactions on Image Processing, 24(12), pp. 6062-6071.

Frame specifications
Top Size	42.5×42.5cm	Height	49.0cm
Bottom Size	99.0×99.0cm
Camera specifications		Battery specifications
Image Sensor	1/2.8" 2MP CMOS	Capacity	44,100mAh
Maximum Resolution	4K (3840×2160)	Voltage	12.6V
Maximum Frame Rate	Up to 60FPS at 2 megapixels	Maximum Recording Time	15 days (360 hours)
Minimum Illumination	Color: 0.055 Lux (F2.0, 1/30 sec)

Research on the Development and Measurement Methods of Deep Learning-Based Marine Life Detection Technology

AbstractOther SectionsAbstract초록1. 서 론 2. 연구 방법 3. 사용 자료 4. 연구 결과 5. 결 론 감사의 글FigureTableReference

딥러닝 기반 해양생물 탐지 기술 개발 및 계측 방안 연구

초록Other SectionsAbstract초록1. 서 론 2. 연구 방법 3. 사용 자료 4. 연구 결과 5. 결 론 감사의 글FigureTableReference

1. 서 론 Other SectionsAbstract초록1. 서 론 2. 연구 방법 3. 사용 자료 4. 연구 결과 5. 결 론 감사의 글FigureTableReference

2. 연구 방법 Other SectionsAbstract초록1. 서 론 2. 연구 방법 3. 사용 자료 4. 연구 결과 5. 결 론 감사의 글FigureTableReference