Journal Search Engine
Search Advanced Search Adode Reader(link)
Download PDF Export Citaion korean bibliography PMC previewer
ISSN : 1229-3431(Print)
ISSN : 2287-3341(Online)
Journal of the Korean Society of Marine Environment and Safety Vol.30 No.2 pp.147-156
DOI : https://doi.org/10.7837/kosomes.2024.30.2.147

Comparative Study of Fish Detection and Classification Performance Using the YOLOv8-Seg Model

Sang-Yeup Jin*, Heung-Bae Choi**, Myeong-Soo Han***, Hyo-tae Lee****, Young-Tae Son*****
*Associate Research Engineer, GeoSystem Research Corp., Gyeonggi 15870, Korea
**Executive Director, GeoSystem Research Corp., Gyeonggi 15870, Korea
***Research Engineer, GeoSystem Research Corp., Gyeonggi 15870, Korea
****Assistant Manager, Korea Fisheries Resources Agency, Busan 46041, Korea
*****Executive Director, GeoSystem Research Corp., Gyeonggi 15870, Korea

* First Author : syjin@geosr.com, 031-5180-5875


Corresponding Author : hbchoi@geosr.com, 031-5180-5862
March 6, 2024 April 23, 2024 April 26, 2024

Abstract


The sustainable management and enhancement of marine resources are becoming increasingly important issues worldwide. This study was conducted in response to these challenges, focusing on the development and performance comparison of fish detection and classification models as part of a deep learning-based technique for assessing the effectiveness of marine resource enhancement projects initiated by the Korea Fisheries Resources Agency. The aim was to select the optimal model by training various sizes of YOLOv8-Seg models on a fish image dataset and comparing each performance metric. The dataset used for model construction consisted of 36,749 images and label files of 12 different species of fish, with data diversity enhanced through the application of augmentation techniques during training. When training and validating five different YOLOv8-Seg models under identical conditions, the medium-sized YOLOv8m-Seg model showed high learning efficiency and excellent detection and classification performance, with the shortest training time of 13 h and 12 min, an of 0.933, and an inference speed of 9.6 ms. Considering the balance between each performance metric, this was deemed the most efficient model for meeting real-time processing requirements. The use of such real-time fish detection and classification models could enable effective surveys of marine resource enhancement projects, suggesting the need for ongoing performance improvements and further research.



YOLOv8-Seg 모델을 이용한 어류 탐지 및 분류 성능 비교연구

진상엽*, 최흥배**, 한명수***, 이효태****, 손영태*****
*㈜지오시스템리서치 전임
**㈜지오시스템리서치 상무
***㈜지오시스템리서치 선임
****한국수산자원공단 자원회복실 대리
*****㈜지오시스템리서치 상무

초록


수산자원의 지속 가능한 관리와 증대는 전 세계적으로 중요한 이슈로 부상하고 있으며, 본 연구는 이에 대응하는 한국수산자원공단의 수산자원 현존량 추정을 위한 딥러닝 기반 수산자원 증대사업 효과조사 기법 개발을 위해 구성 기술 중 하나인 어류 탐지 및 분류 모델 구축과 성능 비교를 수행하였다. 다양한 크기의 YOLOv8-Seg 모델에 어류 이미지 데이터셋을 학습한 후 각 성능평가 지표를 비교 분석하여 적용 가능한 최적의 모델을 선정하고자 하였다. 모델 구축에 사용된 자료는 총 12종의 어류로 이루어진 36,749장의 이미지와 라벨 파일로 이루어지며, 학습에는 증강을 적용하여 데이터의 다양성을 증가시켰다. 동일한 환경 및 조건에서 총 다섯 개의 YOLOv8-Seg 모델을 학습 및 검증한 결과 중간 크기의 YOLOv8m-Seg 모델이 가장 짧은 13시간 12분의 학습 시간과 mAP50:95 0.933, 추론 속도 9.6 ms로 높은 학습 효율성과 우수한 탐지 및 분류 성능을 보였으며, 각 지표 간의 균형을 고려할 때 실시간 처리 요구사항을 충족하는 가장 효율적인 모델로 평가되었다. 이와 같은 실시간 어류 탐지 및 분류 모델을 활용하여 효율적인 수산자원 증대사업의 효과조사가 가능할 것으로 보이며, 지속적인 성능 개선 및 추가적인 연구가 필요할 것으로 사료된다.



    1. 서 론

    최근 수산자원의 지속 가능한 관리와 증대는 전 세계적으로 중요한 이슈이다. 우리나라의 경우, 급속한 산업화, 연안 개발, 해양기후변화 등으로 인해 해양생물의 산란 및 서식지 감소, 어종의 다양성 감소가 심각한 문제로 대두되고 있다. 이러한 문제에 대응하기 위해 한국수산자원공단(FIRA)은 수산자원 증대사업을 통해 인공적인 수산자원의 조성 및 관리에 주력하고 있다. 이 사업은 바다숲 조성, 연안바다목장, 인공어초 설치 등 다양한 방식으로 수산자원의 지속 가능한 공급 및 생태계 복원을 목적으로 한다. 이와 더불어, 수산자원 증대사업의 효과를 평가하는 효과조사 기법은 사업의 효율성 및 생태계에 미치는 영향을 이해하는 데 필수적이다.

    기존의 수산자원 증대사업 효과조사 기법은 주로 직접 자원조사 방식, 즉 저인망(Trawl) 어법, 자망(Gillnet) 어법 등을 통해 실시되어왔다. 그러나 이러한 방법은 어구에 의한 생물 서식환경의 파괴, 비효율성, 노동집약적 조사, 안전관리의 위험성 등 여러 한계를 가지고 있다. 이에 따라, 비파괴적이고 효율적인 새로운 조사 방법의 개발이 절실히 요구된다.

    한국수산자원공단에서는 딥러닝 기술과 단안 카메라 깊이 추정(Monocular Depth Estimation), 스테레오 비전(Stereo Vision) 분석 기술을 이용하여 원격조종 수중로봇(Remotely Operated underwater Vehicle, ROV), 고정형 카메라, 스테레오 카메라 등으로 촬영된 영상으로부터의 현존량 추정 기법 개발을 진행 중이다. 해당 기법의 주요 기술 중 하나는 영상 내 출현한 어류를 탐지하고 종을 분류하며, 체장 측정을 위해 보다 정확한 생물의 형태를 추출할 수 있는 딥러닝 기술 적용이다.

    최근 딥러닝 기술의 발전은 최근 수중 영상에서의 해양 생물 탐지 및 분류 작업에서 혁신적인 변화를 가져왔으며, 특히, 객체 탐지(Object Detection)와 객체 분할(Segmentation) 분야의 발전은 수중 생태계 연구와 자원관리에 새로운 가능성을 열어주었다. 초기에는 Canny Edge Detection 알고리즘을 이용한 수중 영상 내 어류 탐지 및 분류(Fabic et al., 2013), 주성분 분석(Principal Component Analysis, PCA)과 Haar 분류기를 이용한 어류 탐지(Ravanbakhsh et al., 2015) 등 이미지 처리 기법과 패턴 인식 알고리즘을 통해 대상체를 탐지하는 방법이 주를 이루었다. 그러나 이러한 방법들은 기본적인 형태 인식은 가능했으나, 대량의 수중 이미지 처리와 복잡한 수중 환경에서의 다양한 해양생물 인식에는 한계가 존재했다. 이후 인공지능 기술의 발전에 따라 딥러닝 기반의 객체 탐지 모델들이 점차 주목받기 시작했다. Deformable Parts Model(DPM), Regions with Convolutional Neuron Networks features(R-CNN), Fast R-CNN을 이용한 12종의 어류에 대한 탐지 및 분류 성능 비교(Li et al., 2015), YOLOv3를 이용한 발전소 내 실시간 어류 탐지(Xu and Matzner, 2018), Single Shot Detector(SSD)를 이용한 수중 영상 내 어류 탐지(Akgül et al., 2020;Tian et al., 2021) 등에서 빠른 속도와 높은 정확도를 보였다. 더 나아가, Mask R-CNN(He et al., 2017), You Only Look At CoefficienTs(YOLACT; Bolya et al., 2019) 등 객체 분할 모델의 등장에 따라 픽셀 단위의 정확한 객체 경계를 식별할 수 있게 되었으며, 어류 탐지 및 분류에 적용하고, 결과를 이용하여 육상 실험실 환경에서의 평면상 객체 전장(Total Length, TL) 측정을 시도하였다(Climent-Perez et al., 2024). 이러한 기술의 발전은 수중 생물 다양성 연구, 해양 생태계 모니터링, 수산자원 관리 등 여러 분야에서 응용되었다.

    따라서, 본 연구는 최신 실시간 객체 탐지 및 분할 모델인 YOLOv8-Seg의 다양한 버전을 이용하여 수산자원 증대사업 대상종에 해당하는 국내 서식 어류 중 대표 종에 대하여 객체 분할 기반 탐지 및 분류 성능을 비교 분석하고 최적 모델을 제시한다. 기존 연구는 주로 육상 실험실 환경에서 수행 되었기 때문에, 실제 수중 환경에서 필요한 정확도와 성능을 달성하는 데 한계가 있었다. 이러한 배경에서, 본 연구는 어류 탐지에 있어 속도와 정확도의 중요성을 강조한다. 정확한 종 분류와 객체 인식은 수산 자원량의 분석과 관리에 직접적인 영향을 미치며, 본 연구는 YOLOv8-Seg 모델을 활용하여 일반적인 30 FPS 이상의 영상에 대해 실시간 추론 속도를 확보하면서도 우수한 정확도를 제공한다. 높은 추론 속도와 정확도는 수중 환경에서 복잡한 탐지 및 분류 작업을 효과적으로 수행할 수 있게 하며, 신속한 현존량 추정과 분석을 가능하게 한다. 결과적으로, 본 연구는 수산자원의 효율적인 관리와 지속 가능한 증대에 크게 기여할 것으로 기대되며, 기존의 한계를 극복하고 수산자원 관리의 혁신을 목표로 새로운 가능성을 제시할 것이다.

    2. 연구 방법

    2.1 객체 분할

    객체 분할은 이미지 내 객체의 픽셀별 경계를 식별하는 과정으로, 객체의 형태와 크기, 위치를 정확하게 파악할 수 있다. 객체 분할은 의미론적 분할(Semantic Segmentation)과 인스턴스 분할(Instance Segmentation)의 두 가지 유형으로 구분된다 (Varatharasan et al., 2019). Long et al.(2015)의 Fully Convolutional Networks(FCN), Chen et al.(2017)의 DeepLab 등 의미론적 분할 모델은 이미지 내 모든 픽셀을 사전 정의된 클래스(Class)에 할당하는 것으로 동일한 클래스에 속하는 객체 간의 구분은 수행하지 않는다. 반면, Ultralytics의 YOLOv8-Seg, Wang et al.(2020)의 SOLOv2 등 인스턴스 분할 모델은 개별 객체 마스크(Mask)와 클래스 정보에 대한 지도 학습(Supervised Learning)에 따라 동일한 클래스 내에서도 개별 객체를 구별하여 각 각에 대한 경계 식별이 가능하다(Fig. 1). 이에 따라, 본 연구에서는 어류 개별 객체 탐지 및 분류에 따른 종별 계수 (Counting)가 가능한 인스턴스 분할 모델을 적용하였다.

    2.2 사용 모델

    본 연구에서 어류 탐지 및 분류를 위해 적용한 모델은 YOLO(You Only Look Once) 시리즈의 객체분할 모델 중 최신 버전인 YOLOv8-Seg로 추론 속도(Inference Speed)와 정확도 면에서 YOLO의 이전 버전과 비교하여 개선된 성능을 보여 준다. YOLO의 특징인 30 FPS 또는 60 FPS의 프레임 재생속도를 가진 일반적인 동영상에 대한 실시간 처리가 가능한 추론 속도와 높은 정확도를 유지하면서도, 바운딩 박스 형태의 탐지와 객체 형태의 마스크 분할, 클래스 분류가 가능하다는 특징이 있다. YOLOv8-Seg의 모델 구조는 Fig. 2와 같으며, YOLOv7 Efficient Layer Aggregation Network(ELAN; Wang et al., 2022)의 설계 개념을 바탕으로 C2f 모듈과 Spatial Pyramid Pooling Fusion(SPPF)을 적용하고, 넥(Neck) 디자인을 개선함으로써 복잡한 환경에서도 효과적으로 객체를 탐지하고 분류할 수 있다(Bai et al., 2023).

    YOLOv8-Seg는 모델을 구성하는 파라미터 수에 따라 총 다섯 가지 크기(Nano, Small, Medium, Large, Xlarge)로 제공되며 정확도와 추론 속도, 복잡도(Complexities) 측면에서 차이를 보인다. Nano 모델은 실시간 처리를 위한 최소한의 자원을 사용하며, Small 모델은 보다 높은 정확도를 제공하고 빠른 추론 속도를 유지한다. Medium 모델은 자원과 속도 측면에서 균형 잡힌 성능을 제공하며, Large와 Xlarge 모델은 고해상도 이미지에서 더욱 상세한 탐지가 가능하다는 특징이 존재한다. 각 모델의 용량은 7.1 MB에서 137.5 MB로 다양하며, 파라미터 수는 3.4백만에서 71.8백만 개의 범위를 보여준다.

    2.3 성능평가 지표(Evaluation Metrics)

    YOLOv8-Seg 모델별 성능평가를 위한 지표는 Padilla et al.(2020), Dumitriu et al.(2023)에 따라 정밀도(Precision), 재현율(Recall), mean Average Precision(mAP) 그리고 추론 시간 (Inference Time)으로 구성하였다. 각 지표는 모델의 성능과 실시간 처리 능력을 종합적으로 평가하기 위해 선정되었다. 정밀도는 모델이 양성으로 예측한 결과 중 실제 양성인 결과의 비율로 정의된다. 정밀도를 높이기 위해서는 잘못된 양성 예측, 즉 False Positive(FP)의 수를 줄이는 것이 중요하며, 다음과 같은 식으로 계산된다.

    P r e c i s i o n = T P T P + F P = T P A l l det e c t i o n s
    (1)

    여기서 True Positive(TP)는 모델이 양성으로 정확히 예측한 경우의 수이다(Fig. 3).

    재현율은 실제 양성인 결과 중 모델이 양성으로 올바르게 예측한 비율로 정의되며, 모델이 실제로 양성인 결과를 놓치지 않은 정도를 나타낸다. 재현율을 높이기 위해서는 모델이 양성을 음성으로 잘못 예측한 결과인 False Negative (FN)을 최소화하는 것이 중요하며, 다음과 같은 식으로 계산 된다.

    R e c a l l = T P T P + F N = T P A l l g r o u n d t r u t h s
    (2)

    평균 정밀도(Average Precision, AP)는 모델의 정밀도와 재현율의 관계를 다양한 임계값(Threshold)에서 측정한 평균값을 나타낸다. 객체 인식 분야에서는 Intersection over Union (IoU) 임계값을 사용하여 예측된 면적이 실제 면적과 얼마나 잘 일치하는지를 평가한다. IoU는 예측된 면적과 실제 면적의 교집합 영역을 두 면적의 합집합 영역으로 나눈 값으로 계산되며 식은 다음과 같다.

    I o U ( T r u e , Pr e d i c t ) = | T r u e Pr e d i c t | | T r u e Pr e d i c t |
    (3)

    AP는 이러한 IoU를 기준으로 설정된 여러 임계값에 따라 정밀도와 재현율을 측정함으로써 계산된다. 재현율의 변화에 따른 정밀도의 가중 평균을 통해 계산되며 식은 다음과 같으며, 본 식에서 k 는 평가에 사용되는 다양한 임계값들의 순번에 해당한다.

    A P = k ( R e c a l l k R e c a l l k 1 ) × Pr e c i s i o n k
    (4)

    mAP50은 AP를 모든 클래스에 대해 평균한 것으로 IoU 임계값이 0.5일 때의 모델 성능을 나타낸다. mAP50 : 95는 IoU 임계값을 0.5부터 0.95까지 0.05 단위로 증가시키며 계산한 AP 의 평균값으로 모델의 성능을 더 다양한 조건에서 평가하기 위해 사용한다. mAP50mAP50 : 95 계산식은 다음과 같다.

    m A P 50 = 1 N i = 1 N A P i
    (5)

    m A P 50 : 95 = A P I o U = 0.5 + A P I o U = 0.55 + + A P I o U = 0.95 n
    (6)

    앞서 언급한 모델의 성능평가 지표와 함께 추론 시간을 산출하여 높은 정밀도와 재현율을 유지하면서도 빠른 처리 속도를 갖는 최적 모델 선정에 활용하였다.

    2.4 환경 및 매개변수

    본 연구에서의 모델 학습과 추론은 NVIDIA GeForce RTX 3090 GPU 4way 구성을 통해 이루어졌으며, 관련된 소프트웨어 환경으로는 Python 3.10, Pytorch 2.1.2, Ultralytics 8.1.17, CUDA 12.0을 사용하였다. 모델 입력 이미지는 640 × 640 픽셀의 정방형 이미지로 변환되며, 모델 사이즈별 동일한 학습조건 구성을 위해 배치 사이즈(Batch Size)는 64로 고정하였다. 또한, 학습 에포크(Epochs)는 최대 1,000회로 지정하고 과적합(Overfitting) 방지를 위해 50회 동안 모델의 성능 개선이 이루어지지 않으면 학습을 조기 종료(Early Stopping)하도록 매개변수를 설정하였다.

    2.5 성능 비교 방법

    어류 탐지 및 분류에 특화된 모델 선정을 위해 각 성능평가 지표 산출을 통한 탐지 및 분류 정확도와 학습 소요 시간, 추론 속도를 고려한 효율성을 종합적으로 평가하였다. 평가를 위해 사전 학습(Pre-trained)된 다섯 가지 모델의 가중치(Weights)에 동일한 어류 이미지 데이터셋을 전이 학습 (Transfer Learning)하여 반복된 학습과 검증 과정 간 가장 높은 Validation mAP50을 도출한 모델을 최적 에포크(Best Epochs) 모델로 저장하였다. 이후 각 크기에 따른 최적 에포크 모델의 평가(Test) 데이터셋에 대한 정밀도, 재현율, mAP를 포함한 성능평가 지표를 산출하였다.

    이러한 성능평가 지표를 바탕으로 높은 정밀도와 재현율을 유지하며 추론 속도가 빠르고 학습 시간이 짧은 모델을 먼저 고려하였다. 선정된 모델은 어류 탐지 및 분류 작업에 필요한 실시간 처리 능력과 높은 정확도를 제공함으로써 자원 관리 현장에서 적용 가능한 가장 적합한 모델로 판단하였다. 또한, 우수한 학습 효율성은 변화하는 환경과 대상종 변화에 대응하기 유리할 것으로 예상하였다.

    3. 사용 자료

    3.1 학습 자료

    어류 이미지 데이터셋은 한국수산자원공단의 ‘어류 딥러닝 기반 어획 효과조사기법 개발(2022)’과 ‘딥러닝 기반 수산 자원 증대사업 효과조사 기법 개발(2023)’ 사업을 수행하며 수집된 해양생물 이미지 데이터셋의 일부이며, 다이버와 원격조종 수중로봇을 이용한 수중촬영 영상, 한국지능정보사 회진흥원(NIA)의 AIHub 내 ‘어류 개체 촬영 영상’ 데이터셋과 웹 수집 자료로 구성하였다. 이 중 직접 촬영 영상은 우리나라 남해 일대의 산란·서식장 조성해역에서 촬영되었으며 말쥐치, 망상어, 쥐노래미를 대상으로 약 5~15m 수심에서 촬영되었다.

    데이터셋은 Table 1의 어류 12종을 탐지 및 분류 대상으로 하며 총 36,749개의 원본 이미자와 텍스트 형식의 객체 마스크 라벨 파일 쌍으로 이루어져 있다.

    YOLOv8-Seg 모델 학습 및 평가를 위해 데이터셋은 학습(Train), 검증(Validation), 평가(Test)로 구분되며 각각 80:10:10의 비율로 분할하였다. 학습 단계에서는 학습 데이터셋을 이용하여 모델을 학습한 후 검증 데이터셋에 대한 평가를 통해 모델의 성능을 주기적으로 검증하고, 학습 데이터셋에 대한 과적합을 방지하여 일반화된 성능을 유지하도록 조정하였다. 이때, 학습 데이터셋에 대해서는 다양성 증가를 위해 배치 데이터(Batch Data) 생성 단계에서 데이터 증강(Augmentation)을 무작위 적용하였다(Fig. 4). 이미지 증강에 활용된 기법은 좌우 반전(Horizontal Flip), 원근 변환(Perspective Conversion), 전단 변환(Shear Conversion), 색상(Hue) 및 채도(Saturation) 변환 등이 적용되었다.

    3.2 평가 자료

    평가를 위한 자료는 학습과 검증 과정에 사용되지 않은 데이터셋으로, 모델이 학습 과정에서 살펴보지 못한 데이터에 대한 적용성과 탐지 및 분류 성능을 검증하였다. 이를 통해 모델의 일반화된 성능과 신뢰성을 확인하며, 모델의 실제 적용 가능성과 신뢰성을 확보하였다.

    본 연구에 적용한 평가 데이터셋은 데이터 증강을 적용하지 않은 원본 이미지로 구성되어 있으며, 검증 데이터셋과 동일한 형태로 입력되어 모델의 성능평가 지표를 산출할 수 있도록 하였다.

    4. 연구 결과

    앞서 언급된 어류 이미지 데이터셋과 환경 및 매개변수를 바탕으로 크기별 YOLOv8-Seg 모델 학습을 진행하였으며, 각각의 최적 에포크 모델을 추출하여 평가 데이터셋에 대한 성능지표 산출을 수행하였다.

    Table 2는 모델별 총 학습 에포크(Total Epochs), 최적 에포크 그리고 학습에 소요된 시간(Runtime)을 의미하며, 각 학습에 일관되게 적용한 하이퍼파라미터(Hyperparameter)를 나타내었다. 이 중 YOLOv8m-Seg 모델은 총 169 에포크, 학습 시간 13시간 12분으로 가장 우수한 학습 효율성을 보여주었으며, 최적 에포크는 119로 산출되었다. 반면, YOLOv8s-Seg 모델은 총 424 에포크와 29시간 55분의 학습 시간이 경과 되어 가장 긴 시간이 소요되었다. 이외 YOLOv8n-Seg, YOLOv8l-Seg, YOLOv8x-Seg 모델은 각각 21시간 56분, 19시간 57분, 14시간 2분 순으로 짧은 학습 시간이 소요된 것으로 나타났다. 이는 YOLOv8m-Seg 모델의 구조가 중간 크기임에도 불구하고 최적의 학습 효율성을 보인 것으로, 어류 데이터셋에 대하여 복잡도와 성능 사이의 균형이 잘 이루어진 것으로 판단된다.

    Table 3은 평가 데이터셋에 대한 모델별 의미론적 분할 및 분류 성능평가 지표 산출 결과로 YOLOv8-Seg 모델을 구성하는 다섯 가지 모델 모두 각 지표에서 0.9(90%) 이상의 우수한 어류 탐지 및 분류 성능을 보이는 것으로 나타났다. YOLOv8n-Seg 모델의 경우 타 모델과 비교하여 0.957의 높은 정밀도와 8.0 ms의 가장 짧은 추론 시간을 보였으나, 재현율과 mAP50 : 95에서는 각각 0.63~0.94%, 1.41~1.63% 낮은 값을 보였다. 이는 경량화된 모델인 YOLOv8n-Seg 모델의 특성상 계산 복잡도가 감소하면서 처리 속도는 빨라지고 학습된 어류에 대한 기본적인 탐지 및 분류가 가능하나, 다양성이 높거나 세밀한 정보가 요구되는 경우 정확한 탐지 및 분류에 일부 어려움을 겪는 것으로 판단된다. 또한, YOLOv8l-Seg 및 YOLOv8x-Seg 모델은 mAP50 : 95에서 0.934의 최댓값을 나타냈으나, YOLOv8s-Seg 및 YOLOv8m-Seg 모델과 아주 작은 차이를 보였다. 더불어, 모델 크기 및 복잡도에 따라 추론 시간은 각각 11.2, 16.7 ms로 타 모델 대비 긴 시간을 요구하여 사용자의 하드웨어 성능, 이미지 전처리 과정, 해상도 등에 따라 실시간 적용에 어려울 수 있다.

    따라서, 학습 효율성과 어류 탐지 및 분류 성능, 추론 시간을 종합적으로 고려하였을 때, YOLOv8m-Seg 모델이 최적의 균형을 나타내는 것으로 분석되었다. 해당 모델은 119 에포크 만에 최고 성능에 도달하였으며, Fig. 5에 나타낸 것과 같이 다양한 조건에서의 탐지 및 분류 정확도를 나타내는 mAP50 : 95와 추론 시간에서 가장 적절한 성능과 균형을 보여 주었다. 짧은 추론시간은 추후 효과조사 기법을 위해 적용 될 수 있는 수중 이미지 보정 기술, 객체 크기 분석 기술이 일괄적으로 적용될 때 높은 정확도를 유지하면서, 긴 영상에 대한 분석 소요 시간을 크게 단축시킬 수 있는 이점이 존재한다.

    Table 4는 선정된 YOLOv8m-Seg 모델을 이용하여 평가 데이터셋의 어류 12종에 대한 각각의 성능평가 지표를 산출한 것으로 각 어류 이미지에 대해 얼마나 정확히 탐지하고 분류할 수 있는지 나타낸다. 정밀도와 재현율은 모든 어종에서 0.9 이상으로 산출되었으며, 이는 YOLOv8m-Seg 모델이 어종을 정확하고 일관되게 인식하고 분류할 수 있음을 의미한다. 특히 쥐노래미와 홍어에 대해서는 1.0에 가까운 정밀도와 재현율을 나타냈다. 망상어의 경우 이미지의 복잡성과 환경적 요인으로 인해 타 어종과 비교하여 지표가 낮게 산출되었다. 이는 특정 환경이나 배경에 대한 모델의 민감성을 시사하며, 추가적인 학습이나 데이터 보강이 필요할 수 있다.

    mAP50는 모든 어종에서 0.9 이상으로 산출되었으며, mAP50 : 95는 망상어를 제외한 11종에서 모두 0.9 이상으로 산출되었다. 이 중 바리류는 mAP50 : 95 0.979로 가장 높은 지표값을 나타내었으며, 모델이 해당 종의 세부적인 특징을 파악하고 복잡한 이미지에서도 배경과 객체를 효과적으로 분리해낼 수 있음을 나타낸다. 반면, 망상어의 경우 mAP50 : 95 0.878로 정밀도, 재현율과 마찬가지로 대상종 중 가장 낮은 성능을 나타내었다.

    Fig. 6은 YOLOv8m-Seg 모델의 개별 어종에 대한 실제 이미지 내 탐지 및 분류 결과를 나타낸 것으로 참돔, 돌돔과 같이 다른 개체와 겹치거나 이미지의 경계에 있어 형태의 일부만 나온 경우를 제외하고는 우수한 결과를 나타내었다. 각 개체가 속한 클래스를 정확히 분류하였으며, 바운딩 박스 형태의 탐지뿐만 아니라 어류의 형태를 명확히 인식하고 마스크로 표출할 수 있음을 확인할 수 있었다. Fig. 7은 복수 의 어종이 포함된 단일 이미지에서 모델의 탐지 및 분류 결과를 나타낸 것이다. 각각의 어류 개체가 고유의 바운딩 박스 및 마스크와 함께 정확한 클래스 식별을 하였으며 0.9 이상의 신뢰도(Confidence) 점수를 도출하였다. 종합적으로 본 연구를 통해 선정된 모델은 단일 클래스 및 다중 클래스 이미지에서 우수한 탐지 및 분류 성능을 나타냄을 확인하였다. 이러한 결과는 모델이 다양한 상황에서 원활히 작동하고 있으며, 실제 현장에서의 높은 적용 가능성을 가지고 있다고 판단하였다.

    5. 결 론

    본 연구는 수산자원 증대사업 효과조사 기법의 효율성 증가를 위해 실시간 영상에서 어류를 탐지하고 분류하는 딥러닝 모델의 구축 및 성능평가에 중점을 두었다. 이 과정에서 다양한 크기의 YOLOv8-Seg 모델 중, 중간 크기의 YOLOv8m-Seg 모델은 타 모델 대비 61.51%의 짧은 학습 시간이 소요되어 높은 학습 효율성을 나타내었고, 어류 탐지 및 분류 성능과 추론 속도 면에서 우수한 결과를 보였다. 이러한 결과는 딥러닝 기술을 적용함으로써 수산자원 조사 관리 작업의 효율을 대폭 향상시킬 수 있음을 시사하며, 특히 장기간의 수중 촬영 영상분석에서 높은 정확도와 신속한 처리가 요구될 때 YOLOv8m-Seg 모델의 적용이 큰 이점을 제공할 것으로 기대된다.

    그러나 본 연구의 명백한 한계점도 존재하며, 특히 학습 및 검증 데이터셋은 실제 복잡한 해양 환경을 충분히 반영하지 못하며, 상당 부분은 수족관이나 맑은 환경에서 촬영된 이미지로 이루어져 있다. 또한, 일부는 육상에서 촬영된 개체도 포함되어 있으며, 이는 모델을 실제 우리나라 주변 해역에서 촬영된 영상에 적용할 경우 성능 저하의 가능성을 내포하고 있으므로 보다 다양한 해양 조건을 반영한 모델 검증이 필요하다. 또한, 수심이 깊어짐에 따라 청색과 녹색 파장이 우세해지는 수중 환경의 특성은 색상 왜곡을 일으키며, 퇴적물 입자와 생물의 배설물 등에 의해 발생하는 빛의 산란은 이미지의 품질을 저하시킨다. 이로 인해 탐지 및 분류 성능의 저하가 발생할 수 있으며 이를 방지하기 위해 Contrast Limited Adaptive Histogram Equalization(CLAHE)와 같은 전통적 이미지 보정 기법들을 넘어서, U-Net 및 Generative Adversarial Networks(GANs) 같은 한반도 해역 특성에 맞는 새로운 수중 이미지 보정 기법을 개발하고 적용할 필요가 있다.

    이 연구는 수산자원 관리에 혁신적인 접근을 제공하며, 기술적 발전을 통해 해양 생태계 보호와 지속 가능한 관리의 효율성을 극대화할 수 있는 기반을 마련했다. 이러한 기술적 접근이 미래의 수산자원 증대사업에 크게 기여할 것으로 기대되며, 특히 복잡한 해양 환경에서의 적용성 향상을 위한 추가 연구가 지속적으로 요구된다.

    감사의 글

    이 논문은 한국수산자원공단의 ‘딥러닝 기반 수산자원 증대사업 효과조사 기법 개발(2023)’ 사업의 지원을 받아 수행 되었으며, 한국지능정보사회진흥원(NIA) AIHub의 ‘어류 개체 촬영 영상’ 자료를 활용하였습니다.

    Figure

    KOSOMES-30-2-147_F1.gif

    Segmentation application examples and differences by type; (a) Semantic segmentation; (b) Instance segmentation.

    KOSOMES-30-2-147_F2.gif

    The model structure of the YOLOv8-seg (Adapted from Bai et al., 2023).

    KOSOMES-30-2-147_F3.gif

    Confusion matrix; calculating evaluation metrics.

    KOSOMES-30-2-147_F4.gif

    Example of augmented batch data.

    KOSOMES-30-2-147_F5.gif

    Comparison of model performance in inference time and mAP50 : 95

    KOSOMES-30-2-147_F6.gif

    Example of detection and classification results for each fish species using the YOLOv8m-Seg model.

    KOSOMES-30-2-147_F7.gif

    Example of detection and classification results by the YOLOv8m-Seg model for a single image data containing multiple fish species.

    Table

    Target fish species for detection in the fisheries resource enhancement project

    Epoch and runtime based on training completion and hyperparameters

    Results of evaluation metrics by size for the YOLOv8-Seg model on object masks in the test dataset

    Results of evaluation metrics for each fish species using the YOLOv8m-Seg model

    Reference

    1. Akgül, T. , N. Çalik, and B. U. Töreyin (2020), Bulanık Sualtı Görüntülerinde Derin Öğrenme Tabanlı Balık Tespiti Deep Learning-Based Fish Detection in Turbid Underwater Images.
    2. Bai, R. , M. Wang, Z. Zhang, J. Lu, and F. Shen (2023), Automated Construction Site Monitoring Based on Improved YOLOv8-seg Instance Segmentation Algorithm. IEEE Access, 11, 139082-139096.
    3. Bolya, D. , C. Zhou, F. Xiao, and Y. J. Lee (2019), YOLACT: Real-Time Instance Segmentation. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), 9156-9165.
    4. Chen, L. -C. , G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille (2017), DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs (arXiv:1606.00915). arXiv. http://arxiv.org/abs/1606.00915.
    5. Climent-Perez, P. , A. Galán-Cuenca, N. E. Garcia-d’Urso, M. Saval-Calvo, J. Azorin-Lopez, and A. Fuster-Guillo (2024), Simultaneous, vision-based fish instance segmentation, species classification and size regression. PeerJ Computer Science, 10, e1770.
    6. Dumitriu, A. , F. Tatui, F. Miron, R. T. Ionescu, and R. Timofte (2023), Rip Current Segmentation: A Novel Benchmark and YOLOv8 Baseline Results. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 1261-1271.
    7. Fabic, J. N. , I. E. Turla, J. A. Capacillo, L. T. David, and P. C. Naval (2013), Fish population estimation and species classification from underwater video sequences using blob counting and shape analysis. 2013 IEEE International Underwater Technology Symposium (UT), pp. 1-6.
    8. He, K. , G. Gkioxari, P. Dollár, and R. Girshick (2017), Mask r-cnn. In Proceedings of the IEEE international conference on computer vision, pp. 2961-2969.
    9. Li, X. , M. Shang, H. Qin, and L. Chen (2015), Fast accurate fish detection and recognition of underwater images with Fast R-CNN. OCEANS 2015 - MTS/IEEE Washington, 1-5.
    10. Long, J. , E. Shelhamer, and T. Darrell (2015), Fully Convolutional Networks for Semantic Segmentation.
    11. Padilla, R. , S. L. Netto, and E. A. B. Da Silva (2020), A Survey on Performance Metrics for Object-Detection Algorithms. 2020 International Conference on Systems, Signals and Image Processing (IWSSIP), pp. 237-242.
    12. Ravanbakhsh, M. , M. R. Shortis, F. Shafait, A. Mian, E. S. Harvey, and J. W. Seager (2015), Automated Fish Detection in Underwater Images Using Shape‐Based Level Sets. The Photogrammetric Record, 30(149), 46-62.
    13. Tian, G. , D. Li, W. Li, L. Zhang, H. Zhang, and Q. Duan (2021), A detection method of the turned white belly fish based on improved SSD. Journal of Physics: Conference Series, 1856(1), 012035.
    14. Varatharasan, V. , H. -S. Shin, A. Tsourdos, and N. Colosimo (2019), Improving Learning Effectiveness For Object Detection and Classification in Cluttered Backgrounds. 2019 Workshop on Research, Education and Development of Unmanned Aerial Systems (RED UAS), 78-85.
    15. Wang, C. -Y. , A. Bochkovskiy, and H. -Y. M. Liao (2022), YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors (arXiv:2207.02696). arXiv. http://arxiv.org/abs/2207.02696.
    16. Wang, X. , R. Zhang, T. Kong, L. Li, and C. Shen (2020), SOLOv2: Dynamic and Fast Instance Segmentation.
    17. Xu, W. and S. Matzner (2018), Underwater Fish Detection Using Deep Learning for Water Power Applications. 2018 International Conference on Computational Science and Computational Intelligence (CSCI), pp. 313-318.