Journal Search Engine

ISSN : 1229-3431(Print)
ISSN : 2287-3341(Online)

Journal of the Korean Society of Marine Environment and Safety Vol.32 No.2 pp.203-214
DOI : https://doi.org/10.7837/kosomes.2026.32.2.203

RTD-YOLO: A Real-Time Instance Segmentation Model for Monitoring Floating Trash in River and Estuarine Waters

Sang-Yeup Jin^*, Heung-Bae Choi^**†, Jong-Beom Kim^***, Yong-Sik Song^****

^*Senior Engineer, GeoSystem Research Corp., Dept. of Forecast, Gyeonggi 15870, Korea
^**Executive Director, GeoSystem Research Corp., Dept. of Forecast, Gyeonggi 15870, Korea
^***Executive Director, GeoSystem Research Corp., Dept. of Coastal Management, Gyeonggi 15870, Korea
^****Vice President, GeoSystem Research Corp., Gyeonggi 15870, Korea

* First Author : syjin@geosr.com, 031-5180-5875

^† Corresponding Author : hbchoi@geosr.com, 031-5180-5862

Received March 23, 2026 Review April 8, 2026 Accepted April 27, 2026

Abstract

This study proposes RTD-YOLO (River Trash Detection-YOLO), a real-time instance segmentation model for detecting floating trash in river and estuarine waters. Floating trash imagery acquired from water surfaces exhibits characteristics that differ from general-purpose benchmark datasets, including strong surface reflections, high background similarity, overlapping objects, irregular object boundaries, and a high proportion of small objects. In this study, the performance of Ultralytics' official models, YOLOv8-Seg, YOLO11-Seg, and YOLO26-Seg, was compared using identical datasets and training conditions. Based on the model that demonstrated the best performance, the YOLO26-Seg architecture was selected as the baseline for designing RTD-YOLO. The proposed model enhances detection and classification representations at the P3 and P4 feature levels for 1280-resolution inputs and introduces a semantic bridge that reinjects P5-level semantic information using an add fusion structure, along with a segmentation input alignment structure. Experimental results show that RTD-YOLO achieves relative improvements of 8.52% in precision, 10.85% in recall, 8.61% in mAP@50, and 9.62% in mAP@50:95 compared with YOLO26-Seg. Although the inference time increased from 14.13 ms/img to 15.98 ms/img, the model maintains sufficient performance for real-time operation. Compared with the performance variations observed across official YOLO versions, the proposed model shows a larger margin of improvement. These results suggest that in environments with strong background interference and class ambiguity, such as floating trash detection, redesigning detection and classification structures tailored to the data characteristics can be more effective than directly applying general-purpose architectures.

Key Words : Floating trash , Instance segmentation , YOLO , CCTV monitoring , Real-time detection

RTD-YOLO: 하천 및 하구 수역 부유 쓰레기 모니터링을 위한 실시간 인스턴스 세그멘테이션 모델

진상엽^*, 최흥배^**†, 김종범^***, 송용식^****

^*(주)지오시스템리서치 예보사업부 선임
^**(주)지오시스템리서치 예보사업부 상무
^***(주)지오시스템리서치 연안관리부 상무
^****(주)지오시스템리서치 부사장

초록

본 연구에서는 하천 및 하구 수역의 부유 쓰레기를 실시간으로 탐지하기 위한 인스턴스 세그멘테이션 모델 RTD-YOLO(River Trash Detection-YOLO)를 제안한다. 수면 영상 기반 부유 쓰레기 데이터는 수면 반사, 배경과의 높은 유사성, 객체 간 중첩, 불규칙한 경계, 소형 객체 비중 증가 등 일반 목적 벤치마크 데이터셋과 다른 특성을 가진다. 본 연구에서는 동일한 데이터셋과 동일한 학습 및 평가 조건 에서 Ultralytics 공식 배포 모델인 YOLOv8-Seg, YOLO11-Seg, YOLO26-Seg의 성능을 비교 분석하고 그 중 가장 우수한 성능을 보인 YOLO26-Seg 아키텍처를 기반으로 RTD-YOLO를 설계하였다. 제안 모델은 입력 해상도 1280 환경에서 주요 특징 단계인 P3 및 P4의 검출 및 분류 표현력을 강화하고 P5 기반 의미 정보를 instance segmentation fusion 기반 구조로 재주입하는 semantic bridge와 segmentation 입력 정렬 구 조를 도입하였다. 실험 결과 RTD-YOLO는 YOLO26-Seg 대비 정밀도 8.52%, 재현율 10.85%, mAP@50 8.61%, mAP@50:95 9.62%의 상대적 성능 향상을 보였다. 추론 시간은 14.13 ms/img에서 15.98 ms/img로 증가하였으나 실시간 운용에는 충분한 수준을 유지하였다. 또한 공식 YOLO 버전 간 성능 변화와 비교할 때 제안 모델에서 보다 큰 성능 개선 경향이 확인되었다. 이는 부유 쓰레기 탐지와 같이 배경 간섭과 클래스 혼동이 큰 환경에서는 일반 목적 탐지 구조의 직접 적용보다 데이터 특성을 고려한 탐지·분류 중심의 구조 설계가 효과적일 수 있음을 시 사한다.

키워드 : 부유 쓰레기 , 인스턴스 세그멘테이션 , YOLO , CCTV 모니터링 , 실시간 탐지

This article has been cited by 0 article in crossref

Cited-By

Funding:

1. 서 론

하천 및 하구 수역에 유입되는 부유 쓰레기는 수질 저하, 경관 훼손, 생태계 교란, 수문 구조물 운영 장애 등을 유발할 수 있어 지속적인 감시와 관리가 요구된다(Honingh et al., 2020). 특히 강우 및 유출 사건 이후 대량의 부유 쓰레기가 하천과 하구를 통해 해양으로 유입될 수 있으므로 장기간에 걸친 정량적 모니터링 체계 구축이 중요하다(van Emmerik et al., 2023;Malik et al., 2020). 그러나 기존의 현장 순찰이나 수작업 영상 판독 방식은 관측 빈도와 정량성 확보에 한계가 있으며 광범위한 수역을 대상으로 장기간 모니터링을 수행하기에는 효율성이 낮다는 문제가 있다(van Lieshout et al., 2020). 이러한 한계를 보완하기 위한 대안으로 최근에는 하천 및 수문 구조물 주변에 설치된 고정형 CCTV를 활용한 자동 영상 분석 기반 모니터링 기술이 주목받고 있다(van Lieshout et al., 2020;Lee et al., 2025).

영상 기반 자동 모니터링을 위해서는 영상 내 객체를 정확히 탐지하고 분류할 수 있는 기술이 필수적이다. 객체 탐지(object detection) 모델은 객체의 위치를 빠르게 파악하는 데 효율적이지만 객체의 정확한 형상이나 면적 정보를 직접 제공하지 못한다는 한계가 있다. 반면 인스턴스 세그멘테이션(instance segmentation)은 객체의 위치와 함께 픽셀 단위의 형상 정보를 제공하므로 객체 면적 추정, 체류량 산정, 중첩 객체 해석 등 다양한 후속 분석으로 확장하기에 유리하다(He et al., 2017). 이러한 특성은 부유 쓰레기의 분포 및 양적 변화를 분석해야 하는 환경 모니터링 분야에서 중요한 장점이 될 수 있다. 따라서 본 연구에서는 부유 쓰레기 모니터링을 위한 핵심 영상 분석 기술로 인스턴스 세그멘테이션을 채택하였다.

그러나 일반 목적 이미지 데이터셋을 기준으로 설계된 딥러닝 모델을 수면 환경에 그대로 적용할 경우 탐지 성능이 충분히 확보되지 않을 수 있다. 수면 영상은 수면 반사와 탁도 변화, 배경과의 높은 시각적 유사성, 객체 간 중첩, 원거리 소형 객체 등 다양한 환경적 요인의 영향을 받는다. 특히 본 연구에서 활용하는 영상은 고정형 CCTV 기반으로 촬영되기 때문에 카메라 시점 변화는 제한적이지만 배경 구조가 일정하게 유지되어 객체와 배경 간의 미세한 시각적 차이를 구분하는 능력이 매우 중요하다. 또한 부유 쓰레기 장면에서는 소형 객체의 비중이 높아 안정적인 검출 및 분류 성능을 확보하는 것이 중요한 과제가 된다.

최근 하천 및 수면 부유물 모니터링을 위한 영상 기반 연구는 고정형 카메라와 무인항공기(UAV)를 활용하여 다양하게 수행되고 있다. 자카르타 강 교량 카메라 영상을 이용하여 딥러닝 기반 자동 플라스틱 모니터링 가능성을 제시하였으며(Lieshout et al., 2020), 교량 설치 영상과 YOLOv8 기반 탐지 모델을 활용하여 하천 부유 플라스틱의 실시간 검출 체계를 구축하였다(Lee et al., 2025). 또한 UAV 기반 멀티스펙트럼 영상을 이용하여 하천 내 플라스틱 탐지를 수행하였고(Cortesi et al., 2022), 지상 카메라 기반 부유물 데이터셋 분석을 통해 장거리 촬영 환경에서 소형 객체 비중이 높은 것이 주요 탐지 난제임을 보고하였다(Qiao et al., 2022).

한편 수면 환경에서의 탐지 성능 향상을 위해 YOLO 기반 구조를 데이터셋 특성에 맞게 개선하려는 연구도 제시되고 있다. backbone 말단에 feature-map attention을 추가한 FMA-YOLOv5s를 제안하였으며(Lin et al., 2021), YOLOv5의 PAN 구조를 BiFPN으로 대체하고 coordinate attention을 결합한 YOLOv5_CBS를 제시하였다(Yang et al., 2022). 또한 다중 스케일 특징 추출 및 융합, anchor 재설계, 개선된 NMS를 포함한 EYOLOv3를 제안하였으며(Zhang et al., 2023), 수면 반사와 복잡한 배경 환경에 대응하기 위해 얕은 특징 보강과 slim-neck 구조를 포함한 개선 YOLOv8 구조도 제시되었다(Zhu and Xu, 2025). 그러나 이러한 연구의 대부분은 객체 탐지에 초점을 맞추고 있으며 고정형 CCTV 기반 다중 클래스 부유 쓰레기 장면을 대상으로 인스턴스 세그멘테이션 구조를 탐지 및 분류 중심으로 재설계한 연구는 아직 제한적인 상황이다.

따라서 본 연구의 목적은 수면 영상 환경의 특성을 고려하여 기존 공식 YOLO 세그멘테이션 모델보다 향상된 실시간 부유 쓰레기 탐지 모델을 설계하는 데 있다. 이를 위해 YOLOv8-Seg, YOLO11-Seg, YOLO26-Seg을 동일한 데이터셋과 학습 조건에서 비교 분석하고 그 중 가장 우수한 성능을 보인 YOLO26-Seg 아키텍처를 기반 구조로 활용하여 RTD-YOLO를 설계하였다. 제안 모델은 수면 영상에서 나타나는 배경 간섭, 객체 중첩, 소형 객체 비중 증가 등 부유 쓰레기 장면의 특성을 고려하여 detection 및 classification 표현력 강화를 중심으로 구조를 재설계하였다. 이를 통해 일반 목적 세그멘테이션 모델을 그대로 적용할 때 나타나는 성능 한계를 완화하고 실시간 운용이 가능한 수준의 추론 속도를 유지하면서도 부유 쓰레기 탐지 성능을 향상시키는 것을 목표로 한다.

2. 연구 방법

2.1 데이터셋 구성

본 연구에 사용한 영상 자료는 연구진이 2024년 10월 금강하굿둑에 설치한 고정형 CCTV 카메라를 통해 취득하였으며 설치 전경은 Fig. 1에 나타내었다. 이 중 2025년 7월과 8월 집중호우 시기에 부유 쓰레기 발생이 두드러진 장면을 선별하여 데이터셋을 구성하였다. 원본 영상의 해상도는 3328 × 1872이며 모델 학습 및 추론에 사용되는 입력 크기를 고려하여 모든 이미지를 1280 × 720 해상도로 변환하여 사용하였다.

수집된 영상은 캔(cans), 부유 잔재물(debris), 기타(other), 플라스틱(plastic), 스티로폼(styrofoam), 목재(wood)의 6개 클래스를 대상으로 인스턴스 세그멘테이션 마스크 라벨링을 수행하였다. 본 연구의 클래스 구성은 일반적인 재질 기반 분류가 아니라 대상 수역에서 실제로 반복적으로 관찰되는 부유 쓰레기 유형을 기준으로 정의된 운영 중심 분류 체계이다. 제한된 데이터 수집 기간 동안 출현 빈도가 높은 객체를 중심으로 구성하였으며 영상 기반에서의 식별 가능성을 고려하여 분류 기준을 설정하였다.

각 클래스의 정의는 다음과 같다. plastic은 비닐 및 플라스틱 용기 등 인공 고분자 폐기물, styrofoam은 발포 폴리스티렌 기반 부유물, cans는 금속 캔류, wood는 유목, 나뭇가지 및 목재 판자 등 자연 초목 및 목질 기반 부유물, debris는 잔가지나 지푸라기 등 소형 식물성 잔재가 집합된 형태의 부유물, other는 상기 범주에 포함되지 않는 기타 객체를 의미한다.

라벨링 작업은 Roboflow 플랫폼의 데이터 어노테이션(annotation) 기능을 활용하여 구축하였다. 또한 오검출(false positive)을 방지하기 위하여 쓰레기가 존재하지 않는 배경 이미지(background image)도 데이터셋에 함께 포함하였다.

최종 데이터셋은 총 1,144장의 이미지와 4,475개의 인스턴스로 구성하였다. 이를 학습(train), 검증(validation), 평가(test) 집합으로 7:2:1 비율로 분할하였으며 각 집합에서 배경 이미지의 비율은 약 10% 수준으로 유지하였다. 분할 집합별 이미지 수, 인스턴스 수, 배경 이미지 수는 Table 1에 정리하였다.

원본 데이터에서는 부유 잔재물이 대부분을 차지하였고 일부 클래스는 출현 빈도가 낮아 전체 인스턴스의 약 1~2% 수준의 소수 인스턴스로 구성되어 있었다. 이러한 클래스 불균형이 학습에 미치는 영향을 완화하고 각 클래스가 보다 균형적으로 학습되도록 하기 위해 소수 클래스에 대해 copy-paste 데이터 증강 기법을 적용하였다. 이를 통해 각 클래스 비율이 최소 10% 수준 이상이 되도록 데이터셋을 재구성하여 클래스별 학습 불균형을 완화하였다. 최종 데이터셋에서 클래스별 인스턴스 수와 비율은 Table 2에 제시하였다. 부유 쓰레기 데이터와 전체 라벨링 예시는 Fig. 2에 나타내었으며 클래스별 세그멘테이션 마스크 예시는 Fig. 3에 제시하였다.

2.2 실험 설정

본 연구는 고정형 CCTV 기반의 실시간 모니터링을 목표로 하므로 탐지 성능과 처리 속도를 함께 고려하는 실험 구성이 필요하다. 본 데이터셋에는 원거리 부유물과 소형 객체가 다수 포함되어 있어 640 해상도 수준의 입력에서는 객체 정보가 과도하게 축소될 수 있다. 이에 따라 모든 실험은 입력 크기 1280 해상도를 기준으로 수행하였다.

모델 입력 시에는 종횡비를 유지한 상태에서 레터박스(letterbox) 방식의 패딩(padding)을 적용하여 1280 × 1280 크기로 변환하였다. 이 방식은 영상을 단순 확대하는 방식보다 원래 장면의 기하 구조와 객체 비율을 보존할 수 있으며 입력 크기만 통일하여 모델 간 비교 조건을 일정하게 유지할 수 있다. 따라서 모든 모델은 같은 입력 조건에서 학습 및 추론되며 성능 차이는 입력 크기보다 구조 차이로 해석할 수 있다.

실험은 NVIDIA GeForce RTX 3090 GPU 4대를 사용하는 환경에서 수행하였다. 입력 크기는 1280으로 고정하였고 배치 크기(batch size)는 64로 설정하였다. 학습은 SGD 옵티마이저(optimizer)를 사용하여 수행하였으며 최대 학습 반복 수인 에포크(epoch)는 10000으로 설정하였다. 또한 성능 향상이 일정 기간 관찰되지 않을 경우 학습을 조기에 종료하기 위한 patience는 100으로 설정하였다. overlap mask는 False로 고정하였고 검증 및 추론은 반정밀도(half precision, FP16) 조건에서 수행하였다. 이러한 설정은 메모리 사용량과 추론 시간을 제어하면서도 1280 입력 기반의 실시간 운용 가능성을 평가하기 위한 것이다.

학습 과정에서 적용한 주요 이미지 증강은 좌우 반전(horizontal flip), 평행이동(translation), 스케일 변환(scale), 색조 및 채도 변환(HSV augmentation), 밝기 및 노출 변동(brightness and exposure adjustment), 노이즈 추가(salt-and-pepper noise)로 구성하였다. 이러한 증강은 별도의 이미지를 추가 생성하는 방식이 아니라 학습 배치가 구성되는 과정에서 확률적으로 적용되도록 설정하였다. 이는 데이터 수를 단순히 늘리기 위한 목적보다 실제 CCTV 영상에서 반복적으로 나타나는 조도 변화, 센서 잡음, 미세한 위치 변동을 학습 과정에 반영하기 위한 것이다. 특히 밝기, 노출, 색상 계열 증강은 시간대와 기상 조건에 따라 달라지는 수면 반사와 영상 대비 변화를 반영하는 데 유효하며 좌우 반전과 소규모 이동 및 스케일 변환은 객체 위치와 배치가 달라지는 장면 변화에 대응하도록 설계하였다.

2.3 성능평가 지표

인스턴스 세그멘테이션 모델의 성능 평가는 Padilla et al.(2020)과 Dumitriu et al.(2023)의 기준을 참고하여 정밀도(Precision), 재현율(Recall), 평균 정밀도(mean Average Precision, mAP), 그리고 추론 시간(inference time)을 이용하여 수행하였다. 본 연구에서는 객체의 경계와 면적 정보를 고려하기 위해 bounding box가 아닌 마스크(mask) 기반 지표를 중심으로 평가하였다.

정밀도와 재현율은 각각 식 (1), (2)와 같이 정의되며 모델의 검출 정확도와 누락 여부를 평가한다. IoU(Intersection over Union)는 식 (3)과 같이 정의되며 예측 영역과 실제 영역 간의 일치 정도를 나타낸다. 평균 정밀도(AP)는 IoU 기준에서 계산된 정밀도-재현율 곡선을 기반으로 식 (4)를 통해 산출된다.

Precision = \frac{TP}{TP + FP} = \frac{TP}{All detections}

(1)

Recall = \frac{TP}{TP + FN} = \frac{TP}{All ground truths}

(2)

IoU (True, Predict) = \frac{| True \cap Predict |}{| True \cup Predict |}

(3)

AP = \sum_{k} ({Recall}_{k} - {Recall}_{k - 1}) \times {Precision}_{k}

(4)

mAP는 모든 클래스에 대한 AP의 평균으로 정의되며 본 연구에서는 IoU 임계값 0.5에서의 값을 mAP@50으로, IoU 0.5부터 0.95까지 0.05 간격으로 계산한 평균값을 mAP@50:95로 사용하였다. 해당 지표는 각각 식 (5), (6)과 같이 계산된다.

또한 모델의 실제 적용 가능성을 평가하기 위해 추론 시간을 함께 측정하였으며 이를 통해 정확도와 처리 속도를 종합적으로 비교하였다.

mAP@50 = \frac{1}{N} \sum_{i = 1}^{N} {AP}_{i}

(5)

mAP@50:95 = \frac{{AP}_{IoU = 0.5} + {AP}_{IoU = 0.55} \dots {AP}_{IoU = 0.95}}{n}

(6)

2.4 기준 모델 선정

다양한 인스턴스 세그멘테이션 모델 가운데 본 연구에서는 실시간 처리 성능과 구조적 확장성을 함께 고려하여 YOLO 계열 모델을 기준 모델군으로 선정하였다. YOLO 세그멘테이션 모델은 단일 단계(one-stage) 구조를 기반으로 객체의 위치와 클래스를 예측하면서 마스크 브랜치(mask branch)를 통해 픽셀 단위 형상 정보까지 함께 복원할 수 있으므로 실시간 부유 쓰레기 모니터링 환경에 적용하기 적합하다. 특히 본 연구에서는 임의로 변형된 파생 모델이 아니라 Ultralytics에서 공식 배포한 세그멘테이션 버전인 YOLOv8-Seg(Jocher et al., 2023), YOLO11-Seg(Jocher and Qiu, 2024), YOLO26-Seg(Jocher and Qiu, 2026)을 비교 대상으로 사용하였다(Hidayatullah and Tubagus, 2026).

기준 모델 비교는 입력 해상도 1280을 유지한 상태에서 실시간 운용이 가능한 모델 구조를 비교하는 방식으로 수행하였다. 일반적으로 YOLO 계열 모델은 640 입력 해상도 환경에서 널리 활용되지만 본 연구의 대상 장면은 원거리 촬영 환경에서 소형 부유 쓰레기의 비중이 높은 특성을 갖기 때문에 보다 높은 해상도의 입력이 필요하다. 이에 따라 본 연구에서는 1280 입력 해상도를 기준으로 모델 비교를 수행하였다. 그러나 입력 해상도가 증가할 경우 모델 연산량이 크게 증가하므로 대형 모델은 실시간 운용 환경에서 적용이 어려울 수 있다.

YOLO 모델은 Nano(n), Small(s), Medium(m), Large(l), Extra-large(x)의 다양한 모델 스케일을 제공하며 스케일이 증가할수록 파라미터 수와 연산량이 증가한다. 본 연구에서는 1280 입력 해상도 환경에서 소형 객체 정보를 유지하면서도 실시간 처리 가능 범위를 함께 고려해야 하므로 모든 비교 모델에 n 스케일을 공통으로 적용하였다.

세 공식 모델은 동일한 데이터셋과 동일한 학습·평가 조건에서 학습 및 검증하였다. 공식 모델 간 정량 비교 결과와 기준 모델 선정 결과는 3장에서 제시하였다. 본 연구에서는 이 비교 결과를 바탕으로 YOLO26-Seg을 기반 구조로 설정하고 RTD-YOLO를 설계하였다.

2.5 RTD-YOLO 설계

RTD-YOLO는 YOLO26-Seg을 기준 구조로 삼되 1280 입력 환경과 부유 쓰레기 영상의 장면 특성을 반영하여 탐지 및 분류 경로를 우선적으로 강화한 모델이다. 본 데이터셋은 수면 반사, 배경 유사성, 중첩 객체, 원거리 소형 객체가 동시에 나타나는 경우가 많다. 이러한 조건에서는 단순히 마스크 경계를 정교화하는 방식만으로는 전체 성능 향상을 기대하기 어렵다. 따라서 객체를 놓치지 않으면서 클래스를 안정적으로 구분할 수 있는 탐지 및 분류 성능을 먼저 확보하는 것이 중요하다. 이에 따라 RTD-YOLO는 마스크 분기의 단순 확장보다 백본(backbone)과 넥(neck)에서의 특징 형성과 전달 구조를 재구성하는 방향으로 설계하였다.

백본에서는 P3와 P4 단계의 표현력을 확대하였다. Table 3과 같이 YOLO26-Seg의 P3 단계는 C3k2 블록이 2회 반복되는 구조이지만 RTD-YOLO에서는 이를 4회 반복으로 확장하였다. P3는 1280 입력 환경에서 소형 객체와 원거리 객체의 형태 정보가 가장 먼저 충분한 해상도로 유지되는 단계이므로 이 구간의 표현력 증가는 작은 쓰레기의 탐지와 분류 안정성 향상에 직접적으로 기여한다. P4 단계 역시 C3k2 블록 2회 반복에서 3회 반복으로 확장하였다. P4는 중간 크기 객체의 의미 정보를 형성하는 단계로 부유 잔재물이나 스티로폼과 같이 배경과 경계가 불규칙한 객체의 분류 구분도를 높이는 역할을 한다.

P5 특징 형성 단계에는 단일 다운샘플링 경로 대신 이중 경로 다운샘플링(dual-path downsampling)과 Add 융합(add fusion)을 적용하였다. 이중 경로 다운샘플링은 서로 다른 경로에서 생성된 하향샘플링 특징을 동일한 채널 크기로 정렬한 뒤 요소별 합(element-wise sum)으로 결합하는 방식이다. 단일 경로에 의존할 경우 상위 의미 특징이 특정 경로의 편향에 영향을 받을 수 있으나 이중 경로 구조는 P5 단계의 의미 정보를 보다 안정적으로 형성하는 데 유리하다. 본 연구에서는 이러한 구조를 통해 장면 수준의 상위 의미 정보를 안정화하고 이후 P4 및 P3로 전달되는 의미 특징의 일관성을 높이고자 하였다.

넥(neck)의 top-down 전달 구조도 함께 수정하였다. YOLO26-Seg은 P5→P4와 P4→P3 융합에서 concat fusion을 사용하지만 RTD-YOLO는 채널 정렬(channel alignment) 이후 add fusion을 적용하였다. 채널 정렬은 1×1 합성곱을 이용하여 서로 다른 경로의 특징 채널 수를 맞춘 뒤 결합하는 과정을 의미한다. concat fusion은 풍부한 특징을 전달할 수 있다는 장점이 있으나 본 데이터셋과 같이 배경 간섭이 강한 장면에서는 중복 특징과 잡음이 누적될 수 있다. 반면 Add fusion은 정렬된 특징을 직접 통합하므로 특징 중복을 줄이면서 상위 단계의 의미 정보를 보다 간결하게 전달할 수 있다. RTD-YOLO는 이러한 구조를 통해 P5에서 형성된 의미 정보를 P4와 P3로 전달하는 과정에서 배경 잡음의 누적을 줄이고 score calibration을 개선하도록 설계하였다.

세그멘테이션 단계 직전에는 의미 피드백 경로(semantic feedback path)를 추가하였다. 이 경로는 P5에서 형성된 상위 의미 특징을 P4와 P3 방향으로 다시 주입하여 세그멘테이션 입력 직전의 특징을 한 번 더 정돈하는 역할을 한다. 부유 쓰레기 장면에서는 큰 부유 잔재물 위에 작은 플라스틱이나 스티로폼이 중첩되어 나타나는 경우가 많고 배경 반사로 인해 객체와 배경의 경계가 약해지는 경우도 자주 관찰된다. 의미 피드백 경로는 이러한 장면에서 상위 의미 정보를 다시 반영함으로써 중첩 객체 분리와 배경 유사 객체 구분을 보강하도록 설계하였다.

헤드(head)에서는 세그멘테이션 입력 정렬과 프로토타입 확장을 적용하였다. 먼저 P3, P4, P5에서 전달되는 입력 특징에 1×1 합성곱 기반 정렬을 적용하여 각 분기에서 형성된 특징 분포를 정돈하였다. 이후 세그멘테이션 헤드의 프로토타입 수는 YOLO26-Seg의 [nc, 32, 256]에서 [nc, 48, 256]으로 확장하였다. 여기서 nc는 클래스 수를 의미한다. 본 연구에서는 프로토타입 확장을 단독 개선 요소로 사용하지 않았으며 탐지 및 분류 경로가 강화된 상태에서 마스크 복원력을 보완하는 수준으로 제한하였다. 이는 프로토타입 수만 과도하게 증가시킬 경우 마스크 형상은 개선될 수 있으나 전체 탐지 성능과 분류 안정성 향상으로 직접 이어지지 않을 수 있기 때문이다.

또한 RTD-YOLO는 P2를 직접 확장하는 대신 P3와 P4 중심 설계를 유지하였다. 1280 입력 환경에서는 소형 객체 정보가 P3에서도 충분히 유지되므로 P2를 추가로 확장하는 방식은 메모리와 연산량 증가에 비해 효율이 낮을 수 있다. 따라서 본 연구에서는 P3와 P4의 백본 표현력을 강화하고 P5의 의미 정보를 안정적으로 재주입하는 구조를 통해 소형 객체 대응과 실시간 처리 성능 간의 균형을 맞추었다. YOLO26-Seg 대비 RTD-YOLO의 주요 구조 차이는 Table 3에 정리하였으며 RTD-YOLO의 전체 아키텍처는 Fig. 4에 나타내었다.

3. 연구 결과

평가 집합(test set)을 기준으로 수행한 정량적 성능 평가는 Table 5에 정리하였다. 공식 YOLO 세그멘테이션 모델 가운데 YOLO26-Seg이 mAP@50과 mAP@50:95에서 각각 0.587과 0.367로 가장 높은 성능을 기록하였다. RTD-YOLO는 정밀도 0.729, 재현율 0.606, mAP@50 0.638, mAP@50:95 0.403을 기록하며 모든 주요 마스크 성능 지표에서 기존 모델을 상회하였다.

YOLO26-Seg 대비 정밀도, 재현율, mAP@50, mAP@50:95는 각각 8.52%, 10.85%, 8.61%, 9.62% 향상되었다. 특히 정밀도와 재현율이 동시에 증가하였다는 점은 오검출을 줄이면서도 실제 객체 누락을 감소시켰음을 의미한다. 추론 시간은 YOLO26-Seg 대비 13.07% 증가하였으며, 단일 이미지 기준 15.98 ms/img로 측정되었다.

공식 YOLO 모델 간 비교에서는 YOLOv8-Seg이 가장 빠른 추론 속도를 보였으며 YOLO26-Seg이 정확도 측면에서 가장 높은 성능을 기록하였다. YOLO11-Seg은 YOLOv8-Seg 대비 추론 시간이 증가하였으나 본 데이터셋에서는 정확도 측면에서 뚜렷한 향상을 보이지 않았다. 모델 세대별 성능 변화를 살펴보면 YOLO11-Seg에서 YOLO26-Seg로의 향상 폭은 mAP@50 기준 3.81%, mAP@50:95 기준 2.17% 수준으로 비교적 제한적인 개선에 그쳤다. 반면 RTD-YOLO는 동일 기준에서 각각 8.61%와 9.62%의 향상을 기록하여 성능 개선 폭이 크게 확대되었다. 이러한 결과는 정확도 향상과 추론 속도 증가 사이의 교환 관계(trade-off)가 존재함을 보여준다.

모델의 학습 수렴 특성은 Fig. 5에서 확인할 수 있다. Fig. 5는 모델별 training loss와 validation loss 변화를 나타낸 것으로 모든 모델이 초기 학습 단계 이후 손실 값이 빠르게 감소한 뒤 안정적으로 수렴하는 경향을 보였다. 일부 구간에서 validation loss가 일시적으로 증가하는 양상이 관찰되었으나 이후 빠르게 안정화되며 전반적으로 일정 수준을 유지하였다. 이를 통해 학습 과정에서 과적합이 제한적으로 발생했음을 확인할 수 있었다. 특히 RTD-YOLO는 비교적 안정적인 수렴 특성을 보였다.

모델 세대별 성능 변화는 Table 6와 Fig. 6에서 보다 명확하게 확인할 수 있다. Fig. 6는 주요 성능 지표별 비교 결과를 나타낸 것으로 RTD-YOLO가 모든 마스크 성능 지표에서 가장 높은 값을 기록함을 시각적으로 확인할 수 있다.

RTD-YOLO의 성능 향상은 모델 구조 변경과 함께 해석할 수 있다. 제안 모델은 P3와 P4 단계에서의 백본 표현력을 확장하고 특징 전달 경로를 재구성하였다. 또한 채널 정렬 기반 add fusion과 의미 피드백 경로를 도입하여 상위 의미 특징이 하위 단계로 보다 안정적으로 전달되도록 설계하였다. 이러한 구조적 변화는 Table 3과 Fig. 4에 제시된 백본, 넥, 헤드 설계와 대응되며 탐지 및 분류 경로와 세그멘테이션 경로 전반에 걸쳐 성능 향상을 유도한 것으로 해석된다.

제안한 구조의 각 구성 요소가 성능에 미치는 영향을 분석하기 위해 단계적 누적 방식의 ablation study를 수행하였으며 그 결과는 Table 4에 제시하였다.

P3 및 P4 백본 확장(Stage 1)은 초기 성능 향상을 보였으며 이는 다중 스케일 표현 강화의 효과를 나타낸다. 반면 dual-path P5 형성(Stage 2)과 P5→P4 Add fusion(Stage 3)에서는 일시적인 성능 감소가 나타났다. 이는 개별 모듈의 성능 저하라기보다 구조 요소 간 결합이 완전하지 않은 중간 단계의 영향으로 해석된다.

이후 P4→P3 Add fusion과 semantic feedback이 추가된 Stage 4에서는 성능이 회복되는 경향을 보였으며 최종적으로 모든 구성 요소가 통합된 RTD-YOLO(Stage 5)에서는 mAP@50:95 기준 0.4026을 기록하여 기준 모델 대비 9.62%의 성능 향상을 달성하였다.

본 데이터셋에서는 mAP@50:95의 부분적인 상승만으로 전체 성능 우위를 설명하기 어려웠으며 정밀도와 재현율이 동시에 증가할 때 mAP@50과 mAP@50:95 역시 함께 상승하는 경향이 확인되었다. RTD-YOLO는 네 가지 주요 지표가 모두 증가하는 결과를 보였으며 이는 제안한 구조적 개선이 전반적인 성능 향상으로 이어졌음을 시사한다.

RTD-YOLO의 클래스별 성능은 Table 7에 제시하였다. 클래스별 결과를 보면 wood 클래스는 비교적 높은 mAP@50:95를 기록하며 안정적인 탐지 성능을 보였다. 반면 plastic 클래스는 가장 낮은 성능을 보였으며 특히 재현율이 낮게 나타나는 경향이 확인되었다. 이는 작은 객체 크기, 불규칙한 형상, 수면 반사, 그리고 배경과의 낮은 대비로 인해 탐지가 어려운 특성에 기인한 것으로 해석된다. 전반적으로 클래스별 성능 차이가 존재하며 객체의 크기와 형태, 배경 조건이 성능에 영향을 미치는 것으로 나타났다.

정성적 비교 결과는 Fig. 7에 제시하였다. Fig. 7은 동일한 장면에 대해 정답 마스크와 YOLOv8-Seg, YOLO11-Seg, YOLO26-Seg, RTD-YOLO의 탐지 결과를 비교한 것이다. RTD-YOLO는 수면 반사와 배경 유사성이 높은 장면, 객체가 인접하거나 일부 중첩된 상황에서 기존 모델과 차별적인 분할 결과를 보였다. 특히 작은 플라스틱이나 복합 형상의 부유 잔재물에서 객체 누락이 감소하고 객체 경계가 보다 연속적으로 형성되는 경향이 관찰되었다. 일부 사례에서는 기존 모델이 배경과 객체를 명확히 구분하지 못하고 단일 영역으로 처리하는 반면 RTD-YOLO는 이를 독립적인 인스턴스로 유지하였다.

RTD-YOLO의 추론 시간은 15.98 ms/img로 측정되었으며 이는 약 62.6 FPS에 해당한다. 해당 속도는 고정형 CCTV 기반 부유 쓰레기 모니터링 시스템에 적용 가능한 실시간 처리 수준으로 평가된다. 다만 수면 반사가 매우 강하거나 대비가 낮은 환경에서는 일부 오검출과 미검출이 여전히 발생하였으며, 본 연구는 특정 수역의 고정형 CCTV 데이터를 기반으로 수행되었기 때문에 다양한 환경에 대한 일반화 성능은 추가적인 검증이 필요하다.

4. 결 론

본 연구에서는 하천 및 하구 수역의 부유 쓰레기 모니터링을 위한 실시간 인스턴스 세그멘테이션 모델 RTD-YOLO를 제안하였다. 수면 영상 환경은 수면 반사, 배경과의 높은 시각적 유사성, 객체 간 중첩, 원거리 소형 객체 비중 증가 등으로 인해 일반 목적 데이터셋과 다른 특성을 가지며, 이에 따라 기존 구조의 직접 적용에는 한계가 존재한다. 본 연구는 이러한 특성을 반영하여 탐지 및 분류 중심의 구조 개선을 통해 성능 향상을 도모하였다.

RTD-YOLO는 기존 모델 대비 정밀도와 재현율을 동시에 향상시키며 전반적인 탐지 성능 개선을 보였으며 약 62.6 FPS 수준의 처리 속도를 유지하였다. 이는 일반적인 실시간 영상 처리 환경에서 요구되는 10–30 FPS 수준을 상회하는 값으로 고정형 CCTV 기반 모니터링뿐 아니라 Edge 기반 시스템에서도 적용 가능한 범위에 해당한다. 다만 기존 모델 대비 약 13%의 추론 시간 증가가 발생하였으며 이는 정확도 향상과 처리 속도 간의 trade-off로 해석할 수 있다. 실제 적용 시에는 장비 성능 및 입력 해상도에 따라 처리 속도가 달라질 수 있으므로 환경에 따른 모델 선택이 필요하다.

또한 본 연구에서는 집중호우 시기 영상 데이터를 활용하여 탁도 변화 및 수면 반사 조건이 일부 반영된 환경에서 모델을 학습하였으며 부유 쓰레기가 존재하지 않는 배경 이미지를 포함하여 비객체 패턴으로 인한 오검출을 억제하고자 하였다. 더불어 밝기, 색상, 노이즈 기반 데이터 증강을 적용하여 환경 변화에 대한 일반화 성능을 보완하였다. 다만 기상 조건별 성능을 정량적으로 분리하여 분석하지는 못하였으며 향후 다양한 환경 조건을 고려한 강건성 평가가 필요하다.

한편 plastic 클래스의 낮은 재현율은 실제 운영 환경에서 일부 부유 플라스틱이 미검출될 가능성을 의미하는 중요한 한계로 확인되었다. 이는 플라스틱 객체가 대부분 소형이며 debris와 중첩되거나 수면 반사 및 그림자에 의해 가려지는 경우가 많기 때문으로 판단된다. 향후 장기간 데이터 수집을 통해 다양한 크기와 형태의 객체를 확보하고 소형 객체 탐지에 특화된 학습 전략을 적용함으로써 성능 개선이 가능할 것으로 기대된다.

본 연구 결과는 고정형 CCTV 기반 부유 쓰레기 모니터링 시스템에 적용되어 부유 쓰레기의 발생 시점 및 분포를 자동으로 탐지하고 관리 의사결정을 지원하는 데 활용될 수 있다. 특히 실시간 탐지를 기반으로 한 조기 대응, 장기 모니터링을 통한 발생 패턴 분석, 수거 효율 향상 등의 측면에서 활용 가능성이 있다.

그러나 본 연구는 특정 기간의 주간 영상 중심 데이터와 단일 지점 자료를 기반으로 수행되었기 때문에 주/야간 및 수위 변화에 따른 성능 편차를 충분히 반영하지 못한 한계가 있다. 향후에는 다양한 시간대, 수위 변화 및 계절 조건을 포함한 다지점 데이터 수집을 통해 모델의 일반화 성능을 보다 체계적으로 검증할 필요가 있다. 또한 연속 프레임 기반 탐지 안정화, 객체 추적 및 이동 경로 분석, 그리고 검출된 부유 쓰레기의 정량화 기능을 통합함으로써 실제 운영 가능한 통합 모니터링 시스템으로 확장할 필요가 있다.

Figure

Fig. 1.

CCTV installation overview and live monitoring screen at the Geumgang Estuary Barrage.

Fig. 2.

Representative floating trash images and instance segmentation annotation examples.

Fig. 3.

Class-wise examples of instance segmentation masks for floating trash objects.

Fig. 4.

Overall architecture of RTD-YOLO.

Fig. 5.

Training and Validation Loss Curves of Compared Models.

Fig. 6.

Comparison of segmentation performance and inference latency across models.

Fig. 7.

Qualitative comparison of instance segmentation results across models.

Table

Table 1.

Object Images, Instances and Background Images for Each Dataset Split

Data	Object Images	Instances	Background Images
Train	721	3,024	80
Validation	206	1,001	23
Test	103	450	11

Table 2.

Class-wise Instance Distribution of the Floating Trash Dataset

Object Class	Instances	Ratio (%)
cans	458	10.23
debris	1,691	37.79
other	458	10.23
plastic	458	10.23
styrofoam	943	21.07
wood	467	10.44

Table 3.

Architectural Differences Between YOLO26-Seg and RTD-YOLO

Component	YOLO26-Seg	RTD-YOLO	Design Purpose
Backbone P3 stage	C3k2 × 2	C3k2 × 4	Strengthen detection and classification for small objects
Backbone P4 stage	C3k2 × 2	C3k2 × 3	Improve semantic discrimination at the medium scale
P5 formation	Single downsampling path	Dual-path downsampling+Add fusion	Stabilize high-level semantic representation
P5→P4 fusion	Concat fusion	Aligned Add fusion	Suppress background noise accumulation
P4→P3 fusion	Concat fusion	Aligned Add fusion	Improve score calibration and recall retention
Pre-segmentation path	None	Semantic feedback path	Improve separation of overlapping and background-similar objects
Segmentation head	[nc, 32, 256]	[nc, 48, 256]	Stabilize segmentation input and improve mask reconstruction

Table 4.

Stepwise Cumulative Ablation Study of RTD-YOLO Components

Stage	Added Component	mAP@50:95	Δprev	Δcum
Stage 0	YOLO26 baseline	0.367	0.00%	0.00%
Stage 1	Backbone P3/P4 expansion	0.374	1.83%	1.83%
Stage 2	Dual-path P5 formation	0.359	-4.15%	-2.39%
Stage 3	P5→P4 aligned Add fusion	0.332	-7.42%	-9.64%
Stage 4	P4→P3 Add + feedback	0.340	2.56%	-7.33%
Stage 5	RTD-YOLO (Segmentation head)	0.403	18.28%	9.62%

Table 5.

Overall Mask Segmentation Performance Comparison

Model	Precision	Recall	mAP@50	mAP@50:95	Inference Time(ms/img)
YOLOv8-Seg	0.682	0.537	0.567	0.358	10.00
YOLO11-Seg	0.660	0.521	0.565	0.360	12.05
YOLO26-Seg	0.672	0.547	0.587	0.367	14.13
RTD-YOLO(Ours)	0.729 (+8.52%)	0.606 (+10.85%)	0.638 (+8.61%)	0.403 (+9.62%)	15.98 (13.07% slower)

Table 6.

Stepwise Relative Changes in Mask Segmentation Performance

Transition	Precision Change	Recall Change	mAP@50 Change	mAP@50:95 Change	Inference Time Increase
YOLOv8-Seg → YOLO11-Seg	-3.25%	-2.99%	-0.36%	+0.39%	+20.49%
YOLO11-Seg → YOLO26-Seg	+1.78%	+4.87%	+3.81%	+2.17%	+17.28%
YOLO26-Seg → RTD-YOLO	+8.52%	+10.85%	+8.61%	+9.62%	+13.07%

Table 7.

Class-wise Mask Segmentation Performance of RTD-YOLO

Class	Precision	Recall	mAP@50	mAP@50:95
cans	0.784	0.712	0.715	0.386
debris	0.677	0.665	0.691	0.436
plastic	0.621	0.348	0.374	0.190
styrofoam	0.671	0.653	0.650	0.303
wood	0.864	0.542	0.677	0.522
other	0.756	0.717	0.718	0.578

Reference

Cortesi, I., A. Masiero, G. Tucci, and K. Topouzelis ( 2022), UAV-based river plastic detection with a multispectral camera. The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 43, pp. 855-861.
Dumitriu, A., F. Tatui, F. Miron, R. T. Ionescu, and R. Timofte ( 2023), Rip current segmentation: A novel benchmark and YOLOv8 baseline results. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, pp. 1261-1271.
He, K., G. Gkioxari, P. Dollár, and R. Girshick ( 2017), Mask R-CNN. Proceedings of the IEEE International Conference on Computer Vision (ICCV), pp. 2961-2969.
Hidayatullah, P. and R. Tubagus ( 2026), YOLO26: A comprehensive architecture overview and key improvements. arXiv preprint arXiv:2602.14582.
Honingh, D., T. van Emmerik, W. Uijttewaal, H. Kardhana, O. Hoes, and N. van de Giesen ( 2020), Urban river water level increase through plastic waste accumulation at a rack structure. Frontiers in Earth Science, 8, 28.
Jocher, G., A. Chaurasia, and J. Qiu ( 2023), Ultralytics YOLOv8 (Version 8.0.0) [Software]. Available at: https://github.com/ultralytics/ultralytics.
Jocher, G. and J. Qiu ( 2024), Ultralytics YOLO11 (Version 11.0.0) [Software]. Available at: https://github.com/ultralytics/ultralytics.
Jocher, G. and J. Qiu ( 2026), Ultralytics YOLO26 (Version 26.0.0) [Software]. Available at: https://github.com/ultralytics/ultralytics.
Lee, H., S. Byeon, J. H. Kim, J.-K. Shin, and Y. Park ( 2025), Construction of a real-time detection for floating plastics in a stream using video cameras and deep learning. Sensors, 25(7), 2225.
Lin, F., T. Hou, Q. Jin, and A. You ( 2021), Improved YOLO-based detection algorithm for floating debris in waterway. Entropy, 23(9), 1111.
Malik, N. K. A., L. A. Manaf, N. R. Jamil, M. H. Rosli, Z. H. Ash’aari and A. S. M. Adhar ( 2020), Variation of floatable litter load and its composition captured at a floating debris boom structure. Journal of Material Cycles and Waste Management, 22, pp. 1744-1767.
Padilla, R., S. L. Netto, and E. A. B. Da Silva ( 2020), A survey on performance metrics for object-detection algorithms. Proceedings of the International Conference on Systems, Signals and Image Processing (IWSSIP), pp. 237-242.
Qiao, G., M. Yang, and H. Wang ( 2022), A detection approach for floating debris using ground images based on deep learning. Remote Sensing, 14(17), 4161.
van Emmerik, T. H. M., R. M. Frings, L. J. Schreyers, R. Hauk, S. I. de Lange, and Y. A. Mellink ( 2023), River plastic transport and deposition amplified by extreme flood events. Nature Water, 1, pp. 514-522.
van Lieshout, C., K. van Oeveren, T. van Emmerik, and E. Postma ( 2020), Automated river plastic monitoring using deep learning and cameras. Earth and Space Science, 7(8), e2019EA000960.
Yang, X., J. Zhao, L. Zhao, H. Zhang, L. Li, Z. Ji, and I. Ganchev ( 2022), Detection of river floating garbage based on improved YOLOv5. Mathematics, 10(22), 4366.
Zhang, L., Z. Xie, M. Xu, Y. Zhang, and G. Wang ( 2023), EYOLOv3: An efficient real-time detection model for floating object on river. Applied Sciences, 13(4), 2303.
Zhu, W. and R. Xu ( 2025), Research on an improved YOLOv8 algorithm for water surface object detection. Electronics, 14(18), 3615.