Journal Search Engine
Search Advanced Search Adode Reader(link)
Download PDF Export Citaion korean bibliography PMC previewer
ISSN : 1229-3431(Print)
ISSN : 2287-3341(Online)
Journal of the Korean Society of Marine Environment and Safety Vol.26 No.4 pp.382-391
DOI : https://doi.org/10.7837/kosomes.2020.26.4.382

Prediction of Dissolved Oxygen in Jindong Bay Using Time Series Analysis

Myeong-Soo Han*, Sung-Eun Park**, Youngjin Choi***, Youngmin Kim****, Jae-Dong Hwang*****
*Engineer, GeoSystem Research Corporation, Gunpo, Gyeonggi 15807, Korea
**Research scientist, National Institute of Fisheries Science, Busan 46083, Korea
***Director, GeoSystem Research Corporation, Gunpo, Gyeonggi 15807, Korea
****Researcher, National Institute of Fisheries Science, Busan 46083, Korea
*****Research scientist, National Institute of Fisheries Science, Busan 46083, Korea

* First Author : mshan@geosr.com, 070-7019-0879


Corresponding Author : yjchoi@geosr.com, 070-7019-0615
April 10, 2020 May 22, 2020 June 26, 2020

Abstract


In this study, we used artificial intelligence algorithms for the prediction of dissolved oxygen in Jindong Bay. To determine missing values in the observational data, we used the Bidirectional Recurrent Imputation for Time Series (BRITS) deep learning algorithm, Auto-Regressive Integrated Moving Average (ARIMA), a widely used time series analysis method, and the Long Short-Term Memory (LSTM) deep learning method were used to predict the dissolved oxygen. We also compared accuracy of ARIMA and LSTM. The missing values were determined with high accuracy by BRITS in the surface layer; however, the accuracy was low in the lower layers. The accuracy of BRITS was unstable due to the experimental conditions in the middle layer. In the middle and bottom layers, the LSTM model showed higher accuracy than the ARIMA model, whereas the ARIMA model showed superior performance in the surface layer.



시계열 분석을 이용한 진동만의 용존산소량 예측

한 명수*, 박 성은**, 최 영진***, 김 영민****, 황 재동*****
*지오시스템리서치 해양예보사업부 전임
**국립수산과학원 연구사
***지오시스템리서치 해양예보사업부 책임
****국립수산과학원 연구원
*****국립수산과학원 연구사

초록


본 연구에서는 인공지능기법을 이용하여 진동만의 용존산소량 예측을 하였다. 관측자료에 존재하는 결측 구간을 보간하기 위 해 양방향재귀신경망(BRITS, Bidirectional Recurrent Imputation for Time Series) 딥러닝 알고리즘을 이용하였고, 대표적 시계열 예측 선형모델 인 ARIMA(Auto-Regressive Integrated Moving Average)과 비선형모델 중 가장 많이 이용되고 있는 LSTM(Long Short-Term Memory) 모델을 이용 하여 진동만의 용존산소량을 예측하고 그 성능을 평가했다. 결측 구간 보정 실험은 표층에서 높은 정확도로 보정이 가능했으나, 저층에서 는 그 정확도가 낮았으며, 중층에서는 실험조건에 따라 정확도가 불안정하게 나타났다. 실험조건에 따라 정확도가 불안정하게 나타났다. 결과로부터 LSTM 모델이 중층과 저층에서 ARIMA 모델보다 우세한 정확도를 보였으나, 표층에서는 ARIMA모델의 정확도가 약간 높은 것으로 나타났다.



    National Fisheries Research and Development Institute
    R2020064

    1. 서 론

    빈산소 수괴의 형성은 적조와 함께 수산분야에서 가장 큰 피해를 발생시키는 현상이다. 육상으로부터 연근 해역으로 유입된 영양염과 유기물이 생태계의 환경수용력을 넘어설 정도로 증가하게 되면 부영양화에 이어 빈산소 수괴가 발생 하여 종 다양성과 수산물 생산량에 악영향을 미치게 된다 (Diaz and Rosenberg, 1995;Levin, 2003;Monteiro and Plas, 2006). 이는 우리나라뿐만 아니라 전 세계적으로 증가하고 있는 현 상으로서 최근 들어 그 심각성에 대한 다양한 연구가 진행 되고 있다(Diaz and Rosenberg, 2008;Rabalais and Gilbert, 2009).

    우리나라 연안에서는 적조와 연관되어 여름철에 자주 발 생하는 것으로 보고되고 있으며(Cho, 1991;Kim, 1990), 진동 만을 포함한 진해만 일대, 가막만, 시화호, 영산강 하구, 천 수만, 남대천 하구, 고성만, 자란만, 한산만, 북신만 등에서 주로 발생하는 것으로 조사되었다(National Institute of Fisheries Science, 2009).

    빈산소 수괴의 발생을 예측하기 위해 Choi et al.(1994)은 수치모의실험으로부터 저질산소요구량(SOD)과 화학적산소 요구량(COD) 부하가 빈산소 수괴의 발생에 영향을 미치는 인자임을 보였으며, Jung et al.(2014)은 마찬가지로 수치모델 을 이용하여 연직혼합계수가 내만의 빈산소수괴 형성과 연 관이 있음을 밝혔다. Ye(2015)는 2011-2013년 3개년의 빈산소 수괴 발생을 연구하여 표층수온과 저층수온의 차이가 크거 나, 강수량이 많고 기온이 높을 때 발생확률이 높다는 것을 보였다. Kang(2019)은 수치모델과 수질모델을 이용하여 빈산 소수괴 형성의 기작을 규명하는 한편, 로지스틱 회귀모델을 통해 빈산소수괴의 발생확률을 예측하였다.

    용존산소량을 결정하는 요인은 성층, 수온, 염분, 조석, 해 류 등 다양한 요인에 의해 결정되는데, 수치모델 실험은 용 존산소량을 설명하는 변수들이 목적변수와 어떠한 상호 연 관성이 있는가를 규명할 때는 유용하나, 원인 인자들의 정 량적 자료가 충분하지 않을 때에는 추정치 혹은 예상치를 통해 입력변수를 설정해야 하기 때문에 방정식에 기반하여 용존산소량을 추정하는 것은 매우 어려운 과정임과 동시에 비효율적이다. 또한, 회귀분석 등 통계적 도구 역시 현재까 지는 경향성 분석 혹은 확률예측을 하는 데 머물러있다.

    ARIMA 모델은 Box-Jenkins(1976)에 의해 제안된 방법으로 서 현재 데이터를 과거 데이터와의 상관관계 및 과거 예측 오차와의 관계를 통해 예측하는 방법이며, 수온변동의 장·단 기 예측 등 해양의 물리적 현상의 예측에도 활용되고 있는 대 표적 시계열예측 모델이다(Liu et al., 2009;Karim, 2013;Hussian et al., 2013;Seong et al., 2014).

    최근 들어 예측분야에서 주목받고 있는 딥러닝 기법의 한 종류인 LSTM(Hochreiter and Schmidhuber, 1997)은 시계열 예 측에 최적화된 인공신경망 네트워크이며, 최근에는 수온, 수 질 등 다양한 해양현상의 예측에도 사용되고 있다(Zhang et al., 2017;Yang et al., 2017;Zhou et al., 2018). LSTM은 순환신 경망의 일종으로 데이터의 선후관계를 학습할 수 있으며, 본 논문에서는 다양한 계산조건하에서 실험을 수행하여 용 존산소 예측을 위한 최적의 신경망 네트워크를 구성하였다.

    본 연구에서는 진동만에 설치한 용존산소 농도 측정센서 로부터 수집된 자료로부터 통계적 시계열 예측을 통해 미래 의 용존산소량을 예측하였다. 딥러닝 기법의 정확도 평가를 위해 가장 널리 사용되고 있는 ARIMA 모델을 대조군으로 하여 각각 예측을 수행하였다.

    진동만 관측정점의 설치한 장비는 수온, 염분, 용존산소를 측정할 수 있는 장비로 수온, 염분은 C4E 센서(PONSEL., France)에서, 용존산소는 Optical DO 센서(PONSEL., France)로 관측할 수 있다. 이 중 용존산소 자료를 취득하여 실험을 수행 했다. 관측 정점의 수심은 13 m이며, 수면으로부터 2 m, 6 m, 11 m를 각각 표층, 중층, 저층으로 정의하였다.

    한편, 센서로부터 수집된 현장관측자료는 악천후 등 여러 조건에 의해 이상 관측 혹은 결측이 발생한다. 결측구간은 시계열 분석의 예측정확도를 낮추거나 예측할 수 없게 만들 기 때문에, 본 연구에서는 결측구간 보간을 위한 딥러닝 알 고리즘인 BRITS(Bidirectional Recurrent Imputation for Time Series)를 이용하여 자료를 복원하였다.

    2. 연구자료 및 방법

    2.1 성능평가지표

    산출된 모형의 성능은 평균 제곱근 오차(Root Mean Square Error, RMSE)와 평균 제곱근 오차율(Root Mean Square Percentage Error)을 이용하여 산출하였다. 평균 제곱근 오차 는 추정값과 실제 관측값의 차이를 다룰 때 흔히 사용하는 측도이며, 정밀도를 표현하는데 적합한 방법으로 식은 다음 과 같다.

    R M S E = 1 N i = 1 n ( O b s i Pr e d i c t i o n i ) 2
    (1)

    추정값과 관측값의 차이를 잔차라고도 하며 평균 제곱근 오차는 잔차들을 하나의 측도로 통합하여 추정값에 대한 성 능을 평가한다.

    평균 제곱근 오차는 관측대비 예측에서 발생한 오차를 성 능평가 변수의 단위를 그대로 사용하여 정량적으로 나타내 지만, 평균 제곱근 오차율은 잔차를 관측값으로 나누어 잔 차의 관측대비 비율로 나타내고 잔차 비율을 하나의 측도로 통합하며 식은 다음과 같다.

    R M S P E = 1 n i = 1 n ( O b s i Pr e d i c t i o n i O b s i ) 2 × 100
    (2)

    평균 제곱근 오차율은 추정값의 오차를 관측대비 비율로 알아보는 방법이다.

    2.2 용존산소 데이터 및 결측구간 내삽

    진동만의 용존산소량 변동을 추정하기 위해 국립수산과 학원 어장환경과에서 수행한 진동만 관측정점(128.4802E, 35.0871N)의 층별 관측(표층, 중층, 저층)자료를 이용하였다. 관측기간은 3년간 각각 2016년 5월 26일 16시 ~ 2016년 11월 30일 12시, 2017년 5월 10일 12시 ~ 2017년 11월 22일 9시, 그 리고 2018년 4월 19일 11시 ~ 2018년 11월 27일 11시이며, 1시 간 간격으로 관측이 실시되었다. LSTM 모델의 경우 시계열 자료의 길이가 1,000 step보다 길어질 경우 성능저하가 발생 하기 때문에(Li et al., 2018), 원본의 1시간간격 자료로부터 6 시간 평균자료를 생성하여 약 800개의 연간 데이터를 이용 하여 예측을 하였다.

    결측 구간의 내삽은 BRITS 모델(Cao et al., 2018)을 이용하 였다. BRITS 모델은 결측이 존재하는 시계열 데이터에서 결 측을 포함하는 양 끝 관측값을 이용하여 내삽하는 대신에 양방향 동적 순환신경망을 반복 계산하면서 결측값을 직접 학습한다. BRITS 모델에서 결측 구간은 양방향 RNN그래프 의 변수로 취급하기 때문에 이전 차분의 기울기값을 전방향 (forward)과 후방향(backward) 양방향으로 사용하여 결측값을 대체하며 단방향 순환신경망보다 향상된 결과를 나타낸다.

    BRITS의 구성은 LSTM 셀 수, 입력기간에 따라 다양한 네 트워크 구성이 가능한데, 이 중 최적의 LSTM 네트워크 구성 을 위해 본 연구에서는 인위적 결측구간을 생성하여 반복실 험 및 RMSE 비교를 통해 가장 정확도가 높은 변수를 이용 하여 모델을 구성하였다. 내삽성능을 테스트하기 위한 임의 결측구간은 2018년 7월 19일 6시 ~ 2018년 7월 29일 0시 사이 의 240시간을 최대로 설정하여, 구간 길이별 성능평가를 위 해 48시간, 96시간, 144시간, 192시간, 240시간의 구간별, 층 별(표층, 중층, 저층)에 대해 각각 실험하였으며, BRITS 내삽 모델 구성실험조건은 입력 길이(input_length)를 24, 48, 72로 하고 각각에 대해 LSTM 셀 수를 50, 100, 150으로 적용하여 총 9번의 실험을 표층, 중층, 저층에 대해 각각 했으며, 일반 적으로 시계열 내삽에 많이 사용하는 spline 기법과 비교하 였다.

    2.3 ARIMA 모델

    ARIMA 모델은 확률적 과정(stochastic process)에 의해 생성 되는 확률적 시계열 모델이다. 즉, 자기회귀(AR모델)와 이동 평균(MA모델)이라는 확률적 과정과 대부분의 불안정한 시 계열을 안정화하기 위한 차분의 과정이 통합된(Integrated) 방 법으로서 시계열 예측을 위해 가장 광범위하게 사용되는 모 델이다. ARIMA는 AR 모델과 MA 모델, 그리고 차분을 통합 한 모델로 ARIMA(p, d, q)로 나타낸다. 차분을 통해 안정화 된 시계열은 AR모형이나 MA모형 또는 ARMA모형으로 표 현이 가능해지며, Yt를 d번 만큼 차분하여 얻은 안정적 시 계열을 일반적 유형인 ARMA(p, q)모형으로 표현할 수 있을 때 원래 시계열 Yt를 ARIMA(p, d, q)모형, 즉 (p, d, q)의 차수 를 갖는 결합 ARMA과정(integrated ARMA process)라고 한다.

    자기회귀모형은 시계열의 t시점의 값 Zt를 그 이전 시점 의 값들 { Z t-1 , Z t-2 , } 로 회귀시킨 모델이며, p시차 자기회 귀모형(AR(p))은 다음과 같이 표현된다(Yule, 1926).

    Z t = ϕ 1 Z t 1 + ϕ 2 Z t 2 + + ϕ p Z t p + a t , a t W N ( 0 , σ 2 )
    (3)

    여기서 WN (0, σ2) 은 서로 독립이며 평균이 0, 분산이 σ2 인 화이트노이즈이다. 이 모델에서 현재 시점은 과거 시점 들의 영향을 받게 된다.

    한편 q시차 이동평균모형(MA(q))은 다음과 같이 표현한다 (Slutzky, 1937).

    Z t = a t θ 1 a t 1 - θ 2 a t 2 θ q a t q , a t W N ( 0 , σ 2 )
    (4)

    여기에서 현재 시점의 값은 현재 오차부터 과거 q시점 전 까지의 오차들의 영향을 받으며, 이동평균 모델은 항상 정 상성을 만족한다.

    ARIMA 예측모델은 1)모델식별, 2)모델추정, 그리고 3)모 델적정성진단의 3단계 반복과정을 거쳐 결과를 도출한다 (Frain, 1999). 모델식별 과정에서는 시계열의 자기상관함수, 부분자기상관함수 등을 통해 시계열자료의 차분계산 필요 성 여부 및 AR항과 MA항의 차수를 정한다. 모델추정 단계 에서는 일반적으로 조건부 최소자승법이나 최대우도법을 이용하여 모수를 추정한다. 또한 ARIMA 모델을 이용할 때 는 모수절약의 원칙에 따라 불필요한 계수를 사용하지 않는 최적 모델을 선정하는 것이 원칙이다(Ku, 2013). 추정된 모델 이 적절하다면 해당 시계열은 ARIMA모델을 따라 움직인다 고 가정하고 예측을 실시한다. 시계열 자료의 노이즈 분산 이 작을수록 높은 정확성을 얻을 수 있으므로 일반적으로 50개 이상의 관측값을 확보하는 것이 바람직하다(Kim, 2007).

    본 연구에서 ARIMA 모델의 적합은 t + 1~t + 5를 예측하 기 위해 t + 0까지의 이용할 수 있는 모든 자료를 사용하여 모델을 적합하였다. 2018년 10월 1일 0시 ~ 2018년 11월 30일 18시의 관측자료 수는 총 244개 이므로 예측값을 생산하여 비교하기 위해 ARIMA 적합을 244회 수행하였고, 예측값 (t+ 1~t + 5)을 244회 생성하였다. ARIMA를 구성하는 p, q, d 값은 각각의 파라미터가 0일 때 시계열을 설명하는 모델에 대입할 수 있다. d가 0일 때 ARMA(p, q) 모델이라고 하며, 이 모델은 정상성을 만족한다. p가 0일 때 IMA(d, q) 모델이라고 하며, d번 차분하면 MA(q) 모델을 따르게 된다. q가 0일 때 ARI(p, d) 모델이라고 하며, d번 차분한 시계열이 AR(p) 모델 을 따른다.

    2.4 Long Short-Term Memory 모델

    순환신경망의 한 종류인 LSTM은 Hochreiter and Schmidhuber (1997)에 의해 개발되었으며, 최근 컴퓨터 계산성능의 발달 과 경사소멸(banishing gradient)을 개선할 수 있는 알고리즘의 등장으로 급격하게 발전하고 있는 딥러닝과 결합하여 다양 한 시계열 예측분야에서 가장 널리 사용되고 있다. LSTM은 단기기억(short term memory)과 장기기억(long term memory)을 갖고 있어 경사소멸을 방지하는데 더욱 탁월한 성능을 갖고 있다(Fig. 1).

    LSTM은 순환신경망의 망각게이트(forget gate), 입력게이트 (input gate), 출력게이트(output gate)를 가지며, 각각은 다음과 같은 역할을 수행한다.

    f t = σ g ( W f x t + U f h t 1 + b f ) i t = σ g ( W i x t + U i h t 1 + b i ) o t = σ g ( W o x t + U o h t 1 + b o ) c t = f t ° c t 1 + i t ° σ c ( W c x t + U c h t 1 + b o ) h t = o t ° σ h ( c t )

    여기서, xt는 입력벡터, ft는 망각게이트의 활성화벡터, it 는 입출력게이트의 활성화벡터, ot는 출력게이트의 활성화 벡터, ht는 LSTM 유닛의 출력벡터, ct는 셀 상태 벡터, 그리 고 W는 가중행렬을 나타낸다. 초기값은 co = 0, ho = 0이고, 연산자 ∘는 아다마르곱(Hadamard product)을 나타낸다. 활성 화함수 σg, σc, σh는 각각 시그모이드, 쌍곡탄젠트, 그리고 peephole LSTM(Gers et al., 2002)의 쌍곡탄젠트 활성화 함수 이다.

    LSTM 모델의 시계열 예측성능 평가를 위해 학습자료의 길이에 따른 예측정확도 변화를 평가하였다. 학습자료의 길 이에 대한 실험은 용존산소량 시계열 자료에서 2016 ~ 2018 년의 3개년간 자료 모두를 사용했을 때와, 예측기간에 해당 하는 2018년 자료만을 사용한 경우로 나누어 실험했으며, 3 개년간 자료를 모두 사용했을 때 훈련에 사용된 자료는 2016년 5월 26일 12시 ~ 2016년 11월 30일 6시, 2017년 5월 10일 12시 ~ 2017년 11월 22일 6시, 2018년 4월 19일 6시 ~ 2018년 9월 30일 18시 자료이며, 2018년 자료만 사용했을 때는 2018년 4월 19일 6시 ~ 2018년 9월 30일 18시 자료이다. 검증기간은 CASE1, CASE2 2018년 10월 1일 0시 ~ 2018년 11월 27일 6시이다.

    학습자료 길이 조건에 따른 실험조건을 Table 1에 정리하 였다.

    또한, LSTM 모델을 구성하는 다양한 파라미터에 대한 실 험을 수행하였는데, 1) 입력길이는 24, 48, 72개, 2) LSTM 셀 수는 50, 100, 150, 3) 레이어 수는 1개와 2개, 그리고 4) 최적화 함수는 SGD(Standard Gradient Decent)와 ADAM(Ada-Momentum) 을 각각 적용하였다. 1) ~ 4)까지의 4개 항목에 대한 조합으 로서 총 36가지 경우의 실험을 수행하였으며, 이를 Table 1의 2가지 CASE에 각각 적용하여 표층, 중층, 저층 별로 각각 총 144회의 비교실험을 수행하였다.

    3. 실험결과

    3.1 결측구간 내삽 실험 결과

    총 9개 조합의 입력 길이와 LSTM 셀 수에 대한 실험결과 를 내삽 구간별, 층별에 대한 상위 1위의 결과와 spline의 성 능 결과 비교를 Table 2에 나타내었고, 10일 구간의 내삽 결 과를 Fig. 2에 나타냈다.

    실험결과, 표층의 32개 내삽결과를 제외한 전 층 전 구간 에서 BRITS 내삽 성능이 좋았다. 내삽 정확도를 평가하기 위한 RMSE는 층별로 평균적으로 BRITS에 비해 SPLINE 결 과가 0.054, 0.7, 0.294 각각 낮았고 SPLINE과 BRITS의 성능의 차이는 BRITS 성능에서 평균적으로 각각 15.9 %, 84.9 %, 67.4 % 의 비율을 나타낸다. 이는 BRITS의 내삽 성능이 SPLINE보다 월등하다는 것을 의미하며, SPLINE은 연속적으로 결측이 포 함된 데이터를 내삽하기 위한 방법으로 적합하지 않다는 것 을 의미한다.

    3.2 ARIMA 모델을 이용한 용존산소량 예측

    ARIMA 자동적합한 모델을 이용하여 t + 1~t + 5의 예측값 을 생산(Fig. 3)하고 예측값과 관측값으로 RMSE t+ 1~t + 5 값을 산출하여 다음 Table 3에 나타냈다.

    ARIMA 모델을 이용한 예측에서 예측기간이 증가함에 따 라 오차가 커지는 것을 알 수 있으며, 표층의 예측정확도가 가장 높고, 중층, 저층으로 깊이가 깊어질수록 예측성능은 저하되는 것으로 나타났다.

    3.3 LSTM 모델을 이용한 용존산소량 예측

    LSTM 모델의 용존산소 예측결과(Fig. 4)는 표층, 중층, 저 층 별로 내삽유무, 학습기간 길이에 따른 실험세트 중 예측 정확도 상위 3개씩을 Table 4에 나타냈다.

    학습기간은 전 층에서 학습 길이를 길게 적용하는 경우가 그렇지 않은 경우보다 정확도가 높았다. 입력 길이는 표층, 중층, 저층별로 성능을 좋게 만드는 길이가 달랐는데 성능 이 가장 우수한 경우를 보면 저층으로 갈수록 입력 길이를 길게 하는 것이 좋은 성능을 보였다. 레이어 수는 전 층에 걸쳐 1개일 때 성능이 좋았다. LSTM 셀 수는 정확도에 크게 영향을 미치지 않는 것으로 보인다. 최적화 함수 역시 전 층 에 걸쳐 ADAM 방법을 적용한 것의 성능이 우세하였다.

    LSTM 모델을 이용하여 모델 중 가장 성능이 좋은 모델 을 선택하여 t + 1~t + 5의 예측값을 생산하고 예측값과 관 측값으로 RMSE t + 1~t+ 5값을 산출하여 다음 Table 5에 나 타냈다.

    LSTM 모델을 이용한 예측에서 예측기간이 증가함에 따 라 오차가 커지는 것을 알 수 있다. ARIMA와 성능을 비교했 을 때 표층에서는 RMSE값이 평균적으로 0.098 커졌고, 중층, 저층에서는 각각 0.079, 0.069낮아진 것을 확인할 수 있었다.

    4. 결론 및 토의

    진동만은 수심이 얕아 조석의 영향을 크게 받으며 주변에 다수의 양식장이 설치되어있어 빈산소수괴 형성시 피해가 크게 발생한다. 본 연구에서는 시계열 분석모델 중 가장 널 리 사용되고 있는 ARIMA 모델과 최근 딥러닝의 등장과 함 께 널리 이용되고 있는 인공신경망 기반 시계열 예측모델인 LSTM을 이용하여 용존산소량의 정량적 예측을 수행하였다.

    용존산소량 관측을 위해 설치된 센서들은 악천후 및 기기 오작동 등의 다양한 원인에 의해 결측 및 오측이 발생하게 되는데 이러한 오류구간에 대해 BRITS 딥러닝 알고리즘을 적용하여 보정하였다. 실험결과 표층에서는 매우 높은 정확 도로 보정이 가능하였으나, 저층에서는 그 정확도가 매우 낮았으며, 중층에서는 실험조건에 따라 정확도가 불안정하 게 나타났다. 표층에서는 1)상시적으로 폭기가 일어나며, 2) 관측이 실시되는 봄~가을에는 급격한 대류 등에 의한 영향 이 적고, 3)태양에 의한 규칙적 일주기변동성에 의해 정상성 시계열에 가까운 반면, 중층과 저층에서는 내부파의 영향이 나 파랑에 의한 성층구조의 불규칙한 변화 등 때문에 비정 상성 시계열 성분이 큰 것으로 판단되며, 이에 따라 시계열 예측에 의한 보간의 정확도가 낮아지는 것으로 생각된다. 또한 내삽실험에서 필요로 하는 입력자료의 길이가 늘어나 는 것은 용존산소량의 변동주기가 표층보다 저층에서 길다 는 것을 의미하는 것으로 판단된다. 또한 중층과 저층에서 는 결측자료의 영향이 크기 때문에 저서생물의 생장에 큰 영향을 미치는 저층 빈산소 수괴의 효과적인 예측을 위해서 는 관측의 확대가 필요할 것으로 생각된다.

    ARIMA 모델을 이용한 예측에서는 예측기간이 증가함에 따라 오차가 커지는데, 이는 이동평균에 의한 영향과 더불 어 비정상성에 의한 오차의 누적 때문으로 판단되며, 절대 값 기준으로는 표층, 중층, 심층의 차이가 크지 않으나, RMSPE 기준으로는 약 16 % 정도로 큰 차이가 나타나는 것 을 알 수 있다.

    LSTM 모델에서도 마찬가지로 표층보다 중/저층에서 예측 정확도가 낮아지는 것으로 나타났다. 또한, 모든 층에서 학 습기간이 3년일 경우의 정확도가 1년일 경우보다 높았는데, 이는 용존산소량의 변화에 경년변동성이 존재하며, 이로 인 해 더 장기간의 학습데이터를 확보하는 것이 유리하기 때문 으로 판단된다.

    표층의 예측정확도는 ARIMA 모델이 우세하였으나, 중층 과 저층에서는 LSTM 모델이 우세한 정확도를 나타내었다. 이로부터 표층의 변동은 주기성과 경향성이 강하기 때문에 모델의 복잡도가 상대적으로 낮으며, 정상성 시계열 예측에 강점이 있는 ARIMA 모델에서 잘 재현된 것으로 생각되며, 성층구조의 변화로 인해 변동성이 강한 중층과 저층에서는 모델의 복잡도가 높은 딥러닝 모델이 예측에 유리한 것으로 판단된다. LSTM 모델에서 표층에서의 성능을 보완하기 위 해서는 장단기 패턴 중에서 예측에 유리한 노드의 가중치를 강화시키기 위한 최적의 모델 설정을 연구할 필요가 있다. 또한 LSTM 모델의 정확도를 향상시킬 수 있는 Xavier 초기화 (Glorot and Bengio, 2010) 등 행렬계수 초기화 기법 및 dropout (Srivastava et al., 2014) 등의 계수 최적화 방법에 대한 연구가 필요하다.

    사 사

    본 연구는 2020년도 국립수산과학원의 “맞춤형 수산정보 서비스 플랫폼 구축(R2020064)” 연구과제의 지원으로 수행되 었습니다.

    Figure

    KOSOMES-26-4-382_F1.gif

    Structure of LSTM Cell (http://en.wikipedia.org, 2019).

    KOSOMES-26-4-382_F2.gif

    Interpolation results for Dissolved Oxygen [SPLINE a) surface layer, b) middle layer, c) bottom layer, BRITS d) surface layer, e) middle layer, f) bottom layer, respectively].

    KOSOMES-26-4-382_F3.gif

    6-hourly prediction results of dissolved oxygen using ARIMA model [a) surface layer, b) middle layer, c) bottom layer, respectively]. Black line indicates observational data, while colored lines indicates model predictions from 1st step to 5th step.

    KOSOMES-26-4-382_F4.gif

    6-hourly prediction results of dissolved oxygen using LSTM model [a)surface layer, b)middle layer, c)bottom layer, respectively]. Black line indicates observational data, while colored lines indicates model predictions from 1st step to 5th step.

    Table

    Experiment settings for LSTM prediction

    Results of spline and BRITS prediction for surface, middle, and bottom layers, respectively. Lower RMSE denote higher prediction quality

    Comparison table for predictive performance of ARIMA models

    Comparison table for predictive performance of LSTM models - 1

    Comparison table for predictive performance of LSTM models - 2

    Reference

    1. Box, G. E. P. and G. M. Jenkins (1976), Time series analysis: forecasting and control, 1976, ISBN: 0-8162-1104-3.
    2. Cao, W. , D. Wang, J. Li, H. Zhou, L. Li, and Y. Li (2018), BRITS: bidirectional recurrent imputation for time series. In Advances in Neural Information Processing Systems, pp. 6775-6785.
    3. Cho, C. H. (1991), Mariculture and eutrophication in Jinhae Bay, Korea. Marine Pollution Bulletin, Vol. 23, pp. 275-279.
    4. Choi, W. J. , C. K. Park, and S. M. Lee (1994), Numerical Simulation of the Formation of Oxygen Deficient Water-masses in Jinhae Bay, Vol. 27, No. 4, pp. 413-433.
    5. D´ıaz, R. J. and R. Rosenberg (2008), Spreading dead zones and consequences for marine ecosystems, Science, Vol. 321, pp. 926-929.
    6. D´ıaz, R. J. and R. Rosenberg (1995), Marine benthic hypoxia: a review of its ecological effects and behavioural responses of benthic macrofauna. Oceanography and Marine Biology Annual Review, Vol. 33, pp. 303-345.
    7. Frain, J. (1999), Lecture Notes on Univariate Time Series Analysis and Box Jenkins Forecasting, Economic Analysis Research and Publications, p. 26.
    8. Gers, F. , N. Schraudolph, and J. Schmidhuber (2002), Learning precise timing with LSTM recurrent networks, Journal of Machine Learning Research, Vol. 3, pp. 115-143.
    9. Glorot, X. and Y. Bengio (2010), Understanding the difficulty of training deep feedforward neural networks. In Aistats, Vol. 9, pp. 249-256.
    10. Hochreiter, S. and J. Schmidhuber (1997), Long short-term memory. Neural computation, Vol. 9, No. 8, pp. 1735-1780.
    11. https://en.wikipedia.org/wiki/Long_short-term_memory(2019).
    12. Hussian, M. A. , S Abbas, M. R. K. Ansari, and A. Zaffar (2013), Perturbations of modeling and forecast of Karachi coastal region seawater, Proceedings of the Pakistan Academy of Science, Vol. 50, No. 3, pp. 235-245.
    13. Jung, W. S. , W. C. Lee, S. J. Hong, J. L. Kim, and D. M. Kim (2014), Hypoxia Extimation of Coastal Bay through Extimation of Stratification Degree, Journal of the Korean Society of Marine Environment & Safety, Vol. 20, No. 5, pp. 511-525.
    14. Kang, H. (2019), A Study on prediction of hypoxia occurrence from inner bay, Kunsan National University.
    15. Karim, R. (2013), Season ARIMA for forecasting sea surface temperature of the north zone of the Bay of Bengal, Research&Reviews, Journal of Statistics, Vol. 2, No. 2, pp. 2278-2273.
    16. Kim, H. G. (1990), Characteristics of flagellate red tide and environmental conditions in Masan Bay. Bulletin of National Fisheries Research and Development Agency, Vol. 43, pp. 1-40.
    17. Kim, S. C. (2007), The corresponding problem of the prospect of the apiculture industry using the ARIMA model and National Agricultural Cooperative Association, Korea cooperative association research, Vol. 25, No. 1, pp. 183-210.
    18. Ku, S. K. (2013), Forecast of transportation demand for wide-area railways in 2014, Korea Railroad Corporation, p. 60.
    19. Levin, L. A. (2003), Oxygen minimum zone benthos: adaptation and community response to hypoxia. Marine Biology Annual Review, Vol. 41, pp. 1-45.
    20. Li, S. , W. Li, C. Cook, C. Zhu, and Y. Gao (2018), Independently recurrent neural network (indrnn): Building a longer and deeper rnn. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 5457-5466.
    21. Liu, F. C. , J. T. Liu, W. Su, and Y. Y. Guo (2009), Time series of coastal sea surface temperature: Simulation and prediction based on seasonal ARIMA model, Journal of Huaihai Institute of Technology (Natural Sciences Edition), Vol. 15, pp. 3709-318.
    22. Monteiro, P. M. S. and A. K. van der Plas (2006), Low oxygen water variability in the Benguela system. In: V. Shannon, G. Hempel, P. Malanotte-Rizzoli, C. Moloney, J. Woods (Eds.), The Benguela: Predicting A Large Marine Ecosystem, Elsevier, Vol. 14, pp. 71-90.
    23. National Institute of Fisheries Science (2009), Hypoxia in the coast of Korea, SP-2009-ME-021.
    24. Rabalais, N. N. and D. Gilbert (2009), Distribution and consequences of hypoxia, in: Watersheds, Bays and Bounded Seas, edited by: E. Urban, B. Sundby, P. Malanotte-Rizzoli, and J. M. Melillo, Island Press, Washington, DC, pp. 209-226.
    25. Seong, K. T. , Y. H. Choi, J. H. Koo, and S. B. Jean (2014), Fluctuations and Time Series Forecasting of Sea Surface Temperature at Yeosu Coast in Korea, Journal of the Korean Society for Marine Environment and Energy, Vol. 17, No. 2, pp. 122-130.
    26. Slutzky, E. (1937), The summation of random causes as the source of cyclic processes, Econometrica: Journal of the Econometric Society, pp. 105-146.
    27. Srivastava, N. , G. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov (2014), Dropout: a simple way to prevent neural networks from overfitting, The journal of machine learning research, Vol. 15, No. 1, pp. 1929-1958.
    28. Yang, Y. , J. Dong, X. Sun, E. Lima, Q. Mu, and X. Wang (2017), A CFCC-LSTM model for sea surface temperature prediction, IEEE Geoscience and Remote Sensing Letters, Vol. 15, No. 2, pp. 207-211.
    29. Ye, M. J. (2015), A study on the development mode of hypoxia event in the Jinhae Bay during 2011-2013, and predictability of hypoxia using weather parameters, Pusan National University.
    30. Yule, G. U. (1926), Why do we sometimes get nonsense -correlations between Time-Series?--a study in sampling and the nature of time-series, Journal of the royal statistical society, Vol. 89, No. 1, pp. 1-63.
    31. Zhang, Q. , H. Wang, J. Dong, G. Zhong, and X. Sun (2017), Prediction of sea surface temperature using long short-term memory, IEEE Geoscience and Remote Sensing Letters 14.10, pp. 1745-1749.
    32. Zhou, J. , Y. Wang, F. Xiao, Y. Wang, and L. Sun (2018), Water Quality Prediction Method Based on IGRA and LSTM. Water, Vol. 10, No. 9, p. 1148.