Journal Search Engine
Search Advanced Search Adode Reader(link)
Download PDF Export Citaion korean bibliography PMC previewer
ISSN : 1229-3431(Print)
ISSN : 2287-3341(Online)
Journal of the Korean Society of Marine Environment and Safety Vol.28 No.2 pp.193-200
DOI : https://doi.org/10.7837/kosomes.2022.28.2.193

Preliminary Study on the Reproduction of Dissolved Oxygen Concentration in Jinhae Bay Based on Deep Learning Model

Seongsik Park*, Kyunghoi Kim**
*Graduate Student, Department of Ocean Engineering Pukyong National University Busan 608-737, Korea
**Professor, Department of Ocean Engineering Pukyong National University Busan 608-737, Korea

* First Author : tjdtlR2565@hanmail.net, 051-629-6583


Corresponding Author : hoikim@pknu.ac.kr, 051-629-6583
February 15, 2022 March 22, 2022 April 27, 2022

Abstract


We conducted a case study to determine the optimal model parameters and predictors of Long Short-Term Memory (LSTM) for the reproduction of dissolved oxygen (DO) concentration in Jinhae Bay. The model parameter case study indicated the lowest accuracy when the Hidden node=10, Epoch=100. This was caused by underfitting of machine learning. The accuracy increased as the Hidden node and Epoch increased. The accuracy was the highest when the Hidden node=80 and Epoch=100 with R2=0.99. In the bottom DO reproduction of Step 1 of the predictors case study, accuracy was highest when the water temperature was used as a predictor with R2=0.81. In Step 2, The R2 value increased up to 0.92 when the water temperature and SiO2 were used as a predictor. This was caused by a high correlation between the bottom DO and SiO2 concentrations. Consequently, we determined the optimal model parameters and predictors of LSTM for the reproduction of DO concentration in Jinhae Bay.



딥러닝 모형 기반 진해만 용존산소농도 재현을 위한 기초연구

박 성식*, 김 경회**
*부경대학교 해양공학과 대학원생
**부경대학교 해양공학과 교수

초록


본 연구에서는 진해만의 DO 농도 재현을 목표로 LSTM 모형의 최적 매개변수 조건과 예측변수를 선별하기 위한 Case study를 진행하였다. 모형 매개변수 Case study 결과, 가장 적은 Hidden node와 Epoch인 Hidden node=10, Epoch=100에서 가장 낮은 정확도를 보였다. 이는 모형이 과소적합(Underfitting) 상태인 것으로 판단된다. Hidden node=80, Epoch=1200에서 R2 값은 0.99로 가장 높은 정확도를 보였다. 예 측변수 Case study 결과, 1개의 환경변수만을 예측변수로 사용한 Step 1에서 수온을 예측변수로 했을 때 저층 DO 농도 재현의 R2 값은 0.81 로 가장 높은 정확도를 보였다. 이후 2개의 환경변수를 사용한 Step 2에서는 수온과 SiO2를 예측변수로 했을 때 R2 값은 0.92로 수온만 사 용했을 때보다 정확도가 급격히 증가하였다. 이는 저층 DO 농도와 SiO2 농도간의 높은 상관성(|R|=0.70)에 기인한 것으로 판단된다. 상기 결과로부터 진해만의 DO 농도 재현에 적합한 LSTM 모형의 매개변수와 예측변수를 찾을 수 있었다.



    1. 서 론

    용존산소(DO; Dissolved Oxygen)는 해양생물의 생존에 필 수적인 요소로, 해양생물의 서식지에까지 영향을 미친다 (Matear and Hirst, 2003). 연안 해역의 DO 농도는 20세기 중반 이후 지속적으로 감소되어 왔다(Keeling et al., 2010;Diaz and Rosenberg, 2008). 이러한 탈산소화(Ocean deoxygenation)는 해 양 생태계에 영향을 미치는 중요 요인 중 하나이다(Levin and Breitburg, 2015;Zhang et al., 2010). 3 ppm의 DO 농도는 해 양 유기체 생존의 최저인내한계(Minimum patience limit)로 작 용하며, DO 농도가 3 ppm 이하인 수괴를 빈산소수괴(Hypoxia water mass)라 한다(Breitburg et al., 2018). 이러한 빈산소수괴 는 외해와의 해수교환률이 낮은 반폐쇄성 해역에서 빈번히 발생한다.

    한국 남해에 위치한 진해만은 흐름이 약하고 외해와의 수 로가 좁은 반폐쇄성 해역이다. 매년 여름철 진해만은 다량 의 담수 유입과 표층 수온 상승으로 염분 성층화, 수온 성층 화 현상이 빈발하고 있다(Lee et al., 2008). 성층이 형성되면 연직 혼합이 억제되어 저층으로의 산소 공급을 차단하고 산 소 고갈을 유발한다(Park and Ra, 2014). 이처럼 진해만은 그 물리적·지리적 특성으로 인해 매년 여름철 빈산소수괴가 일 어나 해양생태계에 큰 피해를 입히고 있다. 해양생태계의 보호를 위해 빈산소수괴는 관리·개선될 필요가 있으며, 이를 위해서는 DO 농도의 모니터링이 우선되어야 한다.

    해양의 DO 농도 재현·예측에는 확정론적 방법과 통계적 방법이 사용되어 왔다(Huck and Farquhar, 1974;Ahn et al., 2001;Xue et al., 2012). 최근에는 데이터 기반의 기계학습 모 형들이 DO 농도 예측 연구에서 활발히 사용되고 있다. 특히 Long Short-Term Memory(LSTM) 모형이 DO 농도 예측 연구 에서 우수한 성능을 보이고 있다(Eze and Ajmal, 2020;Li et al., 2021;Park and Kim, 2021). Park and Kim(2021)의 연구에서 는 LSTM의 Sequence length가 1일 때 높은 DO 농도 예측 정 확도를 보였다. 이는 LSTM 모형이 DO 농도의 시계열 예측 뿐만 아니라 현재 농도의 재현에도 적합할 수 있음을 암시 한다.

    본 연구에서는 LSTM 모형을 사용하여 진해만의 DO 농도 를 재현하는 Case study를 진행하였다. LSTM 모형의 매개변 수별·예측변수별 재현 정확도를 비교하고, 이를 토대로 DO 농도 재현의 최적 모델 조건을 제시하였다. 상기 결과로부 터 LSTM 기반 DO 농도 재현을 위한 기초자료를 구축하고 자 한다.

    2. 재료 및 방법

    2.1 Study area and data pre-processing

    본 연구에서는 국립수산과학원 어장환경모니터링의 진해 만 내 정점 자료를 취득하여 사용하였다(Fig. 1;NIFS, 2021). 자료는 약 12년간(2009.01.~2020.11.) 2개월 간격으로 관측된 자료(n=1803)로 학습 자료 또한 2개월 간격으로 구성하였다. 항목으로는 수심, 투명도, 표·저층 수온, 염분, pH, COD, NH4, NO2, NO3, DIN, TN, DIP, TP, SiO2, SS, Chl.a. DO가 있다. 각 항목의 이상치(Outlier)는 동 시간대에 관측된 인접 정점 자 료의 평균치로 치환하였다. 자료의 약 90 %를 기계학습에 사 용하였으며 나머지 10 %를 모형 검증에 사용하였다. 예측변 수에는 DO 농도를 제외한 16가지 변수의 표·저층 자료가 사 용되었으며 반응변수는 DO 농도이다. 자료는 기계학습을 위 해 평균=0, 표준편차=1이 되도록 표준화(Standardization)하였 다. 표준화 및 이상치 처리 전에 각 항목의 평균, 표준편차, 최대, 최소, 중앙값을 계산하여 Table 1에 제시하였다.

    2.2 LSTM structure

    LSTM은 Recurrent Neuron Network(RNN) 계열의 딥러닝 모 델로 hidden cell 간의 순환구조를 이루고 있다(Rumelhart et al., 1986; Fig. 2). 이 순환구조로 인해 LSTM은 시계열 자료와 같은 sequence data 처리에 적합하다(Tealab, 2018). 그뿐만 아 니라 Park and Kim(2021)의 연구에서는 DO 농도의 단기 예측 에서 Sequence length가 1일 때 높은 정확도를 보인 결과도 있 다. 이에 본 연구에서는 sequence length를 1로 설정하여 DO 농도 재현을 위한 LSTM 모델을 구성하였다. 즉, 본 연구의 LSTM은 one-to-one 구조로 1개의 input과 1개의 output을 갖는 다. 각 gate와 state에 대한 식은 아래와 같다.

    f t = σ ( W x f x t + W h f h t 1 + b f )
    (1)

    i t = σ ( W x i x t + W h i h t 1 + b i )
    (2)

    o t = σ ( W x o x t + W h o h t 1 + b o )
    (3)

    C ˜ t = tanh ( W x C ˜ x t + W h C ¯ h t 1 + b C ¯ )
    (4)

    C t = C t 1 · f t + i i t · C ˜ t
    (5)

    h t = o t · tanh ( C t )
    (6)

    여기서, ft는 forget gate, it는 input gate, ot는 output gate, CtCt는 Cell state, ht는 hidden state, W는 가중치(weight), b는 편 향(bias)이다. LSTM 모형의 학습 매개변수로는 Epoch, Hidden node, Sequence length가 있다. 여기서 Epoch은 학습 자료의 기 계학습 횟수이며, Hidden node는 Hidden node의 개수, Sequence length는 입력자료의 길이를 의미한다. Epoch에 따라 예측 성능 이 감소하는 과소적합(Underfitting) 또는 과대적합(Overfitting) 이 발생할 수 있다. Hidden node의 수가 많을수록, Sequence length가 길수록 복잡한 자료의 예측에 적합하나 많은 Epoch 을 요구한다. 따라서 LSTM 모형을 이용한 연구에는 비용과 성능을 고려하여 적합한 매개변수를 정하는 것이 중요하다.

    2.3 Case study condition

    본 연구에서는 모형의 매개변수와 예측변수의 Case study 를 각각 진행하였다. 입력자료의 형태와 DO 농도 재현이라 는 목적에 따라 매개변수 Case study에서 Sequence length는 1 로 고정하였다. 즉, 매개변수 Case study에서는 Hidden node의 수와 Epoch 횟수에 따른 DO 농도 재현 정확도를 비교하였 다. 이를 통해 DO 농도 재현의 최적 모델 매개변수 조건을 제시하였다. 예측변수 Case study에서는 한가지 환경변수의 표·저층 자료만을 예측변수로 사용하여 정확도를 비교하였 다. 그중 정확도가 가장 높은 예측변수 조건에 1개의 환경변 수를 추가로 사용하여 정확도를 비교하였다. 단계적으로 앞 의 과정을 반복하여 예측변수에 사용되는 환경변수 숫자를 증가시켰다. 실험 결과를 바탕으로 비용적·실용적인 측면에 서 DO 농도 재현에 적합한 예측변수를 선별하였다.

    3. 결과 및 고찰

    3.1 Model parameter case study

    모형의 매개변수인 Hidden node의 수와 Epoch 횟수에 따른 관측값과 재현값의 결정계수 R2 값 결과를 Fig. 3에 나타내 었다. Hidden node의 수는 [10, 20, ..., 100], Epoch 횟수는 [100, 300, 600, 900, 1200]을 고려하였다. 예측변수에는 DO 농도를 제외한 16가지 환경변수의 표·저층 자료를 모두 사용하였다. 표·저층 DO 농도 재현 결과, 두 층에서 모두 가장 적은 Hidden node 수와 Epoch 횟수에서 가장 작은 R2 값을 보였다. Hidden node=10, Epoch=100에서 표층과 저층의 R2값은 각각 0.93, 0.95로 나타났다. 이후 Hidden node와 Epoch의 증가에 따라 R2 값도 증가하였다. Hidden node=100, Epoch=100에서 표층과 저층의 R2는 각각 0.95, 0.96으로 0.02, 0.01 증가하였 으며, Hidden node=10, Epoch=1200에서 표층과 저층의 R2는 각각 0.96, 0.98로 약 0.03, 0.03 증가하였다. Hidden node=10, Epoch=100에서 낮은 정확도를 보인 것은 모형이 과소적합 상태였던 것으로 판단된다. 과소적합이란 모형의 능력 부족 및 기계학습 부족으로 학습 자료를 충분히 설명하지 못하는 상태를 의미한다. Hidden node=80, Epoch=1200에서 표층과 저 층의 R2 값은 모두 0.99로 가장 높은 정확도를 보였다. 이때 의 DO 농도의 관측값과 재현값의 1:1 비교 산점 그래프를 Fig. 3에 나타내었다. 그래프 상에서도 DO 농도의 재현값이 관측값과 잘 일치하는 것을 확인할 수 있었다. 표층과 저층 의 DO 농도 재현의 평균 R2는 각각 0.96, 0.98로 나타났다.

    3.2 Predictor case study

    모형의 예측변수 단계별 R2 값 결과를 Fig. 4에 나타내었 으며, 표·저층 DO 농도와 다른 환경변수들간 상관계수의 절 대값 |R|을 Table 2에 제시하였다. DO 농도와의 상관성이 높은 환경변수는 수온, pH, NH4, DIN, DIP, TP, SiO2로 나타났 다(Table 1). 그중에서도 수온이 가장 높은 상관성을 보였다. 표층 수온과 표·저층 DO 농도와의 |R| 값은 각각 0.56, 0.84 였으며, 저층 수온과 표·저층 DO 농도와의 |R| 값은 각각 0.65, 0.75로 나타났다. 수온 다음으로 DO 농도와 높은 상관 성을 보인 환경변수는 저층 SiO2로 저층 DO 농도와의 |R| 값은 0.70으로 나타났다.

    한가지 환경변수의 표·저층 자료만을 예측변수로 사용한 결과를 Step 1에 나타내었다(Fig. 4). Step 1에서 가장 정확도 가 높은 예측변수 조건에 한가지 환경변수의 표·저층 자료 를 추가로 사용하여 Step 2에 나타내었다. 이 과정을 반복하 여 Step 4까지 진행하였다. Step 1에서 가장 높은 정확도를 보인 환경변수는 표층과 저층 모두 수온으로 나타났다. 수 온을 예측변수로 사용했을 때 표층과 저층의 R2 값은 각각 0.80, 0.81로 나타났다. 이는 수온과 DO 농도간의 높은 상관 성에 기인한 것으로 판단된다. Step 2에서 수온과 함께 예측 변수로 사용했을 때 가장 높은 R2 값을 보인 환경변수는 표 층과 저층에서 각각 COD와 SiO2 농도로 나타났다. 표층 DO 농도 재현에서 [수온, COD]를 예측변수로 사용했을 때 R2 값 은 0.87로 수온만 사용했을 때보다 약 0.07 증가하였다. 특히 저층 DO 농도 재현에서는 기존 Step 1의 0.81보다 SiO2 농도 를 추가로 사용했을 때 R2는 0.92로 0.11이 증가하였다. 이는 SiO2 농도와 저층 DO 농도간의 높은 상관성(|R|=0.70)에 기 인한 것으로 판단된다. 이후 Step 3에서 표층 DO 농도 재현 은 [수온, COD, SiO2]를 예측변수로 사용했을 때 R2=0.90, 저 층의 경우 [수온, SiO2, DIP]를 예측변수로 했을 때 R2=0.94로 가장 높은 정확도를 보였다. Step 4의 경우 표층에서 [수온, COD, SiO2, 염분]을 예측변수로 했을 때 R2=0.93, 저층에서는 [수온, SiO2, DIP, SS]를 예측변수로 했을 때 R2=0.95로 나타났 다. Step 4의 R2 값은 Step 3보다 표층과 저층에서 각각 0.03, 0.01만이 증가하였다.

    4. 결 론

    본 연구에서는 LSTM 모형을 사용하여 진해만의 용존산 소농도를 재현하는 Case study를 진행하였다. 첫 번째 Case study에서는 모형 매개변수인 Hidden node의 수와 Epoch 횟수 에 따른 DO 농도 재현 정확도를 평가하였다. 두 번째 Case study에서는 단계적으로 예측변수에 사용되는 환경변수의 숫자를 증가시키면서 적합한 예측변수를 선별하였다. 모형 매개변수 Case study 결과, 가장 적은 Hidden node와 Epoch인 Hidden node=10, Epoch=100에서 DO 농도 재현 정확도는 가장 낮게 나타났다. 이는 모형이 과소적합 상태인 것으로 판단 된다. 이후 Hidden node와 Epoch이 증가하면서 정확도 또한 증가하였다. Hidden node=80, Epoch=1200에서 R2 값은 0.99로 가장 높은 정확도를 보였다. 예측변수 Case study 결과, 한가 지 환경변수만을 예측변수로 사용한 Step 1에서는 수온을 예 측변수로 했을 때 R2 값은 표·저층 각각 0.80, 0.81로 가장 높 은 정확도를 보였다. Step 2에서는 저층 DO 농도 재현의 예 측변수로 수온과 SiO2를 사용하였다. 이때의 R2 값은 0.92로 수온만 사용했을 때보다 0.11이 증가하였다. 이후 Step 3과 Step 4의 저층 DO 농도 재현에서 R2값은 각각 0.94, 0.95로 Step 2에 비해 0.02, 0.03만이 증가하였다. 비용·실용적인 부 분을 고려했을 때 저층 DO 농도 재현의 예측변수로는 수온 과 SiO2 농도가 적합할 것으로 판단된다.

    상기 결과로부터 진해만의 DO 농도 재현에 적합한 예측 변수를 선별하였으며, 과소적합 방지를 위해 충분한 Epoch 횟수와 Hidden node의 수가 필요한 것을 확인하였다. 단, 과 대적합의 발생 조건을 확인하기 위해 보다 많은 Epoch과 Hidden node를 고려한 향후 연구가 필요할 것으로 사료된다.

    사 사

    이 논문은 2021년도 정부(교육부)의 재원으로 한국연구 재단의 지원을 받아 수행된 기초연구사업임(Grant 2021R1I1A306037411).

    Figure

    KOSOMES-28-2-193_F1.gif

    Observation station in Jinhae Bay.

    KOSOMES-28-2-193_F2.gif

    LSTM structure (Park and Kim, 2021).

    KOSOMES-28-2-193_F3.gif

    R2 values between observed and reproduced DO concentration as parameter (left) and 1:1 scatter plot (right).

    KOSOMES-28-2-193_F4.gif

    R2 values between observed and reproduced DO concentration as predictor (x-axis: α).

    Table

    The mean, standard deviation, min, max, median of features before pre-processing

    |R| values between DO concentration and Features.

    Reference

    1. Ahn, S. , I. Yeon, Y. Han, and J. Lee (2001), Water quality forecasting at Gongju station in Geum River using neural network model, Journal of Korea Water Resources Association, Vol. 34, pp. 701-711 (in Korean).
    2. Breitburg, D. , L. A. Levin, A. Oschlies, M. Grégoire, F. P. Chavez, D. J. Conley, V. Garçon, D. Gilbert, D. Gutiérrez, K. Isensee, G. S. Jacinto, K. E. Limburg, I. Montes, S. W. A. Naqvi, G. C. Pitcher, N. N. Rabalais, M. R. Roman, K. A. Rose, B. A. Seibel, M. Telszewski, M. Yasuhara, and J. Zhang (2018), Declining oxygen in the global ocean and coastal waters, Science, Vol. 359, No. 6371.
    3. Diaz, R. J. and R. Rosenberg (2008), Spreading dead zones and consequences for marine ecosystems, Science, Vol. 321, pp. 926-929.
    4. Eze, E. and T. Ajmal (2020), Dissolved Oxygen Forecasting in Aquaculture: A Hybrid Model Approach, Appl. Sci., Vol. 10, No. 20, 7079.
    5. Huck, P. M. and G. J. Farquhar (1974), Water quality models using the Box-Jenkins method. Journal of the Environmental Engineering, Vol. 100, pp. 733-751.
    6. Keeling, R. F. , A. Körtzinger, and A. Gruber (2010), Ocean deoxygenation in a warming world, Marine Science, Vol. 2, No. 199, pp. 463-93.
    7. Lee, I. C. , H. H. Kong, and S. J. Yoon (2008), Numerical Prediction for Reduction of Oxygen Deficient Water Mass by Ecological Model in Jinhae Bay, Journal of Ocean Engineering and Technology, Vol. 22, No. 5, pp. 75-82 (in Korean).
    8. Levin, L. and D. Breitburg (2015), Linking coasts and seas to address ocean deoxygenation, Nature Clim Change, Vol. 5, pp. 401-403.
    9. Li, W. , H. Wu, N. Zhu, Y. Jiang, J. Tan, and Y. Guo (2021), Prediction of dissolved oxygen in a fishery pond based on gated recurrent unit (GRU), Information Processing in Agriculture, Vol. 8, No. 1, pp. 185-193.
    10. Matear, R. J. and A. C. Hirst (2003), Long-term changes in dissolved oxygen concentrations in the ocean caused by protracted global warming, Global Biogeochem. Cycles, Vol. 17, No. 4, 1125.
    11. NIFS (2021), Monitoring the Fishing Environment, http://www.nifs.go.kr/femo/.
    12. Park, J. and B. Ra (2014), Positive Research About Water Aeration Improvement to Break Thermal Stratification of Dam, Int. J. of Fluid Mach. Syst., Vol. 17, No. 5, pp. 37-42.
    13. Park, S. and K. Kim (2021), Prediction of DO Concentration in Nakdong River Estuary through Case Study Based on Long Short Term Memory Model, Journal of Korean Society of Coastal and Ocean Engineers, Vol. 33, No. 6, pp. 1-8 (in Korean).
    14. Rumelhart, D. , G. Hinton, and R. Williams (1986), Learning representations by back-propagating errors, Nature, Vol. 323, pp. 533-536.
    15. Tealab, A. (2018), Time series forecasting using artificial neural networks methodologies: A systematic review, Future Computing and Informatics Journal, Vol. 3, No. 2, pp. 334-340.
    16. Xue, P. , C. Chen, and R. C. Beardsley (2012), Observing system simulation experiments of dissolved oxygen monitoring in Massachusetts Bay, J. Geophys. Res., Vol. 117.
    17. Zhang, J. , D. Gilbert, A. J. Gooday, L. Levin, S. W. A. Naqvi, J. J. Middelburg, M. Scranton, W. Ekau, A. Peña, B. Dewitte, T. Oguz, P. M. S. Monteiro, E. Urban, N. N. Rabalais, V. Ittekkot, W. M. Kemp, O. Ulloa, R. Elmgren, E. Escobar-Briones, and A. K. Van der Plas (2010), Natural and human-induced hypoxia and consequences for coastal areas: synthesis and future development, Biogeosciences Vol. 7, pp. 1443-1467.