AI 기반 지하수 오염 예측 및 고위험 지역 분석
김현우, 한국전자기술연구원
과제 목표
- 추진배경: 30년간 축적된 방대한 지하수 데이터는 '사후 관리'가 아닌 '선제적 예방'이라는 새로운 패러다임을 요구합니다. 눈에 보이지 않는 오염 리스크를 과학적으로 예측하는 기술이 시급합니다.
- 필요성: 기존의 전국 단위 평균 분석은 실제 오염 지역의 심각성을 희석시키는 한계가 있습니다. 오염이 집중된 '고위험 지역'을 특정하고, 해당 지역의 오염 메커니즘을 심층적으로 분석할 필요가 있습니다.
- 목표: AI 예측 모델을 통해 TCE 오염 '고위험 지역'을 식별하고, 해당 지역의 미래 오염도를 예측하여 과학적 근거에 기반한 지하수 관리 정책 수립을 지원하는 것을 최종 목표로 합니다.
주요 내용 (분석 방법)
- 핵심 내용: '전국 평균'의 함정에서 벗어나 **'고위험 지역(TCE 농도 상위 5%)'** 데이터를 집중 분석하여, 오염 발생의 근본 원인을 추적하고 미래를 예측하는 AI 모델을 구축했습니다.
- 분석 기법:
- 전처리: 복합 키(위치정보) 기준 병합, 지능형 결측치 처리(시계열 보간)
- Feature Engineering: 과거 데이터(Lag), 이동 평균(MA) 등 파생 변수 생성
- AI 모델링: XGBoost 회귀 모델을 활용하여 미래 TCE 농도 예측
- 결과: 아래 그래프와 같이, '과거 TCE 농도'와 '월'이 미래 오염 예측에 가장 중요한 변수임을 입증했습니다. 이는 오염의 지속성과 계절적 요인의 중요성을 시사합니다.
활용 데이터
- 데이터명: 전국 지하수 기초조사 30년 원시자료
- 출처: 국가지하수정보센터(GIMS)
- 설명: 전국 관측정의 제원, 위치 정보 및 30년간 주기적으로 측정한 수위, 수온, 수질(TCE, pH, EC 등 수십 종) 데이터를 포함하는 방대한 시계열 자료입니다.
- 수집방안: Kaggle 플랫폼을 통해 데이터를 로딩하고, Python(Pandas, GeoPandas)을 활용하여 전체 분석 파이프라인을 구축했습니다. 모든 분석 과정은 재현 가능합니다.
기대효과 및 활용방안
- 파급효과:
- 경제적: 오염 취약지역에 대한 선제적 관리를 통해 막대한 정화 비용을 절감합니다.
- 사회적: 오염 확산 경로상에 위치한 취수원의 위험을 사전에 경고하여 국민의 먹는 물 안전을 확보합니다.
- 활용방안:
- 단기: 본 분석 결과를 바탕으로 **'차기 지하수 오염 집중관리구역'**을 과학적으로 선정하는 데 활용할 것을 제안합니다.
- 장기: 개발된 모델을 GIMS 시스템에 탑재하여, 전국 지자체 담당자가 실시간으로 활용하는 **'국가 지하수 오염 조기경보 플랫폼'**으로 고도화할 수 있습니다.