3월이라 국민건강보험공단 채용도 있고, 건보공단이 자주 눈에 띈다.

통계직 채용은 항상 느끼는 거지만 필요하다고 난리면서 매우 적은 인원을 뽑는다.

 

이전 정부 3.0 공공빅데이터 컨퍼런스와 의료산업 빅데이터 포럼에 참석하였는데,

국민건강보험공단의 빅데이터 활용을 통한 공익 서비스에 대해서 한번 쉽게 알아보자.

 

정부 3.0과 통계의 역할에서 정부는 국가 이하 공공기관이 가지고 있는 빅데이터(bigdata)를 활용에 대해 중점을 두고 있다. 그러므로 공공기관은 각자 기관마다 보유하고 있는 빅데이터를 어떻게 활용할 것인지에 대해 정부 시책에 부응하고자 빠르게 움직이고 있다.

 

 

 

 

정부3.0과 통계의 역할 컨퍼런스 참조

http://sasbigdata.com/36

 

의료보건업계가 치료중심에서 예방건강관리 중심의 서비스로 변화하면서 질병 발생 가능 예측 서비스가 떠오르면서

국민건강보험공단이 빅데이터를 활용해 국민건강 주의 예보 서비스를 제공한다는 것이다.

 

[국민건강보험 질병정보 서비스 프로세스]

 

 

 

국민건강보험공단은 소셜네트워크 분석 업체인 다음소프트와 충북대학교 산학협력을 하여 빅데이터 활용 사업을 추진하였다. 공공 빅데이터를 활용하여 다양한 질병예방을 위한 정보를 제공함으로써 국민건강증진과 사회적 손실을 줄이는 것을 목표로 미래창조과학부 주관 공공.민간 빅데이터 시범 사업에 참여했던 것이다.

 

공단은 축적된 데이터를 활용 및 분석하여 질병 후보를 추출한뒤, 전문가 자문 및 SNS정보 등을 이용해 최종 질병을 정한다. 최종 선택된 질병들에 대한 질병별 원인과 증상, 시기 등을 분류 체계를 구성하고 비정형 데이터인 SNS의 어휘들을 그룹화 하여 분석을 한다. 공단의 축적된 데이터와 실시간으로 방대하게 생성되는 SNS데이터들을 실시간으로 분석하여 질병 위험에 대해 빠르게 대처하고 예방한다는 것이다.

 

국민건강보험공단은 4월부터 서비스를 상용화하고 질병범위도 확대하며, 데이터 수집 범위도 다양화 시킨다고 한다.

메머드급 규모의 공단은 전국의 지사와 출장소를 활용해 추후에는 개인별 건강상태에 대한 맞춤형 건강서비스를 모바일로 제공할 계획이라고 한다.

 

[건강주의예보 기존에 있지 않았나?]

 

 

많은 국민들이 알고 있듯이 질병관리본부에서도 건강 주의 예보를 하고 있다.

전국에 있는 수십개의 병원의 데이터를 분석하여 전염병 확인 후 발표를 하기 때문에 신뢰도는 높다고 볼 수 있지만 많은 시간이 걸리는 것이 문제이다.

 

 

[믿을만 한가?]

 

 

 

공공기관이 가지고 있는 데이터 특성상 실제 진료 기록 데이터를 분석하는 것이기 때문에 신뢰도가 매우 높다고 할 수 있다. 쉽게 설명하면 공단의 정형 데이터는 국민이 병원을 가서 진료를 받은 기록이니 가장 정확한 데이터인 것이다.

 

하지만 SNS 비정형 데이터는 신뢰도가 높다고 할 수 있을까?

많은 사람들이 SNS를 하면 알게 되듯이 트위터(twitter), 페이스북(Facebook), 인스타그램(instagr) 등 다양한 SNS들이 있는데 SNS의 비정형 데이터의 특성상 신뢰도가 매우 떨어진다. 한마디로 비정형 데이터의 원데이터 자체가 신뢰도가 약하다는 말이다. SNS사용자들의 대부분 즉흥적이고, 기분에 따라 쉽게 글들을 쓰기 때문에 정확한 데이터라고 판단하기 어렵다. 통계에서는 신뢰도가 없는 데이터를 사용하면 결과는 무용지물이다라고 한다. 극단적으로 표현하자면 쓰레기로 분석을 하면 쓰레기 결과가 나온다는 말이다.

 

기존의 국가 소지 정형 데이터로 예측 분석을 실시하면 매년 뻔한 일관성을 보인다. 그렇기 때문에 여기에 비정형 데이터를 이용하면 좀더 나은 예측이 가능하지 않을까라는 것을 시작으로 정형 데이터와 비정형 데이터의 결합 시너지 효과를 기대하는 것이다. 이런 시너지 효과를 발휘하기 위해서는 비정형 데이터를 추출할 때 신뢰도 높은 데이터를 추출하기 위해 많은 연구가 필요 할 것으로 생각한다.

 

 

 

 

보건의료 자료원 중 표본이 아닌 전국단위의 데이터를 가지고 있는 건강보험심사평가원도 심평원의 다양하고 방대한 빅데이터 기반 서비스 및 정보 제공을 통해 보건의료산업 발전에 기여하고자 많은 연구 및 사업을 진행하고 있다.

건강보험 청구자료는 수집대상이 전국민 대상이며 수집시기 또한 매일 수시로 데이터가 발생하므로 개인정보 뿐만 아닌 의료이용 정보를 시간에 흐름에 따라 확인 할 수 있으므로 엄청난 빅데이터를 소유하고 있는 기관이라고 할 수 있다.

 

특히 심평원에서는 분류체계개발을 위한 연구도 진행하고 있는데 분류체계가 1~2년만에 수립할 수 있는 것이 아니다. 수학적, 통계적으로만 접근하는 것이 아니라 실제 임상적인 부분과 통계적인 부분이 적절하게 조화가 이루어지고 전문가와의 수많은 자문과 회의를 하여 조정을 해야 된다. 분류체계를 수립하는데 이뿐만이 아닌 많은 변수 요인들이 있기 때문에 매우 중요한 작업이자 많은 시간과 노력, 전문가들이 필요하다. 그렇게 하나하나 조금씩 맞추어 나가며 개정, 발전해 나가는 것이 분류체계개발과 관리인 것이다.

 

 

 

 

국민건강보험공단의 질병 예방 서비스 구축 과정에서 질병별 분류체계 수립 과정과 그에 적합한 어휘들인 비정형 데이터를 정형화 시켜 그룹화하는 작업에 더 신중을 귀해야 할 것이다. 그리고 그 전에 SNS데이터 추출에서도 신뢰성 있는 데이터를 수집하는 과정이 더 중요하다고 생각이 된다.

 

빅데이터라는 단어가 핫이슈가 되며, 공공데이터 개방 등으로 많은 이야기들이 생겨나고 있다.

정부 시책에 부응하고자 국민 중심 서비스 정부 3.0을 구현하고, 국민의 알 권리 요구 증가로 공공자원의 개방 및 활용 정책을 요구하며, 새로운 부가가치 창출 기업 출현으로 빅데이터 기반의 의료산업 지원이 필요하다고 한다.

 

기관 간의 경쟁으로 좀 더 빨리 성과 및 결과를 내고자 하지 않고, 서로 정보 제공 교류도 하고, 연구 공유도 하여

공공데이터를 제대로 활용해 국민에게 좀 더 나은 질 좋은 서비스를 제공하였으면 한다.

 

sasbigdata.com 김진휘