Close

오픈소스 데이터 플랫폼, CKAN

축적된 데이터가 자기 자신보다 자기를 더 잘안다! 누가 무엇을 좋아하고 싫어하는지를 정확히 알아서 도움을 주고, 사람보다 더 스마트한 판단을 하게 해주는 원재료로서 데이터의 가치가 어느 때보다 각광받고 있다.

‘하둡(Hadoop)’으로 대표되는 데이터 분석 플랫폼 기술과 별도로, 공공데이터를 포함한 오픈데이터를 효과적으로 공개・공유하는 데이터 포털 플랫폼으로 CKAN(Comprehensive Knowledge Archive Network)이 떠오르고 있다.  

CKAN은 지난 2010년 영국 정부의 공공데이터 플랫폼으로 채택된 이래 미국·캐나다·호주·스위스 등의 정부 공공데이터 플랫폼으로 채택되면서 데이터 플랫폼 분야의 ‘하둡’으로서의 영향력을 확대하고 있다.

이에 데이터스토어 사무국에서는 CKAN에 대한 소개와 OKI(Open Knowledge International)의 한국 모임(OK Korea) 운영위원 인터뷰를 3회에 걸쳐 소개한다. 그 첫 회로서 질문과 답으로 CKAN에 대해 알아본다.

CKAN은 지난 2010년 영국 정부의 공공데이터 플랫폼으로 채택된 이래 미국·캐나다·호주·스위스 등의 정부 공공데이터 플랫폼으로 채택되면서 세계적인 공공데이터 플랫폼으로 떠오르고 있다. 한국에서는 ‘서울 열린데이터광장’ 등에서 시범적으로 채택되며 미래의 공공데이터 플랫폼으로의 등극을 예고하고 있다. 왜 세계 각국의 정부와 지방자치단체에서 CKAN을 공공데이터 플랫폼으로 채택하고 있을까? 빅데이터의 열풍이 불어오기 전부터 데이터에 대한 가치는 CKAN과 같은 오픈데이터 관리 플랫폼을 등장하게 했다. 이 글은 CKAN에 대한 이해를 돕기 위하여 http://ckan.org의 자료를 토대로 질문과 답으로 CKAN에 대해 정리했다.

CKAN 로고(출처:ckan.org)

CKAN이 무엇인가?

CKAN(Comprehensive Knowledge Archive Network)은 데이터 세트를 보유한 정부나 지방자치단체, 기업 등에서 공익 차원에서 데이터를 원활하게 공개・공유하는 것을 목표로 개발된 오픈소스 데이터 플랫폼이다.

기술적으로는 웹, 데이터베이스, 시각화 등의 오픈소스 소프트웨어로 모듈화된 구조다. 데이터 수집이나 추가 기능이 필요하면 직접 개발해 추가할 수 있으며, 응용 프로그램에서 데이터세트를 접근하기 위한 다양한 API를 지원한다. 오픈데이터(저작권 표시 및 동일 조건 변경허락 하에서 모든 사람이 자유롭게 사용·재사용이 가능하며 재배포할 수 있는 데이터)를 제대로 공유하기 위한 기술이므로 가능하면 OSS(Open Source Software)를 조합하여 쓰거나 그것마저 여의치 않으면 자체 개발해서 쓰는 것이다. CKAN의 개발 주체는 비영리 단체인 OKI(Open Knowledge International) 산하 Open Knowledge Labs이다.

데이터 색인을 위한 메타데이터로 DCAT 표준을 사용하므로 CKAN 플랫폼을 사용하지 않는 개별 리포지터리로부터 자동으로 메타데이터를 확보할 수 있다. 데이터 공개자에게 대시보드 기능이 제공돼 데이터세트 다운로드 수나 댓글 수 등 데이터 이용현황 리포트를 체크할 수 있도록 한다. 데이터세트 공개는 웹 인터페이스를 통해 직접 등록하거나 자체 개발한 데이터 추출 프로그램 등으로 할 수 있다.

등록된 데이터세트는 CKAN 데이터스토어(DataStore)에 자동으로 등록된다. 데이터스토어는 사용자가 등록한 파일로부터 데이터를 추출하여 독자 포맷으로 변환해 저장한다. 사용자가 업로드한 파일을 로컬 파일 시스템에 저장 또는 클라우드 스토리지에 보존하도록 미리 설정해 저장 프로세스를 자동화할 수도 있다.

CKAN의 구조(출처:ckan.org)

CKAN에서 어떤 것을 할 수 있나?

데이터 공급자(publisher)와 사용자로 구분해 [그림 2]와 같은 것을 할 수 있다. 우선 정부와 지자체 등 데이터 공급자는 CKAN에 데이터 퍼블리싱과 커스터마이징, 보관, 관리를 할 수 있다. 사용자 입장에서는 CKAN에서 데이터 탐색과 협업, 확장기능 개발 등이 가능하다.

CKAN의 기능(출처:한국데이터진흥원)

CKAN은 기존 데이터 운영 플랫폼과 어떻게 다른가.

CKAN은 오픈소스 소프트웨어(GNU AGPL(Affero General Public License))이므로 상용 데이터 플랫폼을 사용할 때 발생할 수 있는 공급업체 예속(lock-in)를 피할 수 있고, 필요 시 자유롭게 확장기능(extensions)을 개발할 수 있다. CKAN은 2007년 탄생 이래 지속적으로 그 범위를 확장하고 있으며, 활발하게 개발・운영되고 있다. CKAN을 활용하는 곳이라면 어디나 CKAN 데이터 허브 네트워크의 일원이기도 하다. CKAN을 운영하는 곳은 다른 CKAN 사이트들과 데이터 공유 여부를 선택할 수 있으므로, 데이터에 접근 가능한 예비 고객 또한 그만큼 많은 셈이다.

CKAN에 CMS 또는 기존 데이터 카탈로그를 통합할 수 있나?

가능하다. CKAN은 화이트라벨 소프트웨어이므로 원하는 워드프레스나 드루팔 같은 CMS(Contents Management System)를 붙여서 사용 수 있다. CKAN은 다른 플랫폼과 유연한 연동을 매우 중시하므로 드루팔, 워드프레스 같은 CMS와의 연동을 위한 확장 기능(extension)도 지원한다. CKAN API는 다양한 CMS나 서드파티 카탈로그를 사용하는 곳과 편리한 연동을 지원한다.

CKAN은 얼마인가?

CKAN은 오픈소스이므로 어떤 형태로 이용하더라도 무료다. 옵션으로 유료 기술지원 프로그램을 운영하고 있다. 이때 발생하는 수익은 비영리 단체인 OKI에 돌아가며, CKAN 기능을 개선하는 용도로 쓰인다.

출처 : 한국데이터산업진흥원


Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

© 2019 NORICOMPANY