디지털 인문학에서 사용되는 중요 ICT 기술과 적용사례를 소개해본다. 해당 기술은 디지털 인문학에서 현재 가장 활발하게 사용되고 있는 기술일 뿐이며, 어떠한 ICT 기술도 디지털 인문학에서 활용될 가능성이 있다. 


XML 

XML(Extensible Markup Language)은 W3C에서 다른 특수 목적의 마크업 언어를 만드는 용도에서 권장되는 문서를 사람과 기계 모두가 읽을 수 있는 형식으로 부호화하는 규칙의 집합을 정의한 다목적 마크업 언어이다. XML은 텍스트 데이터 형식으로 유니코드를 통한 전 세계 언어를 지원할 뿐만이 아니라, 임의 자료구조에도 대응할 수 있도록 설계되어 있다. 이는 인문-사회학에서 진행되는 대부분의 연구가 다양한 언어와 형식의 자료를  바탕으로 진행되는 현실과 부합하기에 인문학 연구의 기초적인 데이터베이스 구축에 가장 적합한 ICT 기술로 생각되고 있다. 



[XML예시] 


해외의 디지털 인문학 연구에서 XML은 기본 언어로 다루어지고 있다. 다만 언어학 영역에서는 XML과 같이 SGML에서 파생된 TEI(Text Encoding Initiative)을 바탕으로 한 코퍼스 연구가 진행되고 있다. XML이나 TEI 모두 같은 SGML에서 파생되었기에 상호간의 호환이 가능하다. 


한국에서는 1995년 서울시스템주식회사(현 (주)솔트웍스)에서 CD-ROM <국역 조선왕조실록>과 <디지털 한국민족문화대백과사전>에 XML을 도입하기 시작한 이후로 한국고전종합DB을 비롯한 다양한 인문학 프로젝트에서 채용되고 있다. 그러나 한국 인문학 프로젝트의 ICT 기술편차로 인하여 다양한 인문학 프로젝트에서 XML 기술을 활용하지 못하고, 단순한 Text 데이터만을 제출하였다. 그 결과 재활용이 가능한 인문학 데이터베이스가 축적되지 못하였다. 




말뭉치(코퍼스, corpus)

말뭉치는 디지털 인문학의 주요 근원이 된 말뭉치 언어학(코퍼스 언어학)의 기초 기술이다. 말뭉치는 언어학에서 크고 구조를 이루고 있는 텍스트의 집합을 의미한다.  국제적으로 통용되는 말뭉치 언어는 SGML 기술의 일종인 TEI이다. 연구자들은 말뭉치를 통해서  빈도 정보를 획득한 이후에 연어 연구, 변이 연구, 비교 언어학 연구, 언어 교육, 사전 편찬등의 영역에서 신빙성 있는 증거자료로서 활용하고 있다.  


해외에서는 1963년 브라운 말뭉치 구축을 기점으로 1억 어절의 말뭉치를 구축한 BNC(British National Corpus)와 유럽 다국어 말뭉치(European Corpus Initiative Multilingual Corpus) 및 4억 어절을 구축한 COCA(Corpus of Contemporary American English) 등이 지속적으로 구축되고 있다. 코퍼스는 다양하게 활용되고 있지만, 언어학 내부의 활용이 아닌 인문학 전체에 대한 활용으로는 타이완역사 디지털도서관(台灣歷史數位圖書館, THDL)이 있다. 타이완역사 디지털 도서관에서는 1621년부터 1911년 사이의 250종류의 자료소스를 바탕으로 언어학의 분석 이론을 통하여 타이완의 근현대 사회상을 규명하고 있다. 예를 들어서 언어학의 접사분석모델을 이용하여 “主義”의 전방접사의 시대별 빈도를 추출해주고 있다. 특히 개념사 영역의 역사 연구자들은 특정 단어의 전방접사 빈도를 통하여 당시의 시대상과 용어의 변천에 대해서 규명하고 있다. 



[타이완역사 디지털도서관 - 主義 검색결과]


한국에서는 1987년 연세대학교의 연세 한국어 말뭉치가 구축된 이후에 1998년부터 “21세기 세종 계획 : 국어정보화 추진 중장기 사업”의 일환으로 국가차원에서 말뭉치가 구축되고 있다.  또한 서울대학교 꼬꼬마 프로젝트나 연세대의 깜짝새 프로그램 등 다양한 한글 자료 처리 프로그램들의 구축되어서 연구자들의 연구를 도와주고 있다. 그러나 한국의 말뭉치는 아직 언어학 내부의 방법론으로서만 활용되고 있으며, 다른 인문학 연구 영역에서는 활용도가 떨어진다고 할 수 있다. 




지리 정보 시스템(GIS, Geographic information system)

지리 정보 시스템은 지리공간적으로 참조가능한 모든 형태의 정보를 효과적으로 수집, 저장, 갱신, 조정, 분석, 표현 할 수 있도록 설계된 컴퓨터의 하드웨어와 소프트웨어 및 지리적 자료, 인적 자원의 통합체이다. 지리 정보 시스템은 1960년대부터 토지이용, 기상관측, 동식물연구 등의 다양한 영역에서 활용되어 왔다. 현재는 컴퓨터 기술의 발달과 더불어 구글 지도, 다음 지도, 네이버 지도와 같이 일반대중에게도 널리 활용되고 있다. 그러나 인문학 영역에서는 기술에 대한 능력 부족으로 시각화 영역에 한정되어서 사용되고 있으며, 지리 정보 시스템을 활용한 자료의 수집과 분석의 영역은 실험적인 단계이다. 


중국역사GIS(China Historical GIS, CHGIS, 中国历史地理信息系统)는 2001년부터 하버드 엔칭연구소와 복단대 역사지리연구소가 연합하여 하상주부터 민국시대까지 중국역사에 등장하는 모든 지명을 좌표점과 좌표면으로 시간축상에 표기하는 역사지리토대DB 구축 프로젝트이다. 중국의 고지명과 해당 고지명의 시간과 공간을 명시함으로써 인문학 연구에서의 지리적 토대를 마련했다. 



[China Historical GIS]


한국에서도 중국역사GIS와 유사한 개념으로 고려대학교 민족문화연구소가 중심이 되어서 조선시대 전자문화지도 시스템을 구축하였다. 조선시대 문화를 대상으로 하여 전자문화지도를 개발하고, 전자문화지도 개념을 응용하여 조선시대를 문화를 연구한다. 2년간 조선시대 문화를 주제별로 분류하고, 조선시대의 군현별 행정 구역을 초ㆍ중ㆍ후기로 나누어 복원하였으며 총 25개 주제에 대한 데이터베이스를 구축하였다. 그리고 그 연장선에서 현재 동북아역사재단의 주관으로 동북아시아 전자역사지도 개발을 진행중에 있다. 그러나 조선시대 전자문화지도 시스템은 유지보수가 이루어지지 않고, 데이터도 비공개로 되어 있어서 한계를 보이고 있으며, 동북아시아 역사지도는 아직 개발 단계에 있다. 


문화재청에서 주관한 문화재공간정보서비스는 문화재정보와 지도정보가 결합한 공간정보 활용체계이다. 문화재 위치정보, 속성정보에 대한 공간데이타베이스와 활용시스템을 구축하여 문화재 보존관리를 위한 의사결정을 지원하고, 위치정보를 기반으로 문화유산 콘텐츠 활용이 가능하도록 구축된 정보시스템이다. 문화재의 사진 및 도면, 영상, 설명등의 속성정보가 위성기반의 위치정보와 함께 결합되어 HGIS 지도 서비스 제공하고 있어서 연구적 가치 뿐만이 아니라 실용적 경제 가치도 뛰어나다.



[문화재공간정보서비스]




LOD(Linked open data, 링크드 데이터)

링크드 데이터는 웹 상에 존재하는 데이터를 개별 URI(Uniform Resource Identifier)로 식별하고, 각 URI에 링크 정보를 부여함으로써 상호 연결된 웹을 지향하는 모형이다. 디지털 인문학에서는 현재 산발적으로 진행되는 디지털 인문학 성과들을 통합하기 위한 방법으로서 각광 받고 있다. 



[LOD 다이어그램]


유로피아나(Europeana)는 유럽 연합의 전자 도서관 프로젝트이다. 선사시대부터 현대까지 유럽의 문화와 과학 유산을 종합하여 모든 사람들이 접근 가능한 데이터베이스를 만든다는 목적으로 유럽 문화에 관한 디지털화된 서적, 회화, 영화, 음악, 유물 등 모든 형태의 콘텐츠를 서비스하고 있다. 콘텐츠는 단순한 데이터모음이 아닌 EDM(the Europeana Data Model)으로 불리는 표준방식을 이용하여 대영박물관, 루브르 박물관 등 2000여 소의 관련 기관들에서 제공하는 정보를 통합데이터로 만들어 제공하고 있다. 



[유로피아나]


한국에서는 국사편찬위원회의 한국역사정보통합시스템을 통해서 한국고전번역원, 한국금석문 종합영상정보시스템, 조선왕조실록, 규장각 한국학연구원 등의 연계싸이트들로부터 데이터를 통합하여 한국 역사자료를 체계적이고 종합적으로 제공하고 있다. 연구자들은 개별 싸이트에 방문할 필요 없이 한국역사정보통합시스템을 통해서 통합적인 한국역사정보를 제공 받을 수 있다. 




[한국역사정보통합시스템]




사회 연결망(Social Network)

사회 연결망은 사회학에서 개인, 집단, 사회의 관계를 네트워크로 파악하는 개념이다. 즉 개인 또는 집단이 네트워크의 노드(node)이며, 개인과 집단 간의 연결 관계는 링크(link)로 표현한다. 연구자는 네트워크에서 노드와 링크의 관계를 파악하고, 그 의미를 연구하여 사회의 구조를 파악하는데 활용하고 있다. 


해외에서는 CBDB(China Biographical Database Project, 中國歷代人物傳記資料庫)가 대표적인 인문학적 사회 연결망 프로젝트라고 할 수 있다. CBDB는 중국역대인물들의 정보를 검색하고 활용할 수 있도록 하버드 옌칭연구소가 시스템을 지원하고, 중국 북경대학교에서 데이터베이스를 마련한 데이터베이스이다. 본 데이터 베이스는 인물의 생몰년뿐만이 아니라 지역, 관직, 저작 및 인물관계를 제공하고 있으며, 중국 역대 인물들의 모든 데이터 베이스를 제공하는데 목적을 두고 있다.  



[China Biographical Database Project(中國歷代人物傳記資料庫)]


한국에서는 성균관대의 한국족보자료시스템에서 족보에 수록된 혈연관계를 바탕으로 관계망을 구축하고 있다. 그러나 족보 정보에 한정되어 있으며 타 가문과의 연계정보도 극히 제한적으로만 제공하고 있기에 실험적인 단계에 멈추고 있다. 현재 성균관대 동아시아학술원은 고대 동아시아의 간찰(편지) 정보를 바탕으로 동아시아 교류 네트워크를 구성하는 사업을 추진중에 있다. 



[한국족보자료시스템]


http://data.riss.kr


한국교육학술정보원, ‘공공정보 개방을 위한 데이터 공개 시범사이트’ 오픈
  • - 국내 최초의 링크데이터 서비스 
    - 정부3.0구현을 위한 데이터공개 기술 주목 
    - 공공데이터의 개방뿐만 아니라 데이터 활용방향까지 제시하는 서비스
서울--(뉴스와이어) 2014년 03월 18일 -- 학술연구분야 정보서비스 및 전자도서관솔루션 전문업체 ㈜퓨쳐누리(대표이사 추정호)는 ㈜프로토마(시맨틱웹 및 링크드데이터 구축전문 업체)와 함께 작년 12월 한국교육학술정보원(KERIS)이 서비스 중인 학술연구정보서비스(RISS)의 단행본과 해외학술지 정보에 대하여 링크드데이터 발행시스템을 구축하고 시범서비스(http://data.riss.kr)를 개시했다고 밝혔다. 

이번 서비스는 공공정보를 적극 개방,공유하고 부처간 칸막이를 없애 창조경제를 지원하려는 새로운 정보운영 패러다임인 ‘정부3.0’ 구현을 위한 데이터공개 기술로 주목받고 있다. 

서비스의 핵심기술인 링크드데이터(Linked Data)는 웹상에 존재하는 데이터를 구조화하여 웹을 통하여 개방하고, 유통하여 연계, 융합할 수 있게 함으로써 데이터의 재활용성을 크게 높일 수 있는 기술로, 한국교육학술정보원의 링크드데이터 시범서비스는 기관이 보유한 공공데이터의 개방뿐만 아니라 발행된 링크드데이터를 어떻게 효율적으로 활용할 수 있는지에 대한 방향성 제시를 위해 활용서비스를 함께 만들어 서비스하고 있는 점이 특징이다. 

RISS 링크드데이터 활용서비스는 외부의 링크드데이터인 DBpedia, Flickr, OCLC WorldCat(세계도서관 카탈로그), LCSH(미의회도서관 주제명표목), BNB(영국 국가서지)의 데이터를 연결하여 내부 콘텐츠로 활용, 새로운 서비스를 구현한 국내 최초의 사이트이다. 

한국교육학술정보원은 올 실험사업의 결과를 바탕으로 내년에는 학술논문, 학위논문 등 다양한 교육학술DB로 링크드데이터 발행범위를 더욱 확대해 나갈 계획이다. 

또한 ㈜퓨쳐누리는 지난 10월 고객들을 대상으로 자사 전자도서관 패키지시스템에 LOD를 기반으로 한 Mash-up 서비스를 시범 구축하여 선보인 바 있으며, 우즈베키스탄의 2개 대학에도 자사 전자도서관시스템을 성공적으로 구축하는 등 국내뿐만 아니라 해외에도 영역을 넓히고 있다. 
-------------------
바로 : 저도 방금 획득한 정보이기에 세부 분석은 못하였습니다. 다만 국제표준인 BIBO을 기본으로 하여서 한국적인 부분은 KERIS을 추가한 것으로 보입니다. 일단 박수를 보냅니다!!!! 당신들 최고야!!!! 솔직히 아직 데이터 조작까지 해보지는 못했지만, 설계에 오픈데이터를 사용했다는 것! 시도를 했다는 것! 그것 자체만으로도...사...사랑합니다. *^^*
다만 대충 봐도 너무 눈에 띄어서 그러는데....자체적으로 만든 KERIS가 크게 작용한 부분이 "도서관"이나 "대학"이름에 대한 내용인데...이걸 굳이 KERIS로 따로 만들 필요가 있었나라는 생각이 듭니다. 그냥 같은 "기관"요소 내에서 해결해도 될 듯 한데 말이죠. 또한 "작가" 부분도 이미 BIBO 혹은 다른 수 많은 표준 메타데이터 언어에 있는 것을 그대로 써도 될 텐데....기왕이면 기존의 것을 많이 이용할 수록 좋은 링크드데이터 계열에서 그다지 찬성하고 싶지 않은 방법이다.
머..이런건 기술적인 문제고......어찌되었든 이것으로서 학문연구성과 분야에서는 한국교육학술정보원이 한국에서 표준기관으로서 확고한 자리를 얻게 되었다. 이제 학술정보의 표준데이터는 한국교육학술정보원의 것이 된다. 선점 효과로 인하여 다른 기관이 이 분야를 노리기는...심히 힘들어질 것이다. 
보다 세부적인 것은 실데이터 조작까지 해보고...언젠가 상세한 리뷰...뿅!


정부 3.0을 비롯한 오픈데이터 정책에 따라서 현재 다양한 데이터들이 공개되고 있다. 그런데 어떤 형식과 기술이 제공자와 사용자를 만족시킬 수 있는 방법일까? 간략하게 생각해보도록 하겠다. 


* 지속적으로 업데이트 처리하고 있습니다. 관련 사항에 대한 의견 부탁드려요^^



1. 원데이터 제공(RAW DATA) 

공급자가 데이터가 최초에 생산된 형태(XML, HWP, 엑셀 등)로 사용자에게 콘텐츠를 제공하는 것을 의미한다. 공급자는 별다른 투자 없이 직접적으로 사용자에게 데이터를 제공할 수 있고, 사용자는 원데이터에 직접적으로 접근하여 활용할 수 있는 장점이 있다. 그러나 원데이터의 양이 방대할 경우 사용자가 원하는 데이터를 찾아내기 어렵고, 사용자에게 데이터활용 능력이 부족할 경우 데이터를 활용한 재창조가 제한적이다. 또한 원데이터에 개인정보가 존재할 경우 개인정보보호에 대한 문제가 발생할 여지가 있다. 


원데이터 제공 방식은 전체 데이터의 제공방식으로는 부적합하다. 다만 전체 데이터의 일부분에 대한 검색서비스를 제공하는 조건 하에서 사용자에게 부가적인 서비스로서 원데이터 제공이 의미를 가진다고 할 수 있다. 


다만 원데이터는 차후 활용성을 생각하면 XML 방식의 데이터 형식을 사용 할 것을 권장한다. 




2. RDB 직접 접속

공급자가 원데이터를 이용하여 구축한 RDB에 사용자가 직접적으로 접속할 수 있게 하는 방식이다. 공급자는 별다른 투자 없이 직접적으로 사용자에게 데이터를 제공할 수 있고, 사용자는 정제된 데이터베이스를 쉽게 활용할 수 있다. 그러나 사용자에게 RDB에 대한 직접적인 접속을 제공함으로서 DDOS 공격 등의 보안상의 문제가 발생할 가능성이 매우 높다. 또한 원데이터에 개인정보가 존재할 경우 개인정보보호에 대한 문제가 발생할 여지가 있다. 


RDB 직접 접속은 특히 보안상의 문제로 인하여 일반적인 서비스로 제공할 수 없다. 다만 상호간의 신뢰관계가 구축된 기관 및 개인 간의 "상호데이터제공협정"을 통해서 RDB 직접접속 방식의 데이터 제공방식을 사용할 수 있다. 




3. 공개 API(Open Application Programmer Interface, Open API, 오픈 API)

공개 API(Open Application Programmer Interface, Open API, 오픈 API)는 누구나 사용할 수 있도록 공개된 API를 말한다. 웹 2.0의 핵심 기술의 하나로서 공급자가 특정 콘텐츠나 기술을 누구나 사용할 수 있도록 하는 기술을 의미한다. 대표적인 예로는 구글맵이 있으며, 전세계의 사용자들이 구글맵을 이용하여 다양한 콘텐츠와 "매쉬업"하여 새로운 서비스를 창조하고 있다. 공개 API는 공급자에게는 사용자에게 제공하는 콘텐츠의 내용을 제어할 수 있으며, 사용자는 정제된 데이터를 간단한 방식으로 제공받음으로서 다양한 활용을 시도할 수 있다. 


공개 API는 현재 실무에서 가장 합당한 데이터 제공방식이다. 공급자는 보안 문제 없이 자신이 원하는 범위에서 콘텐츠를 공유할 수 있고, 사용자는 간단한 방식으로 데이터를 제공 받아서 활용할 수 있다. 


관련 추가항목 : 

공개 API http://en.wikipedia.org/wiki/Open_API

매쉬업 http://en.wikipedia.org/wiki/Mashup_(web_application_hybrid)

JSON  http://en.wikipedia.org/wiki/JSON

REST http://en.wikipedia.org/wiki/Representational_state_transfer

OAuth http://en.wikipedia.org/wiki/OAuth




4. 링크드 데이터(linked data)

링크드 데이터(linked data)는 웹 상에 존재하는 데이터를 개별 URI(Uniform Resource Identifier)로 식별하고, 각 URI에 링크 정보를 부여함으로써 상호 연결된 웹을 지향하는 모형이다. 단일 사용자가 제공하는 데이터 뿐만이 아니라, 해당 데이터와 연계된 모든 관련 데이터를 사용자가 획득할 수 있기에 가장 이상적인 데이터 공유 방식이라고 할 수 있다. 그러나 링크드 데이터을 위해서는 공급자"들"이 현존하는 모든 원데이터를 특정 표준형식에 맞추어서 상호간 연결을 할 수 있도록 기존의 데이터에 대한 재처리가 필요하다.


가장 이상적인 데이터 공유방식이라고 할 수 있다. 그러나 기본적으로 기존 데이터에 대한 재처리 작업의 필요성이나 전세계적 표준형식의 부재 등으로 인하여 실무에서의 활용은 아직 제한적이라고 할 수 있다. 다만 미래를 대비하여 지금부터 만들어지는 원데이터에 대해서는 더블린코어나 유로피아나와 같은 비교적 활성화된 표준방식을 응용하는 것을 추천한다.



관련 추가항목 : 


+ Recent posts