바로 : 의료의 영역에서는 수 많은 빅데이터 처리 문제가 의료의 효율성과 직결되고 있다. 그렇기에 다양한 의료 데이터에 대한 분석방법론이 제기되고 있다. 다만 현재 의료 데이터의 문제는 분석방법보다는 데이터 허깅이라고 불리는 데이터를 서로 공유하지 않는 현실상황이다. 머...이것도 인문학 데이터에 비하면 양호하긴 하다.




Mirador는 복합데이터(빅데이터)을 시각적으로 간단하게 분석을 할 수 있는 툴이다. 데이터 간의 최종 해석이야 인간이 할 수 밖에 없지만, 유의미하다고 판단할 수 있는 수 많은 연관 패턴을 제시함으로써 인간의 해석을 도와줄 수 있는 툴이다. 



Mirador 홈페이지 : http://fathom.info/mirador/


Mirador 소개 : http://codeanticode.wordpress.com/2014/06/18/finding-correlations/




미래창조과학부와 한국정보화진흥원은 국내 빅데이터 서비스 도입과 보급을 위한 "빅데이터 업무절차 및 기술 활용 매뉴얼 1.0"을 발표하였다. "빅데이터 업무절차 및 기술 활용 매뉴얼 1.0"은 데이터 수집, 관리 및 분석·활용 분야별 실무경험이 있는 산·학·연 20여명의 전문가(반장 : 강원대학교 김화종교수)로 실무반을 구성(‘13.9∼’14.2)하여  빅데이터를 수집하고 저장·관리, 분석, 이용하는데 필요한 단계별 업무절차와 필요한 기술들, 기술 도입·활용 시 중점 체크해야 할 기능 고려사항 등 빅데이터 실무자를 위한 정보와 관련 노하우를 담았다.



실무자를_위한_빅데이터_업무절차_및_기술활용_매뉴얼_1.0.pdf




바로 : 아는 사람들은 이미 다 아는 쉬운 내용이다. 하지만 입문자들에게 매우 유용하게 작성되었다. 빅데이터에 관심을 가지고, 활용을 모색하고 있다면 천천히 본 매뉴얼을 읽어보는 것만으로도 최소한의 기본을 가질 수 있다고 생각된다.




블로그에 자유롭게 쓴 글인데 생각보다 논문에 인용이 되서 당황스러운 심정이다. 개인적으로 블로그글도 학술적으로 사용할 수 있다고 생각하지만, 실제 학계의 분위기를 모르는 것도 아니다. 이에 만약 본 글을 인용하시려거든 다음과 같이 인용하시면 될 것으로 보인다.(내용이 100% 일치하지는 않지만, 기본 개념은 동일하다)


김바로, 『시맨틱 데이터 아카이브의 구축과 활용』, 파주:보고사, 2018.12.10, pp.17~20


김바로, 『시맨틱 데이터 아카이브의 구축과 활용 - 제도와 인사의 관계에 대한 근대(1895~1910) 학교 자료를 중심으로』, 파주:보고사, 2018.12.10, pp.17~20


알라딘 링크


디지털인문학이 요즘 인문학계의 화두로 떠오르고 있다. 그러나 디지털인문학에 대한 정의조차 제대로 모르면서 "디지털인문학"을 악용하려는 사람들도 급증하고 있다[각주:1].  디지털인문학 관련 내용을 올리는 블로거로서 최소한의 정의는 소개해야된다는 쓸데 없는 의무감이 생겨버렸다. 




1. 디지털인문학이란 무엇인가?







디지털인문학은 인문학과 정보기술(ICT: Information and Communication Technologies)이 합쳐진 융합학문이다. 전통적인 인문학의 연구과정에 정보기술의 설계, 구축, 분석, 해석 및 시각화의 과정이 융합되어 탄생된 인문학의 새로운 방법론이며, 학문분과이다. 



2. 디지털인문학의 설계와 구축


우선 전통적인 인문학에서의 수집을 생각해보자. 우리는 역사 연구를 위해서 해당 시대의 사료를 수집하여 정리하였다. 고고학 연구를 위해서 직접 발굴을 해서 연구자료를 획득하고 정리했다. 물론 1차적인 자료 뿐만을 수집하고 정리한 것이 아니다. 해당 분야에서 과거의 연구 성과를 모아서 연구사 혹은 선행연구를 정리한다. 


1) 1차 자료 정리

2) 연구사(선행연구) 자료 정리


그런데 현재 인문학계는 과거에 비해서 거대해졌다. 과거에는 사서삼경과 관련 도서 몇 백권이 유일한 1차 자료였고, 연구사 자료였다. 그러나 현재는 조선전기 정치사를 전공했다면, 같은 조선전기시대임에도 불구하고 민속사 영역으로 가면 연구사조차 제대로 파악하지 못하는 경우가 비일비재하다. 역사학계 자체 내에서 이런 상황이니 다른 학문(정치학, 예술학)으로 가면 일자무식이라고 해도 빈말이 아닌 상황이다. 


현재 학계는 방대해진 연구 성과에 짖눌려 있다. 현재 인문학의 가장 큰 숙제는 과거와는 상대도 되지 않는 방대한 자료의 처리 방법이라고 할 수 있다. 이제 일개 개인의 힘으로 단일 학문의 모든 연구자료와 연구사를 검토하는 것조차 불가능한 상황을 어떻게 타개할 것인가?! 정보기술이 현재로서는 유일무이한 해답이다. 

1) 정보기술을 활용하여 1차자료와 연구사를 수집-정리

2) 정보기술을 활용하여 개인에게 필요한 1차자료와 연구사를 제공

 

실제로 유럽의 모든 문화유물의 데이터를 총망라한 "유로피아나"나 미국 관련 모든 자료를 디지털화한 "아메리카메모리"와 같은 서양의 디지털 인문학 프로젝트를 통해서 정보기술을 활용하여 인문학을 어떻게 수집-정리 할 수 있는지 알 수 있다. 사실 멀리 볼 것도 없이 "조선왕조실록"이나 "한국역사정보통합시스템"만 하더라도 세계에 내놓아도 부끄럽지 않은 성과이다. 그리고 이렇게 "잘" 정리된 자료는 자연히 개인에게 방대한 정보에서 자신이 필요한 정보에 빠르게 접근할 수 있는 정보기술을 활용한 방법론도 제공하고 있다. 


쉽게 생각해보자. 디지털화된 논문정보를 제공하는 DBPIA나 KISS 혹은 RISS을 통해서 우리는 얼마나 빠르고 정확하게 원하는 논문을 검색하게 되었는가?! 이제 논문 뿐만이 아니라 인문학 자체를 디지털 자료로 이식하면 어떤 효과가 있겠는가?! 


그런데 아날로그의 지식을 컴퓨터가 이해 가능한 데이터로 변환하기 위해서는 아날로그의 지식 체계를 컴퓨터에게 알려주는 작업이 필요하다. 이를 데이터 설계 혹은 온톨로지 구축 작업이라고 할 수 있다. 그런데 인문학 영역 아날로그의 지식 체계는 디지털 영역의 전문가들에게 접근이 힘들거나 사실상 불가능한 영역이다. 그렇기에 대상 지식 체계를 파악하고 있는 인문학자의 힘이 필요하다. 






3. 디지털인문학의 분석(디지털 추론)

역시 전통적인 인문학에서의 분석을 생각해보자. 우리는 수집된 자료를 이용해서 분석하고 기존의 자료 이상의 내용을 추론해낸다. 조선시대의 복식을 재현해내고, 조선시대의 음식을 재현해낸다. 사회의 구조를 파악하고, 인류에게 최선인 사회 구조가 무엇인지를 예측한다. 


그런데 과거에 비하여 기가급수적으로 늘어난 연구성과들을 모두 파악하는 것조차 쉽지 않은 일이 되었다. 아무리 디지털화된 자료를 이용해서 최대한 빠르게 자료를 수집-정리할 수 있다고 하여도 개인의 힘으로는 방대해진 데이터를 파악하고 분석작업을 수행하는 것이 쉽지 않다. 어떻게 하면 개인의 분석능력을 향상시킬 수 있을까? 인간의 수명을 늘려야 하나? 게놈인간을 만들어서 지능을 올려야 하는가? 현재 가장 타당한 해법은 정보기술을 활용한 "디지털 추론"이다.


사실 "디지털 추론"은 이미 상업 영역에서 활발하게 사용되고 있다. 방대한 고객 데이터를 일정한 알로리즘(논리)을 통해서 맞춤형 마케팅을 하고 있다. 인터넷 서점으로 유명한 아마존 닷컴은 수 많은 고객데이터를 컴퓨터를 활용하여 실시간으로 분석하고, 해당 고객이 구매한 물품을 토대로 구매 가능성이 높은 물품을 추천하고 있다. 우리가 요즘 자주 말하는 "빅데이터"의 동반자인 "데이터 마이닝"이다. 




혹자는 정보기술이 모든 분석을 수행하면 더 이상 학자가 할 일이 없어지는 것은 아닐까 걱정할지도 모른다. 그러나 정보기술은 수백만의 데이터를 빠른 속도로 알고리즘(논리)에 의해서 처리하는 기술을 제공할 뿐이다. 분석방법인 알고리즘(논리)는 인간의 판단을 기다릴 뿐이다. 


실제로 인문학의 영역중에서 언어학과 사회학에서 "디지털 추론"방법을 많이 사용하고 있다. 말뭉치(코퍼스) 분석은 방대한 언어데이터를 분석하여 유의미한 결론을 유추하고 있다. 물론 정보기술 없이 개인이 언어데이터을 통해서 유의미한 결론을 유추할 수도 있다. 인간의 수명이 백만년정도 된다면 말이다. 사회학에서는 "네트워크 분석"을 통해서 다양한 관계망 분석을 시도하였고, 사회의 구조를 밝히는데 상당한 효과를 발휘하고 있다. 물론 최근에는 SNS 분석이나 의미망 분석과 같은 응용도 활발하게 이루어지고 있다. 


사실 디지털화는 어디까지나 디지털 추론을 위한 자료수집에 불과하다. 

어떤 인문학자가 자료 수집-정리만을 하고 분석이 필요 없다고 할 것인가?! 



4. 디지털인문학의 해석

분석은 연구 대상을 자르고 나누는 행위를 말한다. 다시 말해서 연구 대상에 대한 모든 자료를 다양한 방법을 통하여 수치화하는 방법론을 말한다. 그 동안 기존 인문학에서 분석과 해석을 구분하지 않고는 하였다. 실제로 대부분의 경우 한 명이 자료를 수집하고, 분석하여 해석하고 있었기에 구분이 무의미하였다. 그러나 전문화된 현대의 학문에서 "수치화"의 분석과 "의미부여"의 해석은 분명히 구분되어야 할 것이라고 생각된다. 


그런데 디지털인문학의 해석 영역은 대부분 기존 인문학에서 몇 천년동안 정립해 온 해석 방법론을 승계하고 있다. 디지털인문학은 어디까지나 디지털에서 수행하는 인문학 연구 방법론이며, 그 동안 기존 인문학이 해석에 "매몰"되었던 것을 탈피하고, 일정 이상의 자료와 분석결과를 통한 근거를 마련하기 위해서 강조되고 있다고 말할 수도 있을 것이다. 다시 말해서 디지털인문학은 범용 방법론으로서 가치를 가지고 있지만, 그렇다고 기존 인문학 방법론의 다양한 해석 방법론들을 폐기하는 것은 결코 아니다. 


반대로 디지털인문학은 새로운 해석 방법론에 그다지 큰 관심을 보이지 않는다. 그 동안 축적되어 온 기존 인문학의 해석 방법론을 재활용하는 것으로도 충분하기 때문이다. 그렇기에 디지털인문학에서는 해석의 영역을 그다지 크게 강조하지는 않는다. 그러나 그렇다고 해석이 중요하지 않다는 것은 아니다. 


(기존 글에서는 해석 영역에 대해서 서술하지 않고, 오프라인의 강의에서만 부과적으로 설명을 했더니 오해하시는 분들이 있어서 추가했습니다.)




5. 디지털인문학의 시각화

역시 전통적인 인문학에서의 출력을 생각해보자. 우리는 정리된 글을 논문발표, 서적출판 등의 형식으로 출력하였다. 심지어 최근에는 논문과 서적 모두가 이미 디지털화되어서 프린트를 통해서 출력되고 있다. 그런데 어차피 이미 디지털화된 것을 굳이 다시 종이 매체로 만들 필요가 있는가? 연구성과를 실시간으로 공유하여 인간의 지식영역을 빠르게 확장할 수는 없을까?


그래서 특히 인문학의 고유 관심자인 교육의 영역에서 상당히 많은 방법론의 모색이 있다. 정보기술을 통해서 우리는 시간과 공간의 장애를 벗어나서 교육자료를 제공해줄 수 있기 때문이다. 한국에서 인기를 끈 "정의란 무엇인가?"는 하버드 대학교의 강좌가 온라인을 통해서 언제 어디서나 볼 수 있었기에 한국에도 알려졌고 큰 인기를 끌게 되었다는 사실은 이미 유명하다. 한국에서 중고등학생의 기본 옵션이 되어버린 인터넷강의(인강)도 강사가 한 번의 촬영을 통해서 수 많은 학생에게 정보를 전달할 수 있게 해준다. 



물론 디지털 인문학의 출력에서 교육이라는 목적이 강조되고 있으며, 현재로서 가장 성공적인 수단이 인터넷 동영상 강의인 것은 맞다. 그러나 강의는 하나의 지식체계에 대한 전달 방식으로서 유용하다면, 단일 지식 혹은 특수한 지식의 전달 방법에 대한 다양한 시각화의 방법도 끊임 없이 모색되고 있다. 


예를 들어서 모든 의복에 대한 데이터를 모아놓고 분석을 하였더라도 관련 연구자나 사극 작가가 해당 데이터에 손쉽게 접근할 수 없다면 어떻게 쓸모가 있을 수 있겠는가? 데이터를 모으고 분석하는 방법 뿐만이 아니라, 성과를 어떻게 효율적으로 다양한 계층에게 전달하느냐도 인문학의 중요한 목적 중에 하나이다. 




6. 디지털인문학에 대한 오해

본인이 가장 걱정되는 것은 디지털 인문학을 어느 특정 인문학 분야가 선점을 해서 마치 특정 인문학 분야의 방법만이 디지털 인문학의 전부라고 착각하는 것이다. 디지털 인문학의 수집은 현재 문헌정보학이나 기록학에서 선도하고 있고, 디지털 인문학의 분석은 언어학과 사회학에서 선도해가고 있다. 그리고 디지털 인문학의 출력은 교육학의 영역에서 선도해가고 있다. 그리고 각각은 모두가 "디지털 인문학"이라는 이름을 붙이고 있다. 


문헌정보학, 기록학, 언어학, 사회학, 교육학에서 다루고 있는 새로운 방법론은 분명히 디지털 인문학이다. 그러나 착각하지 말아야 될 것은  단순히 디지털화만 잘한다고 디지털 인문학이 아니다. 디지털 인문학의 일부일 뿐이다. 디지털 분석만을 잘한다고 디지털 인문학이 아니다. 디지털 인문학의 일부일 뿐이다. 단순히 시각화를 잘한다고 디지털 인문학이 아니다. 디지털 인문학의 일부일 뿐이다.


디지털인문학은 데이터설계-데이터구축-분석-해석-출력의 모든 것을 아우르는 종합학문분과이다.







  1. 디지털만 붙이면 사람들이 무조건 좋게 봐줄 것이라고 생각했나?!....허허허.... [본문으로]




매일경제와 연세대가 공동으로 운영하는 빅데이터학과 석사과정이 다음달 2일 오후 2시에 입학설명회를 연다. 


국내외 대학에서 학사 학위를 받았거나 법적으로 동등한 학력을 인정받고 대한민국 정부, 지자체, 공공기관, 산업체 등에 재직 중인 직장인을 상대로 100% 면접으로 선발한다. 


연세대 입학 홈페이지(gsi.yonsei.ac.kr)에서 입학원서를 내려받아 다음달 4~7일 오후 5시까지 연세대 새천년관 410-1호 정보대학원 교학과에 원서를 제출하면 된다. 


이 과정을 통해 소셜미디어 분석론, 비즈니스 환경에서의 예측적 분석론, 산업별 빅데이터 응용, 빅데이터 컴퓨팅 등 여러 실무 과정을 접할 수 있다. 


문의는 연세대 정보대학원 교학과(02-2123-4539)로 하면 된다.


출처 : 빅데이터 석사과정 내달 2일 입학설명회




바로 : 연세대학교 정보대학원에서 실시하는 것이기에 빅데이터에 대한 기술적인 면을 중점으로 다루지 않을까 싶다. 우리 학교가.....연세대랑 학점교류가...어떻게 되어있더라...긁적....




Sogou는 현재 중국 최대 사용자를 보유하고 있는 중국어 입력기를 서비스하고 있는 회사이다. Sogou는 자신들의 서비스에서 추출된 중국어 단어들을 대상으로 무료로 단어 데이터(Word DB)을 서비스하고 있다.


한국어로 설명을 할까도 생각을 했지만, 해당 DB을 사용할 사람들은 기본적으로 중국어를 할 수 있다고 생각되어서 설명을 생략하도록 하겠다. 혹시 설명이 필요하신 분들이 있다면 연락을 주시면 상세 설명을 추가하도록 하겠다.


互联网词库(SogouW)(2006) : 중국어 단어 데이터이다. 단순한 단어 데이터 뿐만이 아니라 단어의 속성까지 명시해주고 있다. 다만 조사 시간이 2006년 10월이어서 최신 데이터를 구했으면 하는 아쉬움이 있다. 


中文词语搭配库(SogouR)(2006) : 중국어 단어 연결 데이터이다.  어떤 단어 뒤에 어떤 단어가 자주오는지를 분석한 결과이다. 단어 데이터와 마찬가지로 최신 데이터가 있으면 더욱 좋았을 것 같다.


互联网语料库(SogouT)(2012) : 중국어로 작성된 1.3억개의 웹페이지의 정보를 모아둔 자료이다. 압축 전 용량이 5TB이며, 압축을 해도 2.13TB이다. 현재 중국에 관하여 데이타 마이닝을 할 경우에 적합한 빅데이터라고 할 수 있다.


본인은 현재 한국 고대문헌들에 대한 텍스트 마이닝을 시도하고 있다. 위의 자료는 단어 데이터를 찾으려고 발악하다가 찾게 된 것으로서 필요하신 분들이 있을 것 같아서 자료 공유차원에서 올려본다.......다시 말해서.....혹시 한자로 된 고대문헌에 대한 자연어처리를 지원하는 패키지 아시는 분?! 아무리 찾아도 없어. ㅠㅠ


미래부·NIA, 국가 데이터베이스 사업 착수

(서울=연합뉴스) 최인영 기자 = 미래창조과학부와 한국정보화진흥원(NIA)은 과학기술·교육학술·문화·역사·행정 등 다양한 분야의 지식정보자원(데이터)을 체계적으로 디지털화하는 '국가 데이터베이스(DB) 사업'에 착수했다.


미래부와 NIA는 "미래 국가경쟁력의 원천인 지식정보자원을 산업적·창조적으로 활용하고 새로운 사업을 창출하기 위해 국가DB 발굴 및 수요조사에 들어간다"고 24일 밝혔다.


이번 조사는 중앙부처, 지방자치단체, 공공기관, 연구소 등이 보유한 지식정보와 자료 중 디지털화나 융·복합 작업을 거쳐 민간이나 중소·벤처기업에서 산업적으로 활용할 수 있는 정보를 발굴하는 것이다.


국가적으로 보존·이용가치가 높거나 글로벌 시장 진출 가치가 높고, 빅데이터 활용 등을 위해 가공이 필요한 지식정보자원에 관한 수요조사도 한다. 또 민·관 협의체를 운영하며 지속적으로 신규 지식정보자원을 발굴하고, 산업화 아이디어를 도출할 예정이다.


수요조사는 다음 달 14일까지 진행하고, 조사 결과는 오는 하반기부터 단계적으로 DB사업 지원에 활용할 계획이다.


상반기에는 기존 국가DB 과제 중 '스마트 모바일용 다국어 언어음성 DB', 'LOD(Linked Open Data) 시범 DB', 프랑스에서 반환된 '외규장각 의궤 DB' 등 7개 사업을 1차로 추진한다.

abbie@yna.co.kr

http://www.yonhapnews.co.kr/it/2013/05/24/2401000000AKR20130524090800017.HTML


예상대로 미래창조기획부는 국가 데이터베이스 사업에 착수하였다. 국가 차원에서 해야될 일인 동시에 고학력자들에 대한 고용효과도 상당하기에 당연하다면 당연한 일이다. 다만 몇 가지는 반드시 주의해야한다.


1. 공개되지 않은 DB는 쓰레기다.

DB로 열심히 만들고 공개하지 않는 수 많은 DB들이 있다. 이건 그냥 쓰레기 그 이상도 이하도 아니다. 제발 DB을 구축할 때부터 서비스 구축은 물론이고, 사용자에 대한 UI 및 유지보수도 생각하는 체계적인 시스템이 정착되었으면 한다.


2. 숨어있는 보물은 넘쳐난다.

사실 다양한 정보기관에서 이미 만든 수 많은 DB들이 있다. 그러나 실제로는 "자료보존" 혹은 "내부자료"로만 쓰고 공개를 안한다. 공공DB의 공개는 이미 세계적인 추세이며, 한국정부도 열심히 한다고 하지만...실질적으로는...


3. ........우리 인문정보학 차원에서 ㄱㄱ?!

사실 이런 것을 전문적으로 공부하는 석박사과정이 우리인데........어디 떨어지는 것 없나..ㅋㅋㅋ



+ Recent posts