출처 : http://www.cytoscape.org/



Cytoscape은 네트워크 분석 및 시각화용 오픈소스 소프트웨어이다.  지원하는 데이터포맷은  SIF (Simple Interaction Format), GML, XGMML, BioPAX, PSI-MI, GraphML, KGML (KEGG XML), SBML, OBO, Gene Association 이며, 다국어를 지원한다. 



바로 : 이미 사용하는 네트워크 분석툴이 많아서--;;; 아직 직접 테스트는 해보지 않았다. 나중에 심심하면 할듯도...사용해보신 분이 있으면 처리 속도 쪽 이야기 좀 해주셨으면 좋겠다. 




타이완역사 디지털도서관 - 主義 검색결과



국립타이완대학교에서 1621년부터 1911년 사이의 250종류의 자료소스를 바탕으로 언어학의 분석도구나 네트워크분석 방법론 등 다양한 디지털인문학 분석방법론을 제공하여 타이완의 근현대 사회 연구에 큰 도움을 주고 있다. 예를 들어서 언어학의 접사분석모델을 이용하여 “주의(主義)”의 전방접사의 시대별 빈도를 추출해주고 있다. 이는 개념사 영역의 역사 연구자들은 특정 단어의 전방접사 빈도를 통하여 당시의 시대상과 용어의 변천에 대해서 규명하는데 도움을 주고 있다. 또한 네트워크 방법론을 통하여 토지매매에서의 인물간 네트워크 혹은 GIS(지리정보시스템)을 통하여 토지매매에 대한 지리학적 분석을 지원하는 디지털 도구를 제공하고 있다.


타이완 역사 디지털 도서관 홈페이지 : http://thdl.ntu.edu.tw/


분석보조도구들은 공개가 되어있으나 메인데이터베이스는 가입을 해야만 사용 가능하다. 가입은 http://thdl.ntu.edu.tw/THDL/OnlineTools/Reg/ApplyAccount_Sender.php 을 통해서 신청을 하면 메일로 가입확인메일이 온다. 다만...곧장이 아니라 시간이 좀 소요된다.


바로 : 본 싸이트의 강점은 웹에서 곧장 사용가능한 다양한 종류의 디지털분석툴을 제공하고 있다는 점이다. 중국어가 가능하신 분들은 직접 가셔서 온갖 보조도구들을 체험해보시길 바란다.



과거 문헌들에 사용된 문장간의 인용관계 관계도이다.

본 내용은 한국학중앙연구원 인문정보학과 김바로 박사과정의 2014년도 1월 3번째주 세미나 발표 자료입니다. 내용은 간략한 네트워크 분석 개론의 설명을 위해서 네트워트 분석의 간단한 역사와 지형도프로젝트를 통해서 나온 결과물 및 고대인물 네트워크 분석 초안을 담고 있습니다. 


본 내용은 출처표기를 하시면 자유롭게 활용 가능합니다. 문의사항이나 수정요청 사항 등은 ddokbaro@gmail.com 으로 메일을 보내주시기 바랍니다.






블로그에 자유롭게 쓴 글인데 생각보다 논문에 인용이 되서 당황스러운 심정이다. 개인적으로 블로그글도 학술적으로 사용할 수 있다고 생각하지만, 실제 학계의 분위기를 모르는 것도 아니다. 이에 만약 본 글을 인용하시려거든 다음과 같이 인용하시면 될 것으로 보인다.(내용이 100% 일치하지는 않지만, 기본 개념은 동일하다)


김바로, 『시맨틱 데이터 아카이브의 구축과 활용』, 파주:보고사, 2018.12.10, pp.17~20


김바로, 『시맨틱 데이터 아카이브의 구축과 활용 - 제도와 인사의 관계에 대한 근대(1895~1910) 학교 자료를 중심으로』, 파주:보고사, 2018.12.10, pp.17~20


알라딘 링크


디지털인문학이 요즘 인문학계의 화두로 떠오르고 있다. 그러나 디지털인문학에 대한 정의조차 제대로 모르면서 "디지털인문학"을 악용하려는 사람들도 급증하고 있다[각주:1].  디지털인문학 관련 내용을 올리는 블로거로서 최소한의 정의는 소개해야된다는 쓸데 없는 의무감이 생겨버렸다. 




1. 디지털인문학이란 무엇인가?







디지털인문학은 인문학과 정보기술(ICT: Information and Communication Technologies)이 합쳐진 융합학문이다. 전통적인 인문학의 연구과정에 정보기술의 설계, 구축, 분석, 해석 및 시각화의 과정이 융합되어 탄생된 인문학의 새로운 방법론이며, 학문분과이다. 



2. 디지털인문학의 설계와 구축


우선 전통적인 인문학에서의 수집을 생각해보자. 우리는 역사 연구를 위해서 해당 시대의 사료를 수집하여 정리하였다. 고고학 연구를 위해서 직접 발굴을 해서 연구자료를 획득하고 정리했다. 물론 1차적인 자료 뿐만을 수집하고 정리한 것이 아니다. 해당 분야에서 과거의 연구 성과를 모아서 연구사 혹은 선행연구를 정리한다. 


1) 1차 자료 정리

2) 연구사(선행연구) 자료 정리


그런데 현재 인문학계는 과거에 비해서 거대해졌다. 과거에는 사서삼경과 관련 도서 몇 백권이 유일한 1차 자료였고, 연구사 자료였다. 그러나 현재는 조선전기 정치사를 전공했다면, 같은 조선전기시대임에도 불구하고 민속사 영역으로 가면 연구사조차 제대로 파악하지 못하는 경우가 비일비재하다. 역사학계 자체 내에서 이런 상황이니 다른 학문(정치학, 예술학)으로 가면 일자무식이라고 해도 빈말이 아닌 상황이다. 


현재 학계는 방대해진 연구 성과에 짖눌려 있다. 현재 인문학의 가장 큰 숙제는 과거와는 상대도 되지 않는 방대한 자료의 처리 방법이라고 할 수 있다. 이제 일개 개인의 힘으로 단일 학문의 모든 연구자료와 연구사를 검토하는 것조차 불가능한 상황을 어떻게 타개할 것인가?! 정보기술이 현재로서는 유일무이한 해답이다. 

1) 정보기술을 활용하여 1차자료와 연구사를 수집-정리

2) 정보기술을 활용하여 개인에게 필요한 1차자료와 연구사를 제공

 

실제로 유럽의 모든 문화유물의 데이터를 총망라한 "유로피아나"나 미국 관련 모든 자료를 디지털화한 "아메리카메모리"와 같은 서양의 디지털 인문학 프로젝트를 통해서 정보기술을 활용하여 인문학을 어떻게 수집-정리 할 수 있는지 알 수 있다. 사실 멀리 볼 것도 없이 "조선왕조실록"이나 "한국역사정보통합시스템"만 하더라도 세계에 내놓아도 부끄럽지 않은 성과이다. 그리고 이렇게 "잘" 정리된 자료는 자연히 개인에게 방대한 정보에서 자신이 필요한 정보에 빠르게 접근할 수 있는 정보기술을 활용한 방법론도 제공하고 있다. 


쉽게 생각해보자. 디지털화된 논문정보를 제공하는 DBPIA나 KISS 혹은 RISS을 통해서 우리는 얼마나 빠르고 정확하게 원하는 논문을 검색하게 되었는가?! 이제 논문 뿐만이 아니라 인문학 자체를 디지털 자료로 이식하면 어떤 효과가 있겠는가?! 


그런데 아날로그의 지식을 컴퓨터가 이해 가능한 데이터로 변환하기 위해서는 아날로그의 지식 체계를 컴퓨터에게 알려주는 작업이 필요하다. 이를 데이터 설계 혹은 온톨로지 구축 작업이라고 할 수 있다. 그런데 인문학 영역 아날로그의 지식 체계는 디지털 영역의 전문가들에게 접근이 힘들거나 사실상 불가능한 영역이다. 그렇기에 대상 지식 체계를 파악하고 있는 인문학자의 힘이 필요하다. 






3. 디지털인문학의 분석(디지털 추론)

역시 전통적인 인문학에서의 분석을 생각해보자. 우리는 수집된 자료를 이용해서 분석하고 기존의 자료 이상의 내용을 추론해낸다. 조선시대의 복식을 재현해내고, 조선시대의 음식을 재현해낸다. 사회의 구조를 파악하고, 인류에게 최선인 사회 구조가 무엇인지를 예측한다. 


그런데 과거에 비하여 기가급수적으로 늘어난 연구성과들을 모두 파악하는 것조차 쉽지 않은 일이 되었다. 아무리 디지털화된 자료를 이용해서 최대한 빠르게 자료를 수집-정리할 수 있다고 하여도 개인의 힘으로는 방대해진 데이터를 파악하고 분석작업을 수행하는 것이 쉽지 않다. 어떻게 하면 개인의 분석능력을 향상시킬 수 있을까? 인간의 수명을 늘려야 하나? 게놈인간을 만들어서 지능을 올려야 하는가? 현재 가장 타당한 해법은 정보기술을 활용한 "디지털 추론"이다.


사실 "디지털 추론"은 이미 상업 영역에서 활발하게 사용되고 있다. 방대한 고객 데이터를 일정한 알로리즘(논리)을 통해서 맞춤형 마케팅을 하고 있다. 인터넷 서점으로 유명한 아마존 닷컴은 수 많은 고객데이터를 컴퓨터를 활용하여 실시간으로 분석하고, 해당 고객이 구매한 물품을 토대로 구매 가능성이 높은 물품을 추천하고 있다. 우리가 요즘 자주 말하는 "빅데이터"의 동반자인 "데이터 마이닝"이다. 




혹자는 정보기술이 모든 분석을 수행하면 더 이상 학자가 할 일이 없어지는 것은 아닐까 걱정할지도 모른다. 그러나 정보기술은 수백만의 데이터를 빠른 속도로 알고리즘(논리)에 의해서 처리하는 기술을 제공할 뿐이다. 분석방법인 알고리즘(논리)는 인간의 판단을 기다릴 뿐이다. 


실제로 인문학의 영역중에서 언어학과 사회학에서 "디지털 추론"방법을 많이 사용하고 있다. 말뭉치(코퍼스) 분석은 방대한 언어데이터를 분석하여 유의미한 결론을 유추하고 있다. 물론 정보기술 없이 개인이 언어데이터을 통해서 유의미한 결론을 유추할 수도 있다. 인간의 수명이 백만년정도 된다면 말이다. 사회학에서는 "네트워크 분석"을 통해서 다양한 관계망 분석을 시도하였고, 사회의 구조를 밝히는데 상당한 효과를 발휘하고 있다. 물론 최근에는 SNS 분석이나 의미망 분석과 같은 응용도 활발하게 이루어지고 있다. 


사실 디지털화는 어디까지나 디지털 추론을 위한 자료수집에 불과하다. 

어떤 인문학자가 자료 수집-정리만을 하고 분석이 필요 없다고 할 것인가?! 



4. 디지털인문학의 해석

분석은 연구 대상을 자르고 나누는 행위를 말한다. 다시 말해서 연구 대상에 대한 모든 자료를 다양한 방법을 통하여 수치화하는 방법론을 말한다. 그 동안 기존 인문학에서 분석과 해석을 구분하지 않고는 하였다. 실제로 대부분의 경우 한 명이 자료를 수집하고, 분석하여 해석하고 있었기에 구분이 무의미하였다. 그러나 전문화된 현대의 학문에서 "수치화"의 분석과 "의미부여"의 해석은 분명히 구분되어야 할 것이라고 생각된다. 


그런데 디지털인문학의 해석 영역은 대부분 기존 인문학에서 몇 천년동안 정립해 온 해석 방법론을 승계하고 있다. 디지털인문학은 어디까지나 디지털에서 수행하는 인문학 연구 방법론이며, 그 동안 기존 인문학이 해석에 "매몰"되었던 것을 탈피하고, 일정 이상의 자료와 분석결과를 통한 근거를 마련하기 위해서 강조되고 있다고 말할 수도 있을 것이다. 다시 말해서 디지털인문학은 범용 방법론으로서 가치를 가지고 있지만, 그렇다고 기존 인문학 방법론의 다양한 해석 방법론들을 폐기하는 것은 결코 아니다. 


반대로 디지털인문학은 새로운 해석 방법론에 그다지 큰 관심을 보이지 않는다. 그 동안 축적되어 온 기존 인문학의 해석 방법론을 재활용하는 것으로도 충분하기 때문이다. 그렇기에 디지털인문학에서는 해석의 영역을 그다지 크게 강조하지는 않는다. 그러나 그렇다고 해석이 중요하지 않다는 것은 아니다. 


(기존 글에서는 해석 영역에 대해서 서술하지 않고, 오프라인의 강의에서만 부과적으로 설명을 했더니 오해하시는 분들이 있어서 추가했습니다.)




5. 디지털인문학의 시각화

역시 전통적인 인문학에서의 출력을 생각해보자. 우리는 정리된 글을 논문발표, 서적출판 등의 형식으로 출력하였다. 심지어 최근에는 논문과 서적 모두가 이미 디지털화되어서 프린트를 통해서 출력되고 있다. 그런데 어차피 이미 디지털화된 것을 굳이 다시 종이 매체로 만들 필요가 있는가? 연구성과를 실시간으로 공유하여 인간의 지식영역을 빠르게 확장할 수는 없을까?


그래서 특히 인문학의 고유 관심자인 교육의 영역에서 상당히 많은 방법론의 모색이 있다. 정보기술을 통해서 우리는 시간과 공간의 장애를 벗어나서 교육자료를 제공해줄 수 있기 때문이다. 한국에서 인기를 끈 "정의란 무엇인가?"는 하버드 대학교의 강좌가 온라인을 통해서 언제 어디서나 볼 수 있었기에 한국에도 알려졌고 큰 인기를 끌게 되었다는 사실은 이미 유명하다. 한국에서 중고등학생의 기본 옵션이 되어버린 인터넷강의(인강)도 강사가 한 번의 촬영을 통해서 수 많은 학생에게 정보를 전달할 수 있게 해준다. 



물론 디지털 인문학의 출력에서 교육이라는 목적이 강조되고 있으며, 현재로서 가장 성공적인 수단이 인터넷 동영상 강의인 것은 맞다. 그러나 강의는 하나의 지식체계에 대한 전달 방식으로서 유용하다면, 단일 지식 혹은 특수한 지식의 전달 방법에 대한 다양한 시각화의 방법도 끊임 없이 모색되고 있다. 


예를 들어서 모든 의복에 대한 데이터를 모아놓고 분석을 하였더라도 관련 연구자나 사극 작가가 해당 데이터에 손쉽게 접근할 수 없다면 어떻게 쓸모가 있을 수 있겠는가? 데이터를 모으고 분석하는 방법 뿐만이 아니라, 성과를 어떻게 효율적으로 다양한 계층에게 전달하느냐도 인문학의 중요한 목적 중에 하나이다. 




6. 디지털인문학에 대한 오해

본인이 가장 걱정되는 것은 디지털 인문학을 어느 특정 인문학 분야가 선점을 해서 마치 특정 인문학 분야의 방법만이 디지털 인문학의 전부라고 착각하는 것이다. 디지털 인문학의 수집은 현재 문헌정보학이나 기록학에서 선도하고 있고, 디지털 인문학의 분석은 언어학과 사회학에서 선도해가고 있다. 그리고 디지털 인문학의 출력은 교육학의 영역에서 선도해가고 있다. 그리고 각각은 모두가 "디지털 인문학"이라는 이름을 붙이고 있다. 


문헌정보학, 기록학, 언어학, 사회학, 교육학에서 다루고 있는 새로운 방법론은 분명히 디지털 인문학이다. 그러나 착각하지 말아야 될 것은  단순히 디지털화만 잘한다고 디지털 인문학이 아니다. 디지털 인문학의 일부일 뿐이다. 디지털 분석만을 잘한다고 디지털 인문학이 아니다. 디지털 인문학의 일부일 뿐이다. 단순히 시각화를 잘한다고 디지털 인문학이 아니다. 디지털 인문학의 일부일 뿐이다.


디지털인문학은 데이터설계-데이터구축-분석-해석-출력의 모든 것을 아우르는 종합학문분과이다.







  1. 디지털만 붙이면 사람들이 무조건 좋게 봐줄 것이라고 생각했나?!....허허허.... [본문으로]



소셜 네트워크 분석|

존 스콧슨 (지은이) | 

김광재, 김효동 (옮긴이) | 

커뮤니케이션북스 | 

2012-10-24 | 

원제 Social Network Analysis: a handbook|


소셜 네트워크에 대한 개론서 강력추천하고 싶은 책이다. 소셜 네트워크의 기본과 응용에 대해서 초보자들도 쉽게 접근할 수 있는 수준으로 핵심을 다루고 있다. 다만 소셜 네트워크의 이론 부분을 주로 다루고 있고, 실무 작업에 대한 설명은 간략화되어 있다. 



주요 문장 : 

계량화된 척도를 사용하여 특정한 연구 문제나 사회현상을 적용하는 것은 연구자의 지적 판단(infomed judgment)가 요구되는 중요한 문제라는 점이다. 이런 문제점들은 단순화되어서, 부분적으로 이해된 수학 개념을 이용함으로써 피할 수 있는 것이 아니다. 오직 계량화되는 척도에 대한 기본적인 논리를 명확하게 이해하는 것이 바탕이 되어야하며, 이를 통해서만 지적이며 사회학적인 판단과 분석이 가능하다. - P3


일반적인 사회과학에서 사용되는 데이터의 가장 평범한 특징은 그것들이 문화적 가치와 상징에 기초한다는 점이다. 물리학에서 사용되는 데이터와는 달리 사회과학 데이터는 의미(meaning), 동기(motives), 정의(definition), 분류(typification) 등을 바탕으로 구성되며, 종종 이런 데이터를 이해하기 위해서는 판단 혹은 해석이 필요하다. 사회과학자들은 이런 특성, 즉 데이터의 문화적 가치나 상징 그리고 그에 대한 판단 혹은 해석에 기초하여 독특한 유형의 데이터와 그 분석법을 연구해 왔다. 

대표적인 것이 '속성형 데이터(attribute data)'와 '관계형 데이터(relational data)'다. 속성형 데이터는 일반적으로 사람들(agents)의 속성(attributes), 의견(opinions), 행동(behaviors)과 관계가 있으며, 이 속성은 해당 개인 혹은 단체에 귀속된 특성(properties), 본질(qualities), 특징(characteristics) 등으로 여겨진다. 예를 들면 서베이나 인터뷰에서 얻은 데이터들은 단순히 특정한 개인들의 속성을 나타내는 것이라고 여겨지고 기존의 통계학적인 절차를 통해서 분석되는 것이 대부분이다. 여기서 말하는 기존 통계학적 방법들은 변수 분석(가령 수입, 직업, 교육 등의 특정한 변수 값이 측정되고 이들 간의 변량 분석이나 상관관계 분석이 이루어지는)을 말한다.

반면에 관계형 데이터는 연락(contacts), 유대(ties), 관련(connections), 단체 귀속(group attachments), 만남(meetings) 등을 기록하여 얻을 수 있는데, 이런 종류의 데이터는 일반 사람들 간의 관계를 나타내는 것으로서 개개인의 속성 등으로 환원할 수 없다. 관계는 개인의 속성이나 특성이 아니라 개인이 속한 체제(system)의 특성이 되는 것이다. 즉 관계는 개인 간에 존재하는 연결을 전체적인 관계의 체제로 이어주는 수단인 것이다. 이런 종류의 데이터 분석에 어울리는 분석 방법들을 연결망 분석이라고 한다. 이런 분석 방법들은 대개 관계를 개인 혹은 단체 간의 연결을 나타내는 것으로 간주한다. 연결망 연구는 양적인 혹은 통계학적인 데이터를 다룰 뿐만이 아니라, 질적인 척도를 사용하기도 한다.

물론 속성형 데이터나 관계형 데이터가(대부분의 개설서나 방법론들이 주로 이 둘을 다루기는 하지만) 사회과학 데이터의 종류의 전부라고 볼 수는 없다. 세번째 종류는 데이터로는 관념형 데이터(ideational data)가 있다. 관념형 데이터는 의미, 동기, 정의 , 분류 등 그 자체가 기술하는 데 쓰인다. 사실 이런 관념 데이터가 사회과학의 구심점임에도 불구하고 이런 종류의 데이터를 다루는 기술은 그리 발전해 오지 않았다. 베버(Weber, 1920~1921)가 제창하였던 유형 분석(typological analysis)이 가장 생산적인 접근이었지만 현재로서는 아직 발전 단계에 있다고 하겠다. - P4~P5



+ Recent posts