우리는 인터넷 상의 지식 정보가 저절로 만들어지는 것이 아니라는 사실을 상기할 필요가 있다. 누군가가 지식의 작은 조각을
만들어내고, 다른 누군가가 뜻을 통하게 하는 연결 고리를 만들고, 또 다른 누군가가 그 자원에 대한 사람들의 접근을 용이하게 하는
노력을 기울인 결과이다. 그런데 그러한 일련의 일들이 체계 없이 무질서하게 엮어지는 것과 일정한 목표와 방법을 가지고 수행되는
것 사이에는 결과 면에서 큰 차이가 있다. 보다 유용하고, 신뢰할 수 있고, 더욱 많은 사람들의 관심을 모으고 도움을 줄 수
있는 지식 정보의 생산을 위해서는 전략과 기술의 개발, 그리고 그것을 운용할 수 있는 전문 인력의 육성이 필요하다.
인문정보학은 인문지식의 정보화에 관련된 다양한 문제들을 탐구 주제로 삼는다. 정보 처리 기술 수준으로 이야기하자면, 가장 낮은
단계의 데이터 입출력 문제에서부터 정보과학의 궁극적 목표라고 할 수 있는 인공지능의 구현에 이르기까지, 거기에 인문 지식이
결부되는 과제들은 모두 인문정보학의 과제일 수 있다. 그 가운데 실용적인 측면에서 문화콘텐츠의 제작과 직결된 것을 우선적으로
꼽는다면 인문학적 지식을 디지털 미디어에 탑재하여 사이버 공간에서 유통될 수 있도록 하는 디지털 텍스트 편찬 기술, 그리고 ‘읽고
이해하는’ 대상이었던 인문지식 콘텐츠를 ‘보고 느끼는’ 감성적 체험의 대상으로 전환하는 인문지식의 시각화 기술을 들 수 있을
것이다.
1) 디지털 텍스트
디지털 텍스트란 지식을 전달하는 문자 언어를 디지털
미디어에 전자적인 신호로 기록한 것을 말한다. 워드프로세서로 작성하여 컴퓨터 속에 저장한 한 편의 글도 넓은 의미의 디지털
텍스트라고 할 수 있다. 워드프로세서로 만든 문서는 종이에 출력하여 사람이 읽게 하는 것을 목표로 하지만, 우리가 관심을 갖는
디지털 텍스트는 기계(컴퓨터)가 읽고 해석할 수 있게 함으로써 종이에 쓰일 때에 얻을 수 없었던 부가가치를 낳을 수 있게 하는
것이다.
컴퓨터와 정보 통신 네트워크, 모바일 컴퓨터라고 할 수 있는 스마트폰까지 대중화된 오늘날의 사회에서
우리는 이미 디지털 텍스트의 영향력을 실감하고 있다. 매일 매일 접하는 인터넷 상의 모든 웹(Web) 문서들이 모두 다 디지털
텍스트이다. 그러한 문서들이 종이 책의 텍스트와 다른 점은 무엇인가? 그것이 어느 나라, 어느 기관의 서버에 있든, 인터넷 포털이
제공하는 서비스를 통해 검색과 열람이 가능하다. 그리고 적지 않은 양의 웹 문서에는 그 문서상에서 내용적 관련성을 가진 다른
문서를 찾아갈 수 있는 연결고리가 포함되어 있다.
다른 문서에 대한 연결고리를 가지고 있는 전자 문서를
하이퍼텍스트 문서(Hypertext Document)라고 한다. 이미 현대인들의 생업과 여가생활에서 빼놓을 수 없는 동반자가 되어
있는 월드 와이드 웹(World Wide Web)은 하이퍼텍스트 문서를 저장하고 있는 컴퓨터의 범세계적인 집합이다. 하이퍼
텍스트는 종이에 쓰였던 텍스트가 디지털 신호로 전환되었다는 점 외에, 그 문서의 이곳, 저곳에 태그(tag)라고 불리우는 특별한
표시가 기입되어 있다는 특징을 갖는다.
[예시 1] HTML 문서
<html>
<head>
<title>웹 사이트 목록</title>
</head>
<body>
<a href="http://www.humancontent.or.kr">인문콘텐츠학회</a><br/>
<a href="http://www.aks.ac.kr">한국학중연구원</a><br/>
<a href="http://www.digerati.kr">인문정보학</a><br/>
</body>
</html>
순수하게 문자나 삽도만으로 이루어진 기본 텍스트(Plain Text)에 이와 같은 태그를 기입하는 것을
마크업(markup)이라고 한다. 순수한 텍스트는 사람에게 읽히기 위한 것이지만, 여기에 부가된 태그들은 기계(컴퓨터)가 읽고
해석하며, 지시된 기능을 수행하게 한다. 이를 테면 <titlle>....... </title>이라는 태그는
표시된 부분이 그 문서의 제목이니 제목으로 취급하라는 의미이고, <a href="url“> ......
</a>라는 태그는 그곳을 클릭하면 "url"(Uniform Resource Locater)로 지시되는 곳(월드 와이드
웹 상의 주소)의 문서로 이동하라는 의미이다.
이와 같이 미리 약속된 몇 가지 태그를 기입하여 월드 와이드 웹
상에서 통용될 수 있도록 한 문서를 HTML(Hyper Text Markup Language) 문서라고 하는데, 이는 하이퍼
텍스트 링크 기능을 위주로 하는 가장 단순한 형태의 디지털 텍스트라고 할 수 있다.
텍스트 속에서 특정한
의미를 담고 있는 부분을 명시적으로 표현함으로써 컴퓨터로 하여금 더욱 다양한 부가가치를 만들어 낼 수 있게 한 또 하나의 약속
체계가 XML(eXtensible Markup Language)이다. HTML의 태그는 미리 만들어진 것을 쓰는 것인 데 반해,
XML의 태그는 문서 제작자가 새롭게 정의할 수 있고, 그 각각의 태그에 대해 컴퓨터가 어떠한 처리를 할 것인지를 지시할 수
있다. 다음은 XML 문서로 만들어진 디지털 텍스트의 한 예이다.
[예시 2] XML 문서
2-1. 원시 데이터
敎旨
吳性鎰爲鬱陵島島監者.
光緖十六年九月 日
교지
오성일을 울릉도 도감으로 임명함.
광서 16년 9월 일
2-2. XML 문서: 고문서
<고문서 유형="교지">
<표제>敎旨</표제>
<본문><인명 성격="수급자">吳性鎰</인명>爲<지명>鬱陵島</지명>島監者</본문>
<일자 성격="발급일" 서력="1890"><연호>光緖</연호>十六年九月 日</일자>
</고문서>
2-3. XML 문서: 위치 정보
<공간정보 유형=“기관”>
<명칭>독도박물관</명칭>
<주소>경상북도 울릉군 울릉읍 도동리 581-1</주소>
<위치>
<위도>37.48332</위도>
<경도>130.9008</경도>
</위치>
</공간정보>
우리는 [2-1] 문서에 쓰인 오성일(吳性鎰)이 사람 이름이고, 울릉도(鬱陵島)가 지역 이름이라는 것을 알지만, 컴퓨터는 그것을
인식할 수 없다. 하지만 [2-2]에서 처럼 ‘吳性鎰‘에 <인명> 태그를 달아주고, ’鬱陵島‘에 <지명>
태그를 달아주면 컴퓨터도 텍스트 속에서 그것을 식별해 낼 수 있다. 이러한 문서가 100만 건 정도 있다고 가정해 보자.
컴퓨터는 그 모든 자료에 대해 완벽한 인명 색인과 지명 색인을 만들어낼 수 있다. 그 뿐 아니다. [2-3]에는 이 문서를
소장하고 있는 독도박물관이라고 하는 곳이 지구상의 어느곳에 위치하는지를 알리는(Global Positioning) 정보가 포함되어
있다. XML 마크업을 통해 <경도> 요소와 <위도> 요소를 컴퓨터가 인식할 수 있게 하고, XML 문서의
시각화를 담당하는 XSL(eXtensible Stylesheet Language) 문서에 그것의 처리를 지시하면, 컴퓨터는
전자지도 상에서 그곳의 위치를 정확하게 나타내 준다. [2-2]와 [2-3]은 독립적인 문서로 존재할 수도 있지만,
‘독도박물관’이라는 키워드를 매개로 하이퍼 링크를 맺을 수 있다. 조선시대의 고문서를 3차원 위성 영상 지도를 통해 볼 수 있게
하는 서비스가 가능해지는 것이다. 1
[그림 1] 고문서와 위치 정보의 연계
위의 예시들은
소략한 정보만을 담고 있지만, 이보다 훨씬 크고 복잡한 데이터도 XML이라는 디지털 텍스트의 형식을 통해 체계적, 명시적으로
기술하여, 컴퓨터에게 그 처리를 지시할 수 있다. 낱장의 고문서나 지도뿐 아니라 수십권 분량의 백과사전이나 수백년에 걸쳐 만들어진
역사 기록이 모두 디지털 텍스트로 편찬됨으로써, 그 속에 담긴 작은 사실 하나까지도 사이버 공간에서 지식 정보로 활용될 수 있는
것이다.
월드 와이드 웹 상에서 유통되는 디지털 텍스트의 양이 폭발적으로 증가되면서 그 가운데 서로
유관한 데이터가 서로에 대해 의미를 갖고 모여질 수 있도록 하는 기술이 탐구되기 시작했다. 이른바 시맨틱 웹(Semantic
Web)이라고 하는 것이다. 이론적인 설명 대신 간단한 예시를 통해 시맨틱 웹을 통해 무엇을 얻을 수 있는지 알아 보기로 하자.
[예시 3] 내용적으로 유관한 월드 와이드 웹 자원
3-1. 함양 거연정 위치
Google Maps
3-2. 함양 거연정 사진
문화재청 문화재 DB
3-3. 함양 거연정 기사
한국학중앙연구원 한국민족문화대백과사전
3-4. 거연정기 판액 사진
개인 홈페이지
3-5. 거연정기 한문 원문
고전번역원 문집총간 DB
3-6. 거연정기 번역문
개인 홈페이지
3-7. 임헌회(거연정기 저자) 기사
한국학중앙연구원 역대인물 DB
위에 예시로 든 7개의 디지털 자료는 모두 경상남도 함양군 남강천에 있는 유서 깊은 누정 ‘거연정’과 관련이 있는 것이다.
그것들은 내용면에서 관련성이 있지만 각각 다른 곳에 별개의 문서로 존재한다. 이러한 자료를 고립된 자원으로 두지 않고, 의미의
연결 고리를 좇아 문맥을 이루게 하려면 어떠한 노력이 더해져야 할까?
현재의 월드 와이드 웹 환경에서는 그
문서들에 공통으로 포함되어 있는 어휘- 이를테면 ‘거연정’-를 이용해서 서로 관계가 있을 수 있는 후보 문서를 모두 탐색한 후에,
이용자의 눈으로 그 결과 하나 하나를 확인하면서 필요한 것을 취하는 방법이 가능할 뿐이다.
시맨틱 웹은 데이터가
생산될 때 유관한 자료의 의미적 연관 관계를 약속된 방식으로 명시함으로써 보다 지능적인 데이터 연계가 이루질 수 있게 할 것을
제안한다. 위에 예시한 월드 와이드 웹 상의 데이터에 대해 그 관계성을 정의하는 데이터를 다음과 같이 만들었다고 가정해 보자.
- 개체의 고유한 이름(URI: Uniform Resource Identifier) 정의
N1: 월드 와이드 웹 상에서 ‘함양 거연정’을 유일하게 지목하는 식별자
N2: 월드 와이드 웹 상에서 ‘거연정기’를 유일하게 지목하는 식별자
N3: 월드 와이드 웹 상에서 ‘임헌회’를 유일하게 지목하는 식별자
D1: 3-1 문서의 고유한 식별자
D2: 3-2 문서의 고유한 식별자
D3: 3-3 문서의 고유한 식별자
D4: 3-4 문서의 고유한 식별자
D5: 3-5 문서의 고유한 식별자
D6: 3-6 문서의 고유한 식별자
D7: 3-7 문서의 고유한 식별자
- 개체간의 관계성 정의
N1의 누정기는 N2이다.
N2의 저자는 N3이다.
N1의 지도는 D1이다.
N1의 사진은 D2이다.
N1에 대한 설명은 D3이다.
N2의 사진은 D4이다.
N2의 한문 원문은 D5이다.
N2의 번역문은 D6이다.
N3에 대한 설명은 D3이다.
이러한 방식으로 관계성을 기술한 정보가 [예시 3]에서 보인 개별 문서와 함께 인터넷 상에 존재할 때, 우리가 현재의 월드
와이드 웹에서 얻을 수 없는 무엇을 더 얻게 될 것인지는 쉽게 이해할 수 있을 것이다. 그 이전까지는 웹 상에서 고립된 형태로
존재하는 지식의 조각이 다른 조각들과 함께 모여 커다란 의미체를 이루게 된다.
객체 사이의 관계성을 표시해 주는
방법은 여러 가지가 있을 수 있겠으나, 월드 와이드 웹의 세계에서는 RDF(Resource Description
Framework)라고 불리우는 형식이 표준으로서의 지위를 얻고 있다. 2 웹 주소와 같은 명명법으로 객체에 식별자를 부여하고 두
객체 사이의 관계성을 약속된 서술어로 기술하는 방식이다. ‘거연정기’라는 텍스트와 ‘임헌회’라는 인물 사이에 ‘~의 저자는
~이다’라는 관계성을 서술어로 부여하는 RDF 문의 모양새는 다음과 같다.
[그림 2] RDF 그래프
현실세계에서는 지역과 조직, 그리고 전공이라는 벽 때문에 지식과 정보가 조각 조각 나뉠 수밖에 없었지만, 디지털 세계에서는 그
벽을 넘어서서 나누인 조각들을 모을 수 있다. 또 그것을 한 가지 기준이 아니라, 관심과 필요에 따라 다양한 방식의 문맥으로
만들어낼 수가 있다.
인문정보학은 현실 세계의 다양한 영역에서 만들어진 지식의 조각들을 그것의 관계성까지 고려한
디지털 텍스트로 전환하여 가상 세계에 옮겨 놓는 일에 주력한다. 그렇게 함으로써 의미있는 지식이 그것을 필요로 하는 사람들에게,
그들이 필요로 하는 형태로 모여지고 쓰여질 수 있기 때문이다.
본 내용은 한국학중앙연구원 인문정보학 김현 교수의 "인문정보학"의 일부를 발췌한 내용입니다.
- XSL 문서에서 전자지도 콘텐츠 공급자가 제공하는 Open API(Application Programming Interface)를 구동하는 방법을 사용한다. 인문지식 콘텐츠를 위한 전자지도 활용 방안에 관해서는 「GIS와 지역문화 콘텐츠의 연계 응용 기술」(2009. 11. 『인문콘텐츠』 16)에서 상세하게 소개하였다. [본문으로]
- RDF(The Resource Description Framework)는 월드 와이드 웹 자원의 메타데이터를 기술하는 형식이다. 2004년 W3C(World Wide Web Consortium)의 권고안이 제시되었으며, 시맨틱 웹 활동의 일환으로 운용되고 있다. RDF가 기술하는 웹 자원의 속성은 인간이 아닌 컴퓨터가 읽고 해석하기 위한 것이며, 인간을 대신하여 지능적인 정보 처리를 하게 하기 위한 것이다. ☞ http://www.w3.org/RDF/ [본문으로]
'디지털인문학 > DH_Thesis' 카테고리의 다른 글
인문학의 미래, 인문정보학의 전망 (0) | 2013.10.02 |
---|---|
인문정보학의 과제 - 시각적 인문학 (1) | 2013.10.01 |
인문정보학과 문화콘텐츠 (0) | 2013.09.29 |
디지털 인문학이 발전하기 위해서는? (0) | 2013.07.25 |
Digital Humanities: Cooperative Scheme between Humanities and Cultural Contents (0) | 2013.07.25 |