ontoBox2008/04/29 21:11
얼마전 온톨로지에 대해 굉장히 어렵게 (본디 쉽게 이야기 하고자 했지만...) 이야기를 한 적이 있다. 이미 포스팅 된 글이라 지우기도 뭣하고 뭐 그닥 나쁜 글은 아니라 생각이 들지만 아무래도 좀 쉽게 이야기를 풀어갈 필요성을 느껴서 전혀 학문적이지 않은 온톨로지에 대한 이야기를 해보고자 한다.

온톨로지는 뭔가.

요즘 시멘틱 웹(대개 '시맨틱'이라 쓰고 있지만 우리 선생님께서는 '시멘틱'을 좋아하신다. 본인도 이편이 좋다고 생각한다. 이유는 생략)이 대세다. 시멘틱 웹이란 무엇인가에 대해 이야기를 해야겠지만 이 글은 온톨로지에 대한 이야기므로 간단하게 시멘틱 웹에 대해 이야기 하면

"시멘틱 웹은 웹 상에 존재하는 정보에 의미를 부여하여 컴퓨터가 정보를 이해할 수 있도록 하는 차세대 웹이다."


이러한 시멘틱 웹을 구현하기 위해서는 말했듯이 컴퓨터가 정보를 이해할 수 있어야 한다. 그럼 어떻게 하면 컴퓨터가 정보를 이해할 수 있을까?

컴퓨터가 정보를 이해하게 하기

컴퓨터는 좀 바보다. 인간이 가르쳐 주기 전에는 아무것도 알지 못한다. 그 정보의 내용이 뭔지, 그 정보를 어떻게 써야 하는지, 그 정보를 어떻게 이용해야 하는지 가르쳐 주기 전에는 그냥 문자로만 인식한다. 그래서 컴퓨터가 정보를 이해하게 하기 위해서는 그 방법을 알려주어야 한다. 그 방법은 대개 '추론'이라는 형태로 나타나는데 이 추론이라는 것은 어떤 조건에 의해 가능하게 된다.
두 남자가 있다. 한명은 나이가 많고 한명은 좀 어리다. 이들 간에 어떤 관계들이 있을까? 그 둘이 상하관계라면 아버지와 아들, 형과 아우, 상사와 부하직원, 선생님과 제자 등의 관계가 있을 수 있다. 수평관계라면 친구, 동료의 관계가 있을 수 있다. 이런 관계들은 직업, 역할 등과 같은 여러 조건에 따라 달라진다. 즉, 두 개의 정보 간에 어떤 조건을 기반으로 관계가 성립될 때 정보에 의미가 부여된다. 김덕배 혼자 있으면 그 자체만의 정보이지만 김득칠의 아버지인 김덕배는 아버지라는 의미가 부여되는 것이다.
그래서 이런 조건과 관계가 추론과 무슨 상관이 있나? 상관이 있다. 김덕배는 득칠이 아버지니까 아버지들을 찾을 때 득칠이는 검색되지 않고 덕배씨만 검색이 되는 것이다. 여기서 중요한 것은 김덕배씨가 아버지라는 정보는 김덕배씨 자체에는 표현되지 않았으나 득칠이와의 관계에서 아버지라는 정보가 '추론'된 것이다.

왜 컴퓨터가 정보를 이해해야 하나

그래, 왜 이해해야 하지? 그냥 김덕배씨 정보를 생성할 때 아버지라는 정보를 같이 넣으면 되잖아? 라고 생각하신다면 이 세상에 있는, 아니 적어도 온라인 상에 존재하는 모든 정보의 양을 생각해 보시라. 잘 기억은 나지 않지만 구글이 저장해 놓은 웹페이지가 10억 페이지를 넘었다고 알고 있다. 약 2년 전에 들은 소식인데, 어쟀든 10억 페이지를 일일이 수정하려면 네이버의 알바신공으로도 힘들지 않을까 한다. 시멘틱 웹은 발전하고 싶어하니 웹 상에 존재하는 정보에 의미는 부여해주고 싶다. 그런데 알바신공으로도 힘드니 자동적으로 하는 수 밖에는 도리가 없다. 그래서 컴퓨터가 정보를 이해할 수 있도록 규칙을 만드는 것이다.

규칙은 어떻게 만드나

그런데 문제는 그 규칙을 어떻게 만드는가 하는 것이다. 문서들이 워낙에 다양하니, 내용이 워낙에 다양하니, 주제가 워낙에 다양하니 그 비우를 어떻게 다 맞추나. 큰일이다.
큰일은 뭘, 훗, 다양하면 덜 다양하게 만들면 그만이지. 그럼 덜 다양한 녀석들 비우를 하나씩 맞춰주면 되지 않겠는가. 덜 다양하게 만들려면 이 세상의 것들을 공통적인 성질로 묶으면 된다. 빨강, 파랑, 노랑은 색깔, 이효리, 비, 앙드레 김은 사람 또는 연예인 그도 아님 유명인 등과 같이 공통의 성질을 갖고 있는 것들을 한데 묶어주면 조금 덜 다양하게 된다. 그리고 그렇게 덜 다양한 녀석들 사이에 어떤 관계가 있는지, 그런 관계는 어떤 때에 생성되는지를 정해주면 된다.

그러니까 온톨로지는 뭐야?

온톨로지는 그 다양한 녀석들을 조금 덜 다양하게 만들어 보자는 시도이다. 온톨로지는 간단하게 "개념의 명세화"로 설명된다. 무슨 말이냐, 우리가 보고, 듣고, 생각하고, 말하는 이 세상의 모든 것을 구체적으로 설명하고 표현하자는 말이다. 앞서 말한 덜 다양한 녀석들 사이의 관계와 그 관계가 어떤 때 생기는지를 말해줌으로써 따로따로 덜어진 정보들을 가지고 지식을 만들어 내자는 것이 온톨로지의 취지이다.
온톨로지는 이러한 덜 다양을 위해 계속해서 좁혀 들어간다. 학문 중에서도 법률, 법률 중에서도 형법, 형법 중에서도 판례, 판례 중에서도 피고. 이렇게 계속 좁혀들어가서 그 마지막에 있는 개념을 구체적으로 설명하고 그 개념이 속한 영역에 존재하는 개념들의 관계를 상황과 조건을 통해 설명하는 것이다.

아 모르겠다.

이런 뜬금없는 이야기를 듣고 온톨로지가 무엇인지 아신다면, 당신은 천재. 더 자세한 이야기는 다음번에 하기로 하고 오늘의 내용을 정리하면

온톨로지는 컴퓨터가 정보를 이해할 수 있도록, 정보를 구성하는 최소의 단위인 개념을 구체적으로 설명하고 이 구체적으로 설명된 개념들을 관계와 조건을 통해 다시 한번 설명하기 위한 체계. 라는 것이다.

음... 어렵다 어려워


온톨로지 개념 정리에 대한 어려운(?) 글
2008/01/29 - [ontoBox] - 온톨로지란 무엇인가
Posted by readholic