시소러스, 자연어처리기술에 밀려 사양화
입력
수정
각종 문헌의 자료분류와 자료찾기등의 체계를 정형화시켜준시소러스(Thesaurus)가 사라지고 있다. 도서관이나 언론사의 조사부에서 사용해오던 시소러스가 컴퓨터를 이용한자연어처리기술에 점차 밀리고 있는 것이다. 시소러스(단어통제어집)란 색인작업에 있어 길잡이를 하는 것으로특정단어의 상하위어,수평적 관계의 단어를 미리 정의해 놓은 책이다. 즉기사의 대표단어를 선정(1차색인)하거나 확정(2차색인)할때 단어끼리의상관관계를 정의해 놓은 것이다. 이러한 시소러스는 지금까지 컴퓨터내의 각종 자료를 색인하거나검색하는데 가장 편리한 도구로 활용되었다. 또한 앞으로의 모든데이터베이스 검색도 시소러스를 이용하는 것이 최상의 방법이라고동양권의 언어학자들이 오늘날까지 주장해 왔다. 그러나 색인 및 검색작업의 도구로 쓰이던 시소러스가 최근 일본에서컴퓨터 처리기술에 밀려 뒷전으로 물러나기 시작한 것이다. 이는 한 분야의 시소러스를 만드는데 엄청난 시간과 비용,많은 고급인력을투입해야 하기 때문이다. 또 시소러스가 만들어졌다 하더라도 새로 나타난단어와 단어의 관계변화등을 꾸준히 추적,시소러스에 수렴해야 하는어려움이 뒤따르고 투자만큼 효율성이 없기때문이다. 일본의 경우 일본경제신문을 비롯 아사히 요미우리등 여러 신문사가시소러스에 많은 투자를 하고 있다. 이들은 현재 3년을 주기로 시소러스개편작업을 벌이고 있다. 이러한 투자에도 불구하고 대가가 너무 미미하다고 판단,일본신문사들은최근 시소러스작업을 축소하는 경향이 뚜렷해져간다. 특정정보를 찾기위해 두터운 시소러스책자를 뒤지는 것보다 검색률은 좀떨어지더라도 컴퓨터 화면상에서 직접 단어를 입력해 찾는자연어처리기법이 보다 편리하기때문이다. 따라서 이들 신문사들은컴퓨터를 이용해 색인작업을 자동화하기 시작했다. 일본경제신문의 신미달부기사정보부장은 "일경의 기사색인작업은 대부분컴퓨터시스템으로 이미 개발 처리하고있으며 단지 사람이 확인해야 하는부분만 수작업으로 처리하고 있다"고 밝혔다. 이에따라 일경의 시소러스도 3년전보다 무려 1백여페이지가 줄어들었다.신미부장은 "신문은 전 분야를 망라하기때문에 시소러스작업이 더욱 어렵고이용도도 저조하다"고 말했다. 일간공업신문의 한 관계자도 "시소러스는 언어학적 개념보다는 사용빈도로구축하는 것이 바람직하고 특수분야로 전문화하여 점차적으로 개선해나가는 것이 최선"이라고 말했다. 일간공업신문의 시소러스는 지난 80년대초 8명의 전문가가 1년6개월에걸쳐 작성했지만 학술분야외에는 찾는 사람이 거의 없다. 일간공업신문의시소러스도 3년마다 개편작업을 벌이고 있지만 최근에 나온 책의 두께가지난 87년에 출간된 7백19페이지에 비해 절반 가까이 줄어든 4백여페이지에불과하다. 한편 국내에서 만들어진 시소러스는 지난 80년 중앙일보와 당시동양방송이 공동으로 작성한 "중앙IR-시소러스"를 시작으로한국교육개발원의 교육시소러스,한국농촌경제연구원의 농업관련시소러스 등3개가 있을 뿐이다. 그러나 이들 시소러스도 책만 만들어졌을뿐컴퓨터시스템으로 구축 활용치는 못하고 있다.