출판탐구, 인공지능(AI) 시대 사전의 미래 디지털과 AI가 가져온 변화, 여성기업인쇄, 영문브로셔, 영자신문인쇄
인공지능(AI) 시대, 사전의 미래
장경식(한국백과사전연구소 대표)
2025. 7+8.
새로운 시대의 낯선 행위자, 인공지능(AI)
2022년 말 미국의 인공지능연구소 오픈AI(OpenAI)가 공개한 챗GPT(ChatGPT)를 계기로, 인공지능(이하 AI)은 지식정보산업의 기반에 혁명적인 변화를 불러올 것으로 주목받아 왔다. 2년 반이 지난 지금, AI 기술을 기반으로 사람·사물·공간이 인터넷으로 연결되어 모든 국면에서 AI가 활용되는 초연결 사회가 머지않아 실현될 것이라는 예측마저 낯설지 않게 되었다. 한편, AI의 개발과 유지에 필요한 막대한 자원, 그리고 AI의 품질을 높여줄 방대한 데이터 수집에 필요한 거대 자본의 힘도 여러 나라 정부와 업계의 화두로 떠오르고 있는 상황이다.
행위자 네트워크 이론(Actor-Network Theory, 이하 ANT)은 역사의 주체가 오직 인간이라는 오랜 통념에 의문을 품고, 기술과 제도 같은 비인간도 행위자이며, 행위자들 간의 긴밀한 관계를 통해 세계가 구성된다고 설명하는 이론이다. ANT에 의하면, 바퀴·문자·인쇄술·증기기관·원자력·인터넷과 같은 기술들이야말로 인류 역사의 전환에 직접적인 영향을 미친 대표적인 비인간 행위자라고 볼 수 있을 것이다. 근대국가의 초석이 된 각국의 국어사전이나, 계몽의 시대를 견인한 백과사전, 그리고 디지털 기술과 그의 소산인 AI 역시 이와 같은 극적인 전환점을 낳은 주목할 만한 비인간 행위자라고 보지 않을 수 없다.
이런 상황에서 어떤 학자들은 AI가 가져올 미래의 풍경을 아름답게 그려 보이는 반면, 어떤 학자들은 그 역기능으로 인해 평화롭지 못할 디스토피아(Dystopia)를 불안스럽게 우려하기도 한다. 이 순간에도 그 변화가 멈출 리 없으니, 다가올 모든 국면을 동시에 올바로 예측하기는 쉽지 않은 일이다. 다만 시야를 좁혀 우리가 걸어갈 길의 몇 발짝 앞이라도 전망하고자 할 따름이다. AI 시대의 사전에 대해 살펴보고자 하는 이 글도 그런 까닭에서 가능했다.
디지털과 AI가 가져온 변화
인터넷을 기반으로 한 디지털 문화는 ‘사전’이라는 출판물에 역사상 드문 변화를 이미 초래한 바 있었다. 한국 출판시장에서는 2010년대 중반까지만 해도 매년 300종 내외의 인쇄 사전이 신간 또는 개정판으로 출간되었다. 하지만, 네이버와 같은 지식 포털이 사용자 유입을 유도하기 위한 전략으로 백과사전·국어사전을 포함한 거의 모든 사전 데이터를 사이트에 탑재하고 무료로 제공하기 시작하면서 종이 사전의 수요가 급감했고, 2010년대 중반 이후에는 출간된 사전 수가 30% 이상 줄어들었다. 더불어 국립국어원에서 편찬한 「표준국어대사전」이 여러 포털 사이트에서 무료로 제공되고, 언어의 ‘표준’으로 인식되면서, 민간 국어사전들의 생태계도 크게 위축될 수밖에 없었다.
이런 상황에서 AI의 출현은 또 다른 충격으로 다가왔다. 지난 10년 동안 전 세계 디지털 산업계에 신뢰할 만한 통계 지표를 제공해 왔던 데이터리포털(Datarepotal)은 2025년 4월 발표한 보고서에서 챗GPT 공개 전후 시기의 유명 참조 사이트 방문자 추세 분석 결과를 발표했다. 이 보고서에 따르면, 오랜 전통과 명성을 자랑하는 백과사전 「브리태니커(Britannica)」의 온라인 방문자는 2022년 3월 약 6,950만 명에서 2025년 3월 약 4,740만 명으로 32% 감소했으며, 「위키피디아(Wikipedia)」 역시 지난 3년 동안 매달 방문자가 약 11억 명 이상 줄어들면서 23%나 감소한 것으로 나타났다.
「브리태니커」, 「위키피디아」 로고
더 놀라운 것은, 2025년 3월 위키피디아의 순방문자 수가 여전히 챗GPT보다 2.5배 많았음에도 불구하고, 총방문자 수는 챗GPT가 위키피디아보다 약 5억 명이나 많았다는 사실이다. 순방문자 수에 비해 총방문자 수가 더 많다는 것은 사용자의 만족도가 높아서 한 사람이 하루에도 여러 번 챗GPT를 찾았다는 것을 의미한다. 챗GPT와 같은 AI의 사용자층이 더 확대된다면 위키피디아를 압도할 날이 머지않을 것으로 보인다. 이와 같은 추세에 따르면, 사용자들이 사전처럼 다듬어진 지식을 찾기보다 자신이 원하는 형태로 지식을 수집하여 가공해 주는 AI의 답변을 더 선호하게 되었음을 짐작할 수 있다.
변화와 대응, 진짜와 가짜
챗GPT가 공개된 지 1년이 지난 2023년 말, 미국 대표 영어사전 「메리엄-웹스터(Merriam-Webster)」는 2023년 올해의 단어로 ‘Authentic(진짜)’을 선정했다. 피터 소콜로프스키(Peter Sokolowski) 편집장은 AI와 딥페이크(Deepfake) 같은 기술의 발전과 이를 활용한 검색 빈도가 증가함에 따라 이 단어를 선정했다고 밝혔다. 같은 해 영국 「케임브리지 영어사전(Cambridge English Dictionary)」은 ‘Hallucinate(환각을 느끼다, 거짓 정보를 주다)’를, 말뭉치 기반의 사전 「콜린스 코빌드 사전(Collins Cobuild Dictionary)」은 ‘AI’를 선정했는데, 이는 챗GPT를 계기로 대두된 AI가 2023년 한 해 동안전 세계의 중요한 관심사였을 뿐만 아니라, ‘사전’이라는 특별한 출판물의 관점에서는 AI가 어떤 이미지로 형상화되었는가를 잘 보여준다.
「메리엄-웹스터」, 「케임브리지 영어사전」 로고
미국·영국을 대표하는 사전들의 이와 같은 반응은 ‘변화와 대응’, ‘진짜와 가짜’로 요약할 수 있을 것이다. 이는 AI 시대를 맞아 새로운 기술적 환경에 적극적으로 대응해야 할 뿐만 아니라, 그런 변화 속에서도 지켜야 할 본질은 무엇인지를 되새겨야 한다는 것을 의미한다. 모든 지식과 정보를 블랙홀처럼 빨아들인 후 필요에 따라 재구성하여 제시하는 AI의 무한한 능력에 비추어 볼 때, 사전은 이제 과거의 유물처럼 보일 수도 있다. 그러나 세상에 완전한 것은 없는 법이다. AI와 함께하는 미래에 어떤 일이 발생할 것인지 깊이 사유하기 위해서라도, 사전이 그동안 인간 사회에 어떤 가치를 제공해 왔는지에 대해 진지하게 고민할 필요가 있다.
출판탐구, 인공지능(AI) 시대 사전의 미래 디지털과 AI가 가져온 변화, 여성기업인쇄, 영문브로셔, 영자신문인쇄
사전의 정의와 비평의 관점
사실 디지털 시대에 들어 사전의 정의에 대한 논의는 다양한 관점에서 이루어져 왔다. 「표준국어대사전」에서 말하는 전통적인 사전의 정의가 “어떤 범위 안에서 쓰이는 낱말을 모아서 일정한 순서로 배열하여 싣고 그 각각의 발음, 의미, 어원, 용법 따위를 해설한 책”이라면, AI 기반의 언어사전 개발자 테오 호펜버그(Theo Hoffenberg)는 “사용자가 문맥에 따라 단어나 표현의 올바른 의미나 번역을 찾도록 돕는 것”이라고 설명하여, 사용자 관점에서 사전의 정의를 새롭게 부여하기도 했다. AI 시대를 맞아, 사전이 가지고 있는 고유한 본질은 과연 무엇일까?
비유하자면 전통적인 사전은 마치 동물원과 같이 일정한 비평적 관점이 투영된 공간과 유사하다. 자연을 알기 위해 자연 생태계를 직접 만나는 것이 가장 이상적이지만, 그렇다고 세상에는 어떤 동물들이 있는가를 보여주기 위해 모든 어린이를 아프리카 케냐의 마사이마라 국립공원(Masai Mara National Park)에 보낼 수는 없다. 그곳에 간다고 하여 모든 동물을 만나기도 어려울뿐더러, 위험하기 때문이다. 반대로 동물원이라는 틀은 유지하지만 관람자 마음대로 어떤 동물이든 기증하고 수용할 경우, 동물원은 사실상 유기된 개와 고양이로 넘쳐서 다양한 동물을 일목요연하게 관찰하기는 쉽지 않을 것이다. ‘비평’이라는 ‘사전의 본질’이 상실된다면, 사전의 미래도 이와 다르지 않을 것이다.
사전의 편찬은 이와 같은 비평적 관점을 기반하여, 사전마다 다르게 제정된 편집 지침을 바탕으로 이루어진다. 사전의 편집 지침은 편찬 주체의 담론을 바탕으로 제정되기 마련이다. 담론은 ‘특정한 세계관의 경험을 의미화하는 방식’이므로, 사전은 이런 담론을 실천한 가장 포괄적이며 실체를 가진 덩어리이다. 단일한 언어로 편찬되는 언어사전에서도 우리는 다양한 담론을 확인할 수 있다.
사전, 담론의 구성체
미국에서 가장 유명한 사전 「메리엄-웹스터」는 미국 독립전쟁 전후 영국 영어에서 미국 영어를 독립시키기 위한 고유의 철자법을 제안한 노아 웹스터(Noah Webster)의 철자법 책에 뿌리를 두고 있다. ‘색깔’을 뜻하는 ‘Colour(영)/Color(미)’ 같은 철자 차이도 이 사전에서 유래한 것이다. 이는 국가 담론의 형성에 필요한 새로운 언어 규범이 ‘사전’이라는 구체적인 행위자를 통해 실현된다는 것을 보여주는 좋은 사례이다.
편찬 주체의 담론은 표제어나 철자법뿐 아니라, 개별 항목의 풀이말과 같은 미시구조를 통해서 발현되기도 한다. 일본 「신메이카이 국어사전(新明解国語辞典)」(산세이도, 1972)은 편찬자의 담론에 따라 풀이말이 어떻게 극단적으로 달라질 수 있는가를 보여주는 좋은 사례이다. 이 사전을 펴낸 야마다 타다오(山田忠雄)는 ‘동물원’의 뜻을 “생태를 대중에게 보여주는 한편, 보호하기 위해서라고 하지만 잡아 온 많은 조수·어충 등에 좁은 공간에서 생활할 것을 강요하며 죽을 때까지 기르는 인간 중심의 시설”(4판, 1989)이라고 풀이했다. 이 정의에 대해 여러 동물원에서 항의가 빗발치자, 그는 개정판에서 “포획한 동물들에게 인공적인 환경과 규칙적인 사료를 제공하며 야생으로부터 유리시킨 후, 도시인들에게 움직이는 표본으로 소개하는, 계몽을 겸한 오락 시설”(7판, 2011)이라고 수정하기도 했다.
더 독특한 사전도 있다. 겐보 유키노(見坊行徳)가 펴낸 「사라진 말 사전(消えたことば辞典)」(산세이도, 2023)은 역대 「산세이도 국어사전(三省堂国語辞典)」(산세이도, 1960~2022)에서 약 80년에 걸쳐 삭제된 표제어 1,000개 항목만을 모아 펴낸 사전으로, 한때 사전에 담겼으나 지금은 쓰이지 않는 말들을 통해 당대의 시대상을 돌이켜볼 수 있다는 점에서 지금도 꾸준하게 판을 거듭하고 있다.
「사라진 말 사전」, 「산세이도 국어사전」(제8판, 겐보 히데토시(見坊豪紀) 외 5인, 2022)
출판탐구, 인공지능(AI) 시대 사전의 미래 디지털과 AI가 가져온 변화, 여성기업인쇄, 영문브로셔, 영자신문인쇄
우리나라에도 이처럼 뜻깊은 사전이 있다. 2005년부터 편찬 작업 중인 「겨레말큰사전」은 ‘통일’ 담론을 바탕으로, 미래 어느 시점의 독자를 겨냥하고 있다는 점에서 단연 독보적인 위상을 보유하고 있는 사전이다. 이 사전은 민족의 언어 유산을 집대성하고 언어 통일을 준비하기 위해 남한과 북한이 공동으로 편찬하는 최초의 우리말 사전으로, 겨레말을 공동으로 채집·연구하고, 서로 다른 언어 규범에서 나오는 차이를 극복한 공동 편찬 요강을 적용하기로 했다. 여기에는 남한과 북한의 뜻풀이 차이 같은 미시구조뿐만 아니라 올림말의 선정, 표제어 배열순 같은 거시구조도 포함되는데, 달리 말하면 이 사전의 풀이말이나 거시구조가 남한과 북한의 현행 언어 규범과 다를 수 있음을 의미하는 것이다.
이처럼 모든 사전은 ‘담론의 구성체’라고 볼 수 있다. 인쇄 사전은 특정 분야에 대한 편찬 주체의 관점과 견해가 반영된 담론의 구성체였으며, ‘종이책’이라는 물성을 통해 그 담론의 총체와 정체성의 존재감을 보여주었다. 담론의 독자성을 유지하는 것이 사전의 유용성을 확보하는 방법이었기 때문에, 편찬자들은 저마다 다양한 담론 체계를 구성하여 지식을 정제하고 집약하는 방법을 찾기 위해 노력했다. 그 결과로 각 사전은 사회에서 다양한 담론을 출현하게 했고, 담론의 다양성은 세계를 바라보는 다양한 시선과 깊이를 독자와 사회에 제공해 왔다.
AI 시대의 국어사전
이제 인류의 생활에 전방위적이며 구체적인 영향을 미치는 새로운 비인간 행위자인 AI 시대를 맞아, 사전의 미래에 대해서 성찰할 때가 되었다. 지금까지 알려진 생성형 AI와 사전의 관계에 대해서는 다음 네 가지 범주에서 논의할 수 있을 것이다.
출처: 챗GPT
① AI는 사전의 대체물로 기능할 수 있을 것인가?
“사용자가 문맥에 따라 단어나 표현의 올바른 의미나 번역을 찾도록 돕는 것”이라는 테오 호펜버그의 정의에 따른다면, 이론적으로 AI는 충분히 사전의 대체물로 기능할 수 있을 것이다. AI는 흔히 사전학에서 말하는 ‘말뭉치’에 해당하는 다량의 데이터를 학습하고, 신경망 분석을 통해 데이터 중 가장 적절하다고 판단된 단어를 조합하여 풀이말로 제시할 가능성이 높기 때문이다. AI가 생성한 답변은 오류가 있을 수 있지만, 그 오류에 크게 구애받지 않는 사용자들에게는 충분히 사전의 대체물로 여겨질 수도 있을 것이다. 그러나, 신중한 사용자라면 오류의 가능성을 늘 염두에 둘 것이며, AI 정보의 오류 여부를 확인하기 위해서 사전 검색을 병행할 것이다. 즉, 사용자에 따라 AI는 사전의 대체물이 될 수도, 아닐 수도 있다.
② 사전은 AI의 완성도를 높이는 데 기여할 수 있는가?
AI가 학습한 데이터를 바탕으로 자체 알고리즘에 의해 응답을 생성하고, 그 알고리즘은 대체로 명령(Prompt)에 충실한 정보를 만들어 낸다는 점에서, 신뢰도가 높고 정제된 사전 데이터를 AI 학습 데이터에 포함시킬 경우 정보의 완성도를 일정 수준 높일 수 있을 것이다. 그러나, 명령한 질문에 대해 AI가 학습한 사전 데이터와 똑같은 항목을 생성할 가능성은 적다고 보는 것이 타당하다. AI의 알고리즘은 학습한 모든 데이터를 포괄적인 정보원으로 삼아, 응답을 포괄적으로 생성하도록 되어 있기 때문이다. 따라서 AI 학습 데이터에 많은 사전을 투입하더라도, AI가 생성하는 답변이 특정 사전의 완성도에이를 수는 없을 것이다.
③ AI는 국어사전을 만들거나 개선하는 데 도움이 될 것인가?
챗GPT가 공개되자 사전학계에서도 AI를 사전 편찬에 활용하는 방안을 연구하기 시작했다. 초기에는 언어사전 편찬의 기초 자료로 활용되었던 대규모 용례 데이터인 말뭉치를 대신하여, 생성형 AI를 통한 표제어 발굴이 시도되었으며, 생성형 AI에 어느 정도 적응된 후에는 AI를 이용해 사전의 풀이말을 포함한 미시구조를 기술하려는 연구도 있었다. 여러 연구를 통해 사전 편찬에 AI 활용 가능성을 엿볼 수 있었지만, 개별 사례에 작동하는 알고리즘을 확인할 수 없다는 것과 AI에 의해 제시된 개별 풀이말 및 용례를 완전히 신뢰하기는 어렵다는 것은 여전히 과제로 남아 있다. 그러므로 AI로 사전 편찬을 시도 하더라도, 결국 인간이 구축하고 통제 가능하며 신뢰할 수 있는 말뭉치 데이터를 통한 교차 검증이 필요하다.
④ AI는 사전이 주는 ‘담론의 구성체’와 같은 사회적 효용을 줄 수 있을 것인가?
앞에서 논의한 바와 같이, 사전이 ‘담론의 구성체’로서 사회에 제공하는 중요한 효용 가운데 하나는 바로 ‘다양성’의 구현이라고 할 수 있다. 통제된 사회주의나 전체주의 국가의 언어사전이 대체로 단일한 담론에 기대고 있음을 우리는 잘 알고 있다. AI가 개별 사전과 가장 다른 점은 학습한 데이터를 알고리즘에 따라 언어의 배열과 유사성 및 인접성을 기반으로 그럴듯한 포괄적인 결과를 생성해서 제공한다는 점이다. 다시 말하면 AI가 생성한 답변에서 모든 담론은 휘발되어 사라진다는 것이다. 예컨대 AI에 ‘동물원’을 입력했을 경우, 「신메이카이 국어사전」의 ‘동물원’과 같은 풀이말을 기대하기는 어려울 것이다. 「겨레말큰사전」은 남북통일이라는 담론을 전제로 한 미래의 규범이 적용된 사전이다. 따라서 현행 언어 데이터로 학습한 AI는 결코 「겨레말큰사전」과 같은 담론을 구성할 수 없을 것이다.
AI 시대의 사전, 재구성되어야 할 생태계
이런 여러 가지 우려에도 불구하고, AI가 주는 일상의 편의성이 더 아름다운 미래를 가져올지도 모른다. 그럼에도 역사학자 유발 하라리(Yuval Noah Harari)는 인간의 지식과 지혜를 믿지 않고 빅데이터와 알고리즘을 더 신뢰하게 될 미래의 위험을 경고했다. ‘AI의 대부’라고 불리며 2024년 노벨 물리학상을 받은 제프리 힌턴(Geoffrey Everest Hinton)마저도 AI가 향후 30년 이내에 인간 멸종의 원인이 될 확률이 10~20%에 이를 것이라고 말했다. 이는 편의성을 이유로 진짜 대신 가짜를 선택한 결과일 것이다.
이런 상황에서 2025년 3월 21일, 일본 쇼가쿠칸(小学館)은 창립 110주년이 되는 2032년에 「일본국어대사전(日本国語大辞典)」 제3판의 디지털판을 완성하고 2034년에 인쇄판까지 출간할 예정임을 밝혔다. 「일본국어대사전」은 50만 표제어, 100만 용례를 수록하여 현대 일본에서 가장 큰 규모의 대사전으로 1972년 초판, 2000년 제2판을 출간했다. 향후 쇼가쿠칸은 AI와 디지털 기술을 접목한 차세대사전 개발에 집중할 것이며, 특히 사용자 참여형 사전 플랫폼 구축을 통해 사용자들이 직접 단어를 추가하거나 정의를 수정할 수 있는 기능을 도입할 것임을 예고했다.
「일본국어대사전」(제2판, 전 13권+별책 1권), 「일본국어대사전」(제2판, 제1권)
한국의 경우 1999년에 초판이 발행된 「표준국어대사전」은 규모에 있어서 「일본국어대사전」과 버금가는 50만 표제어를 보유하고 있다. 또한 2008년 웹 버전을 공개하였고, 2016년에는 사용자가 참여하는 개방형 한국어 지식 대사전 「우리말샘」을 분리하여 규범주의와 기술주의를 병행하는 모범을 제시했다. 「표준국어대사전」이 국가 어문규범에 충실한 규범주의 기반의 사전이라면, 110만 표제어를 갖춘 「우리말샘」은 실제 언어생활을 최대한 반영하는 기술주의 기반의 사전이라는 점에서도 「일본국어대사전」이 지향하는 미래를 이미 실현하고 있다.
그럼에도 불구하고, 쇼가쿠칸의 이 의욕적인 발표는 많은 것을 시사한다. 전통적인 국어사전 개정 작업에 10년이라는 긴 시간을 투입하는 이 원대한 계획이 AI와 디지털 전환 시대에 과연 어떤 함의를 갖는지 다시 한번 환기하게 하기 때문이다. 민간의 힘으로 전통적인 국어사전 개정 작업에 엄청난 자원을 투입하는 그 생태계의 저력에 새삼 감탄하지 않을 수 없다. 한국도 사전 출판 생태계가 디지털 시대를 맞아 붕괴되었다고 하지만 희망을 버리지 못하는 까닭은 지금도 다양한 담론을 담은 국어사전들이 편찬되고 있다는 사실 때문이다. 순우리말을 모아 펴낸 「푸른배달말집」(안그라픽스, 2024), 어린이를 위한 「보리국어사전」(보리, 2008), 서울말의 보고인 「염상섭 소설어사전」(고려대학교출판부, 2002)과 같은 소중한 국어사전들은 그 자체로 얼마나 아름다운가.
본질적인 것은 지속가능한 생태계를 구축하는 일이다. 사전 편찬은 일반 단행본에 비해 방대한 자원이 필요하다. 게다가 지속적 개정 작업을 위한 전문 인력도 유지해야 한다. 사전 출판 저변의 생태계가 무너진 상황에서 이런 인력과 자원에 대한 부담을 편찬 주체의 의지와 노력에만 맡기는 것은 사실상 사전 생태계의 붕괴를 방치하는 것과 다르지 않다. 그러니 다양한 담론을 담은 사전 출판이 사회에 주는 가치를 사회 공동체가 인식할 필요가 있다. 더불어 아무리 AI 시대라도 지식을 다루는 매체에 있어서는 편의성보다 신뢰성이 존중되어야 한다는 것과, 가짜와 진짜를 구별할 수 있는 안목을 키우는 것이 중요하다는 사회적 합의가 형성되어야 한다. 이를 바탕으로 다양한 사전을 편찬하면서 사전 출판 생태계를 새롭게 구축하려는 공동체의 노력이 절실하다.
출판탐구, 인공지능(AI) 시대 사전의 미래 디지털과 AI가 가져온 변화, 여성기업인쇄, 영문브로셔, 영자신문인쇄
<출처> 한국출판문화산업진흥원