디지털 출판 동향 및 저작권 문제 분석, 오디오북 산업의 새로운 국면 : 인공지능이 만든 기회와 도전
9월 독일 출판시장 보고서
코디네이터 | 박소진
디지털 출판 동향 및 저작권 문제 분석
오디오북 산업의 새로운 국면 : 인공지능이 만든 기회와 도전
프랑크푸르트 도서전은 오디오북 분야의 현 지도와 인공지능 관련 글로벌 트렌드, 새로운 비즈니스 모델을 정리한 보고서인 ‘인공지능과 오디오: 인공지능이 어떻게 오디오북 산업을 재정의하고 있는가(AI and Audio: How Artificial Intelligence is Redefining the Audiobook Industry)’를 발표하였다. 문화 분야 및 신기술 관련 보고서를 발행하는 도스도체(dosdoce.com)가 작성한 본보고서를 글쓴이가 직접 전문을 읽고 추린 주요 내용만 전한다. 인공지능 도구 관련 세계적 트렌드와 전망, 언어와 지역성, 저작권 관련 이슈, 무엇보다 새 사업 기회 등 흥미로우면서도 출판 관계자라면 필수적으로 알아야 할 정보가 담겨 있다. 현재, 인공지능 도구의 활발한 도입으로 생성형 인공지능 관련 기술을 보유한 인재를 찾는 공고가 급격히 늘었고, 기존의 저작권과 보상 체계를 재편하며 우리가 콘텐츠에 접근하고 소비하는 방식이 크게 바뀌기 시작할 것이다. 이 거대한 변화가 만들어낸 기회와 위기에 대해 지금 바로 알아보자.
디지털 출판 동향 및 저작권 문제 분석, 오디오북 산업의 새로운 국면 : 인공지능이 만든 기회와 도전
1. 오디오 분야 인공지능 도구의 현 지도
인간과 인공지능이 함께 만드는 오디오북 사이의 경계가 흐려지고 있는 지금, 글로벌 오디오 업계에서 활발히 사용하는 인공지능 도구와 서비스는 크게 6가지 분야로 나뉜다.
이미 익숙한 원고 작성 및 평가, 교정, 번역 감수, 합성 음성 생성, 오디오 편집, 오디오북 및 팟캐스트의 다국어 동시 번역 기능은 물론, 이어서 제작할 콘텐츠 추천, 제작 과정 자동화, 메타데이터 강화, 이미지용 대체 텍스트 생성, 색인 생성 등을 인공지능 도구가 수행할 수 있다. 하지만 최종 검토 및 승인에는 인간의 능력이 개입되어야 한다.
1-1. 오디오 분야 인공지능 도구 160가지
하단 지도는 오디오 관련 출판사, 오디오북 제작사, 스트리밍 플랫폼, 콘텐츠 크리에이터, 성우에게 유용한 160여 가지 인공지능 도구를 소개한다. 전체 도구의 44%는 제작, 27%는 음성 모델이 차지하며, 13%를 이루는 사운드 디자인 분야의 생성형 인공지능은 특히 오디오 픽션 제작의 증가와 함께 늘어난 특수 효과 기능 사용이 특징적이다. 이는 오디오북 청취 시 TV를 보거나 게임을 하는 것와 같은 음향 효과를 기대하는 청취자들을 대상으로 한다. 7%는 마케팅 및 광고 도구, 5%는 스포티파이나 스토리텔(Storytel) 같은 유통 분야가 차지하는데, 스토리텔의 ‘보이스 체인저(Voice Changer)’기능은 사람이 이미 녹음한 버전을 읽어 줄 합성 음성을 몇 가지 선택할 수 있는 기능이어서 새롭다. 마지막으로, 다국어 번역 도구가 4%를 차지하는데, 국제적으로 고객층을 넓힐 수 있는 이 도구는 오디오북, 오디오 드라마, 팟캐스트, 마케팅 자료를 번역하면서도 그 뉘앙스와 문화적 특성을 잃지 않도록 하는 것이 주 기능이다.
오디오북 분야 관련 인공지능 도구 160가지.
출처
Dosdoce, ‘Al and Audio: How Artificial Intelligence is Redefining the Audiobook Industry’, Frankfuter Buchmesse,
1-2. 인공지능 도구의 지역성과 관련된 이슈
한편, 지역별 인공지능 툴 제작 현황을 살펴보면, 미국이 40%, 유럽이 38%를 차지하여, 두 지역이 전체 오디오 AI 툴 제작의 78%를 차지하고 있다. 특히, 주요 음성 엔진의 경우에는 58%가 미국에서 제작되고 있어, 음성 및 언어 모델의 소유권과 관리가 세계적 시장, 특히 인공지능 도구를 활발히 제작하지 않은 지역에 지대한 영향을 미치고 있다. (참고로, 음성 엔진의 28%는 유럽에서, 나머지 14%는 기타 지역에서 제작되었다.)
전투적으로 인공지능 도구를 제작하는 지역인 미국, 유럽, 중국은 각국의 목표 및 우선순위 등을 반영한, 각기 다른 인공지능 규제 및 전략을 적용한다. 미국은 시장 중심 접근법이 주요하며, 민간기업이 발전을 주도하고, 정부의 개입이 적다. 반면, 유럽은 입법을 통한 윤리적 책임, 투명성 확보 등에 주의를 기울이며, 중국은 국가적 목적에 맞는 인공지능 개발을 국가적 차원에서 추구한다. 이와 같은 인공지능 도구의 지역성은 개인 정보 보호, 데이터 주권, 알고리즘 편향 등과 관련하여 중대한 차이를 만든다. 라틴 아메리카의 이니셔티브인 라탐-지피티(LATAM-GPT), 아프리카의 마사카네(Masakhane) 이니셔티브 등이 해당 지역의 언어 모델 개발에 집중하고 있는데, 이와 같은 시도를 통하여 각 지역 및 국가가 ‘디지털 독립성’을 지킬 수 있기를 개인적으로 바라는 바이다.
디지털 독립성은 포용적인 오디오 업계를 만드는 데에 필수적인데, 아쿠북스(AkooBooks) 설립자인 아마댓슨(Ama Dadson)은 “향후 3년 이내에 그 방향이 어느 정도 결정될 것”이라고 하였다. 소수의 언어와 그 언어의 서사가 세계적으로 배포되어 있는 지금, 다양한 문화와 목소리를 오디오북 시장에 개입시키는 시도가 세계의 경제적, 사회적, 문화적 균형에 필요하다. 그리고 이를 통하여 공정한 디지털 미래를 형성한다면 오디오북 업계는 더욱 풍요롭고 다채로워질 것이다.
1-3. 인공지능 도구가 항상 비용과 제작 시간을 줄여주는 것은 아니다.
많은 AI 도구는 녹음 중 실시간 피드백 제공이나 불일치 또는 누락된 대사를 표시하는 등 수정 과정을 돕고, 대본 각색, 캐릭터 배정, 특수 음향 효과 설계까지 제공하며 전반적인 제작을 지원한다. 하지만 이러한 AI 기반 솔루션의 장점이 모든 상황에 적용되는 것은 아니다. 니치 및 백타이틀용 오디오북 제작에는 이러한 도구가 특히 도움이 될 수 있지만, 높은 품질의 오디오 제작이 목표인 경우에는 그렇지 않은 경우가 많다. 인간이 섬세하게 후반 작업을 해야 하고, 이에 많은 시간이 필요하기 때문이다. “인공지능 도구는 비교적 단순한 언어로 쓰인 예측 가능한 서사 구조의 소설, 자기계발서, 로맨스 장르에는 완벽할 수 있습니다. 하지만 (기존의 관행과는 달리) 논픽션 도서에는 부적합할 수 있어요. 복잡한 전문 용어, 여러 언어로 쓰인 이름들, 생소한 장소, 약어, 과학적 표현을 처리할 때 AI는 여전히 실수를 저지르거든요. 반면, 인간 성우는 간단한 메모나 발음 가이드만 있으면 이를 쉽게 해결할 수 있죠. 그런데 아이러니하게도 이런 논픽션 도서일수록 우리는 더 저렴하게 제작하고 싶어 합니다.”(로버트 홀름스트룀(Robert Holmström), 이어셀렉트(EarSelect)) 복잡하고 기술적인 내용에서 비롯된 오류, 발음 오류, 낭독 시 문맥에 맞는 강조의 부족 등으로 상당한 수작업이 필요하기 때문에, 도서 특성별로 인공지능 툴의 적용 여부를 판단해 볼 수 있겠다.
2. 인공지능 도구가 전하는 새로운 기회
글로벌 오디오북 시장은 지속적으로 성장하여 2030년에 350억 달러에 이를 것으로 예측된다.¹ 이 성장세는 오디오 콘텐츠의 증가 여부에 달려 있다. 현재, 가장 많은 타이틀 수를 보유한 언어는 영어와 독일어로, 80만 권의 오디오북이 영어로, 30만 권이 독일어로 제작되었다. 다른 언어는 소위 ‘오디오북 신흥 시장’에 속하는데, 스페인어 및 프랑스어 오디오북은 각기 4만 5천 권, 2만 5천 권에 달한다.
업계 전문가들은 더욱 다양한 언어로 오디오를 제작하는 것이 세계적인 오디오북 청취를 늘릴 수 있다고 말한다. 특히, 남미, 아프리카, 아랍어 사용 지역에서 다양한 현지 억양과 언어를 반영하여 오디오북을 제작하고, 지역 작가와 현지 주제에 맞는 오디오북을 제작할 수 있겠다. 그리고 오디오북의 전 세계 동시 출간을 꾀할 수도 있는데, 이때 인공지능 도구가 큰 역할을 할 수 있다. (이 때, 해당 지역이나 문화권에서 직접 제작한 인공지능 도구를 사용한다면 이상적이겠다.)
영미권 전자책의 95%는 아직 오디오북 버전으로 출간되지 않았는데, 이는 약 510만 권의 도서가 오디오북 버전이 필요하다는 뜻이다.² 95%라는 이 수치는 비 영미권 타이틀에서는 그 비중이 더 증가한다. 오디오북 시장의 성장 가능성, 인공지능 툴로 제작할 수 있는 다국어 오디오북, 그리고 무엇보다 아직 적은 오디오북의 수는 새로운 시장의 문을 활짝 열었다.
¹ Audiobook Global Growth Report (2024) https://www.buchmesse.de/files/media/pdf/FBM_Dosdoce_Whitepaper_AUDIOBOOK_GLOBAL_GROWTH_2024.pdf
2-1. 오디오 번역과 언어
다국어 오디오 제작과 관련하여, 콘텐츠의 잘못된 번역은 수년간 쌓아온 출판사의 평판과 신뢰도를 쉽게 훼손시킬 수 있다. 따라서, AI 번역 도구는 인간과 기계가 결합된 하이브리드 작업 흐름을 제공해야 하는데, 관련 예시로 ‘아니아라.원(Aniara.one)’을 들 수 있다. 이 출판 플랫폼은 특정 장르와 작가에 맞춘 정교한 언어 모델을 구축하였는데, 인간의 개입하에 작품을 8개 언어로 번역한다. 창립 1년 만에 6개국의 38명의 작가, 2명의 에이전트, 4개 출판사와 계약을 체결하였다. 계약 작가의 기존 작품을 국제적인 성공작으로 탈바꿈시키는 것이 본 플랫폼의 목표이다. 이들은 출판 과정을 혁신하고 제작 비용을 최대 85%까지 낮추고자 한다.
이러한 번역 도구는 다양한 목소리를 더 넓은 지역에 배포할 기회를 주는 동시에, (특히) 영미권 오디오북이 더욱더 활발하게 타 대륙의 오디오 시장을 잠식할 가능성 또한 열었다. 언어뿐만 아니라 방언, 억양 등도 획일화되고 있어, 다양한 언어와 방언을 반영한 오디오 제작이 필요하다.
2-2. 마케팅의 초개인화
청취자는 콘텐츠의 홍수 속에서 자신의 관심사에 맞는 오디오북을 쉽게 찾을 수 있어야 한다. 이를 위해 현 오디오 업계는 브랜드를 구축하고, 생성된 마케팅 자료로 인터랙티브한 경험을 제공하는 것에 주목하고 있다. 고도로 타게팅된 광고, 플랫폼 맞춤형 콘텐츠, 정확한 메타데이터의 제작과 활용, 전문 성우의 목소리를 복제하여 사용하는 것으로 차별화를 만들어낼 수 있다. 전문가들은 향후 3년간 청취자가 오디오북을 발견하는 방식을 혁신해야 한다고 말한다. 현재, 많은 추천 알고리즘이 여전히 구식이고, 일반적인 카테고리에 얽매여 인기작이나 베스트셀러를 주로 홍보하기 때문이다. 복사(Voxa)는 청취자의 하루, 기분, 맥락을 이해하는 시스템인 소위 ‘청취 그래프(listening graph)’를 제작하였는데, 청취자 자신도 몰랐던 니즈를 파악하여 낭독 목소리, 억양, 이야기를 추천한다. 또한, 지역별 청취자 행동을 분석하여 장르 선호도, 청취 속도, 청취 습관에 기반해 다음으로 현지화할 타이틀도 추천한다. 이로써 복사는 실시간 개인화, 사용자 경험 개선, 평균 청취 시간 증가, 자사만의 가치 등을 현실화하였다.
² All About Digital Publishing https://all-about-digital-publishing.com/en/1/start
Dosdoce, ‘Al and Audio: How Artificial Intelligence is Redefining the Audiobook Industry’, Frankfuter Buchmesse, 2025
2-3. AI 도구를 활용한 사례
포켓 FM
오디오 엔터테인먼트 플랫폼인 포켓 FM(Pocket FM)은 자체 개발한 인공지능 시스템을 통해 창작자들이 대본 작성과 음성 생성, 사운드 디자인, 다국어 현지화를 가능케 하는 맞춤형 AI 인프라를 구축하였다.
넷플릭스
인공지능 도구를 사용하여 주요 SF 시리즈를 제작하였다. 프리비주얼라이제이션, 촬영 기획, 대형 제작비가 있어야 가능했던 디에이징 같은 효과 등을 적용하였다. 올해에 인터랙티브 광고도 선보일 예정이다. 영화업계에서는 인공지능으로 음향 효과 복원, 손상 복구, 해상도 개선 작업 등을 진행하고 있다. 같은 방식으로, 출판사들도 오래전에 제작된 오디오북의 품질을 향상하고, 음향 효과를 넣는 등의 방안을 생각해 볼 수 있다.
뉴욕 타임스
대부분의 기사가 게시되는 즉시 청취할 수 있다. 이를 통하여 접근성을 높이고 콘텐츠를 접하는 새로운 방법을 제공한다.
디지털 출판 동향 및 저작권 문제 분석, 오디오북 산업의 새로운 국면 : 인공지능이 만든 기회와 도전
3. 인공지능이 던진 도전과 과제
3-1. 올해, 합성 음성으로 제작된 영어 오디오북의 수는 인간이 낭독한 오디오북의 수를 넘을 전망이다.
40,000개 이상의 AI 음성 오디오북을 제공하는 오더블(Audible)은 올해 인공지능 번역 및 100여 개의 합성 음성을 제공하는 내레이션 서비스를 도입하여 오디오북 제작 전 과정을 관리하고자 한다. 사가 출판사(Saga: Lindhardt og Ringhof Forlag)의 라세 코르세만 호른(Lasse Korsemann Horne)은 “전 세계의 모든 책이 새로운 형식으로 접근 가능해지고, 오디오북 출판사의 비즈니스 모델이 끝을 맞을 것이며, 출판사가 오디오북의 저작권을 오디오북 출판사에 판매하는 것은 더 이상 의미가 없을 것”이라고 지적하였다. 그리고 페임플레이(Fameplay)의 대표 유라이 펠릭스(Juraj Felix)는 ‘구텐베르크적인 순간’이 왔다고 현시점을 표현하였다.
하지만 언젠가 인공지능이 생성한 오디오북과 질 낮은 콘텐츠(AI slop)가 넘쳐나고, 거의 모든 오디오가 똑같이 들리는 상황이 오면 사람이 만든 스토리텔링, 훌륭히 제작되고, 감정을 울리는 오디오의 가치가 급격히 높아질 것이다. 시머(Shimmr)의 설립자인 나딤 사덱(Nadim Sadek)은 “사람의 목소리는 진정한 의도와 감정을 지닌다. 우리는 현재 인간의 목소리가 주는 믿음을 잃을 위기에 처해 있다”고 말하였고, 회어부흐 함부르크(Hörbuch Hamburg)의 대표 콜린 하우어(Colin Hauer)는 “단순히 버튼을 클릭하는 것보다 전문가와 협력하는 것이 당장은 더 비싸지만, 장기적으로 보면 그만한 가치가 있다”고 말하였다.
3-2. 음성 라벨링
오디오 제작 및 배포 방식과 더불어, 사용 허가, 저작권 관리, 보상 제도도 근본적으로 변하게 된다. 아직은 업계 전반에 확립된 협약이 없어, 명예 훼손이나 잠재적인 법적 분쟁, 허가받지 않은 음성 및 콘텐츠 확보 등의 위험이 크다. 그리고 일자리 대체와 창의적 기술의 가치 하락, 신원 사기, 목소리 모방, 허위 정보의 증가는
이미 새로운 현실이 되었다. 합성 음성이 자연스러워질수록 오디오 콘텐츠를 믿을 수 있는지가 중요해지는 데, 여기에 디지털 워터마크, 명확한 음성 출처 표시, 그리고 생성된 콘텐츠에 대한 분명한 라벨링이 필요하다.
“출판사의 주요 자산은 저작권입니다. 인공지능이 다양한 언어로 작품을 제작할 수 있게 된 글로벌 환경에서는 저작권을 전 세계적으로 보호하는 것이 과제가 될 거예요. […] 그리고 합성 및 인간 음성을 엄격하게 라벨링하여 투명성을 확보하는 것 등의 관련 규칙을 모두가 지켜야 합니다. 오디오 업계와 시장 성장을 위해서 말이에요.” (리자 파하(Liza Faja), 리지 오디오(Lizzie Audio))
이러한 라벨링은 소비자가 정보를 기반으로 선택할 수 있게 도우며, 투명성을 높인다. 이와 관련하여, 영국 출판협회 산하의 오디오 출판 그룹 의장인 존 와트(Jon Watt)를 중심으로 한 워킹 그룹이 북미 및 유럽의 주요 인사들과 함께 용어 통일화, 합성 음성이 사용된 오디오 제품의 분류와 같은 ‘라벨링 가이드라인’을 개발하고 있다. 예를 들면, 합성 음성은 ‘AI voice(인공지능 음성)’, 인간 목소리는 ‘authorized voice replica(공인 음성 복제본)’로 라벨링하는 것이다.
3-3. 저작권과 권리, 새로운 보상 체계
인공지능의 확산은 기존의 저작권, 유통, 보상 구조를 (완전히)변화시키게 된다. 왜냐하면 “현 구조는 인쇄본, 전자책, 오디오북을 막론하고 ‘인공지능을 이용한 책의 번역’이 이루어지는 시대에 맞지 않기 때문이다.” (테드 맥로이(Thad McIlroy), 출판의 미래(The Future of Publishing)) 현재 대부분의 디지털 유통 플랫폼은 저자와 출판사가 전자책과 오디오북의 ‘원서와 (예를 들어)30가지 번역 버전을 동시에 업로드’하는 것을 지원하지 않는다. 스트리밍 플랫폼을 비롯한 유통 채널은 기존의 지역 기반 출시 시스템을 글로벌, 온디맨드, 다국어 출시에 맞게 바꾸어야 한다. 또한, 출판계는 테크 업계와 함께 도서의 파생 상품 및 콘텐츠를 관리하고 보상하는 새로운 체계를 설립해야 한다. 인공지능을 사용하여 제작되었거나 인공지능으로 강화된 콘텐츠 및 상품과 연관된 저작권 지급 구조를 공정하게 만드는 작업이 필요하다.
잘 알려졌다시피, 덴마크는 곧 유럽 최초로 딥페이크 대응을 위해 개인의 얼굴, 목소리, 신체에 대한 저작권을 부여하는 국가가 된다. 이는 인공지능이 목소리, 얼굴, 전신 동작까지 쉽게 복제할 수 있는 시대에 개인이 자신의 신체에 대한 권리를 소유한다는 분명한 메시지를 전하며, 개인에게 자신의 권리에 대한 통제권을 되돌려주는 중요한 발전이다. 이를 바탕으로 한 저작권법 개정을 통하여 자신의 모습과 목소리 등이 이용된 무허가 영상, 오디오, 이미지에 대하여 법적 조치를 취할 수 있게 되는데, 저작물에 대해서도 동등한 방향으로 나아가야 한다.
3-4. 혁신을 위한 파트너십
한편, 인공지능 도구의 발전 속도는 전문가조차 따라잡기 힘들 정도로 빠르다. 그래서 “인공지능 툴과 관련된 인하우스 팀의 노력은 제한적일 수밖에 없는데, 출판업계가 함께 발전하기 위해서는 강력한 파트너쉽과 전문 정보 및 도구에의 공유가 필요합니다. […] (발전과 혁신을 위한) 열쇠는 생성형에서 에이전트 인공지능 도구를 사용하는 것인데요, […] 이를 통하여 새로운 수익 채널을 만들고, 더 맞춤화된 다이내믹한 서비스를 제공할 수 있지요.” (아란차 라라우리(Arantza Larrauri), 드마르크(DeMarque))
머지않아 “청취자는 자신이 선호하는 음성을 고르고, 낭독 속도와 내레이션의 감정적 톤을 조절하는 등 초개인화되고 인터랙티브한 경험을 할 수 있을 것이다.” (리카르드 피두(Ricard Fideu), 우라노 월드(Urano World)) 더 나아가, “한 권의 책의 파생 상품을 온디맨드(on demand)로 제작하고, 순식간에 책 팟캐스트를 만들고, 팬들이 함께 이야기할 수 있는 실시간 반응형 책 속 인물을 만들어 수익을 증대할 수도 있을 겁니다.” (하비에르 델 푸에르토(Javier del Puerto), 콸리아(Kwalia)) 한 걸음 더 나아가, 차세대 인공지능 번역 도구를 통하여 청취자가 그 어떤 언어로든 즉각적으로 번역된 오디오북을 들을 수 있게 될지도 모른다.
디지털 출판 동향 및 저작권 문제 분석, 오디오북 산업의 새로운 국면 : 인공지능이 만든 기회와 도전
<출처> 한국출판문화산업진흥원






