웨이브넷
웨이브넷(WaveNet)은 원본 오디오를 생성하는 심층 신경망이다. 런던에 본사를 둔 AI 기업 딥마인드의 연구원들이 만들었다. 2016년 9월에 발표된 논문에[1] 기술된 이 기술은 실제 음성 녹음으로 훈련된 인공 신경망 방식을 사용하여 파형을 직접 모델링함으로써 비교적 현실적인 사람과 같은 음성을 생성할 수 있다. 미국 영어와 북경어로 진행된 테스트에 따르면, 이 시스템은 구글의 기존 최고 텍스트-음성 변환 (TTS) 시스템을 능가하는 것으로 나타났지만, 2016년 현재 웨이브넷의 텍스트-음성 변환은 실제 사람의 음성보다 덜 설득력이 있었다.[2] 웨이브넷이 원본 파형을 생성할 수 있다는 것은 음악을 포함한 모든 종류의 오디오를 모델링할 수 있다는 것을 의미한다.[3]
역사
[편집]애플의 Siri, 마이크로소프트의 코타나, 아마존 알렉사, 구글 어시스턴트와 같은 소프트웨어의 인기로 인해 텍스트에서 음성을 생성하는 작업은 점점 더 일반화되고 있다.[4]
대부분의 이러한 시스템은 인식 가능한 소리와 단어를 형성하기 위해 소리 조각을 연결하는 기술의 변형을 사용한다.[5] 이 중 가장 일반적인 것은 연결 TTS라고 불린다.[6] 이 방식은 단일 화자로부터 녹음된 대규모 음성 조각 라이브러리로 구성되며, 이 조각들은 완전한 단어와 소리를 생성하기 위해 연결된다. 결과는 이상한 음률과 톤으로 인해 부자연스럽게 들린다.[7] 녹음된 라이브러리에 의존하기 때문에 음성을 수정하거나 변경하기 어렵다.[8]
매개변수 TTS로 알려진 또 다른 기술은[9] 수학적 모델을 사용하여 소리를 재현하고, 이 소리들을 조합하여 단어와 문장을 생성한다. 소리 생성에 필요한 정보는 모델의 매개변수에 저장된다. 출력 음성의 특성은 모델 입력에 의해 제어되며, 음성은 일반적으로 보코더라는 음성 합성기를 사용하여 생성된다. 이 또한 부자연스러운 소리 오디오를 초래할 수 있다.
디자인 및 진행 중인 연구
[편집]배경
[편집]웨이브넷은 순방향 신경망의 한 종류인 심층 합성곱 신경망 (CNN)이다. 웨이브넷에서 CNN은 원본 신호를 입력으로 받아 한 번에 하나의 샘플을 합성한다. 이는 μ-law 컴팬딩 변환으로 인코딩되고 256가지 가능한 값으로 양자화된 신호 값의 소프트맥스 (즉, 범주형) 분포에서 샘플링하여 수행된다.[10]
초기 개념 및 결과
[편집]2016년 9월 딥마인드 연구 논문인 WaveNet: A Generative Model for Raw Audio에 따르면,[11] 네트워크는 영어와 북경어 음성의 실제 파형을 공급받았다. 이 파형이 네트워크를 통과하면서 오디오 파형이 시간에 따라 어떻게 진화하는지 설명하는 일련의 규칙을 학습한다. 훈련된 네트워크는 초당 16,000샘플로 새로운 음성 유사 파형을 생성하는 데 사용될 수 있다. 이 파형에는 현실적인 숨소리와 입술 마찰음이 포함되지만, 어떤 언어에도 일치하지 않는다.[12]
웨이브넷은 다양한 음성을 정확하게 모델링할 수 있으며, 입력의 악센트와 톤이 출력과 상관관계를 가진다. 예를 들어, 독일어로 훈련되면 독일어 음성을 생성한다.[13] 이 기능은 웨이브넷에 음악과 같은 다른 입력이 주어지면 출력이 음악적일 것이라는 의미도 있다. 출시 당시 딥마인드는 웨이브넷이 클래식 음악과 같은 소리를 내는 파형을 생성할 수 있음을 보여주었다.[14]
콘텐츠 (음성) 교환
[편집]2018년 6월 논문 '분리된 순차 오토인코더'[15]에 따르면, 딥마인드는 웨이브넷을 오디오 및 음성 "콘텐츠 교환"에 성공적으로 사용했다. 이 네트워크는 원본 녹음의 텍스트 및 기타 특징을 유지하면서 오디오 녹음의 음성을 다른 기존 음성으로 교환할 수 있다. "우리는 또한 오디오 시퀀스 데이터에 대해서도 실험한다. 우리의 분리된 표현은 음성 내용을 조건으로 하면서 화자 정체성을 서로 변환할 수 있게 한다." (p. 5) "오디오의 경우, 이를 통해 남성 화자를 여성 화자로, 또는 그 반대로 변환할 수 있다[...]." (p. 1) 논문에 따르면, 프로그램이 개별 특징을 학습한 후 만족스러운 품질로 한 음성에서 다른 음성으로 변환을 수행하기 위해서는 원본 음성과 대상 음성 모두의 기존 음성 녹음이 최소 두 자릿수 시간(약 50시간) 이상 웨이브넷에 입력되어야 한다. 저자들은 "[모델의] 장점은 동적 특징과 정적 특징을 분리한다는 점이다[...]." (p. 8)라고 강조한다. 즉, 웨이브넷은 한편으로는 말하는 텍스트와 전달 방식(변조, 속도, 음조, 분위기 등)을 구별하여 한 음성에서 다른 음성으로 변환하는 동안 유지하고, 다른 한편으로는 교환해야 할 원본 음성 및 대상 음성 모두의 기본 특징을 구별할 수 있다.
2019년 1월 후속 논문 "WaveNet 오토인코더를 사용한 비지도 음성 표현 학습"[16]은 "콘텐츠 교환"을 위해 동적 및 정적 특징 간의 적절한 자동 인식 및 구별을 성공적으로 강화하는 방법을 자세히 설명하며, 특히 기존 오디오 녹음의 음성 교환을 포함하여 신뢰성을 높였다. 2018년 9월(최신 개정 2019년 1월)에 발표된 또 다른 후속 논문 "샘플 효율적인 적응형 텍스트-음성 변환"[17]에서는 딥마인드가 WaveNet을 통해 기존 음성을 샘플링하는 데 필요한 실제 녹음의 최소량을 "단 몇 분의 오디오 데이터"로 줄이면서도 고품질 결과를 유지하는 데 성공했다고 밝혔다.
웨이브넷의 음성 복제 능력은 생존 인물과 사망한 인물의 음성을 모방할 수 있다는 윤리적 우려를 불러일으켰다. 2016년 영국방송공사 기사에 따르면, 유사한 음성 복제 기술을 개발하는 회사들(예: 어도비 보코)은 위조를 방지하기 위해 사람에게 들리지 않는 워터마크를 삽입할 계획이며, 엔터테인먼트 산업의 요구를 충족시키는 음성 복제는 법의학적 증거 방법 및 전자 신분증 장치를 속이는 데 필요한 것보다 훨씬 낮은 복잡성을 가지며 다른 방법을 사용하므로, 자연 음성과 엔터테인먼트 산업 목적을 위해 복제된 음성은 기술적 분석을 통해 쉽게 구별될 수 있다고 주장한다.[18]
응용 분야
[편집]출시 당시 딥마인드는 웨이브넷이 실제 애플리케이션에 사용하기에는 너무 많은 계산 처리 능력을 요구한다고 말했다.[19] 2017년 10월 현재 구글은 음성 품질 향상과 함께 1,000배의 성능 향상을 발표했다. 웨이브넷은 이후 모든 구글 플랫폼에서 미국 영어 및 일본어 구글 어시스턴트 음성 생성에 사용되었다.[20] 2017년 11월, 딥마인드 연구원들은 "확률 밀도 증류(Probability Density Distillation)"라고 불리는 "실시간보다 20배 이상 빠르게 고품질 음성 샘플을 생성하는" 제안된 방법에 대한 연구 논문을 발표했다.[21] 2018년 5월 연례 I/O 개발자 컨퍼런스에서 새로운 구글 어시스턴트 음성이 웨이브넷 덕분에 가능해졌다고 발표되었다. 웨이브넷은 성우 샘플의 원본 오디오를 모델링함으로써 음성 모델을 생성하는 데 필요한 오디오 녹음 수를 크게 줄였다.[22]
같이 보기
[편집]각주
[편집]- ↑ van den Oord, Aaron; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol; Graves, Alex; Kalchbrenner, Nal; Senior, Andrew; Kavukcuoglu, Koray (2016년 9월 12일). “WaveNet: A Generative Model for Raw Audio”. arXiv:1609.03499 [cs.SD].
- ↑ Kahn, Jeremy (2016년 9월 9일). “Google's DeepMind Achieves Speech-Generation Breakthrough”. 《Bloomberg.com》. 2017년 7월 6일에 확인함.
- ↑ Meyer, David (2016년 9월 9일). “Google's DeepMind Claims Massive Progress in Synthesized Speech”. 《Fortune》. 2017년 7월 6일에 확인함.
- ↑ Kahn, Jeremy (2016년 9월 9일). “Google's DeepMind Achieves Speech-Generation Breakthrough”. 《Bloomberg.com》. 2017년 7월 6일에 확인함.
- ↑ Condliffe, Jamie (2016년 9월 9일). “When this computer talks, you may actually want to listen” (영어). 《MIT Technology Review》. 2017년 7월 6일에 확인함.
- ↑ Hunt, A. J.; Black, A. W. (May 1996). 〈Unit selection in a concatenative speech synthesis system using a large speech database〉. 《1996 IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings》 (PDF) 1. 373–376쪽. CiteSeerX 10.1.1.218.1335. doi:10.1109/ICASSP.1996.541110. ISBN 978-0-7803-3192-1. S2CID 14621185.
- ↑ Coldewey, Devin (2016년 9월 9일). “Google's WaveNet uses neural nets to generate eerily convincing speech and music”. 《TechCrunch》. 2017년 7월 6일에 확인함.
- ↑ van den Oord, Aäron; Dieleman, Sander; Zen, Heiga (2016년 9월 8일). “WaveNet: A Generative Model for Raw Audio”. 《DeepMind》. 2017년 7월 6일에 확인함.
- ↑ Zen, Heiga; Tokuda, Keiichi; Black, Alan W. (2009). 《Statistical parametric speech synthesis》. 《Speech Communication》 51. 1039–1064쪽. CiteSeerX 10.1.1.154.9874. doi:10.1016/j.specom.2009.04.004. S2CID 3232238.
- ↑ Oord, Aaron van den; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol; Graves, Alex; Kalchbrenner, Nal; Senior, Andrew; Kavukcuoglu, Koray (2016년 9월 12일). “WaveNet: A Generative Model for Raw Audio”. arXiv:1609.03499 [cs.SD].
- ↑ Aaron van den Oord; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol; Graves, Alex; Kalchbrenner, Nal; Senior, Andrew; Kavukcuoglu, Koray (2016). “WaveNet: A Generative Model for Raw Audio”. arXiv:1609.03499 [cs.SD].
- ↑ Gershgorn, Dave (2016년 9월 9일). “Are you sure you're talking to a human? Robots are starting to sounding eerily lifelike” (미국 영어). 《Quartz》. 2017년 7월 6일에 확인함.
- ↑ Coldewey, Devin (2016년 9월 9일). “Google's WaveNet uses neural nets to generate eerily convincing speech and music”. 《TechCrunch》. 2017년 7월 6일에 확인함.
- ↑ van den Oord, Aäron; Dieleman, Sander; Zen, Heiga (2016년 9월 8일). “WaveNet: A Generative Model for Raw Audio”. 《DeepMind》. 2017년 7월 6일에 확인함.
- ↑ Li, Yingzhen; Mandt, Stephan (2018). “Disentangled Sequential Autoencoder”. arXiv:1803.02991 [cs.LG].
- ↑ Chorowski, Jan; Weiss, Ron J.; Bengio, Samy; Van Den Oord, Aaron (2019). 《Unsupervised Speech Representation Learning Using WaveNet Autoencoders》. 《IEEE/ACM Transactions on Audio, Speech, and Language Processing》 27. 2041–2053쪽. arXiv:1901.08810. doi:10.1109/TASLP.2019.2938863.
- ↑ Chen, Yutian; Assael, Yannis; Shillingford, Brendan; Budden, David; Reed, Scott; Zen, Heiga; Wang, Quan; Cobo, Luis C.; Trask, Andrew; Laurie, Ben; Gulcehre, Caglar; Aäron van den Oord; Vinyals, Oriol; Nando de Freitas (2018). “Sample Efficient Adaptive Text-to-Speech”. arXiv:1809.10460 [cs.LG].
- ↑ Adobe Voco 'Photoshop-for-voice' causes concern, 7 November 2016, BBC
- ↑ “Adobe Voco 'Photoshop-for-voice' causes concern” (영국 영어). 《BBC News》. 2016년 11월 7일. 2017년 7월 6일에 확인함.
- ↑ WaveNet launches in the Google Assistant
- ↑ Aaron van den Oord; Li, Yazhe; Babuschkin, Igor; Simonyan, Karen; Vinyals, Oriol; Kavukcuoglu, Koray; George van den Driessche; Lockhart, Edward; Cobo, Luis C.; Stimberg, Florian; Casagrande, Norman; Grewe, Dominik; Noury, Seb; Dieleman, Sander; Elsen, Erich; Kalchbrenner, Nal; Zen, Heiga; Graves, Alex; King, Helen; Walters, Tom; Belov, Dan; Hassabis, Demis (2017). “Parallel WaveNet: Fast High-Fidelity Speech Synthesis”. arXiv:1711.10433 [cs.LG].
- ↑ Martin, Taylor (2018년 5월 9일). “Try the all-new Google Assistant voices right now” (영어). 《CNET》. 2018년 5월 10일에 확인함.