본문으로 이동

웨이브넷

위키백과, 우리 모두의 백과사전.
(WaveNet에서 넘어옴)

웨이브넷(WaveNet)은 원본 오디오를 생성하는 심층 신경망이다. 런던에 본사를 둔 AI 기업 딥마인드의 연구원들이 만들었다. 2016년 9월에 발표된 논문에[1] 기술된 이 기술은 실제 음성 녹음으로 훈련된 인공 신경망 방식을 사용하여 파형을 직접 모델링함으로써 비교적 현실적인 사람과 같은 음성을 생성할 수 있다. 미국 영어와 북경어로 진행된 테스트에 따르면, 이 시스템은 구글의 기존 최고 텍스트-음성 변환 (TTS) 시스템을 능가하는 것으로 나타났지만, 2016년 현재 웨이브넷의 텍스트-음성 변환은 실제 사람의 음성보다 덜 설득력이 있었다.[2] 웨이브넷이 원본 파형을 생성할 수 있다는 것은 음악을 포함한 모든 종류의 오디오를 모델링할 수 있다는 것을 의미한다.[3]

역사

[편집]

애플의 Siri, 마이크로소프트의 코타나, 아마존 알렉사, 구글 어시스턴트와 같은 소프트웨어의 인기로 인해 텍스트에서 음성을 생성하는 작업은 점점 더 일반화되고 있다.[4]

대부분의 이러한 시스템은 인식 가능한 소리와 단어를 형성하기 위해 소리 조각을 연결하는 기술의 변형을 사용한다.[5] 이 중 가장 일반적인 것은 연결 TTS라고 불린다.[6] 이 방식은 단일 화자로부터 녹음된 대규모 음성 조각 라이브러리로 구성되며, 이 조각들은 완전한 단어와 소리를 생성하기 위해 연결된다. 결과는 이상한 음률과 톤으로 인해 부자연스럽게 들린다.[7] 녹음된 라이브러리에 의존하기 때문에 음성을 수정하거나 변경하기 어렵다.[8]

매개변수 TTS로 알려진 또 다른 기술은[9] 수학적 모델을 사용하여 소리를 재현하고, 이 소리들을 조합하여 단어와 문장을 생성한다. 소리 생성에 필요한 정보는 모델의 매개변수에 저장된다. 출력 음성의 특성은 모델 입력에 의해 제어되며, 음성은 일반적으로 보코더라는 음성 합성기를 사용하여 생성된다. 이 또한 부자연스러운 소리 오디오를 초래할 수 있다.

디자인 및 진행 중인 연구

[편집]

배경

[편집]

웨이브넷은 순방향 신경망의 한 종류인 심층 합성곱 신경망 (CNN)이다. 웨이브넷에서 CNN은 원본 신호를 입력으로 받아 한 번에 하나의 샘플을 합성한다. 이는 μ-law 컴팬딩 변환으로 인코딩되고 256가지 가능한 값으로 양자화된 신호 값의 소프트맥스 (즉, 범주형) 분포에서 샘플링하여 수행된다.[10]

초기 개념 및 결과

[편집]

2016년 9월 딥마인드 연구 논문인 WaveNet: A Generative Model for Raw Audio에 따르면,[11] 네트워크는 영어와 북경어 음성의 실제 파형을 공급받았다. 이 파형이 네트워크를 통과하면서 오디오 파형이 시간에 따라 어떻게 진화하는지 설명하는 일련의 규칙을 학습한다. 훈련된 네트워크는 초당 16,000샘플로 새로운 음성 유사 파형을 생성하는 데 사용될 수 있다. 이 파형에는 현실적인 숨소리와 입술 마찰음이 포함되지만, 어떤 언어에도 일치하지 않는다.[12]

웨이브넷은 다양한 음성을 정확하게 모델링할 수 있으며, 입력의 악센트와 톤이 출력과 상관관계를 가진다. 예를 들어, 독일어로 훈련되면 독일어 음성을 생성한다.[13] 이 기능은 웨이브넷에 음악과 같은 다른 입력이 주어지면 출력이 음악적일 것이라는 의미도 있다. 출시 당시 딥마인드는 웨이브넷이 클래식 음악과 같은 소리를 내는 파형을 생성할 수 있음을 보여주었다.[14]

콘텐츠 (음성) 교환

[편집]

2018년 6월 논문 '분리된 순차 오토인코더'[15]에 따르면, 딥마인드는 웨이브넷을 오디오 및 음성 "콘텐츠 교환"에 성공적으로 사용했다. 이 네트워크는 원본 녹음의 텍스트 및 기타 특징을 유지하면서 오디오 녹음의 음성을 다른 기존 음성으로 교환할 수 있다. "우리는 또한 오디오 시퀀스 데이터에 대해서도 실험한다. 우리의 분리된 표현은 음성 내용을 조건으로 하면서 화자 정체성을 서로 변환할 수 있게 한다." (p. 5) "오디오의 경우, 이를 통해 남성 화자를 여성 화자로, 또는 그 반대로 변환할 수 있다[...]." (p. 1) 논문에 따르면, 프로그램이 개별 특징을 학습한 후 만족스러운 품질로 한 음성에서 다른 음성으로 변환을 수행하기 위해서는 원본 음성과 대상 음성 모두의 기존 음성 녹음이 최소 두 자릿수 시간(약 50시간) 이상 웨이브넷에 입력되어야 한다. 저자들은 "[모델의] 장점은 동적 특징과 정적 특징을 분리한다는 점이다[...]." (p. 8)라고 강조한다. 즉, 웨이브넷은 한편으로는 말하는 텍스트와 전달 방식(변조, 속도, 음조, 분위기 등)을 구별하여 한 음성에서 다른 음성으로 변환하는 동안 유지하고, 다른 한편으로는 교환해야 할 원본 음성 및 대상 음성 모두의 기본 특징을 구별할 수 있다.

2019년 1월 후속 논문 "WaveNet 오토인코더를 사용한 비지도 음성 표현 학습"[16]은 "콘텐츠 교환"을 위해 동적 및 정적 특징 간의 적절한 자동 인식 및 구별을 성공적으로 강화하는 방법을 자세히 설명하며, 특히 기존 오디오 녹음의 음성 교환을 포함하여 신뢰성을 높였다. 2018년 9월(최신 개정 2019년 1월)에 발표된 또 다른 후속 논문 "샘플 효율적인 적응형 텍스트-음성 변환"[17]에서는 딥마인드가 WaveNet을 통해 기존 음성을 샘플링하는 데 필요한 실제 녹음의 최소량을 "단 몇 분의 오디오 데이터"로 줄이면서도 고품질 결과를 유지하는 데 성공했다고 밝혔다.

웨이브넷의 음성 복제 능력은 생존 인물과 사망한 인물의 음성을 모방할 수 있다는 윤리적 우려를 불러일으켰다. 2016년 영국방송공사 기사에 따르면, 유사한 음성 복제 기술을 개발하는 회사들(예: 어도비 보코)은 위조를 방지하기 위해 사람에게 들리지 않는 워터마크를 삽입할 계획이며, 엔터테인먼트 산업의 요구를 충족시키는 음성 복제는 법의학적 증거 방법 및 전자 신분증 장치를 속이는 데 필요한 것보다 훨씬 낮은 복잡성을 가지며 다른 방법을 사용하므로, 자연 음성과 엔터테인먼트 산업 목적을 위해 복제된 음성은 기술적 분석을 통해 쉽게 구별될 수 있다고 주장한다.[18]

응용 분야

[편집]

출시 당시 딥마인드는 웨이브넷이 실제 애플리케이션에 사용하기에는 너무 많은 계산 처리 능력을 요구한다고 말했다.[19] 2017년 10월 현재 구글은 음성 품질 향상과 함께 1,000배의 성능 향상을 발표했다. 웨이브넷은 이후 모든 구글 플랫폼에서 미국 영어 및 일본어 구글 어시스턴트 음성 생성에 사용되었다.[20] 2017년 11월, 딥마인드 연구원들은 "확률 밀도 증류(Probability Density Distillation)"라고 불리는 "실시간보다 20배 이상 빠르게 고품질 음성 샘플을 생성하는" 제안된 방법에 대한 연구 논문을 발표했다.[21] 2018년 5월 연례 I/O 개발자 컨퍼런스에서 새로운 구글 어시스턴트 음성이 웨이브넷 덕분에 가능해졌다고 발표되었다. 웨이브넷은 성우 샘플의 원본 오디오를 모델링함으로써 음성 모델을 생성하는 데 필요한 오디오 녹음 수를 크게 줄였다.[22]

같이 보기

[편집]

각주

[편집]
  1. van den Oord, Aaron; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol; Graves, Alex; Kalchbrenner, Nal; Senior, Andrew; Kavukcuoglu, Koray (2016년 9월 12일). “WaveNet: A Generative Model for Raw Audio”. arXiv:1609.03499 [cs.SD]. 
  2. Kahn, Jeremy (2016년 9월 9일). “Google's DeepMind Achieves Speech-Generation Breakthrough”. 《Bloomberg.com》. 2017년 7월 6일에 확인함. 
  3. Meyer, David (2016년 9월 9일). “Google's DeepMind Claims Massive Progress in Synthesized Speech”. 《Fortune》. 2017년 7월 6일에 확인함. 
  4. Kahn, Jeremy (2016년 9월 9일). “Google's DeepMind Achieves Speech-Generation Breakthrough”. 《Bloomberg.com》. 2017년 7월 6일에 확인함. 
  5. Condliffe, Jamie (2016년 9월 9일). “When this computer talks, you may actually want to listen” (영어). 《MIT Technology Review》. 2017년 7월 6일에 확인함. 
  6. Hunt, A. J.; Black, A. W. (May 1996). 〈Unit selection in a concatenative speech synthesis system using a large speech database〉. 《1996 IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings》 (PDF) 1. 373–376쪽. CiteSeerX 10.1.1.218.1335. doi:10.1109/ICASSP.1996.541110. ISBN 978-0-7803-3192-1. S2CID 14621185. 
  7. Coldewey, Devin (2016년 9월 9일). “Google's WaveNet uses neural nets to generate eerily convincing speech and music”. 《TechCrunch》. 2017년 7월 6일에 확인함. 
  8. van den Oord, Aäron; Dieleman, Sander; Zen, Heiga (2016년 9월 8일). “WaveNet: A Generative Model for Raw Audio”. 《DeepMind》. 2017년 7월 6일에 확인함. 
  9. Zen, Heiga; Tokuda, Keiichi; Black, Alan W. (2009). 《Statistical parametric speech synthesis》. 《Speech Communication》 51. 1039–1064쪽. CiteSeerX 10.1.1.154.9874. doi:10.1016/j.specom.2009.04.004. S2CID 3232238. 
  10. Oord, Aaron van den; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol; Graves, Alex; Kalchbrenner, Nal; Senior, Andrew; Kavukcuoglu, Koray (2016년 9월 12일). “WaveNet: A Generative Model for Raw Audio”. arXiv:1609.03499 [cs.SD]. 
  11. Aaron van den Oord; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol; Graves, Alex; Kalchbrenner, Nal; Senior, Andrew; Kavukcuoglu, Koray (2016). “WaveNet: A Generative Model for Raw Audio”. arXiv:1609.03499 [cs.SD]. 
  12. Gershgorn, Dave (2016년 9월 9일). “Are you sure you're talking to a human? Robots are starting to sounding eerily lifelike” (미국 영어). 《Quartz》. 2017년 7월 6일에 확인함. 
  13. Coldewey, Devin (2016년 9월 9일). “Google's WaveNet uses neural nets to generate eerily convincing speech and music”. 《TechCrunch》. 2017년 7월 6일에 확인함. 
  14. van den Oord, Aäron; Dieleman, Sander; Zen, Heiga (2016년 9월 8일). “WaveNet: A Generative Model for Raw Audio”. 《DeepMind》. 2017년 7월 6일에 확인함. 
  15. Li, Yingzhen; Mandt, Stephan (2018). “Disentangled Sequential Autoencoder”. arXiv:1803.02991 [cs.LG]. 
  16. Chorowski, Jan; Weiss, Ron J.; Bengio, Samy; Van Den Oord, Aaron (2019). 《Unsupervised Speech Representation Learning Using WaveNet Autoencoders》. 《IEEE/ACM Transactions on Audio, Speech, and Language Processing》 27. 2041–2053쪽. arXiv:1901.08810. doi:10.1109/TASLP.2019.2938863. 
  17. Chen, Yutian; Assael, Yannis; Shillingford, Brendan; Budden, David; Reed, Scott; Zen, Heiga; Wang, Quan; Cobo, Luis C.; Trask, Andrew; Laurie, Ben; Gulcehre, Caglar; Aäron van den Oord; Vinyals, Oriol; Nando de Freitas (2018). “Sample Efficient Adaptive Text-to-Speech”. arXiv:1809.10460 [cs.LG]. 
  18. Adobe Voco 'Photoshop-for-voice' causes concern, 7 November 2016, BBC
  19. “Adobe Voco 'Photoshop-for-voice' causes concern” (영국 영어). 《BBC News》. 2016년 11월 7일. 2017년 7월 6일에 확인함. 
  20. WaveNet launches in the Google Assistant
  21. Aaron van den Oord; Li, Yazhe; Babuschkin, Igor; Simonyan, Karen; Vinyals, Oriol; Kavukcuoglu, Koray; George van den Driessche; Lockhart, Edward; Cobo, Luis C.; Stimberg, Florian; Casagrande, Norman; Grewe, Dominik; Noury, Seb; Dieleman, Sander; Elsen, Erich; Kalchbrenner, Nal; Zen, Heiga; Graves, Alex; King, Helen; Walters, Tom; Belov, Dan; Hassabis, Demis (2017). “Parallel WaveNet: Fast High-Fidelity Speech Synthesis”. arXiv:1711.10433 [cs.LG]. 
  22. Martin, Taylor (2018년 5월 9일). “Try the all-new Google Assistant voices right now” (영어). 《CNET》. 2018년 5월 10일에 확인함. 

외부 링크

[편집]