본문으로 이동

15.ai

위키백과, 우리 모두의 백과사전.

15.ai
사이트 종류인공지능, 음성 합성, 생성형 인공지능
사용 언어영어
시작일2020년 3월(4년 전)(2020-03)
웹사이트15.ai
현재 상태운영 종료
설립자15

15.ai대중 매체의 가상 캐릭터의 음성을 인공지능으로 생성하는 무료 비상업적 웹 애플리케이션이다.[1][2] 매사추세츠 공과대학교 재학 당시의 인공지능 연구원 15가 개발한 이 애플리케이션은 비디오 게임, 텔레비전 프로그램, 영화 등의 캐릭터가 실시간 이상의 속도로 사용자가 입력한 텍스트를 감정을 담아 발화하도록 구현하였다.[a][3][4][5][6][7] 최소한의 학습 데이터만으로도 설득력 있는 음성을 생성할 수 있다는 점이 특징이며, "15.ai"라는 명칭은 개발자가 15초 분량의 음성만으로도 목소리를 복제할 수 있다고 주장한 데서 유래하였다. AI 붐 초기에 등장한 생성형 인공지능의 초기 응용 사례 중 하나이다.

2020년 3월에 출시된[8] 15.ai는 2021년 초 유튜브트위터 등의 소셜 미디어 플랫폼에서 바이럴이 되면서 널리 주목받았으며, 마이 리틀 포니: 우정은 마법, 팀 포트리스 2, 스폰지밥 네모바지 등의 인터넷 팬층 사이에서 빠르게 인기를 얻었다.[9][10][7][11] 이모지를 통한 감정 표현과 음성 기호를 활용한 정확한 발음 제어를 지원한다는 점에서 차별화되었다. 15.ai는 인터넷 밈콘텐츠 제작에서 AI 음성 복제(오디오 딥페이크)를 대중화한 최초의 주류 플랫폼으로 평가받는다.[12][7][13][14]

15.ai의 데이터 효율적인 음성 합성과 감정 표현 방식은 이후 AI 음성 합성 기술 발전에 영향을 미쳤다. 2022년 1월, 성우 트로이 베이커와 제휴를 맺은 Voiceverse NFT가 자사 플랫폼을 위해 15.ai의 작업물을 무단으로 사용한 것이 발견되면서 논란이 일었다. 이 서비스는 2022년 9월에 최종적으로 운영이 중단되었다. 서비스 종료 이후 다양한 상업적 대체 서비스들이 등장하였다.

역사

[편집]

배경

[편집]

인공 음성 합성 분야는 딥러닝 접근 방식의 도입으로 큰 변화를 겪었다. 2016년 딥마인드가 발표한 웨이브넷: 원시 오디오를 위한 생성 모델신경망 기반 음성 합성으로의 중요한 전환점을 마련했으며, 직접적인 파형 모델링을 통해 전례 없는 음질을 보여주었다. 웨이브넷은 초당 16,000개의 샘플로 이루어진 원시 오디오 파형을 직접 다루며, 인과적 합성곱을 통해 이전 모든 샘플을 기반으로 각 오디오 샘플의 조건부 확률 분포를 모델링했다. 이전에는 인간 음성의 미리 녹음된 부분을 이어 붙이는 연결형 합성이 인공 음성 생성의 주된 방법이었으나, 이는 종종 분절 경계에서 눈에 띄는 인위적인 요소가 있는 기계적인 소리를 만들어냈다.

타코트론과 수정된 타코트론 변형 사이의 정렬(어텐션) 비교

2년 후인 2018년 구글 AI의 타코트론이 등장했는데, 이는 신경망이 매우 자연스러운 음성 합성을 생성할 수 있지만 허용 가능한 품질을 달성하기 위해서는 수십 시간의 오디오와 같은 상당한 훈련 데이터가 필요하다는 것을 보여주었다. 타코트론은 입력 텍스트를 멜-스펙트로그램으로 변환하기 위해 어텐션 메커니즘이 있는 인코더-디코더 구조를 사용했으며, 이는 별도의 신경망 보코더를 사용하여 파형으로 변환되었다. 2시간 분량의 음성과 같은 더 작은 데이터셋으로 훈련했을 때는 이해 가능한 음성을 유지하면서도 출력 품질이 저하되었고, 24분의 훈련 데이터만으로는 타코트론이 이해 가능한 음성을 생성하는 데 실패했다.[15]

하나의 '생성기'와 두 개의 '판별기'로 구성된 하이파이-GAN 모델 구조. GAN 기반 보코더 구현은 하이파이-GAN 출시 이후 널리 퍼졌다.

2019년 마이크로소프트 리서치는 타코트론과 같은 자기회귀모형의 속도 제한을 해결한 FastSpeech를 발표했다.[16] FastSpeech는 병렬 시퀀스 생성을 가능하게 하는 비자기회귀 구조를 활용하여 음질을 유지하면서도 추론 시간을 크게 단축했다. 길이 조절 기능이 있는 순방향 트랜스포머 네트워크를 통해 전체 멜-스펙트로그램 시퀀스의 원샷 예측이 가능해져, 이전 접근 방식의 병목이었던 순차적 종속성을 피할 수 있었다.[17] 같은 해에 등장한 하이파이-GAN은 생성적 적대 신경망 기반 보코더로, 고품질 음성을 생성하면서도 파형 생성의 효율성을 향상시켰다.[18] 이어서 등장한 Glow-TTS는 빠른 추론과 음성 스타일 전이 기능을 모두 가능하게 하는 흐름 기반 접근 방식을 도입했다.[19] 중국 기술 기업들도 이 분야에 큰 기여를 했다. 바이두바이트댄스는 최신 기술을 더욱 발전시킨 독자적인 텍스트 음성 변환 프레임워크를 개발했으나, 구현의 구체적인 기술적 세부 사항은 대부분 공개되지 않았다.[7]

개발, 출시, 운영

[편집]

[...] 이 웹사이트는 여러 가지 목적을 가지고 있다. 우선 성우를 고용할 수 없는 사람들도 자신의 프로젝트에 음성을 입힐 수 있는 플랫폼의 개념 증명으로 기능한다.

또한 실제 모델을 직접 사용해 볼 수 있게 함으로써 제 연구의 진전을 훨씬 더 실감 나게 보여준다. 사용자들은 제가 미처 알지 못했던 특성들을 발견하기도 한다(예를 들어, 특정 음소 사이에 쉼표를 넣어 캐릭터가 헐떡이거나 신음하는 소리를 내도록 하는 것과 같은).

또한 제가 가장 잘 나온 결과만을 골라서 보여주는 것을 방지할 수 있다 [...] 필터 없이 모델과 직접 상호작용할 수 있게 함으로써 사용자들이 현재 연구의 실제 성능을 있는 그대로 판단할 수 있다.

15, 해커 뉴스[20]

15.ai는 2016년 개발자 "15"(당시 18세[21])가 매사추세츠 공과대학교 신입생 시절에 딥러닝 음성 합성 연구 프로젝트로 구상되었으며,[22] MIT의 학부생 연구 기회 프로그램의 일환이었다.[23] 개발자는 딥마인드의 웨이브넷 논문에서 영감을 받았으며, 이듬해 구글 AI가 타코트론을 발표했을 때도 연구를 계속했다. 2019년까지 개발자는 이전에 필요했던 것보다 75% 적은 훈련 데이터로 웨이브넷과 타코트론의 결과를 재현할 수 있다는 것을 MIT에서 입증했다.[7] '15'라는 이름은 15초의 데이터만으로도 음성을 복제할 수 있다는 개발자의 주장에서 유래했다.[24] 개발자는 원래 학부 연구를 바탕으로 박사 학위를 취득할 계획이었으나, 2019년 자신의 스타트업와이 콤비네이터 액셀러레이터에 선정되면서 대신 테크 산업계에서 일하기로 했다. 2020년 초 퇴사 후 개발자는 음성 합성 연구로 돌아와 이를 웹 애플리케이션으로 구현했다. 단순하고 단조로운 녹음이 포함된 LJSpeech와 같은 기존 음성 데이터셋을 사용하는 대신, 복잡한 발화 패턴과 감정적 뉘앙스를 다룰 수 있는 모델의 능력을 보여줄 수 있는 더 도전적인 음성 샘플을 찾았다. 4chan마이 리틀 포니 게시판인 /mlp/에서 시작된 팬 프로젝트인 포니 프리저베이션 프로젝트가[7] 구현에 중요한 역할을 했다. 이 프로젝트의 기여자들은 마이 리틀 포니: 우정은 마법의 모든 대사를 수동으로 다듬고, 노이즈를 제거하고, 전사하고, 감정 태그를 붙였는데, 이는 당시 팬 커뮤니티 중에서는 전례가 없는 작업이었으며, 특히 이러한 작업이 자동화될 수 있기 전에 완료되었다는 점이 주목할 만하다. 이렇게 신중하게 큐레이션된 고도의 감정이 담긴 데이터셋은 15.ai의 딥러닝 모델을 훈련하는 데 이상적인 재료가 되었다.[7][21]

다중 화자 임베딩의 예시. 신경망이 예측된 타임스탬프를 화자 정보를 인코딩하는 마스크된 임베딩 시퀀스에 매핑한다.

15.ai는 2020년 3월 마이 리틀 포니: 우정은 마법팀 포트리스 2 등의 캐릭터를 포함한 제한된 선택의 음성으로 출시되었다.[8][25] 이후 몇 달 동안 더 많은 음성이 웹사이트에 추가되었다.[26] 2020년 말에는 딥 신경망에 다중 화자 임베딩을 구현하면서 중요한 기술적 진보가 이루어졌는데, 이를 통해 각 캐릭터 음성마다 개별 모델이 필요한 대신 여러 음성을 동시에 훈련할 수 있게 되었다.[7] 이는 8개에서 50개 이상의 캐릭터 음성으로 빠르게 확장할 수 있게 했을 뿐만 아니라,[21] 일부 캐릭터의 훈련 데이터에서 특정 감정이 누락되었더라도 모델이 캐릭터 간의 공통된 감정 패턴을 인식할 수 있게 했다.[27] 2021년 초, 이 애플리케이션은 트위터유튜브에서 화제가 되었으며, 사람들은 인기 있는 게임과 쇼의 음성을 사용하여 짧은 극, 인터넷 밈, 팬 콘텐츠를 생성했고 이는 소셜 미디어에서 수백만 회의 조회수를 기록했다.[28] 유튜버틱토커들도 성우 작업의 일부로 15.ai를 사용했다.[29] 전성기에는 수백만 건의 일일 음성 생성을 처리하기 위한 AWS 인프라 비용으로 월 $12000 미국 달러가 발생했다. 여러 기업들이 15.ai와 그 기반 기술을 인수 제안을 했음에도 불구하고, 웹사이트는 독립성을 유지했으며 당시 23세였던 개발자의 이전 스타트업 수익으로 자금을 조달했다.[7][21]

Voiceverse NFT 논란

[편집]

2022년 1월 14일, 비디오 게임과 애니메이션 더빙 성우 트로이 베이커가 파트너십을 발표한 Voiceverse NFT라는 회사가 마케팅 캠페인의 일환으로 15.ai에서 생성한 음성을 무단으로 사용한 것이 발견되면서 논란이 일었다.[30] 이는 15.ai의 개발자가 2021년 12월에 자신의 작업에 NFT를 도입할 의향이 없다고 명시적으로 밝힌 직후에 발생했다.[31] 로그 파일은 Voiceverse가 15.ai를 사용하여 마이 리틀 포니: 우정은 마법 캐릭터들의 음성을 생성한 후, 자사 플랫폼을 홍보하기 위해 원래 음성을 알아볼 수 없도록 피치를 높였다는 것을 보여주었다—이는 15.ai의 서비스 이용 약관을 위반한 것이었다.[32]

Voiceverse는 자사의 마케팅팀이 15.ai를 적절한 출처 표기 없이 사용했다고 주장했다. 이에 대해 15는 "Go fuck yourself"라고 트윗했으며,[33] 이 트윗은 개발자를 지지하는 수십만 건의 리트윗과 좋아요를 받으며 트위터에서 화제가 되었다.[7] 지속적인 반발과 표절 사실이 밝혀진 후, 베이커는 "여러분은 미워할 수도 있고, 아니면 창작할 수도 있다. 어느 쪽을 선택하시겠습니까?"로 끝난 자신의 원래 발표 트윗이 "도발적이었을 수 있다"고 인정했으며, 2022년 1월 31일 Voiceverse와의 파트너십을 중단하겠다고 발표했다.[34]

비활성화

[편집]

15.ai는 2022년 9월 인공지능과 저작권 관련 법적 문제로 인해 운영이 중단되었다.[35][7] 개발자는 저작권 문제를 처음부터 더욱 효과적으로 해결할 수 있는 향후 버전의 가능성을 시사했으나, 2025년 현재까지 웹사이트는 비활성 상태를 유지하고 있다.[7]

기능

[편집]

이 플랫폼은 무료로 운영되었으며,[36] 별도의 회원 가입 없이 누구나 이용할 수 있었다.[37] 사용자들은 텍스트를 입력한 뒤 원하는 캐릭터의 목소리를 선택하면 음성을 만들 수 있었다. 또한 감정 표현 설정과 발음 기호 입력 기능도 필요에 따라 활용할 수 있었다. 시스템은 하나의 요청당 세 가지 다른 감정이 담긴 음성을 만들어냈다. 이는 신뢰도 점수를 기준으로 정렬되어 제공되었다.[23] 사용 가능한 캐릭터에는 팀 포트리스 2마이 리틀 포니: 우정은 마법의 여러 캐릭터들, 포탈 시리즈의 GLaDOS, 휘틀리, 센트리 포탑, 스폰지밥 네모바지, 허니팝의 큐 슈가더스트, 페르소나 4쿠지카와 리세, 다리아의 다리아 모겐도퍼와 제인 레인, 아쿠아 틴 헝거 포스의 칼 브루타나나딜루스키, 스티븐 유니버스의 스티븐 유니버스, 언더테일샌즈, 설레스트의 매들린과 여러 캐릭터들, 10대 닥터 후, 스탠리 패러블내레이터, 2001: 스페이스 오디세이HAL 9000 등이 있었다.[38] 50개가 넘는[21] 음성 중 30개가 마이 리틀 포니: 우정은 마법의 캐릭터였다.[39] 포탈의 첼과 고든 프리맨과 같은 특정 "무음" 캐릭터들은 농담으로 선택할 수 있었으며, 텍스트를 입력하면 무음 오디오 파일을 출력했다.[40]

DeepMoji 모델이 생성한 이모지 확률 분포의 예시. 이러한 이모지 분포는 15.ai의 기술 지표와 그래프의 일부로 표시되었다.[41]

이 딥러닝 모델은 매번 다른 억양으로 음성을 생성했다. 이는 마치 성우가 같은 대사를 여러 번 다르게 녹음한 것과 같은 효과를 냈다.[2] 15.ai는 감정 표현 설정 기능을 도입했다. 이를 통해 사용자들은 안내 문구로 음성의 감정 톤을 조절할 수 있었다.[7] 이 감정 표현 설정 기능은 MIT 미디어 랩에서 개발한 감정 분석 신경망인 DeepMoji를 활용했다.[42] DeepMoji는 2017년에 공개된 감정 분석 시스템이다. 이 시스템은 2013년부터 2017년까지 작성된 12억 개의 트위터 글에서 이모지를 분석해 감정 표현을 학습했다. 테스트 결과 이 시스템은 인간 평가자보다 더 정확하게 풍자를 포함한 감정 요소를 식별할 수 있었다.[43] 텍스트 입력 시 세로 막대(|)를 사용해 감정 표현을 추가할 수 있었다. 세로 막대 뒤에 입력된 내용은 음성의 감정을 결정하는 데 활용되었다.[41] 예를 들어, Today is a great day!|I'm very sad.라고 입력하면, 선택된 캐릭터가 "I'm very sad."라고 말할 때 예상되는 감정으로 "Today is a great day!"라는 문장을 말했다.[10]

"데이지 벨" 텍스트를 음성으로 변환하는 예시. 영어 단어가 ARPABET 음소 문자열로 파싱된 후, 피치 예측기와 멜-스펙트로그램 생성기를 통과하여 오디오를 생성한다.

이 애플리케이션은 옥스포드 사전 API, 위키낱말사전, CMU 발음 사전의 발음 데이터를 사용했으며,[3] 마지막 사전은 1970년대 방위고등연구계획국이 개발한 영어 음성 전사 체계인 ARPABET를 기반으로 했다. 현대적이고 인터넷 관련 용어의 경우, 레딧, 어번 딕셔너리, 4chan, 구글을 포함한 사용자 제작 콘텐츠 웹사이트의 발음 데이터를 통합했다.[3] ARPABET 전사도 지원되어 사용자가 잘못된 발음을 수정하거나 동철이음이의어—철자는 같지만 발음이 다른 단어—의 원하는 발음을 지정할 수 있었다. 사용자는 입력창에서 중괄호 안에 음소 문자열을 넣어 ARPABET 전사를 사용할 수 있었다(예: {AA1 R P AH0 B EH2 T}로 "ARPABET"(/ˈɑːrpəˌbɛt/)의 발음을 지정).[44] 인터페이스는 단어의 발음 신뢰도를 색상으로 표시했다. 발음이 확실한 단어는 녹색으로, ARPABET으로 직접 입력한 발음은 파란색으로, 알고리즘이 추측한 발음은 빨간색으로 나타났다.[41]

15.ai의 후기 버전에서는 다중 화자 기능이 도입되었다. 각 음성마다 별도의 모델을 훈련하는 대신, 15.ai는 화자 임베딩—각 캐릭터의 고유한 음성 특성을 포착하는 학습된 수치 표현—을 통해 여러 음성을 동시에 학습하는 통합 모델을 사용했다.[7][21] DeepMoji가 제공하는 감정 맥락과 함께, 이 신경망 아키텍처는 개별 캐릭터의 훈련 데이터에 특정 감정 맥락의 예시가 부족하더라도 서로 다른 캐릭터의 감정 표현과 말하기 스타일 간의 공통된 패턴을 학습할 수 있게 했다.[27]

인터페이스에는 기술 지표와 그래프가 포함되어 있었는데,[41] 개발자에 따르면 이는 웹사이트의 연구적 측면을 강조하기 위한 것이었다.[21] 2021년 9월에 출시된 v23 버전에서는 단어 파싱 결과와 감정 분석 데이터를 포함한 포괄적인 모델 분석 정보를 표시했다. 이전 버전에서 도입된 흐름과 [생성적 적대 신경망] 하이브리드 보코더디노이저는 수동 매개변수 입력을 제거하도록 간소화되었다.[41]

평가

[편집]

비평

[편집]

비평가들은 15.ai가 사용하기 쉽다고 평가했다. 캐릭터 음성을 설득력 있게 복제할 수 있다는 점도 높이 평가했지만, 세부적인 면에서는 의견이 엇갈렸다.[45] PC 게이머의 나탈리 클레이튼은 스폰지밥 네모바지의 음성이 잘 복제되었지만 스탠리 패러블의 내레이터를 모방하는 데는 어려움이 있었다고 지적했다: "알고리즘이 케반 브라이팅 특유의 재치 있고 건조한 말투를 제대로 살리지 못했다."[5] 코타쿠의 잭 즈위젠은 "[그의] 여자친구가 이것이 GLaDOS의 성우 엘런 매클레인의 새로운 음성 녹음이라고 확신했다"고 보고했다.[9] AI 뉴스레터 Towards Data Science의 리오날디 찬드라세타는 "훈련 데이터가 많은 캐릭터들이 더 자연스러운 대화를 생성하며, 특히 긴 문장에서 단어 사이의 억양과 휴지가 더 명확하다"고 관찰했다.[10] 대만 신문 연합보도 15.ai가 GLaDOS의 기계적인 목소리를 재현하는 능력과 다양한 캐릭터 음성 옵션을 강조했다.[1] 야후! 뉴스 대만은 "포털의 GLaDOS가 거의 완벽하게 대사를 발음할 수 있다"고 보도했지만, "단어 제한과 음조 제어와 같은 많은 불완전한 점들이 있으며, 일부 단어에서는 여전히 약간 이상하다"고 지적했다.[46] AI 뉴스레터 Byteside의 크리스 버튼은 15초의 데이터만으로 목소리를 복제하는 능력을 "기괴하다"고 표현했지만 그 배후의 기술은 "인상적"이라고 평가했다.[47] 이 플랫폼의 음성 생성 기능은 마이 리틀 포니: 우정은 마법과 그 시리즈를 다루는 팬 사이트인 Equestria Daily에서 정기적으로 다뤄졌으며, 업데이트, 팬 창작물, 새로운 캐릭터 음성 추가에 대한 문서화가 이루어졌다.[48] 15.ai의 새로운 캐릭터 추가를 소개하는 글에서 Equestria Daily의 설립자 숀 스코텔라로—온라인에서는 "세티스토"로도 알려진—는 "일부 [음성]은 참고할 만한 샘플이 부족해 아직 완벽하지는 않지만, 그래도 대부분은 매우 인상적이다"라고 썼다.[39]

몇몇 비평가들은 단어 수 제한, 운율 옵션, 영어 전용 지원 등의 부분에서 아쉬움을 표했다.[11][46] 애니메이션슈퍼히어로 뉴스 매체인 애니메 슈퍼히어로 뉴스의 피터 팔트리지는 "음성 합성이 고가의 시스템의 경우 실제 인간의 음성과 거의 구분할 수 없는 수준까지 발전했다"고 평가하면서도 "어떤 면에서는 마이크로소프트 샘이 이것보다 더 진보적이다. 마이크로소프트 샘은 특수 문자를 사용해 억양에 영향을 주고 음높이를 마음대로 바꿀 수 있었다. 15.ai에서는 무작위로 생성되는 억양에 맡겨야 한다"고 지적했다.[49] 반면 Rock, Paper, Shotgun의 로렌 모튼은 "세부적인 것까지 다루고자 한다면" 발음 제어의 깊이를 높이 평가했다.[6] 비슷하게 스페인 뉴스 웹사이트 Qore.com의 에우헤니오 모토는 "경험이 많은 [사용자]는 강세나 음조와 같은 매개변수를 변경할 수 있다"고 썼다.[50] 덴 파미 니코 게이머의 후루시마 타카유키는 "부드러운 발음"을 강조했고, 오토마톤의 쿠로사와 유키는 주요 특징으로 "풍부한 감정 표현"을 언급했다. 두 일본 저자 모두 일본어 지원 부재를 지적했다.[51][3] 브라질 게임 뉴스 매체 Arkade의 레난 두 프라두와 스페인 게임 매체 LaPS4의 호세 비야로보스는 사용자들이 포르투갈어와 스페인어로도 재미있는 결과물을 만들 수 있지만, 영어에서 가장 좋은 성능을 보인다고 지적했다.[52] 중국 게임 뉴스 매체 게이머스카이는 이 앱을 "흥미롭다"고 평가했지만, 텍스트의 단어 수 제한과 억양의 부족을 비판했다.[11] 한국의 비디오 게임 매체 Zuntata는 "이 15.ai의 놀라운 점은 데이터가 30초에 가까운 문자여도 거의 100%에 가까운 발음 정확도를 달성한다는 것과 매우 적은 데이터만을 사용하여 자연스러운 감정이 담긴 음성을 수백가지 이상 생성한다는 데 있다"이라고 썼다.[53] 기계학습 교수 용창 리는 자신의 블로그에서 이 애플리케이션이 무료라는 점에 놀랐다고 썼다.[54]

윤리적 우려

[편집]

성우 사이에서 15.ai에 대한 반응은 크게 나뉘었다. 일부는 기술적 혁신성을 높이 평가한 반면, 다른 이들은 이 기술이 성우 직종에 미칠 부정적 영향을 우려했다.[55] 성우 트로이 베이커가 15.ai의 기술을 무단으로 사용한 Voiceverse NFT와의 파트너십을 발표했을 때, 성우 업계에서 광범위한 논란이 일었다.[56] 비평가들은 자동화된 음성 연기가 성우들의 고용 기회를 감소시킬 수 있다는 점, 음성 딥페이크의 위험, 노골적인 콘텐츠에 악용될 가능성에 대해 우려를 제기했다.[57] Voiceverse NFT를 둘러싼 논란과 이후의 논의는 AI 음성 합성 기술에 대한 업계의 더 넓은 우려를 부각시켰다.[58]

15.ai가 실존 인물이나 유명인의 목소리는 복제하지 않고 가상 캐릭터로 범위를 제한했지만,[59] 컴퓨터 과학자 앤드류 응은 비슷한 기술이 악의적인 목적을 포함해 그러한 용도로 사용될 수 있다고 지적했다.[8] 2020년 15.ai에 대한 평가에서 그는 다음과 같이 썼다:

"음성 복제는 엄청난 생산성을 가져올 수 있다. 할리우드에서는 가상 배우의 사용을 혁신할 수 있다. 만화와 오디오북에서는 성우들이 더 많은 작품에 참여할 수 있게 할 수 있다. 온라인 교육에서는 아이들이 좋아하는 인물의 목소리로 전달되는 수업에 더 집중할 수 있다. 그리고 얼마나 많은 유튜브 튜토리얼 비디오 제작자들이 모건 프리먼의 합성된 목소리로 자신의 대본을 내레이션하고 싶어할까?"

하지만 그는 또한 다음과 같이 덧붙였다:

"...하지만 인간 배우의 목소리를 동의 없이 합성하는 것은 윤리적으로 문제가 있을 수 있고 잠재적으로 불법일 수 있다. 그리고 이 기술은 딥페이커들에게 매력적일 것이며, 이들은 소셜 네트워크에서 녹음을 긁어모아 개인을 사칭할 수 있다."[8]

유산

[편집]

15.ai는 AI 붐의 초기 단계였던 2020년에 등장한 오디오 딥페이크의 선구자로, AI 음성 합성 기반 밈의 출현을 이끌었다.[60][13] 15.ai는 전문적인 기술 없이도 실시간으로 설득력 있는 캐릭터 음성을 생성할 수 있다는 점에서, 인터넷 밈과 콘텐츠 제작 분야에서 AI 음성 복제를 대중화한 최초의 주류 플랫폼으로 평가된다.[61] 이 플랫폼의 영향력은 특히 마이 리틀 포니: 우정은 마법, 포탈, 팀 포트리스 2, 스폰지밥 네모바지 등의 팬 커뮤니티에서 두드러진다. 이러한 커뮤니티에서는 트위터유튜브 같은 소셜 미디어를 통해 바이럴 콘텐츠를 제작하여 수백만 건의 조회수를 기록하고 있다.[62] 팀 포트리스 2 콘텐츠 제작자들은 Source Filmmaker를 사용하여 짧은 밈과 복잡한 내러티브 애니메이션을 제작하는 데에도 이 플랫폼을 활용했다.[63] 팬 창작물에는 촌극과 새로운 팬 애니메이션,[64] 크로스오버 콘텐츠(예: Game Informer 작가 리아나 루퍼트가 플랫폼에 대한 기사에서 포탈매스 이펙트 대화를 결합한 시연[4]), 바이럴 비디오 재현(악명 높은 빅 빌 헬의 자동차 대리점 패러디 포함[65]), AI 생성 캐릭터 음성을 사용한 팬픽션 각색,[66] 뮤직 비디오 및 새로운 음악 작품(예: 성인용 포니 존 (Pony Zone) 시리즈[67]), 캐릭터가 뱃노래를 낭송하는 콘텐츠 등이 포함되었다.[68] 일부 팬 창작물은 주류의 관심을 끌었다. 예를 들어, 《나 홀로 집에 2》에서 도널드 트럼프의 카메오 장면을 헤비의 AI 생성 음성으로 대체한 편집본이 2021년 1월 낮 시간대 CNN에 등장해 화제가 되었다.[69][70] 일부 사용자는 15.ai의 음성 합성을 음성 명령 소프트웨어인 VoiceAttack과 통합하여 개인 비서를 만들었다.[2]

15.ai는 서비스 종료 이후에도 그 영향력이 지속적으로 언급되고 있으며,[14] ElevenLabs[b] 및 Speechify와 같은 여러 상업적 대안이 그 빈자리를 채우고 있다.[35] 오늘날의 생성형 음성 AI 기업들은 15.ai의 선구적인 역할을 인정하고 있다. PlayHT는 15.ai의 등장을 "텍스트 음성 변환(TTS) 및 음성 합성 분야의 획기적인 사건"이라고 불렀다.[29] Speechify의 설립자이자 CEO인 클리프 와이츠먼은 15.ai가 "팬덤의 인기 있는 기존 캐릭터를 처음으로 선보이며 [...] 콘텐츠 제작을 위한 AI 음성 복제를 대중화했다"고 평가했다.[12]

15.ai는 서비스 종료 전에 AI 음성 합성의 후속 개발에 영향을 미친 몇 가지 기술적 선례를 확립했다. 감정 분석을 위한 DeepMoji의 통합은 감정을 인식하는 음성 생성을 통합할 수 있는 가능성을 보여주었고, ARPABET 음성 기호 지원은 공개 음성 합성 도구에서 정확한 발음 제어의 표준을 설정했다.[7] 다양한 캐릭터 음성의 동시 훈련을 가능하게 한 플랫폼의 통합 다중 화자 모델은 특히 영향력이 컸다. 이 접근 방식을 통해 시스템은 개별 캐릭터 훈련 세트에 특정 감정이 없더라도 서로 다른 음성에서 감정 패턴을 인식할 수 있었다. 예를 들어, 한 캐릭터에 기쁜 말의 예는 있지만 화난 예는 없고 다른 캐릭터에 화난 예는 있지만 기쁜 예는 없는 경우, 시스템은 감정이 말에 미치는 영향에 대한 공통 패턴을 이해함으로써 두 캐릭터 모두에 대해 두 가지 감정을 모두 생성하는 법을 배울 수 있었다.[27]

15.ai는 또한 음성 합성에 필요한 훈련 데이터 요구 사항을 줄이는 데 중요한 기여를 했다. Google AI의 Tacotron 및 마이크로소프트 리서치의 FastSpeech와 같은 이전 시스템은 허용 가능한 결과를 생성하기 위해 수십 시간의 오디오가 필요했으며 24분 미만의 훈련 데이터로는 이해할 수 있는 음성을 생성하지 못했다.[15][17] 이와 대조적으로 15.ai는 훨씬 적은 훈련 데이터로 음성을 생성할 수 있는 능력을 보여주었다. 특히 "15.ai"라는 이름은 단 15초의 데이터로 음성을 복제할 수 있다는 제작자의 주장을 나타낸다.[72] 이러한 데이터 효율성 접근 방식은 15초 기준이 후속 음성 합성 시스템의 기준점이 되면서 AI 음성 합성 기술의 후속 개발에 영향을 미쳤다. 사람의 음성을 복제하는 데 15초의 데이터만 있으면 된다는 주장은 2024년 OpenAI에 의해 뒷받침되었다.[73]

같이 보기

[편집]

각주

[편집]
  1. 음성 합성에서 "실시간 이상의 속도"란 시스템이 실제 발화 시간보다 더 빠르게 음성을 생성할 수 있다는 의미이다. 예를 들어, 10초 길이의 음성을 10초 미만으로 생성하는 것을 실시간 이상의 속도라고 한다.
  2. 웹 도메인의 법적 별칭으로 "11.ai"를 사용한다[71]

참고 문헌

[편집]

주석

[편집]
  1. 遊戲 2021.
  2. Yoshiyuki 2021.
  3. Kurosawa 2021.
  4. Ruppert 2021.
  5. Clayton 2021.
  6. Morton 2021.
  7. Temitope 2024.
  8. Ng 2020.
  9. Zwiezen 2021.
  10. Chandraseta 2021.
  11. GamerSky 2021.
  12. Speechify 2024.
  13. Anirudh VK 2023.
  14. Wright 2023.
  15. Google 2018
  16. Ren 2019; Temitope 2024.
  17. Ren 2019.
  18. Kong 2020.
  19. Kim 2020.
  20. Hacker News 2022
  21. “The past and future of 15.ai”. 《트위터》. 2024년 12월 8일에 원본 문서에서 보존된 문서. 2024년 12월 19일에 확인함. 
  22. Chandraseta 2021; Temitope 2024.
  23. Chandraseta 2021; Menor 2024.
  24. Chandraseta 2021; Button 2021.
  25. 틀:Multiref
  26. Scotellaro 2020a; Scotellaro 2020b.
  27. Kurosawa 2021; Temitope 2024.
  28. Zwiezen 2021; Clayton 2021; Ruppert 2021; Morton 2021; Kurosawa 2021; Yoshiyuki 2021.
  29. Play.ht 2024.
  30. Lawrence 2022; Williams 2022; Wright 2022; Temitope 2024.
  31. Lopez 2022.
  32. Phillips 2022; Lopez 2022.
  33. Wright 2022; Phillips 2022; fifteenai 2022.
  34. Lawrence 2022; Williams 2022.
  35. ElevenLabs 2024a; Play.ht 2024.
  36. Williams 2022.
  37. Phillips 2022.
  38. Zwiezen 2021; Clayton 2021; Morton 2021; Ruppert 2021; Villalobos 2021; Yoshiyuki 2021; Kurosawa 2021.
  39. Scotellaro 2020b.
  40. Morton 2021; 遊戲 2021.
  41. www.equestriacn.com 2022.
  42. Kurosawa 2021; Chandraseta 2021.
  43. Knight 2017.
  44. www.equestriacn.com 2022; Kurosawa 2021; Temitope 2024.
  45. Clayton 2021; Ruppert 2021; Moto 2021; Scotellaro 2020c; Villalobos 2021.
  46. MrSun 2021.
  47. Button 2021.
  48. Scotellaro 2020a; Scotellaro 2020b; Scotellaro 2020c; Scotellaro 2020d; Scotellaro 2020e; Scotellaro 2020f.
  49. Paltridge 2021.
  50. Moto 2021.
  51. Yoshiyuki 2021: 日本語入力には対応していないが、ローマ字入力でもなんとなくそれっぽい発音になる。; 15.aiはテキスト読み上げサービスだが、特筆すべきはそのなめらかな発音と、ゲームに登場するキャラクター音声を再現している点だ。
  52. do Prado 2021; Villalobos 2021.
  53. zuntata.tistory.com 2021.
  54. Li 2021.
  55. Phillips 2022; Temitope 2024; Menor 2024.
  56. Lawrence 2022; Phillips 2022; Wright 2022.
  57. Phillips 2022; Menor 2024.
  58. Phillips 2022; Lawrence 2022.
  59. fifteenai 2020; Menor 2024.
  60. MrSun 2021: 大家是否都曾經想像過,假如能讓自己喜歡的遊戲或是動畫角色說出自己想聽的話,不論是名字、惡搞或是經典名言,都是不少人的夢想吧。不過來到 2021 年,現在這種夢想不再是想想而已,因為有一個網站通過 AI 生成的技術,讓大家可以讓不少遊戲或是動畫角色,說出任何你想要他們講出的東西,而且相似度與音調都有相當高的準確度 (틀:Translation Have you ever imagined what it would be like if your favorite game or anime characters could say exactly what you want to hear? Whether it's names, parodies, or classic quotes, this is a dream for many. However, as we enter 2021, this dream is no longer just a fantasy, because there is a website that uses AI-generated technology, allowing users to make various game and anime characters say anything they want with impressive accuracy in both similarity and tone).
  61. Temitope 2024; Morton 2021.
  62. Scotellaro 2020c; 遊戲 2021; Kurosawa 2021; Morton 2021; Temitope 2024.
  63. Clayton 2021; Zweizen 2021; Morton 2021.
  64. Morton 2021; Kurosawa 2021.
  65. Zweizen 2021; Morton 2021.
  66. Scotellaro 2020d.
  67. Scotellaro 2020e.
  68. Zweizen 2021; Ruppert 2021.
  69. Clayton 2021; CNN 2021.
  70. “The Heavy on CNN”. 《레딧》. 2021년 1월 19일. 2024년 12월 31일에 확인함. 
  71. ElevenLabs 2024b.
  72. Chandraseta 2021; Button 2021; Temitope 2024.
  73. OpenAI 2024; Temitope 2024.

인용된 문헌

[편집]