DALL-E
![]() DALL-E 2가 "1990년대 기술로 물속에서 새로운 AI 연구를 하고 있는 테디베어"라는 텍스트를 기반으로 생성한 이미지 | |
원저자 | OpenAI |
---|---|
발표일 | 2021년 1월 5일 |
안정화 버전 | DALL·E 3
/ 2023년 8월 10일 |
종류 | 변환기 언어 모델 |
웹사이트 | labs |
시리즈 |
인공지능 |
---|
![]() |
DALL·E와 DALL·E 2, DALL·E 3는 오픈AI가 개발한 자연어 서술로부터 이미지를 생성하는 기계 학습 모델이다. DALL-E는 2021년 1월 블로그 게시물에서 오픈AI에 의해 공개되었으며, 이미지 생성을 위해 개조된 GPT-3 버전을 사용한다.[1] 2022년 4월, 오픈AI는 DALL-E 2를 발표하였고 이는 콘셉트, 속성, 스타일을 합칠 수 있는 더 높은 해상도의 더 사실적인 이미지를 생성하기 위해 설계된 후속작이다.[2]
오픈AI는 DALL-E와 DALL-E 2 모델 어느 쪽에서도 소스 코드를 공개하지는 않았으나 한정적으로 선별된 샘플 프롬프트의 출력물은 오픈AI의 웹사이트에서 이용이 가능하다.[1] 2022년 7월 20일 기준으로 DALL-E 2는 100만 명의 대기 중인 개인들에게 전달되는 초대권과 함께 베타 단계에 진입했다.[3][4] 한때 도덕성과 안전에 관한 염려로 인해 이전에 선별된 사용자들에게는 연구 프리뷰로의 접근이 제한되었다.[5][6] 그럼에도 불구하고 적은 양의 데이터로 트레이닝된 여러 오픈 소스 모방품들이 다른 실체들에 의해 공개되었다.[7][8][9]
이 소프트웨어의 이름은 픽사의 애니메이션 로봇 캐릭터 월-E와 스페인의 현실주의 화가 살바도르 달리의 이름의 혼성어이다.[10][1]
기술
[편집]최초의 GPT 모델은 2018년 OpenAI에서 변환기 아키텍처를 사용하여 처음 개발되었다. 첫 번째 반복인 GPT-1은 2019년에 GPT-2를 생산하기 위해 확장되었다. 2020년에는 1,750억 개의 매개변수를 갖춘 GPT-3을 생산하기 위해 다시 규모가 확장되었다.
DALL-E의 모델은 인터넷의 텍스트-이미지 쌍에 대해 훈련된 "텍스트를 픽셀로 교환"하는 120억 개의 매개변수를 갖춘 GPT-3의 다중 모드 구현이다. 자세히 살펴보면 변환기 모델에 대한 입력은 토큰화된 이미지 캡션과 토큰화된 이미지 패치의 시퀀스이다. 이미지 캡션은 영어로 되어 있으며 바이트 쌍 인코딩(어휘 크기 16384)으로 토큰화되며 최대 256개의 토큰 길이일 수 있다. 각 이미지는 256x256 RGB 이미지로, 각각 4x4의 32x32 패치로 나뉜다. 그런 다음 각 패치는 개별 VAE에 의해 토큰(어휘 크기 8192)으로 변환된다.
DALL-E는 CLIP(Contrastive Language-Image Pre-training)과 연계하여 개발되어 대중에게 공개되었다. CLIP은 인터넷에서 스크랩한 텍스트 캡션이 포함된 4억 쌍의 이미지에 대해 훈련된 제로샷 학습을 기반으로 하는 별도의 모델이다. 그 역할은 데이터 세트에서 무작위로 선택된 32,768개의 캡션 목록(그 중 하나가 정답임)에서 이미지에 가장 적합한 캡션을 예측하여 DALL-E의 출력을 "이해하고 순위를 지정"하는 것이다. 이 모델은 가장 적절한 출력을 선택하기 위해 DALL-E에서 생성된 더 큰 초기 이미지 목록을 필터링하는 데 사용된다.
DALL-E 2는 이전 제품보다 적은 수인 35억 개의 매개변수를 사용한다. DALL-E 2는 추론 중에 이전 모델의 CLIP 텍스트 임베딩에서 생성된 CLIP 이미지 임베딩을 기반으로 한 확산 모델을 사용한다.
같이 보기
[편집]각주
[편집]- ↑ 가 나 다 Johnson, Khari (2021년 1월 5일). “OpenAI debuts DALL-E for generating images from text”. VentureBeat. 2021년 1월 5일에 원본 문서에서 보존된 문서. 2021년 1월 5일에 확인함.
- ↑ “DALL·E 2”. 《OpenAI》 (영어). 2022년 7월 6일에 확인함.
- ↑ “DALL·E Now Available in Beta”. 《OpenAI》 (영어). 2022년 7월 20일. 2022년 7월 20일에 확인함.
- ↑ Allyn, Bobby (2022년 7월 20일). “Surreal or too real? Breathtaking AI tool DALL-E takes its images to a bigger stage”. 《NPR》 (영어). 2022년 7월 20일에 확인함.
- ↑ “DALL·E Waitlist”. 《labs.openai.com》 (영어). 2022년 7월 6일에 확인함.
- ↑ “From Trump Nevermind babies to deep fakes: DALL-E and the ethics of AI art”. 《the Guardian》 (영어). 2022년 6월 18일. 2022년 7월 6일에 확인함.
- ↑ Sahar Mor, Stripe (2022년 4월 16일). “How DALL-E 2 could solve major computer vision challenges”. 《VentureBeat》. 2022년 5월 24일에 원본 문서에서 보존된 문서. 2022년 6월 15일에 확인함.
- ↑ Knight, Will. “Inside DALL-E Mini, the Internet's Favorite AI Meme Machine”. 《Wired》 (미국 영어). ISSN 1059-1028. 2022년 7월 6일에 확인함.
- ↑ “Midjourney”. 《Midjourney》 (영어). 2022년 7월 20일에 확인함.
- ↑ Coldewey, Devin (2021년 1월 5일). “OpenAI's DALL-E creates plausible images of literally anything you ask it to”. 2021년 1월 6일에 원본 문서에서 보존된 문서. 2021년 1월 5일에 확인함.