GPT-3
원저자 | OpenAI[1] |
---|---|
발표일 | 2020년 6월 11일 (베타) |
저장소 | |
대체한 소프트웨어 | GPT-2 |
대체된 소프트웨어 | GPT-4 |
종류 | 자기회귀 변환기 언어 모델 |
웹사이트 | openai |
시리즈 |
인공지능 |
---|
기계 학습과 데이터 마이닝 |
---|
생성적 사전학습 변환기 3(영어: Generative Pre-trained Transformer 3), GPT-3는 OpenAI에서 만든 딥러닝을 이용한 대형 언어 모델이다. 비지도 학습과 생성적 사전학습(generative pre-training)기법, 변환기(transformer)를 적용해 만들어 졌다. 번역과 대화, 작문을 할 수 있으며, GPT-2에 비해 훨씬 인간이 쓴 글인지 기계가 쓴 글인지 구분하기 어렵다.
OpenAI가 2020년에 출시한 자동 회귀 언어 모델로 딥 러닝을 사용하여 사람과 같은 텍스트를 생성한다. 프롬프트가 주어지면 프롬프트를 계속하는 텍스트를 생성한다.
이 아키텍처는 2048개의 토큰 길이 컨텍스트와 1,750억 개의 파라미터라는 전례 없는 크기를 가진 디코더 전용 변환기 네트워크로, 저장하는 데 800GB가 필요하다. 모델은 생성 사전 훈련을 사용하여 훈련되었다. 이전 토큰을 기반으로 다음 토큰이 무엇인지 예측하도록 훈련된다. 이 모델은 많은 작업에서 강력한 제로샷 및 퓨샷 학습을 보여주었다.[2]
GPT-2의 후속인 GPT-3는 샌프란시스코에 기반을 둔 인공 지능 연구소인 OpenAI에서 만든 기초 모델인 GPT 시리즈의 3세대 언어 예측 모델이다.[3] 2020년 5월에 도입되어 2020년 7월 기준으로 베타 테스트 중인[4] GPT-3는 사전 훈련된 언어 표현의 자연어 처리(NLP) 시스템 트렌드의 일부이다.[1]
GPT-3에 의해 생성된 텍스트의 품질은 너무 높아서 사람이 작성했는지 여부를 판단하기 어려울 수 있으며 이점과 위험이 모두 있다.[5] 31명의 OpenAI 연구원과 엔지니어가 2020년 5월 28일 GPT-3를 소개하는 원본 논문을 발표했다. 그들의 논문에서 그들은 GPT-3의 잠재적인 위험에 대해 경고하고 위험을 완화하기 위한 연구를 촉구했다.[1]:34 뉴욕 타임스의 2022년 4월 리뷰에서는 GPT-3의 기능이 인간과 동등한 유창함으로 독창적인 산문을 작성할 수 있다고 설명했다.[6]
마이크로소프트는 2020년 9월 22일에 GPT-3의 "독점적" 사용을 허가했다고 발표했다. 다른 사람들은 여전히 공개 API를 사용하여 출력을 받을 수 있지만 마이크로소프트만이 GPT-3의 기본 모델에 접근할 수 있다.[7]
모델
[편집]모델명 | 파라미터 | API 이름 |
---|---|---|
GPT-3 Small | 117 M | n/a |
GPT-3 Medium | 350 M | ada |
GPT-3 Large | 760 M | n/a |
GPT-3 XL | 1.3 B | babbage |
GPT-3 2.7B | 2.7 B | n/a |
GPT-3 6.7B | 6.7 B | curie |
GPT-3 13B | 13B | n/a |
GPT-3 175B | 175B | davinci |
모델 | 파라미터 | 시리즈 |
---|---|---|
ada | 350 M | Base GPT-3 |
babbage | 1.3 B | Base GPT-3 |
curie | 6.7B | Base GPT-3 |
davinci | 175 B | Base GPT-3 |
text-ada | 350 M | InstructGPT-3 |
text-babbage | 175B | InstructGPT-3 |
text-curie | 6.7B | InstructGPT-3 |
text-davinci-001 | 175B | InstructGPT-3 |
text-davinci-002 | 175B | GPT-3.5 |
text-davinci-003 | 175B | GPT-3.5 |
gpt-3.5-turbo | 175B | GPT-3.5 |
InstructGPT
[편집]InstructGPT는 세밀하게 조정된 GPT-3 버전이다. 인간이 작성한 명령어의 데이터셋에서 훈련되고 있다. 이 훈련을 통해 InstructGPT는 질문을 더 잘 이해할 수 있으며 더 정확하고 적절한 결과를 생성할 수 있다.
같이 보기
[편집]- 변환기(transformer)
- 주의집중(attention)
- GPT (언어 모델)
- GPT-2
각주
[편집]- ↑ 가 나 다 Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (2020년 5월 28일). “Language Models are Few-Shot Learners”. arXiv:2005.14165.
- ↑ Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (2018년 6월 11일). “Improving Language Understanding by Generative Pre-Training” (PDF). 12쪽. 2021년 1월 26일에 원본 문서 (PDF)에서 보존된 문서. 2020년 7월 31일에 확인함.
- ↑ Shead, Sam (2020년 7월 23일). “Why everyone is talking about the A.I. text generator released by an Elon Musk-backed lab”. 《CNBC》. 2020년 7월 30일에 원본 문서에서 보존된 문서. 2020년 7월 31일에 확인함. Four preprints were released between May 28 and July 22, 2020.
- ↑ Bussler, Frederik (2020년 7월 21일). “Will GPT-3 Kill Coding?”. 《Towards Data Science》. 2020년 8월 19일에 원본 문서에서 보존된 문서. 2020년 8월 1일에 확인함.
- ↑ Sagar, Ram (2020년 6월 3일). “OpenAI Releases GPT-3, The Largest Model So Far”. 《Analytics India Magazine》. 2020년 8월 4일에 원본 문서에서 보존된 문서. 2020년 7월 31일에 확인함.
- ↑ Johnson, Steven; Iziev, Nikita (2022년 4월 15일). “A.I. Is Mastering Language. Should We Trust What It Says?”. 《The New York Times》. 2022년 11월 24일에 원본 문서에서 보존된 문서. 2022년 4월 23일에 확인함.
- ↑ Hao, Karen (2020년 9월 23일). “OpenAI is giving Microsoft exclusive access to its GPT-3 language model”. 《MIT Technology Review》 (영어). 2021년 2월 5일에 원본 문서에서 보존된 문서. 2020년 9월 25일에 확인함.
The companies say OpenAI will continue to offer its public-facing API, which allows chosen users to send text to GPT-3 or OpenAI's other models and receive its output. Only Microsoft, however, will have access to GPT-3's underlying code, allowing it to embed, repurpose, and modify the model as it pleases.