딥시크
![]() |
![]() | |
창립 | 2023년 5월 ![]() |
---|---|
창립자 | 량원펑 ![]() |
산업 분야 | 정보기술 ![]() |
본사 소재지 | |
웹사이트 | deepseek.com |
딥시크(DeepSeek, 중국어 간체자: 深度求索, 병음: Shēndù Qiúsuǒ)는 오픈 소스 대형 언어 모델을 개발하는 중국의 인공지능 연구 기업이자 회사의 제품명이다. DeepSeek은 중국의 헤지펀드인 High-Flyer의 대규모 자금 지원을 받았으며, 둘 다 량원펑이 설립하고 운영하고 있으며 저장성 항저우에 본사를 두고 있다. 여러 국가들뿐만 아니라 한국의 정부 부처마다 외부 접속이 가능한 PC에서 딥시크 접속을 차단하고 있는 가운데 금융회사들도 민감한 업무 정보나 개인정보가 유출될 가능성을 막기 위해 딥시크를 차단하고 있다.[1]
2025년 2월 15일 대한민국 개인정보보호위원회의 결정으로 국내 서비스가 잠정 중단됐으며, 국내 개인정보보호법에 따른 개선·보완이 이뤄진 후 서비스가 재개될 예정이다.[2]
배경
[편집]2016년 2월, High-Flyer는 세계 금융 위기 이후 저장 대학에 재학 중이던 시절부터 거래를 시작한 AI 애호가인 량원펑과 공동으로 설립되었다.[3] 2019년에는 AI 거래 알고리즘을 개발하고 활용하는 데 중점을 둔 헤지펀드인 High-Flyer를 설립했다. 2021년까지 High-Flyer는 거래에 이 AI만을 사용하게 된다.[4]
2023년 4월 High-Flyer는 High-Flyer의 금융 사업과 별도로 AI 도구를 연구 개발하는 인공 일반 지능 연구소를 시작했다.[5][6] 2023년 5월, High-Flyer가 투자자 중 하나로 합류하면서 이 연구소는 DeepSeek라는 자체 회사가 되었다.[4][7][6] 벤처 캐피털 회사들은 단기간에 투자 회수가 이루어질 가능성이 낮다는 이유로 자금조달을 꺼렸다.[4]
DeepSeek은 2024년 5월 저렴한 가격에 강력한 성능을 제공하는 DeepSeek-V2를 출시한 이후 중국 AI 모델 가격 전쟁의 촉매제로 유명해졌다. 이 회사는 곧 "AI계의 핀둬둬 "라는 별칭을 얻었고 바이트댄스, 텐센트, 바이두, 알리바바와 같은 다른 주요 기술 대기업은 이 회사와 경쟁하기 위해 자사 AI 모델의 가격을 낮추기 시작했다. 하지만 DeepSeek가 낮은 가격을 책정했음에도 불구하고 손실을 보고 있는 경쟁사에 비하면 수익성이 있었다.[8]
현재까지 DeepSeek은 오로지 연구에만 집중하고 있으며 상용화에 대한 구체적인 계획은 없다.[8]
DeepSeek는 신입사원을 채용할 때 업무 경험보다는 기술적 능력을 중시하는 채용 정책을 펼치고 있어 신입사원의 대부분은 대학을 갓 졸업한 대학생이거나 AI 분야 경력이 상대적으로 짧은 개발자들이다.[6]
직원수
[편집]딥시크가 최근 선보인 AI 모델 딥시크-V3는 딥시크 창업자 량원펑을 비롯한 중국인 연구자·엔지니어 150명과 데이터 자동화 연구팀 31명이 개발했다.
딥시크의 연구·개발(R&D) 인력이 139명에 불과하며, 챗GPT 개발사 오픈AI에 연구원만 1200명이 있는 것과 비교된다. 마이크로소프트 코파일럿 개발사인 마이크로소프트에는 7000명, 제미나이 개발사인 구글에는 5000명의 AI 개발 인력을 두고 있다.
출시 내역
[편집]DeepSeek LLM
[편집]DeepSeek은 2023년 11월 2일에 연구원과 상업 사용자 모두에게 무료로 제공되는 첫 번째 모델인 DeepSeek Coder를 공개하였다.[9] 모델 코드는 MIT 라이선스에 따라 오픈 소스로 공개되었으며 모델 자체에 대한 "개방적이고 책임감 있는 다운스트림 사용"에 관한 추가 라이선스 계약이 포함되어 있다.[10]
2023년 11월 29일 DeepSeek은 최대 670억개 매개변수까지 확장되는 DeepSeek LLM[11]을 출시한다. 이 프로그램은 당시 사용 가능한 다른 LLM과 경쟁하기 위해 개발되었으며 성능은 GPT-4에 근접한다. 그러나 계산 효율성과 확장성 측면에서 문제에 직면했다.[9] DeepSeek Chat이라는 모델의 챗봇 버전도 출시되었다.[12]
V2
[편집]2024년 5월 DeepSeek-V2가 출시되었다.[13] 파이낸셜 타임즈는 이 토큰의 가격이 백만 개의 출력 토큰당 2위안으로 경쟁사보다 저렴하다고 보도했다. 워털루 대학 Tiger Lab의 리더보드에서는 DeepSeek-V2가 LLM 순위에서 7위를 차지했다.[7]
2024년 12월 DeepSeek-V3가 출시되었다. 6710억 개의 매개변수를 가지고 있으며, 약 55일 동안 훈련되었고 비용은 558만 달러였다. 다른 것들에 비해 훨씬 적은 자원을 사용하여 훈련되었다. 14.8조 개의 토큰으로 구성된 데이터셋에서 훈련되었다. 벤치마크 테스트에서는 GPT-4o 와 Claude 3.5 Sonnet과 일치하는 반면 Llama 3.1과 Qwen 2.5보다 성능이 더 우수하다는 것을 보여주었다.[6][14][15][16] DeepSeek의 제한된 기반에 대한 최대한의 효율은 중국의 AI 개발에 대한 미국의 제재의 잠재적 한계를 강조했다.[6][17] The Hill의 의견 기사에서는 이 출시를 미국의 AI가 스푸트니크 충격에 도달한 것으로 비유했다.[18]
이 모델은 256명의 라우팅된 전문가와 1명의 공유 전문가를 포함하는 Multi-head Latent Attention Transformer를 갖춘 Mixture of experts (MoE)이다. 각 토큰은 37B개 이상의 매개변수를 활성화한다.[19]
단계 | 비용(1,000GPU 시간 기준) | 비용(100만 달러) |
---|---|---|
사전 훈련(Pre-training) | 2,664 | 5.328약 69억 2천6백4십만 원 |
문맥 확장(Context extension) | 119 | 0.24약 3억 1천2백만 원 |
미세 조정(Fine-tuning) | 5 | 0.01약 1천3백만 원 |
합계 | 2,788 | 5.576약 72억 4천8백8십만 원 |
R1
[편집]2024년 11월에는 논리적 추론, 수학적 추론 및 실시간 문제 해결을 위해 훈련된 DeepSeek R1-Lite-Preview가 출시되었다. DeepSeek은 AIME(American Invitational Mathematics Examination) 및 MATH와 같은 벤치마크에서 OpenAI o1의 성능을 능가했다고 주장했다.[20] 하지만 월스트리트 저널은 2024년판 AIME의 15개 문제를 활용했을 때 o1 모델이 DeepSeek R1-Lite-Preview보다 더 빠르게 해결책에 도달했다고 밝혔다.[21]
2025년 1월 20일[22] V3-Base를 기반으로 한 DeepSeek-R1 및 DeepSeek-R1-Zero가 출시되었다.[23] V3와 마찬가지로 각각은 총 671B개의 매개변수와 37B개의 활성화된 매개변수를 가진 Mixture of experts (MoE)이다. 그들은 또한 R1에 기반을 두지 않은 "DeepSeek-R1-Distill" 모델도 출시했다. 대신, 이 모델들은 R1이 생성한 재현 데이터를 기반으로 미세 조정된 LLaMA 및 Qwen 과 같은 다른 개방형 가중치 모델과 유사하다.
R1-Zero는 지도 학습 미세 조정(SFT) 없이 강화 학습(RL)을 사용하여 독점적으로 학습되었다.[24] critic model을 사용하는 대신 그룹 점수에서 기준선을 추정하는 그룹 상대 정책 최적화(GRPO)를 사용하여 훈련된다.[25] 사용되는 보상 시스템은 규칙 기반이며, 주로 정확도 보상과 형식 보상의 두 가지 유형의 보상으로 구성된다.
R1-Zero 출력은 읽기가 쉽지 않고 출력에서 영어와 중국어가 번갈아가며 나오기 때문에 이런 문제를 해결하고 추론을 더욱 개선하기 위해 R1을 훈련시켰다.[24]
같이 보기
[편집]각주
[편집]- ↑ 금융기관들도 ‘딥시크 접속 차단’ 동참, 한겨레, 2025-2-6
- ↑ 개인정보위 "딥시크 국내 신규서비스 중단…개인정보 정책 미흡"
- ↑ “How a top Chinese AI model overcame US sanctions”. 《MIT Technology Review》 (영어). 2025년 1월 24일. 2025년 1월 25일에 원본 문서에서 보존된 문서.
- ↑ 가 나 다 Ottinger, Lily (2024년 12월 9일). “Deepseek: From Hedge Fund to Frontier Model Maker”. 《ChinaTalk》 (영어). 2024년 12월 28일에 원본 문서에서 보존된 문서. 2024년 12월 28일에 확인함.
- ↑ Yu, Xu (2023년 4월 17일). “[Exclusive] Chinese Quant Hedge Fund High-Flyer Won't Use AGI to Trade Stocks, MD Says”. 《Yicai Global》 (영어). 2023년 12월 31일에 원본 문서에서 보존된 문서. 2024년 12월 28일에 확인함.
- ↑ 가 나 다 라 마 Jiang, Ben; Perezi, Bien (2025년 1월 1일). “Meet DeepSeek: the Chinese start-up that is changing how AI models are trained”. 《South China Morning Post》 (영어). 2025년 1월 22일에 원본 문서에서 보존된 문서. 2025년 1월 1일에 확인함.
- ↑ 가 나 McMorrow, Ryan; Olcott, Eleanor (2024년 6월 9일). “The Chinese quant fund-turned-AI pioneer”. 《Financial Times》. 2024년 7월 17일에 원본 문서에서 보존된 문서. 2024년 12월 28일에 확인함.
- ↑ 가 나 Schneider, Jordan (2024년 11월 27일). “Deepseek: The Quiet Giant Leading China's AI Race”. 《ChinaTalk》 (영어). 2024년 12월 28일에 확인함.
- ↑ 가 나 Se, Ksenia (2024년 8월 28일). “Inside DeepSeek Models”. 《Turing Post》 (영어). 2024년 9월 18일에 원본 문서에서 보존된 문서. 2024년 12월 28일에 확인함.
- ↑ “DeepSeek-Coder/LICENSE-MODEL at main · deepseek-ai/DeepSeek-Coder”. 《GitHub》 (영어). 2025년 1월 22일에 원본 문서에서 보존된 문서. 2025년 1월 24일에 확인함.
- ↑ , arXiv
|제목=
이(가) 없거나 비었음 (도움말) - ↑ Sharma, Shubham (2023년 12월 1일). “Meet DeepSeek Chat, China's latest ChatGPT rival with a 67B model”. 《VentureBeat》 (미국 영어). 2024년 12월 23일에 원본 문서에서 보존된 문서. 2024년 12월 28일에 확인함.
- ↑ , arXiv
|제목=
이(가) 없거나 비었음 (도움말) - ↑ Jiang, Ben (2024년 12월 27일). “Chinese start-up DeepSeek's new AI model outperforms Meta, OpenAI products”. 《South China Morning Post》 (영어). 2024년 12월 27일에 원본 문서에서 보존된 문서. 2024년 12월 28일에 확인함.
- ↑ Sharma, Shubham (2024년 12월 26일). “DeepSeek-V3, ultra-large open-source AI, outperforms Llama and Qwen on launch”. 《VentureBeat》 (미국 영어). 2024년 12월 27일에 원본 문서에서 보존된 문서. 2024년 12월 28일에 확인함.
- ↑ Wiggers, Kyle (2024년 12월 26일). “DeepSeek's new AI model appears to be one of the best 'open' challengers yet”. 《TechCrunch》. 2025년 1월 2일에 원본 문서에서 보존된 문서. 2024년 12월 31일에 확인함.
- ↑ Shilov, Anton (2024년 12월 27일). “Chinese AI company's AI model breakthrough highlights limits of US sanctions”. 《Tom's Hardware》 (영어). 2024년 12월 28일에 원본 문서에서 보존된 문서. 2024년 12월 28일에 확인함.
- ↑ Wade, David (2024년 12월 6일). “American AI has reached its Sputnik moment”. 《The Hill》 (미국 영어). 2024년 12월 8일에 원본 문서에서 보존된 문서. 2025년 1월 25일에 확인함.
- ↑ 가 나 DeepSeek-AI; Liu, Aixin; Feng, Bei; Xue, Bing; Wang, Bingxuan; Wu, Bochao; Lu, Chengda; Zhao, Chenggang; Deng, Chengqi (2024년 12월 27일), 《DeepSeek-V3 Technical Report》, arXiv:2412.19437
- ↑ Franzen, Carl (2024년 11월 20일). “DeepSeek's first reasoning model R1-Lite-Preview turns heads, beating OpenAI o1 performance”. 《VentureBeat》 (미국 영어). 2024년 11월 22일에 원본 문서에서 보존된 문서. 2024년 12월 28일에 확인함.
- ↑ Huang, Raffaele (2024년 12월 24일). “Don't Look Now, but China's AI Is Catching Up Fast”. 《The Wall Street Journal》 (미국 영어). 2024년 12월 27일에 원본 문서에서 보존된 문서. 2024년 12월 28일에 확인함.
- ↑ “Release DeepSeek-R1 · deepseek-ai/DeepSeek-R1@23807ce”. 《GitHub》 (영어). 2025년 1월 21일에 원본 문서에서 보존된 문서. 2025년 1월 21일에 확인함.
- ↑ , arXiv
|제목=
이(가) 없거나 비었음 (도움말) - ↑ 가 나 Sharma, Shubham (2025년 1월 20일). “Open-source DeepSeek-R1 uses pure reinforcement learning to match OpenAI o1 — at 95% less cost”. 《VentureBeat》 (미국 영어). 2025년 1월 25일에 원본 문서에서 보존된 문서. 2025년 1월 25일에 확인함.
- ↑ Shao, Zhihong; Wang, Peiyi; Zhu, Qihao; Xu, Runxin; Song, Junxiao; Bi, Xiao; Zhang, Haowei; Zhang, Mingchuan; Li, Y. K. (2024년 4월 27일), 《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》, arXiv:2402.03300
외부 링크
[편집]- 딥시크
- 공식 웹사이트
- Anthology of DeepSeek papers
- (영어) Deepseek-ai - 깃허브