본문으로 이동

딥시크

위키백과, 우리 모두의 백과사전.
딥시크
Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd.
杭州深度求索人工智能基础技术研究有限公司
형태비공개
창립2023년 7월 17일(2년 전)(2023-07-17)[1]
창립자
산업 분야정보기술
인공지능
본사 소재지항저우시, 저장성, 중국
핵심 인물
  • 량원펑 (CEO)
주요 주주하이플라이어(High-Flyer)
종업원 수
160 (2025)[2]
웹사이트deepseek.com

딥시크(DeepSeek, 중국어 간체자: 深度求索, 병음: Shēndù Qiúsuǒ, Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd.)[a]대형 언어 모델 (LLM)을 개발하는 중국의 인공지능 회사이다. 저장성 항저우시에 본사를 둔 딥시크는 중국 헤지펀드 하이플라이어가 소유하고 자금을 지원한다. 딥시크는 2023년 7월 하이플라이어의 공동 창립자이자 양사의 CEO를 겸하고 있는 량원펑에 의해 설립되었다.[7][8][9] 이 회사는 2025년 1월 딥시크-R1 모델과 함께 자사 챗봇을 출시했다.

MIT 허가서에 따라 출시된 딥시크-R1은 오픈AIGPT-4o오픈AI o1과 같은 다른 현대적인 대규모 언어 모델과 비교할 수 있는 응답을 제공한다.[10] 훈련 비용은 다른 LLM보다 훨씬 낮은 것으로 보고되었다. 이 회사는 V3 모델 훈련에 미화 600만 달러가 들었다고 주장하는데, 이는 2023년 오픈AIGPT-4에 든 미화 1억 달러보다 훨씬 적은 비용이며,[11] 메타의 유사 모델인 LLaMA 3.1이 소비한 컴퓨팅 파워의 약 10분의 1에 불과하다.[11][12][13][14] 더 크고 잘 알려진 경쟁사들에 대한 딥시크의 성공은 "인공지능의 판도를 뒤엎었다"고 묘사된다.[15][16]

딥시크의 모델은 "오픈 웨이트"로 설명되는데, 이는 특정 사용 조건이 일반적인 오픈 소스 소프트웨어와 다르지만, 정확한 매개변수가 공개적으로 공유된다는 것을 의미한다.[17][18] 이 회사는 중국 최고 대학에서 AI 연구원을 모집하고[15] 모델의 지식과 기능을 넓히기 위해 전통적인 컴퓨터 과학 분야 외부에서도 인력을 고용한다고 보고되었다.[12]

딥시크는 전문가 혼합 (MoE) 레이어와 같은 기술을 통합하여 R1 모델의 훈련 비용을 크게 절감했다.[19] 또한 이 회사는 AI 칩 수출에 대한 중국의 무역 제한이 계속되는 동안 모델을 훈련했으며, 수출용으로 제작된 약한 AI 칩을 사용하고 전체적으로 더 적은 장치를 사용했다.[13][20] 관측자들은 이 돌파구가 엔비디아와 같은 기존 AI 하드웨어 선두 기업들을 위협하며 업계에 "충격파"를 보냈다고 말한다. 엔비디아의 주가는 급락하여 시가총액이 미화 6천억 달러 감소했으며, 이는 미국 주식시장 역사상 단일 기업 최대 하락폭이다.[21][22]

역사

[편집]

설립 및 초기 (2016년–2023년)

[편집]

2016년 2월, 저장 대학에 다니면서 세계 금융 위기 (2007년~2008년) 이후로 거래를 해왔던 AI 애호가 량원펑이 하이플라이어를 공동 설립했다.[23] 이 회사는 2016년 10월 21일부터 GPU 기반의 딥 러닝 모델을 사용하여 주식 거래를 시작했으며, 그 전에는 CPU 기반의 선형 모델을 사용했다. 2017년 말에는 대부분의 거래가 AI에 의해 이루어졌다.[24]

량은 AI 거래 알고리즘 개발 및 사용에 중점을 둔 헤지펀드로 하이플라이어를 설립했으며, 2021년까지 회사는 전적으로 AI를 사용했다.[25] 종종 엔비디아 칩을 사용했다.[26]

2019년에 이 회사는 2억 런민비를 들여 첫 컴퓨팅 클러스터, 파이어플라이어(Fire-Flyer)를 구축하기 시작했다. 이 클러스터는 200 Gbit/s로 상호 연결된 1,100개의 GPU를 포함했으며 1.5년의 운영 후 퇴역했다.[24]

2021년까지 량은 AI 프로젝트를 위해 대량의 엔비디아 GPU를 구매하기 시작했고,[26] 미국이 중국에 대한 칩 판매를 제한하기 전에 엔비디아 A100 GPU 10,000개를 확보했다고 보고되었다.[27][25] 컴퓨팅 클러스터 파이어플라이어 2는 2021년에 10억 위안의 예산으로 건설을 시작했다.[24]

2022년에 파이어플라이어 2의 용량은 96% 이상 사용되었으며, 총 5,674만 GPU 시간을 기록했다. 이 중 27%는 회사 외부의 과학 계산을 지원하는 데 사용되었다.[24]

2022년 동안 파이어플라이어 2는 625개의 노드에 각각 8개의 GPU가 포함된 5000개의 PCIe A100 GPU를 보유했다. 당시에는 DGX 버전의 A100 대신 PCIe만 사용했는데, 이는 당시 훈련하는 모델이 단일 40GB GPU VRAM 내에 들어갈 수 있어 DGX의 높은 대역폭이 필요 없었기 때문이다(즉, 데이터 병렬 처리만 필요하고 모델 병렬 처리는 필요하지 않았다).[28] 이후 NVLink와 NCCL(Nvidia Collective Communications Library)을 통합하여 모델 병렬 처리가 필요한 더 큰 모델을 훈련했다.[29][30]

2023년 4월 14일,[31] 하이플라이어는 인공 일반 지능 (AGI) 연구소를 설립한다고 발표하며, 새로운 연구소가 회사의 금융 사업과 관련 없는 AI 도구 개발에 집중할 것이라고 밝혔다.[32][33] 두 달 뒤인 2023년 7월 17일,[1] 이 연구소는 독립 회사인 딥시크로 분사되었고, 하이플라이어는 주요 투자자이자 후원자가 되었다.[25][34][33] 벤처 캐피털 투자자들은 이 벤처가 빠르게 "엑시트"를 창출할 가능성이 낮다고 판단하여 자금 지원을 꺼렸다.[25]

모델 출시 (2023년–현재)

[편집]

딥시크는 2023년 11월 2일 첫 모델인 DeepSeek Coder를 출시했고, 이어서 2023년 11월 29일 DeepSeek-LLM 시리즈를 출시했다.[35]:{{{1}}} 2024년 1월에는 DeepSeek-MoE 모델 2개(Base 및 Chat)를 출시했으며,[36] 4월에는 DeepSeek-Math 모델 3개(Base, Instruct, RL)를 출시했다.[37]

딥시크-V2는 2024년 5월에 출시되었고, 한 달 뒤 딥시크-코더 V2 시리즈가 출시되었다.[38] 2024년 9월에는 딥시크 V2.5가 도입되었고 12월에 개정되었다.[39] 2024년 11월 20일, 딥시크-R1-라이트의 미리보기가 API 및 챗을 통해 제공되었다.[40][41] 12월에는 딥시크-V3-베이스 및 딥시크-V3(챗)이 출시되었다.[29]

2025년 1월 20일 출시 직후 사이버 공격으로 인한 딥시크 로그인 페이지

2025년 1월 20일, 딥시크는 딥시크 챗봇을 출시했는데, 딥시크-R1 모델을 기반으로 iOS안드로이드에서 무료로 제공되었다. 1월 27일까지 딥시크는 미국 iOS 앱 스토어에서 가장 많이 다운로드된 프리웨어 앱으로 챗GPT를 추월했으며,[15] 이는 엔비디아 주가 18% 하락으로 이어졌다.[42][43]

2025년 3월 24일, 딥시크는 MIT 허가서에 따라 딥시크-V3-0324를 출시했다.[44][45]

2025년 2월, 싱가포르 당국은 딥시크에 첨단 엔비디아 칩을 불법 수출한 혐의로 여러 명을 체포했다.[46] 2025년 4월, 도널드 트럼프 2기 행정부는 딥시크가 미국 기술을 구매하는 것을 차단하려는 제재를 고려하고 있다고 보도되었다.[47]

2025년 5월 28일, 딥시크는 MIT 허가서에 따라 딥시크-R1-0528을 출시했다.[48]

회사 운영

[편집]

딥시크는 저장성 항저우에 본사를 두고 있으며, 하이플라이어가 소유하고 자금을 지원한다. 공동 설립자인 량원펑은 CEO를 맡고 있다. 2024년 5월 현재, 량은 두 개의 페이퍼 컴퍼니를 통해 딥시크 지분 84%를 개인적으로 보유하고 있다.[주 1][49]

전략

[편집]

딥시크는 연구에 집중하고 있으며 즉각적인 상업화 계획은 없다고 밝혔다.[50] 이러한 입장은 소비자 대상 기술을 목표로 하는 중국 AI 규정의 특정 조항을 회피할 수 있게 한다.[12]

딥시크의 채용 방식은 긴 업무 경험보다는 기술을 중시하여, 많은 신입 직원이 대학을 갓 졸업한 사람들이다.[33][12] 이 회사는 또한 모델의 지식과 능력을 확장하기 위해 전통적인 컴퓨터 과학 배경이 없는 사람들도 모집하는데, 예를 들어 시나 고급 수학 분야의 전문가를 채용한다.[15][12] 뉴욕 타임스에 따르면, 수십 명의 딥시크 연구원들은 중국 인민해방군 연구소와 국방 칠자와 관련이 있거나 이전에 관련이 있었다.[47]

훈련 프레임워크

[편집]

하이플라이어/딥시크는 파이어플라이어(萤火一号)와 파이어플라이어 2(萤火二号)라는 최소 두 개의 주요 컴퓨팅 클러스터를 운영한다. 파이어플라이어 2는 공동 설계된 소프트웨어 및 하드웨어 아키텍처로 구성된다. 하드웨어 측면에서는 엔비디아 GPU가 200 Gbps 상호 연결을 사용한다. 클러스터는 두 개의 "영역"으로 나뉘며, 플랫폼은 영역 간 작업을 지원한다. 네트워크 토폴로지는 높은 이분 대역폭을 위해 선택된 두 개의 팻 트리였다. 소프트웨어 측면은 다음과 같다.[30][24]

  • 3FS (Fire-Flyer File System): 비동기 무작위 읽기를 위해 특별히 설계된 분산 병렬 파일 시스템이다. Direct I/O와 RDMA Read를 사용한다. 표준 버퍼링 I/O와 달리 Direct I/O는 데이터를 캐시하지 않는다. 이 경우 각 데이터 읽기가 무작위이며 재사용되지 않으므로 캐싱은 쓸모가 없다.[51][52]
  • hfreduce: 비동기 통신을 위한 라이브러리로, 원래 Nvidia Collective Communication Library (NCCL)을 대체하기 위해 설계되었다.[28] 주로 Allreduce, 특히 역전파 중의 기울기에 사용된다. GPU의 커널을 차단하지 않기 위해 CPU에서 비동기적으로 실행된다.[30] NCCL처럼 투 트리 브로드캐스트를 사용한다.[28]
  • hfai.nn: PyTorchtorch.nn과 유사하게 인공 신경망 훈련에 일반적으로 사용되는 연산자 소프트웨어 라이브러리.
  • HaiScale Distributed Data Parallel (DDP): 데이터 병렬 처리 (DP), 파이프라인 병렬 처리 (PP), 텐서 병렬 처리 (TP), 전문가 병렬 처리 (EP), 완전 샤드 데이터 병렬 (FSDP) 및 Zero Redundancy Optimizer (ZeRO)와 같은 다양한 형태의 병렬 처리를 구현하는 병렬 훈련 라이브러리이다. 백엔드에서 NCCL을 사용하는 PyTorch DDP와 유사하다.
  • HAI Platform: 작업 스케줄링, 오류 처리 및 재해 복구와 같은 다양한 응용 프로그램.[53]

2022년 현재 파이어플라이어 2는 625개의 노드에 각각 8개의 GPU가 포함된 5000개의 PCIe A100 GPU를 보유했다.[28] 이후 NVLink와 NCCL을 통합하여 모델 병렬 처리가 필요한 더 큰 모델을 훈련했다.[29][30]

개발 및 출시 역사

[편집]
딥시크 모델의 주요 버전. SFT는 지도 미세 조정을 의미한다.
주요 버전 출시일 상태 주요 변형 비고
DeepSeek Coder 2023년 11월 2일 단종 Base (사전 훈련); Instruct (명령어 미세 조정) 아키텍처는 Llama와 본질적으로 동일하다.
DeepSeek-LLM 2023년 11월 29일 단종 Base;

Chat (SFT 포함)

DeepSeek-MoE 2024년 1월 9일 단종 Base;

Chat

전문가 혼합 (MoE)의 변형을 개발했다.
DeepSeek-Math 2024년 4월 단종 Base DS-Coder-Base-v1.5로 초기화됨
Instruct (SFT 포함)
RL (프로세스 보상 모델 사용) 근접 정책 최적화 (PPO)의 변형인 Group Relative Policy Optimization (GRPO)를 개발했다.
DeepSeek V2 2024년 5월 단종 DeepSeek-V2, DeepSeek-V2-Chat

DeepSeek-V2-Lite, DeepSeek-V2-Lite-Chat

DeepSeek-Coder-V2

DeepSeek-V2.5

다중 헤드 잠재 주의(MLA)를 개발했다. 또한 전문가 혼합(MoE)도 사용했다.

KV 캐싱을 구현했다.

DeepSeek V3 2024년 12월 활성 DeepSeek-V3-Base
DeepSeek-V3 (챗 모델)
아키텍처는 V2와 본질적으로 동일하다. 2025-03-24에 업데이트됨.
DeepSeek-Prover-V2 2025년 5월 1일 활성 DeepSeek-Prover-V2-671B
DeepSeek-Prover-V2-7B
DeepSeek VL2 ? 활성
DeepSeek R1 2024년 11월 20일 활성 DeepSeek-R1-Lite-Preview API와 챗 인터페이스를 통해서만 접근 가능했다.
2025년 1월 20일 활성 DeepSeek-R1

DeepSeek-R1-Zero

DeepSeek-V3-Base에서 초기화되었으며 V3 아키텍처를 공유한다.
Distilled models Llama, Qwen 등 다른 모델에서 초기화되었다. R1 및 R1-Zero에 의해 합성된 데이터에서 증류되었다.[54]
2025년 5월 28일 활성 DeepSeek-R1-0528

첫 번째 딥시크 모델은 본질적으로 LLaMA와 동일했으며,[35] 밀도 높은 디코더 전용 트랜스포머였다. 이후 모델에는 다중 헤드 잠재 주의(MLA), 전문가 혼합(MoE), KV 캐싱이 통합되었다.[36][38]

디코더 전용 트랜스포머는 여러 개의 동일한 디코더 레이어로 구성된다. 각 레이어는 주의 레이어와 FFN(피드포워드 네트워크) 레이어라는 두 가지 주요 구성 요소를 특징으로 한다.[38] 주의 레이어에서는 전통적인 다중 헤드 주의 메커니즘이 다중 헤드 잠재 주의로 향상되었다. 이 업데이트는 압축된 잠재 벡터를 도입하여 성능을 향상시키고 추론 중 메모리 사용량을 줄인다.[38]

한편, FFN 레이어는 전문가 혼합 (MoE) 접근 방식의 변형을 채택하여 표준 구현에 비해 전문가 수를 효과적으로 두 배로 늘린다. 이 레이어는 두 가지 유형의 전문가를 구별한다. 일반적인 지식을 캡슐화하기 위해 항상 활성화되는 공유 전문가와, 특정 정보를 캡처하기 위해 소수만 활성화되는 라우팅 전문가이다.[36]

현재 N개의 토큰 시퀀스를 입력으로 가정해 본다. 현재 입력을 기반으로 다음 토큰을 예측하기 위해 어텐션 메커니즘은 쿼리(Q), 키(K), 값(V) 행렬을 포함한 광범위한 행렬 계산을 수행한다. Q, K, V의 차원은 현재 토큰 수와 모델의 임베딩 크기에 따라 결정된다. 새 토큰이 생성되면 자동 회귀 절차는 이를 입력 시퀀스 끝에 추가하고, 트랜스포머 레이어는 다음 토큰에 대한 행렬 계산을 반복한다. 수학적 분석에 따르면 새 토큰은 Q, K, V에 각각 추가되는 새로운 쿼리, 키, 값 벡터를 도입한다. 이러한 새 벡터를 K 및 V 행렬에 추가하는 것만으로도 다음 토큰 예측을 계산하는 데 충분하다. 결과적으로 현재 K 및 V 행렬을 메모리에 저장하면 어텐션 행렬의 재계산을 피하여 시간을 절약할 수 있다. 이 기능은 KV(키-값) 캐싱으로 알려져 있다.[38] 이 기술은 추론 중 계산 비용을 효과적으로 줄인다.

모델 개요

[편집]

딥시크의 모델은 "오픈 웨이트"이며, 이는 진정한 오픈 소스 소프트웨어보다 수정 자유도가 낮다.[17][55]

딥시크 코더

[편집]

DeepSeek Coder는 8개의 모델 시리즈로, 4개는 사전 훈련(Base)되었고 4개는 명령어 미세 조정(Instruct)되었다. 모든 모델은 16K의 컨텍스트 길이를 가진다. 이 모델은 "개방적이고 책임 있는 다운스트림 사용" 제한이 포함된 DeepSeek License에 따라 소스 사용 가능으로 제공되었다.[56]

훈련 프로그램은 다음과 같았다.[57][58][59]

  1. 사전 훈련: 1.8T 토큰 (87% 소스 코드, 10% 코드 관련 영어(GitHub 마크다운 및 스택 익스체인지), 3% 코드 무관 중국어).
  2. 긴 컨텍스트 사전 훈련: 200B 토큰. 이는 컨텍스트 길이를 4K에서 16K로 확장한다. 이로써 Base 모델이 생성되었다.
  3. 지도 미세 조정 (SFT): 2B 토큰의 명령어 데이터. 이로써 Instruct 모델이 생성되었다.

이들은 인피니밴드, NVLink, NVSwitch로 연결된 A100 및 H800 엔비디아 GPU 클러스터에서 훈련되었다.[57]

딥시크 코더 속성[57]:{{{1}}}[60]
Params.
1.3B 24 2048 5504 16 16
5.7B 32 4096 11008 32 1[주 2]
6.7B 32 4096 11008 32 32
33B 62 7168 19200 56 7[주 2]

DeepSeek-LLM

[편집]

딥시크-LLM 시리즈는 2023년 11월에 출시되었다. Base 및 Chat 형식으로 각각 7B 및 67B 매개변수를 가진다. 딥시크의 첨부 논문은 당시 LLaMA 2 및 대부분의 오픈 소스 LLM보다 높은 벤치마크 결과를 주장했다.[35]:{{{1}}} 모델 코드는 소스 사용 가능한 DeepSeek License에 따라 제공된다.[61]

아키텍처는 본질적으로 LLaMA 시리즈와 동일했다. 프리-노름 디코더 전용 트랜스포머를 사용했으며, 정규화로 RMSNorm, 피드포워드 레이어에 SwiGLU, 회전 위치 임베딩 (RoPE), 그리고 그룹화된 쿼리 어텐션 (GQA)을 사용했다. 둘 다 어휘 크기는 102,400 (바이트 수준 BPE)이었고 컨텍스트 길이는 4096이었다. Common Crawl에서 중복 제거된 2조 토큰의 영어 및 중국어 텍스트로 훈련되었다.[35]

딥시크 LLM 속성[35]:{{{1}}}
Params.
7B 30 4096 11008 32 32
67B 95 8192 22016 64 8[주 2]

두 Base 모델의 Chat 버전은 지도 미세 조정 (SFT) 후 직접 정책 최적화 (DPO)를 통해 Base를 훈련하여 동시에 출시되었다.[35]

MoE

[편집]

딥시크-MoE 모델(Base 및 Chat)은 각각 16B 매개변수(토큰당 2.7B 활성화, 4K 컨텍스트 길이)를 가진다. 훈련은 본질적으로 딥시크-LLM 7B와 동일했으며, 훈련 데이터 세트의 일부에서 훈련되었다. 이들은 16B MoE가 7B 비 MoE와 유사한 성능을 보였다고 주장했다. 이는 표준 희소하게 게이트된 MoE의 변형으로, 항상 쿼리되는 "공유 전문가"와 그렇지 않을 수도 있는 "라우팅 전문가"가 있다. 이들은 이것이 전문가 균형을 맞추는 데 도움이 된다는 것을 발견했다. 표준 MoE에서는 일부 전문가가 과도하게 사용되는 반면 다른 전문가들은 거의 사용되지 않아 공간이 낭비된다. 전문가 사용 균형을 맞추려고 하면 전문가가 동일한 용량을 복제하게 된다. 이들은 자주 사용되는 핵심 기능을 학습하도록 공유 전문가를 제안하고, 거의 사용되지 않는 주변 기능을 학습하도록 라우팅 전문가에게 맡겼다.[36]

Math

[편집]

딥시크-Math는 Base, Instruct, RL의 3가지 모델을 포함한다. Math는 다음과 같이 훈련되었다.[37]

  1. 이전에 사전 훈련된 딥시크-코더 Base v1.5 7B로 초기화한다.
  2. 500B 토큰(6% 딥시크Math 코퍼스, 4% AlgebraicStack, 10% arXiv, 20% GitHub 코드, 10% Common Crawl)으로 추가 사전 훈련한다. 이로써 Base가 생성되었다.
  3. 776K 수학 문제와 도구 사용이 통합된 단계별 풀이로 Base를 SFT하여 명령어 준수 모델을 훈련한다. 이로써 Instruct가 생성되었다.
  4. 강화 학습 (RL): 보상 모델은 Math-Shepherd 방법[62]에 따라 Base에서 훈련된 프로세스 보상 모델 (PRM)이었다. 이 보상 모델은 그 다음 그룹 상대 정책 최적화 (GRPO)를 사용하여 "GSM8K 및 MATH"와 관련된 144K 수학 질문 데이터 세트에서 Instruct를 훈련하는 데 사용되었다. 보상 모델은 훈련 중 보상 해킹을 피하기 위해 지속적으로 업데이트되었다. 이로써 RL이 생성되었다.

V2

[편집]
V2의 아키텍처, 공유-라우팅 MoE 및 MLA 모두 표시[63]:{{{1}}}

2024년 5월, 딥시크는 DeepSeek-V2 시리즈를 출시했다. 이 시리즈는 2개의 기본 모델 (DeepSeek-V2, DeepSeek-V2 Lite)과 2개의 챗봇 (Chat)을 포함한다. 두 개의 더 큰 모델은 다음과 같이 훈련되었다.[63]

  1. 8.1T 토큰 데이터 세트에서 사전 훈련하며, 영어 토큰보다 중국어 토큰을 12% 더 많이 사용한다.
  2. YaRN을 사용하여 컨텍스트 길이를 4K에서 128K로 확장한다.[64] 이로써 DeepSeek-V2가 생성되었다.
  3. 유용성(helpfulness)에 1.2M 인스턴스, 안전성(safety)에 0.3M 인스턴스로 SFT를 수행한다. 이로써 Chat SFT가 생성되었으나 출시되지는 않았다.
  4. 두 단계로 GRPO를 사용하여 RL을 수행한다. 첫 번째 단계는 수학 및 코딩 문제를 해결하도록 훈련되었다. 이 단계는 컴파일러 피드백(코딩용) 및 정답 레이블(수학용)로 훈련된 1개의 보상 모델을 사용했다. 두 번째 단계는 유용하고 안전하며 규칙을 준수하도록 훈련되었다. 이 단계는 3개의 보상 모델을 사용했다. 유용성 및 안전성 보상 모델은 인간 선호도 데이터로 훈련되었다. 규칙 기반 보상 모델은 수동으로 프로그래밍되었다. 훈련된 모든 보상 모델은 Chat (SFT)에서 초기화되었다. 이로써 출시된 Chat 버전이 생성되었다.

이들은 2단계 RL을 선택했는데, 추론 데이터에 대한 RL이 일반 데이터에 대한 RL과 다른 "고유한 특성"을 가지고 있음을 발견했기 때문이다. 예를 들어, 추론에 대한 RL은 더 많은 훈련 단계에 걸쳐 개선될 수 있었다.[63]

두 V2-Lite 모델은 더 작았고 유사하게 훈련되었다. 딥시크-V2 라이트-챗은 RL이 아닌 SFT만 거쳤다. 이들은 "MLA 및 딥시크MoE에 대한 추가 연구 개발"을 돕기 위해 Lite 버전을 훈련했다.[63]

구조적으로 V2 모델은 딥시크 LLM 시리즈와 크게 달랐다. 이들은 낮은 랭크 근사법으로 다중 헤드 잠재 주의 (MLA)라고 불리는 표준 주의 메커니즘을 변경하고, 이전에 공개된 전문가 혼합 (MoE) 변형을 사용했다.[36]

딥시크 V2 속성[63]:{{{1}}}[65][66]
이름 Params. 활성 params 컨텍스트 길이
V2-Lite 15.7B 2.4B 27 32K 2 64
V2 236B 21B 60 128K 2 160

파이낸셜 타임스는 이 모델이 동급 모델보다 저렴하며 백만 출력 토큰당 2 RMB의 가격이라고 보도했다. 워털루 대학교 타이거 랩의 리더보드는 딥시크-V2를 LLM 순위에서 7위로 평가했다.[34]

딥시크-코더 V2 시리즈는 V2-Base, V2-Lite-Base, V2-Instruct, V20-Lite-Instruct를 포함했다. 훈련:[38][주 3]

  1. 기본 모델은 4.2T 토큰에서 사전 훈련된 후(사전 훈련 끝 버전이 아님) 해당 중간 체크포인트에서 초기화되었고, 그 후 6T 토큰에 대해 추가 사전 훈련되었으며, 컨텍스트 길이가 128K로 확장되었다.
  2. 딥시크-코더와 딥시크-매스는 코드 관련 20K와 수학 관련 30K 명령어 데이터를 생성하는 데 사용되었고, 그 후 300M 토큰의 명령어 데이터 세트와 결합되었다. 이는 SFT에 사용되었다.
  3. GRPO를 이용한 RL. 수학 문제에 대한 보상은 정답 레이블과 비교하여 계산되었다. 코드 문제에 대한 보상은 프로그램이 단위 테스트를 통과할지 여부를 예측하도록 훈련된 보상 모델에 의해 생성되었다.

딥시크-V2.5는 딥시크-V2-챗과 딥시크-코더-V2-Instruct를 결합하여 만들어졌다.[39]

V3

[편집]
다중 토큰 예측

딥시크-V3-Base와 딥시크-V3(챗 모델)는 다중 토큰 예측을 추가한 V2와 본질적으로 동일한 아키텍처를 사용하며, 이는 (선택적으로) 추가 토큰을 더 빠르지만 덜 정확하게 디코딩한다. 훈련 과정:[29]

  1. 14.8T 토큰의 다국어 코퍼스(주로 영어와 중국어)로 사전 훈련. V2의 사전 훈련 데이터 세트보다 수학 및 프로그래밍 비율이 높았다.
  2. YaRN을 사용하여 컨텍스트 길이를 4K에서 32K로, 다시 128K로 두 번 확장한다.[64] 이로써 DeepSeek-V3-Base가 생성되었다.
  3. 추론(수학, 프로그래밍, 논리) 및 비추론(창의적 글쓰기, 역할극, 간단한 질의 응답) 데이터의 1.5M 샘플에 대해 2회 에포크로 SFT. 추론 데이터는 "전문가 모델"에 의해 생성되었다. 비추론 데이터는 DeepSeek-V2.5에 의해 생성되고 인간이 검사했다.
    • "전문가 모델"은 불특정 기본 모델로 시작하여 <문제, 원본 응답> 데이터와 내부 DeepSeek-R1-Lite 모델에 의해 생성된 합성 <시스템 프롬프트, 프롬프트, 문제, R1 응답> 데이터 모두에 대해 SFT를 수행하여 훈련되었다. 시스템 프롬프트는 R1에게 생각하는 동안 반영하고 검증하도록 요청했다. 그런 다음 전문가 모델은 공개되지 않은 보상 함수를 사용하여 RL을 수행했다.
    • 각 전문가 모델은 특정 도메인(수학, 프로그래밍, 논리)에서 합성 추론 데이터만 생성하도록 훈련되었다.
    • R1 자체의 출력은 "과도한 생각, 서식 불량, 과도한 길이"로 인해 어려움을 겪었기 때문에 R1 자체 대신 전문가 모델이 사용되었다.
  4. 모델 기반 보상 모델은 V3의 SFT 체크포인트로 시작하여 최종 보상과 최종 보상으로 이어지는 사고 체인을 모두 포함하는 인간 선호도 데이터에 대해 미세 조정하여 만들어졌다. 보상 모델은 객관적이지만 자유 형식의 답변을 가진 질문과 객관적인 답변이 없는 질문(예: 창의적 글쓰기) 모두에 대한 보상 신호를 생성했다.
  5. V3의 SFT 체크포인트는 규칙 기반 보상과 모델 기반 보상(비추론 작업, 유용성, 무해성) 모두를 사용하여 GRPO로 훈련되었다. 규칙 기반 보상은 최종 답변이 있는 수학 문제(상자에 넣음) 및 단위 테스트를 통과하는 프로그래밍 문제에 대해 계산되었다. 이로써 DeepSeek-V3가 생성되었다.

딥시크는 V3와 동일한 아키텍처를 사용하는 딥시크-V3-0324 모델을 2025년 3월 24일 MIT 허가서에 따라 출시했다.[67]

딥시크 V3 속성[29]:{{{1}}}[68]
이름 Params. 활성 params 컨텍스트 길이
V3 671B 37B 61 128K 1 256
V3용 혼합 정밀도 프레임워크[29]:{{{1}}}

딥시크 팀은 효율성을 향상시키기 위해 광범위한 저수준 엔지니어링을 수행했다. 이들은 혼합 정밀도 연산을 사용했다. 순방향 통과의 대부분은 표준 32비트 대신 8비트 부동소수점 수 (5E2M: 5비트 지수 및 2비트 가수)로 수행되었으며, 정확한 누적을 위해 특별한 GEMM 루틴이 필요했다. 이들은 어텐션 모듈 이후의 선형 레이어 입력에 대해서만 사용자 지정 12비트 부동소수점 수(E5M6)를 사용했다. 옵티마이저 상태는 16비트 (BF16)였다. H800당 132개의 스트리밍 멀티프로세서 중 20개를 GPU 간 통신에만 전용하는 등 계산과 통신을 광범위하게 오버랩하여 통신 지연을 최소화했다. 이들은 각 전문가가 있는 정확한 머신을 (10분마다) 재배열하여 특정 머신을 다른 머신보다 더 자주 쿼리하는 것을 피하고, 훈련 손실 함수에 보조 부하 분산 손실을 추가하는 등 통신을 줄였다.[29]

훈련 후에는 H800 GPU 클러스터에 배포되었다. 클러스터 내 8개의 H800 GPU는 NVLink로 연결되었고, 클러스터는 인피니밴드로 연결되었다.[29]

DeepSeek-V3 모델 훈련 총 비용[29]:{{{1}}}
단계 비용 (천 GPU 시간) 비용 (백만 USD$)
사전 훈련 2,664 5.328
컨텍스트 확장 119 0.24
미세 조정 5 0.01
2,788 5.576

이 비용은 실제 비용의 일부만을 포함한다는 이유로[69][70][71] 논의되었고 오해의 소지가 있다는 비판을 받았다.[72]

벤치마크 테스트에 따르면 V3는 LLaMA 3.1 및 Qwen 2.5를 능가하며 GPT-4o클로드 3.5 소네트와 동등한 성능을 보였다.[33][73][74][75]

R1

[편집]

2025년 1월, 딥시크는 MIT 허가서에 따라 DeepSeek-R1 모델을 출시했다.[76]

딥시크-R1-Lite-Preview[40][41][주 4]는 논리적 추론, 수학적 추론, 실시간 문제 해결을 위해 훈련되었다. 딥시크는 오픈AI o1American Invitational Mathematics Examination (AIME) 및 MATH와 같은 벤치마크에서 성능을 뛰어넘었다고 주장했다.[77] 그러나 월스트리트 저널은 2024년 AIME 15개 문제에서 o1 모델이 더 빠르게 해결책에 도달했다고 보도했다.[78]

DeepSeek-R1 및 DeepSeek-R1-Zero[79]는 DeepSeek-V3-Base에서 초기화되었으며 그 아키텍처를 공유한다. DeepSeek-R1-Distill 모델은 대신 LLaMAQwen을 포함한 다른 사전 훈련된 오픈 웨이트 모델에서 초기화된 다음 R1에 의해 생성된 재현 데이터에서 미세 조정되었다.[54]

DeepSeek-R1-Zero를 위한 템플릿

User와 Assistant 간의 대화. User는 질문을 하고, Assistant는 그것을 해결한다. Assistant는 먼저 추론 과정을 생각한 다음 사용자에게 답변을 제공한다. 추론 과정과 답변은 각각 <think> </think> 와 <answer> </answer> 태그 안에 포함된다. 즉, <think> 추론 과정 </think> <answer> 답변 </answer>. User: <prompt>. Assistant:

– <prompt>는 훈련 중 특정 추론 질문으로 대체된다.

딥시크-R1-제로SFT 없이 GRPO RL만을 사용하여 훈련되었다. 이전 버전과 달리 모델 기반 보상을 사용하지 않았다. 모든 보상 함수는 규칙 기반으로, "주로" 두 가지 유형(다른 유형은 지정되지 않음)이었다. 정확도 보상과 형식 보상이다. 정확도 보상은 상자 안의 답변이 정확한지(수학의 경우) 또는 코드가 테스트를 통과하는지(프로그래밍의 경우) 확인하는 것이었다. 형식 보상은 모델이 생각 과정을 <think>...</think> 태그 안에 넣는지 확인하는 것이었다.[54]

R1-Zero는 가독성과 언어 혼용 문제가 있었다. R1은 이러한 문제를 해결하고 추론을 더욱 개선하기 위해 훈련되었다.[54]

  1. "수천" 개의 "콜드 스타트" 데이터를 |special_token|<reasoning_process>|special_token|<summary>의 표준 형식으로 DeepSeek-V3-Base에 SFT하여 모델 출력 가독성을 향상시킨다.
  2. R1-Zero와 동일한 GRPO RL 프로세스를 적용하고, 단일 언어로 응답하도록 장려하기 위해 "언어 일관성 보상"을 추가한다. 이로써 미출시된 내부 모델이 생성되었다.
  3. 내부 모델에서 600K 추론 데이터를 거부 샘플링(즉, 생성된 추론의 최종 답변이 틀리면 제거)하여 합성한다. DeepSeek-V3를 사용하여 200K 비추론 데이터(작성, 사실적 QA, 자기 인식, 번역)를 합성한다.
  4. 800K 합성 데이터에 대해 2회 에포크로 DeepSeek-V3-Base에 SFT.
  5. 규칙 기반 보상(추론 작업용)뿐만 아니라 모델 기반 보상(비추론 작업, 유용성, 무해성)으로 R1-Zero와 동일한 GRPO RL 프로세스를 적용한다. 이로써 DeepSeek-R1이 생성되었다.

증류 모델은 DeepSeek-R1에서 합성된 800K 데이터에 대해 SFT를 사용하여 훈련되었으며, 3단계와 유사한 방식으로 진행되었다. 이들은 RL로 훈련되지 않았다.[54]

R1의 후속작으로 예정된 R2가 2025년 5월 초에 출시될 예정이었다는 보도가 있었다.[80] 그러나 2025년 5월 28일, R1은 대신 R1-0528 버전으로 업데이트되었다.[81]

중요성

[편집]

딥시크가 더 크고 기존의 경쟁사들을 상대로 거둔 성공은 "AI의 판도를 뒤엎었다"고 평가받는다.[15][82]

딥시크-R1 모델은 오픈AIGPT-4o오픈AI o1과 같은 다른 현대적인 대형 언어 모델과 유사한 응답을 제공한다.[83] 훈련 비용은 다른 LLM보다 훨씬 낮은 것으로 보고되었다.

이 회사는 R1의 전신인 V3를 훈련하는 데 2023년 오픈AIGPT-4에 든 1억 달러에 비해 600만 달러가 들었으며,[11] 메타의 유사 모델인 LLaMA 3.1에 사용된 컴퓨팅 파워의 약 10분의 1에 불과하다고 주장한다.[11][12][13][14]

2025년 1월 R1 모델이 출시된 후, 경쟁 모델보다 훨씬 낮은 비용을 제공하자 일부 투자자들은 미국 AI 산업에서 가격 전쟁이 일어날 것이라고 예상했다.[84] 이 모델은 "AI의 핀둬둬"라고 불렸고, 바이트댄스, 텐센트, 바이두, 알리바바와 같은 다른 중국 기술 대기업들도 AI 모델 가격을 인하했다. 낮은 가격에도 불구하고, 손실을 보는 경쟁사들과 비교하여 수익성이 있었다.[50]

같이 보기

[편집]

내용주

[편집]
  1. 중국어: 杭州深度求索人工智能基础技术研究有限公司[3][4][5][6]
  1. 宁波程信柔兆企业管理咨询合伙企业(有限合伙) and 宁波程恩企业管理咨询合伙企业(有限合伙)
  2. GQA로 인해 헤드 수가 KV 헤드 수와 같지 않다.
  3. 설명할 수 없게도 논문에서 DeepSeek-Coder-V2 Chat이라는 이름의 모델은 HuggingFace에서 DeepSeek-Coder-V2-Instruct로 출시되었다.
  4. 당시 R1-Lite-Preview는 "Deep Think enabled"를 선택해야 했으며, 사용자는 하루에 50번만 사용할 수 있었다.

각주

[편집]
  1. “DeepSeek突传消息”. 《시나 웨이보》. 2025년 2월 1일. 2025년 2월 1일에 확인함. 
  2. Wu, Zijing (2025년 3월 14일). “DeepSeek focuses on research over revenue in contrast to Silicon Valley”. 《파이낸셜 타임스. 2025년 3월 14일에 확인함. 
  3. “Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd.”. 《블룸버그 L.P.》. 
  4. “DeepSeek Coder Model Service Agreement” (PDF), 《DeepSeek》, 2023년 10월 19일 
  5. “DeepSeek Coder Privacy Policy” (PDF). 《DeepSeek》. 2025년 2월 19일에 확인함. 
  6. “全国互联网安全管理平台”. 《beian.mps.gov.cn》. 2025년 2월 9일에 확인함. 
  7. Jiang, Ben (2025년 1월 21일). “Beijing puts spotlight on China's new face of AI, DeepSeek's Liang Wenfeng” (영어). 《사우스 차이나 모닝 포스트. 2025년 3월 4일에 확인함. 
  8. Baptista, Eduardo (2025년 1월 28일). “Who is Liang Wenfeng, the founder of DeepSeek?” (미국 영어). 《로이터》. 2025년 2월 19일에 원본 문서에서 보존된 문서. 2025년 3월 4일에 확인함. 
  9. “Behind DeepSeek lies a dazzling Chinese university”. 《디 이코노미스트》. ISSN 0013-0613. 2025년 2월 24일에 원본 문서에서 보존된 문서. 2025년 3월 5일에 확인함. 
  10. Gibney, Elizabeth (2025년 1월 23일). 《China's cheap, open AI model DeepSeek thrills scientists》 (영어). 《네이처638. 13–14쪽. Bibcode:2025Natur.638...13G. doi:10.1038/d41586-025-00229-6. ISSN 1476-4687. PMID 39849139. 
  11. Vincent, James (2025년 1월 28일). “The DeepSeek panic reveals an AI world ready to blow”. 《가디언》. 
  12. Metz, Cade; Tobin, Meaghan (2025년 1월 23일). “How Chinese A.I. Start-Up DeepSeek Is Competing With Silicon Valley Giants” (미국 영어). 《뉴욕 타임스》. ISSN 0362-4331. 2025년 1월 27일에 확인함. 
  13. Cosgrove, Emma (2025년 1월 27일). “DeepSeek's cheaper models and weaker chips call into question trillions in AI infrastructure spending”. 《비즈니스 인사이더》. 
  14. Erdil, Ege (2025년 1월 17일). “How has DeepSeek improved the Transformer architecture?” (영어). 《Epoch AI》. 2025년 2월 3일에 확인함. 
  15. Metz, Cade (2025년 1월 27일). “What is DeepSeek? And How Is It Upending A.I.?” (미국 영어). 《뉴욕 타임스》. ISSN 0362-4331. 2025년 1월 27일에 확인함. 
  16. Roose, Kevin (2025년 1월 28일). “Why DeepSeek Could Change What Silicon Valley Believes About A.I.” (미국 영어). 《뉴욕 타임스》. ISSN 0362-4331. 2025년 1월 28일에 확인함. 
  17. Delbert, Caroline (2025년 1월 31일). “DeepSeek Is Cracking the 'Black Box' of Corporate AI Wide Open”. 《Popular Mechanics. 2025년 2월 12일에 확인함. 
  18. Gibney, Elizabeth (2025년 1월 23일). 《China's cheap, open AI model DeepSeek thrills scientists》. 《네이처638. 13–14쪽. Bibcode:2025Natur.638...13G. doi:10.1038/d41586-025-00229-6. PMID 39849139. 2025년 2월 12일에 확인함. 
  19. Metz, Cade (2025년 2월 12일). “How Did DeepSeek Build Its A.I. With Less Money?” (영어). 《뉴욕 타임스. 2025년 3월 21일에 확인함. 
  20. Allen, Gregory C. (2025년 3월 7일). “DeepSeek, Huawei, Export Controls, and the Future of the U.S.-China AI Race”. 《Center for Strategic and International Studies》. 
  21. Saah, Jasper (2025년 2월 13일). “DeepSeek sends shock waves across Silicon Valley”. 《Liberation News – The Newspaper of the Party for Socialism and Liberation. 2025년 2월 13일에 확인함. 
  22. Sillars, James (2025년 1월 28일). “DeepSeek: Tech firm suffers biggest drop in US stock market history as low-cost Chinese AI company bites Silicon Valley”. 《스카이 뉴스. 2025년 2월 13일에 확인함. 
  23. Chen, Caiwei (2025년 1월 24일). “How a top Chinese AI model overcame US sanctions” (영어). 《MIT 테크놀로지 리뷰》. 2025년 1월 25일에 원본 문서에서 보존된 문서. 2025년 1월 25일에 확인함. 
  24. “幻方 | 幻方历程” (중국어 (중국)). 《하이플라이어. 2025년 2월 2일에 확인함. 
  25. Ottinger, Lily (2024년 12월 9일). “Deepseek: From Hedge Fund to Frontier Model Maker” (영어). 《ChinaTalk》. 2024년 12월 28일에 원본 문서에서 보존된 문서. 2024년 12월 28일에 확인함. 
  26. Olcott, Eleanor; Wu, Zijing (2025년 1월 24일). “How small Chinese AI start-up DeepSeek shocked Silicon Valley”. 《파이낸셜 타임스. 2025년 1월 31일에 확인함. 
  27. Leswing, Kif (2023년 2월 23일). “Meet the $10,000 Nvidia chip powering the race for A.I.”. 《CNBC. 2025년 1월 30일에 확인함. 
  28. “hfreduce | 高性能的多卡并行通信工具” (영어). 《하이플라이어》. 2020년 3월 4일. 2025년 2월 3일에 확인함. 
  29. DeepSeek-AI; Liu, Aixin; Feng, Bei; Xue, Bing; Wang, Bingxuan; Wu, Bochao; Lu, Chengda; Zhao, Chenggang; Deng, Chengqi (2024년 12월 27일), 《DeepSeek-V3 Technical Report》, arXiv:2412.19437 
  30. An, Wei; Bi, Xiao; Chen, Guanting; Chen, Shanhuang; Deng, Chengqi; Ding, Honghui; Dong, Kai; Du, Qiushi; Gao, Wenjun; Guan, Kang; Guo, Jianzhong; Guo, Yongqiang; Fu, Zhe; He, Ying; Huang, Panpan (2024년 11월 17일). 〈Fire-Flyer AI-HPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning〉. 《SC24: International Conference for High Performance Computing, Networking, Storage and Analysis》. IEEE. 1–23쪽. arXiv:2408.14158. doi:10.1109/SC41406.2024.00089. ISBN 979-8-3503-5291-7. 
  31. “独家|幻方量化回应市场关注:AGI不是用来炒股的,"和金融没关系". 《이차이. 2025년 2월 3일에 확인함. 
  32. Yu, Xu (2023년 4월 17일). “[Exclusive] Chinese Quant Hedge Fund High-Flyer Won't Use AGI to Trade Stocks, MD Says” (영어). 《이차이 글로벌》. 2023년 12월 31일에 원본 문서에서 보존된 문서. 2024년 12월 28일에 확인함. 
  33. Jiang, Ben; Perezi, Bien (2025년 1월 1일). “Meet DeepSeek: the Chinese start-up that is changing how AI models are trained” (영어). 《사우스 차이나 모닝 포스트》. 2025년 1월 22일에 원본 문서에서 보존된 문서. 2025년 1월 1일에 확인함. 
  34. McMorrow, Ryan; Olcott, Eleanor (2024년 6월 9일). “The Chinese quant fund-turned-AI pioneer”. 《파이낸셜 타임스》. 2024년 7월 17일에 원본 문서에서 보존된 문서. 2024년 12월 28일에 확인함. 
  35. DeepSeek-AI; Bi, Xiao; Chen, Deli; Chen, Guanting; Chen, Shanhuang; Dai, Damai; Deng, Chengqi; Ding, Honghui; Dong, Kai (2024년 1월 5일), 《DeepSeek LLM: Scaling Open-Source Language Models with Longtermism》, arXiv:2401.02954 
  36. Dai, Damai; Deng, Chengqi; Zhao, Chenggang; Xu, R. X.; Gao, Huazuo; Chen, Deli; Li, Jiashi; Zeng, Wangding; Yu, Xingkai (2024년 1월 11일), 《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》, arXiv:2401.06066 
  37. Shao, Zhihong; Wang, Peiyi; Zhu, Qihao; Xu, Runxin; Song, Junxiao; Bi, Xiao; Zhang, Haowei; Zhang, Mingchuan; Li, Y. K. (2024년 4월 27일), 《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》, arXiv:2402.03300 .
  38. DeepSeek-AI; Zhu, Qihao; Guo, Daya; Shao, Zhihong; Yang, Dejian; Wang, Peiyi; Xu, Runxin; Wu, Y.; Li, Yukun (2024년 6월 17일), 《DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence》, arXiv:2406.11931 
  39. “deepseek-ai/DeepSeek-V2.5 · Hugging Face”. 《허깅 페이스》. 2025년 1월 3일. 2025년 1월 28일에 확인함. 
  40. “Deepseek Log in page”. 《DeepSeek》. 2025년 1월 30일에 확인함. 
  41. “News | DeepSeek-R1-Lite Release 2024/11/20: 🚀 DeepSeek-R1-Lite-Preview is now live: unleashing supercharged reasoning power!” (영어). 《DeepSeek API Docs》. 2024년 11월 20일에 원본 문서에서 보존된 문서. 2025년 1월 28일에 확인함. 
  42. Field, Hayden (2025년 1월 27일). “China's DeepSeek AI dethrones ChatGPT on App Store: Here's what you should know”. 《CNBC》. 
  43. Picchi, Aimee (2025년 1월 27일). “What is DeepSeek, and why is it causing Nvidia and other stocks to slump?”. 《CBS 뉴스》. 
  44. Nuñez, Michael (2025년 3월 24일). “DeepSeek-V3 now runs at 20 tokens per second on Mac Studio, and that's a nightmare for OpenAI”. 《벤추어비트. 2025년 3월 24일에 확인함. 
  45. “deepseek-ai/DeepSeek-V3-0324 · Hugging Face”. 《허깅 페이스. 2025년 3월 24일에 확인함. 
  46. Kok, Xinghui (2025년 2월 28일). “Singapore charges three with fraud that media link to Nvidia chips”. 《로이터. 2025년 4월 17일에 확인함. 
  47. Mickle, Tripp; Swanson, Ana; Tobin, Meaghan; Metz, Cade (2025년 4월 16일). “US Officials Target Nvidia and DeepSeek Amid Fears of China's A.I. Progress” (미국 영어). 《뉴욕 타임스》. ISSN 0362-4331. 2025년 4월 16일에 원본 문서에서 보존된 문서. 2025년 4월 17일에 확인함. 
  48. “deepseek-ai/DeepSeek-R1-0528 · Hugging Face”. 《huggingface.co》. 2025년 5월 28일. 2025년 5월 28일에 확인함. 
  49. “大模型价格又砍一刀 这次"屠夫"竟是量化私募?”. 《www.cls.cn》. 2024년 5월 10일. 2025년 2월 3일에 확인함. 
  50. Schneider, Jordan (2024년 11월 27일). “Deepseek: The Quiet Giant Leading China's AI Race” (영어). 《ChinaTalk》. 2024년 12월 28일에 확인함. 
  51. “幻方力量 | 高速文件系统 3FS” (영어). 《하이플라이어》. 2019년 6월 13일. 2025년 2월 3일에 확인함. 
  52. 《deepseek-ai/3FS》, DeepSeek, 2025년 2월 28일, 2025년 2월 28일에 확인함 
  53. “HFAiLab/hai-platform”, 《하이플라이어》, 2025년 2월 2일, 2025년 2월 3일에 확인함 
  54. DeepSeek-AI; Guo, Daya; Yang, Dejian; Zhang, Haowei; Song, Junxiao; Zhang, Ruoyu; Xu, Runxin; Zhu, Qihao; Ma, Shirong (2025년 1월 22일), 《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》, arXiv:2501.12948 
  55. Gibney, Elizabeth (2025년 1월 23일). 《China's cheap, open AI model DeepSeek thrills scientists》. 《네이처638. 13–14쪽. Bibcode:2025Natur.638...13G. doi:10.1038/d41586-025-00229-6. PMID 39849139. 2025년 2월 12일에 확인함. 
  56. “DeepSeek-Coder/LICENSE-MODEL at main · deepseek-ai/DeepSeek-Coder” (영어). 《깃허브》. 2025년 1월 22일에 원본 문서에서 보존된 문서. 2025년 1월 24일에 확인함. 
  57. Guo, Daya; Zhu, Qihao; Yang, Dejian; Xie, Zhenda; Dong, Kai; Zhang, Wentao; Chen, Guanting; Bi, Xiao; Wu, Y. (2024년 1월 26일), 《DeepSeek-Coder: When the Large Language Model Meets Programming – The Rise of Code Intelligence》, arXiv:2401.14196 
  58. “DeepSeek Coder”. 《deepseekcoder.github.io》. 2025년 1월 27일에 확인함. 
  59. 《deepseek-ai/DeepSeek-Coder》, DeepSeek, 2025년 1월 27일, 2025년 1월 27일에 확인함 
  60. “deepseek-ai/deepseek-coder-5.7bmqa-base · Hugging Face”. 《허깅 페이스. 2025년 1월 27일에 확인함. 
  61. 《deepseek-ai/DeepSeek-LLM》, DeepSeek, 2025년 1월 27일, 2025년 1월 27일에 확인함 
  62. Wang, Peiyi; Li, Lei; Shao, Zhihong; Xu, R. X.; Dai, Damai; Li, Yifei; Chen, Deli; Wu, Y.; Sui, Zhifang (2024년 2월 19일), 《Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations》, arXiv:2312.08935 .
  63. DeepSeek-AI; Liu, Aixin; Feng, Bei; Wang, Bin; Wang, Bingxuan; Liu, Bo; Zhao, Chenggang; Dengr, Chengqi; Ruan, Chong (2024년 6월 19일), 《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》, arXiv:2405.04434 .
  64. Peng, Bowen; Quesnelle; Jeffrey; Fan; Honglu; Shippole; Enrico (2023년 11월 1일), 《YaRN: Efficient Context Window Extension of Large Language Models》, arXiv:2309.00071 .
  65. “config.json · deepseek-ai/DeepSeek-V2-Lite at main”. 《허깅 페이스》. 2024년 5월 15일. 2025년 1월 28일에 확인함. 
  66. “config.json · deepseek-ai/DeepSeek-V2 at main”. 《허깅 페이스》. 2024년 5월 6일. 2025년 1월 28일에 확인함. 
  67. Feng, Coco (2025년 3월 25일). “DeepSeek wows coders with more powerful open-source V3 model” (영어). 《사우스 차이나 모닝 포스트. 2025년 4월 6일에 확인함. 
  68. “config.json · deepseek-ai/DeepSeek-V3 at main”. 《허깅 페이스》. 2024년 12월 26일. 2025년 1월 28일에 확인함. 
  69. Patel, Dylan; Kourabi; AJ; O'Laughlin; Dylan; Knuhtsen; Doug (2025년 1월 31일). “DeepSeek Debates: Chinese Leadership On Cost, True Training Cost, Closed Model Margin Impacts” (미국 영어). 《SemiAnalysis》. 2025년 2월 13일에 확인함. 
  70. Thubron, Rob (2025년 2월 3일). “DeepSeek's AI costs far exceed $5.5 million claim, may have reached $1.6 billion with 50,000 Nvidia GPUs” (미국 영어). 《TechSpot》. 2025년 2월 13일에 확인함. 
  71. Kajal, Kapil (2025년 1월 31일). “Research exposes DeepSeek's AI training cost is not $6M, it's a staggering $1.3B” (미국 영어). 《야후! 뉴스. 2025년 2월 13일에 확인함. 
  72. “Martin Vechev of INSAIT: "DeepSeek $6M Cost Of Training Is Misleading" (영국 영어). 《TheRecursive.com》. 2025년 1월 28일. 2025년 2월 13일에 확인함. 
  73. Jiang, Ben (2024년 12월 27일). “Chinese start-up DeepSeek's new AI model outperforms Meta, OpenAI products” (영어). 《사우스 차이나 모닝 포스트》. 2024년 12월 27일에 원본 문서에서 보존된 문서. 2024년 12월 28일에 확인함. 
  74. Sharma, Shubham (2024년 12월 26일). “DeepSeek-V3, ultra-large open-source AI, outperforms Llama and Qwen on launch” (미국 영어). 《벤추어비트》. 2024년 12월 27일에 원본 문서에서 보존된 문서. 2024년 12월 28일에 확인함. 
  75. Wiggers, Kyle (2024년 12월 26일). “DeepSeek's new AI model appears to be one of the best 'open' challengers yet”. 《테크크런치》. 2025년 1월 2일에 원본 문서에서 보존된 문서. 2024년 12월 31일에 확인함. 
  76. Edwards, Benj (2025년 1월 21일). “Cutting-edge Chinese "reasoning" model rivals OpenAI o1—and it's free to download”. 《아르스 테크니카. 2025년 2월 16일에 확인함. 
  77. Franzen, Carl (2024년 11월 20일). “DeepSeek's first reasoning model R1-Lite-Preview turns heads, beating OpenAI o1 performance” (미국 영어). 《벤추어비트》. 2024년 11월 22일에 원본 문서에서 보존된 문서. 2024년 12월 28일에 확인함. 
  78. Huang, Raffaele (2024년 12월 24일). “Don't Look Now, but China's AI Is Catching Up Fast” (미국 영어). 《월스트리트 저널》. 2024년 12월 27일에 원본 문서에서 보존된 문서. 2024년 12월 28일에 확인함. 
  79. “Release DeepSeek-R1 · deepseek-ai/DeepSeek-R1@23807ce” (영어). 《깃허브》. 2025년 1월 21일에 원본 문서에서 보존된 문서. 2025년 1월 21일에 확인함. 
  80. Eduardo Baptista; Julie Zhu; Fanny Potkin (2025년 2월 25일). “DeepSeek rushes to launch new AI model as China goes all in”. 《Reuters》. 2025년 2월 25일에 확인함. 
  81. Ding, Luz (2025년 5월 29일). “DeepSeek Says Upgraded Model Reasons Better, Hallucinates Less”. 《Bloomberg》. 2025년 6월 9일에 확인함. 
  82. Roose, Kevin (2025년 1월 28일). “Why DeepSeek Could Change What Silicon Valley Believe About A.I.” (미국 영어). 《뉴욕 타임스》. ISSN 0362-4331. 2025년 1월 28일에 확인함. 
  83. Gibney, Elizabeth (2025년 1월 23일). 《China's cheap, open AI model DeepSeek thrills scientists》 (영어). 《네이처638. 13–14쪽. Bibcode:2025Natur.638...13G. doi:10.1038/d41586-025-00229-6. ISSN 1476-4687. PMID 39849139. 
  84. Chow, Andrew R.; Perrigo, Billy (2025년 1월 30일). “Is the DeepSeek Panic Overblown?” (영어). 《TIME》. 2025년 3월 17일에 확인함. 

외부 링크

[편집]