판쯔정
보이기
판쯔정 Zizheng Pan | |
|---|---|
| 국적 | 중국 |
| 학력 | 하얼빈 공업대학교 학사 애들레이드 대학교 석사 모나시 대학교 박사 |
| 직업 | 인공지능 연구자 |
| 활동 기간 | 2024년– |
| 소속 | DeepSeek |
판쯔정(Zizheng Pan)은 중국의 인공지능 연구자이다. 모나시 대학교 ZIP Lab에서 박사 학위를 마친 뒤 딥시크 연구원(Research Scientist)으로 재직하며 멀티모달 비전-언어 모델과 대규모 언어 모델(LLM) 연구에 참여하였다.[1][2] DeepSeek 내부에서는 비전-언어 모델 DeepSeek‑VL2의 핵심 공헌 저자로 등재되었고,[3] 강화학습 기반 추론 모델 DeepSeek‑R1 논문의 공저자로 참여하였다.[4] 박사과정 이전·이후로는 비전 트랜스포머의 효율화와 모델 조립(framework) 분야에서 기여가 알려져 있다.[5][6] 2023년에는 엔비디아 리서치 인턴으로 근무하였다.[7]
생애
[편집]판은 하얼빈 공업대학교(웨이하이) 학부를 마친 뒤 애들레이드 대학교에서 컴퓨터과학 석사를 수학하였다. 2021년부터 2024년까지 모나시 대학교에서 보한 좡(Bohan Zhuang), 지앤페이 차이(Jianfei Cai)의 지도를 받아 박사과정을 수행하였다.[1] 박사과정 동안 NVIDIA에서 인턴십을 수행한 뒤 DeepSeek에 합류하였다.[7][2]
호주 공영방송 보도에 따르면, 애들레이드·모나시 등에서의 장기간 학업을 거쳐 DeepSeek 연구원으로 활동을 시작하였다.[8]
연구와 업적
[편집]- 비전 트랜스포머 효율화: HiLo 어텐션을 도입해 연산량을 줄이면서 정확도를 유지하는 접근을 제시하였다.[5]
- 스티처블 신경망(SN‑Net): 사전학습 모델 계열을 블록 단위로 결합하는 조립형 프레임워크를 제안하였다.[6]
- 멀티모달·LLM 계열 공저: DeepSeek‑VL2(핵심 공헌 저자 표기)와 DeepSeek‑R1(강화학습 기반 추론)의 공저로 참여하였다.[3][4]
주요 논문
[편집]- Pan, Zizheng; Cai, Jianfei; Zhuang, Bohan. 2023. “Stitchable Neural Networks.” In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2023).
- Pan, Zizheng; Zhuang, Bohan; He, Haoyu; Liu, Jing; Cai, Jianfei. 2022. “Less Is More: Pay Less Attention in Vision Transformers.” In Proceedings of the AAAI Conference on Artificial Intelligence (AAAI 2022).
- Pan, Zizheng; et al. 2024. “Stitched ViTs are Flexible Vision Backbones.” In European Conference on Computer Vision (ECCV 2024).[9]
- He, Haoyu; Cai, Jianfei; Liu, Jing; Pan, Zizheng; Zhang, Jing; Tao, Dacheng; Zhuang, Bohan. 2024. “Pruning Self‑attentions into Convolutional Layers in Single Path.” IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI).[10]
각주
[편집]- ↑ 가 나 “Zizheng Pan” (영어). 《OpenReview》. 2025년 9월 22일에 확인함.
- ↑ 가 나 “Lab Members” (영어). 《ZIP Lab, Monash University》. 2025년 9월 22일에 확인함.
- ↑ 가 나 “DeepSeek‑VL2: Mixture‑of‑Experts Vision‑Language Models for Advanced Multimodal Understanding” (영어). 《arXiv》. 2025년 9월 22일에 확인함.
- ↑ 가 나 “DeepSeek‑R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning” (영어). 《arXiv》. 2025년 9월 22일에 확인함.
- ↑ 가 나 “Less Is More: Pay Less Attention in Vision Transformers” (영어). 《AAAI》. 2025년 9월 22일에 확인함.
- ↑ 가 나 “Stitchable Neural Networks” (PDF) (영어). 《CVPR 2023 Open Access》. 2025년 9월 22일에 확인함.
- ↑ 가 나 “Why is Nvidia's research head praising intern who refused job offer to join DeepSeek?” (영어). 《The Economic Times》. 2025년 9월 22일에 확인함.
- ↑ “How an Australian uni student helped create China’s revolutionary AI platform DeepSeek” (영어). 《ABC News (Australia)》. 2025년 9월 22일에 확인함.
- ↑ “Stitched ViTs are Flexible Vision Backbones” (PDF) (영어). 《ECCV 2024 Open Access》. 2025년 9월 22일에 확인함.
- ↑ “SPViT (TPAMI 2024) Official Repository” (영어). 《GitHub》. 2025년 9월 22일에 확인함.
참고 문헌
[편집]- Guo, Daya, Dejian Yang, Haowei Zhang, et al. 2025. “DeepSeek‑R1 Incentivizes Reasoning in LLMs Through Reinforcement Learning.” Nature 645: 633–638. https://doi.org/10.1038/s41586-025-09422-z.
- “China’s AI Talent Fueled DeepSeek’s Rise, Challenging U.S. Dominance.” Rest of World, 2025-02-05. https://restofworld.org/2025/china-ai-talent-deepseek-rise-us-dominance/.
- “DeepSeek‑VL2: Mixture‑of‑Experts Vision‑Language Models for Advanced Multimodal Understanding.” arXiv, 2024-12-13. https://arxiv.org/abs/2412.10302.