CUDA

쿠다
CUDA
개발자	엔비디아
발표일	2007년 6월 23일(18년 전)
안정화 버전	12.9 / 2025년 5월(2개월 전)
운영 체제	윈도우 XP 이상; macOS; 리눅스
플랫폼	아래의 지원 GPU 참고
종류	GPGPU
라이선스	프리웨어
웹사이트	developer.nvidia.com/cuda-zone

컴퓨팅에서 CUDA (Compute Unified Device Architecture)는 그래픽 처리 장치 (GPU)의 특정 유형을 사용하여 가속화된 범용 처리를 가능하게 하는 독점적인^[1] 병렬 컴퓨팅 플랫폼 및 API이다. 이러한 접근 방식을 GPU 기반 범용 컴퓨팅이라고 한다. CUDA는 엔비디아가 2006년에 만들었다.^[2] 처음 소개될 때 그 이름은 Compute Unified Device Architecture의 약어였지만,^[3] 엔비디아는 나중에 약어의 일반적인 사용을 중단하고 현재는 거의 확장하지 않는다.^[4]

CUDA는 GPU의 가상 명령어 집합 및 병렬 컴퓨팅 요소에 직접 접근하여 컴퓨트 커널을 실행할 수 있도록 하는 소프트웨어 계층이다.^[5] 드라이버 및 런타임 커널 외에도 CUDA 플랫폼에는 프로그래머가 애플리케이션을 가속화하는 데 도움이 되는 컴파일러, 라이브러리 및 개발자 도구가 포함되어 있다.

CUDA는 C, C++, 포트란, 파이썬, 줄리아와 같은 프로그래밍 언어와 함께 작동하도록 설계되었다. 이러한 접근성은 Direct3D 및 OpenGL과 같은 이전 API가 고급 그래픽 프로그래밍 기술을 요구했던 것과 대조적으로 병렬 프로그래밍 전문가가 GPU 리소스를 더 쉽게 사용할 수 있도록 한다.^[6] CUDA 기반 GPU는 OpenMP, OpenACC 및 OpenCL과 같은 프로그래밍 프레임워크도 지원한다.^[7]^[5]

배경

그래픽 처리 장치 (GPU)는 전문화된 컴퓨터 프로세서로서 실시간 고해상도 3차원 그래픽스의 컴퓨팅 집약적인 작업 요구 사항을 해결한다. 2012년까지 GPU는 대규모 데이터 블록을 효율적으로 조작할 수 있는 고도로 병렬적인 멀티 코어 시스템으로 발전했다. 이러한 설계는 대규모 데이터 블록 처리가 병렬로 수행되는 상황에서 일반적인 중앙 처리 장치 (CPU)보다 알고리즘에 더 효과적이다. 예를 들어 다음과 같은 상황에서 그렇다.

이안 벅은 2000년 스탠포드에서 32개의 지포스 카드를 사용하여 8K 게임 장비를 만들었고, 그 후 DARPA 보조금을 받아 GPU에서 범용 병렬 프로그래밍을 수행했다. 그 후 그는 엔비디아에 합류하여 2004년부터 CUDA 개발을 감독하고 있다. CUDA를 추진하면서 젠슨 황은 엔비디아 GPU가 과학 컴퓨팅을 위한 일반 하드웨어가 되는 것을 목표로 했다. CUDA는 2007년에 출시되었다. 2015년경 CUDA의 초점은 신경망으로 바뀌었다.^[8]

온톨로지

다음 표는 CUDA 프레임워크의 온톨로지에 대한 비정확한 설명을 제공한다.

CUDA 프레임워크의 온톨로지
메모리 (하드웨어)	메모리 (코드, 또는 변수 스코핑)	컴퓨테이션 (하드웨어)	컴퓨테이션 (코드 구문)	컴퓨테이션 (코드 의미론)
RAM	비-CUDA 변수	호스트	프로그램	하나의 루틴 호출
VRAM, GPU L2 캐시	전역, 상수, 텍스처	장치	그리드	많은 프로세서에서 동일한 서브루틴 동시 호출
GPU L1 캐시	로컬, 공유	SM ("스트리밍 멀티프로세서")	블록	개별 서브루틴 호출
		워프 = 32 스레드		SIMD 명령어
GPU L0 캐시, 레지스터		스레드 (일명 "SP", "스트리밍 프로세서", "CUDA 코어", 이 이름들은 현재 사용되지 않음)		벡터 연산 내 개별 스칼라 연산과 유사

프로그래밍 기능

CUDA 플랫폼은 CUDA 가속 라이브러리, OpenACC와 같은 컴파일러 지시문, 그리고 C, C++, 포트란, 파이썬을 포함한 산업 표준 프로그래밍 언어의 확장을 통해 소프트웨어 개발자에게 접근 가능하다. C/C++ 프로그래머는 엔비디아의 LLVM 기반 C/C++ 컴파일러인 nvcc 또는 clang 자체를 사용하여 PTX로 컴파일된 'CUDA C/C++'를 사용할 수 있다.^[9] 포트란 프로그래머는 The Portland Group의 PGI CUDA 포트란 컴파일러를 사용하여 'CUDA 포트란'을 사용할 수 있다. 파이썬 프로그래머는 cuNumeric 라이브러리를 사용하여 엔비디아 GPU에서 애플리케이션을 가속화할 수 있다.

라이브러리, 컴파일러 지시문, CUDA C/C++ 및 CUDA 포트란 외에도 CUDA 플랫폼은 크로노스 그룹의 OpenCL,^[10] 마이크로소프트의 다이렉트컴퓨트, OpenGL 컴퓨트 셰이더 및 C++ AMP를 포함한 다른 컴퓨팅 인터페이스를 지원한다.^[11] 파이썬, 펄, 포트란, 자바, 루비, 루아, 커먼 리스프, 하스켈, R, 매트랩, IDL, 줄리아에 대한 타사 래퍼도 사용할 수 있으며, 매스매티카에는 네이티브 지원이 제공된다.

비디오 게임 산업에서 GPU는 그래픽 렌더링 및 게임 물리 계산 (파편, 연기, 불, 유체와 같은 물리적 효과)에 사용되며, PhysX 및 불릿이 그 예시이다. CUDA는 계산생물학, 암호학 및 기타 분야에서 비그래픽 애플리케이션을 크게 가속화하는 데 사용되기도 했다.^[12]^[13]^[14]^[15]^[16]

CUDA는 낮은 수준의 API (CUDA 드라이버 API, 비단일 소스)와 높은 수준의 API (CUDA 런타임 API, 단일 소스)를 모두 제공한다. 초기 CUDA SDK는 2007년 2월 15일에 마이크로소프트 윈도우 및 리눅스용으로 공개되었다. 맥 OS X 지원은 나중에 버전 2.0에 추가되었으며,^[17] 이는 2008년 2월 14일에 출시된 베타 버전을 대체한다.^[18] CUDA는 G8x 시리즈 이후의 모든 엔비디아 GPU, 즉 지포스, 쿼드로 및 엔비디아 테슬라 라인과 함께 작동한다. CUDA는 대부분의 표준 운영 체제와 호환된다.

CUDA 8.0에는 다음 라이브러리가 포함된다 (컴파일 및 런타임용, 알파벳 순):

cuBLAS – CUDA 기본 선형 대수 서브루틴 라이브러리
CUDART – CUDA 런타임 라이브러리
cuFFT – CUDA 고속 푸리에 변환 라이브러리
cuRAND – CUDA 무작위 숫자 생성 라이브러리
cuSOLVER – CUDA 기반 조밀 및 희소 직접 솔버 컬렉션
cuSPARSE – CUDA 희소 행렬 라이브러리
NPP – 엔비디아 성능 프리미티브 라이브러리
nvGRAPH – 엔비디아 그래프 분석 라이브러리
NVML – 엔비디아 관리 라이브러리
NVRTC – CUDA C++용 엔비디아 런타임 컴파일 라이브러리

CUDA 8.0에는 다음 다른 소프트웨어 구성 요소가 포함된다:

nView – 엔비디아 nView 데스크톱 관리 소프트웨어
NVWMI – 엔비디아 엔터프라이즈 관리 툴킷
GameWorks PhysX – 멀티 플랫폼 게임 물리 엔진

CUDA 9.0–9.2에는 다음 다른 구성 요소가 포함된다:

CUTLASS 1.0 – 사용자 정의 선형 대수 알고리즘
NVIDIA Video Decoder는 CUDA 9.2에서 더 이상 사용되지 않으며, 이제 NVIDIA Video Codec SDK에서 사용할 수 있다.

CUDA 10에는 다음 다른 구성 요소가 포함된다:

nvJPEG – 하이브리드 (CPU 및 GPU) JPEG 처리

CUDA 11.0–11.8에는 다음 다른 구성 요소가 포함된다:^[19]^[20]^[21]^[22]

CUB은 새로 지원되는 C++ 라이브러리 중 하나이다.
MIG 멀티 인스턴스 GPU 지원
nvJPEG2000 – JPEG 2000 인코더 및 디코더

장점

CUDA는 그래픽 API를 사용하는 기존 GPU 기반 범용 컴퓨팅에 비해 몇 가지 장점이 있다.

분산 읽기 – 코드가 메모리의 임의 주소에서 읽을 수 있다.
통합 가상 메모리 (CUDA 4.0 이상)
통합 메모리 (CUDA 6.0 이상)
공유 메모리 – CUDA는 스레드 간에 공유될 수 있는 빠른 공유 메모리 영역을 노출한다. 이것은 사용자 관리 캐시로 사용될 수 있으며, 텍스처 조회로 가능한 것보다 높은 대역폭을 가능하게 한다.^[23]
GPU로의 더 빠른 다운로드 및 리드백
정수 및 비트 연산에 대한 완전한 지원 (정수 텍스처 조회 포함)

한계

호스트 컴퓨터든 GPU 장치든, 모든 CUDA 소스 코드는 이제 C++ 구문 규칙에 따라 처리된다.^[24] 이는 항상 그런 것은 아니었다. 이전 버전의 CUDA는 C 구문 규칙을 기반으로 했다.^[25] C 코드를 C++ 컴파일러로 컴파일하는 일반적인 경우와 마찬가지로, 오래된 C 스타일 CUDA 소스 코드가 컴파일에 실패하거나 원래 의도와 다르게 동작할 수 있다.
OpenGL과 같은 렌더링 언어와의 상호 운용성은 단방향이며, OpenGL은 등록된 CUDA 메모리에 접근할 수 있지만 CUDA는 OpenGL 메모리에 접근할 수 없다.
호스트와 장치 메모리 간의 복사는 시스템 버스 대역폭 및 지연 시간으로 인해 성능 저하를 초래할 수 있다 (이는 GPU의 DMA 엔진이 처리하는 비동기 메모리 전송으로 부분적으로 완화될 수 있다).
스레드는 최상의 성능을 위해 최소 32개 그룹으로 실행되어야 하며, 총 스레드 수는 수천 개에 달해야 한다. 프로그램 코드의 분기는 32개 스레드 각각이 동일한 실행 경로를 따르는 한 성능에 큰 영향을 미치지 않는다. SIMD 실행 모델은 본질적으로 발산하는 작업 (예: 광선 추적 중 공간 분할 데이터 구조를 순회하는 경우)에 상당한 제약이 된다.
최신 개정판에는 에뮬레이션 또는 대체 기능이 제공되지 않는다.
유효한 C++ 코드도 컴파일러가 대상 GPU 장치 제한에 대한 최적화를 접근하는 방식 때문에 때때로 플래그가 지정되어 컴파일을 방해할 수 있다.
C++ 런타임 타입 정보 (RTTI) 및 C++ 스타일 예외 처리는 장치 코드에서는 지원되지 않고 호스트 코드에서만 지원된다.
1세대 CUDA 컴퓨팅 기능 1.x 장치에서 단정밀도의 비정규수는 지원되지 않고 대신 0으로 플러시되며, 나눗셈 및 제곱근 연산의 정밀도는 IEEE 754 호환 단정밀도 수학보다 약간 낮다. 컴퓨팅 기능 2.0 이상을 지원하는 장치는 비정규수를 지원하며, 나눗셈 및 제곱근 연산은 기본적으로 IEEE 754 호환이다. 그러나 사용자는 컴파일러 플래그를 설정하여 정확한 나눗셈 및 정확한 제곱근을 비활성화하고 비정규수를 0으로 플러시함으로써 원하는 경우 이전의 더 빠른 게임 등급의 컴퓨팅 기능 1.x 장치 수학을 얻을 수 있다.^[26]
OpenCL과 달리, CUDA 지원 GPU는 엔비디아가 독점적이기 때문에 엔비디아에서만 사용할 수 있다.^[27]^[1] 다른 GPU에서 CUDA를 구현하려는 시도에는 다음이 포함된다:
- 프로젝트 코리앤더: CUDA C++11 소스를 OpenCL 1.2 C로 변환한다. 텐서플로를 실행하기 위한 CUDA-on-CL의 포크이다.^[28]^[29]^[30]
- CU2CL: CUDA 3.2 C++를 OpenCL C로 변환한다.^[31]
- GPUOpen HIP: AMD 및 엔비디아 GPU용으로 CUDA 및 ROCm 위에 있는 얇은 추상화 계층이다. CUDA C++ 소스를 가져오기 위한 변환 도구를 가지고 있다. CUDA 4.0과 C++11 및 float16을 지원한다.
- ZLUDA는 AMD GPU 및 이전 인텔 GPU에서 거의 네이티브 성능으로 CUDA를 드롭인 대체하는 프로그램이다.^[32] 개발자 안제이 야니크는 2021년과 2022년에 각각 인텔과 AMD로부터 소프트웨어 개발 계약을 체결했다. 그러나 양사 모두 비즈니스 사용 사례 부족으로 공식 출시를 결정하지 않았다. AMD의 계약에는 야니크가 AMD용 코드를 독립적으로 출시할 수 있도록 허용하는 조항이 포함되어 있어, 그가 AMD GPU만 지원하는 새 버전을 출시할 수 있게 되었다.^[33]
- chipStar는 고급 OpenCL 3.0 또는 Level Zero 플랫폼에서 CUDA/HIP 프로그램을 컴파일하고 실행할 수 있다.^[34]

예시

다음 C++ 예제 코드는 이미지에서 GPU의 배열로 텍스처를 로드한다.

texture<float, 2, cudaReadModeElementType> tex;

void foo()
{
  cudaArray* cu_array;

  // Allocate array
  cudaChannelFormatDesc description = cudaCreateChannelDesc<float>();
  cudaMallocArray(&cu_array, &description, width, height);

  // Copy image data to array
  cudaMemcpyToArray(cu_array, image, width*height*sizeof(float), cudaMemcpyHostToDevice);

  // Set texture parameters (default)
  tex.addressMode[0] = cudaAddressModeClamp;
  tex.addressMode[1] = cudaAddressModeClamp;
  tex.filterMode = cudaFilterModePoint;
  tex.normalized = false; // do not normalize coordinates

  // Bind the array to the texture
  cudaBindTextureToArray(tex, cu_array);

  // Run kernel
  dim3 blockDim(16, 16, 1);
  dim3 gridDim((width + blockDim.x - 1)/ blockDim.x, (height + blockDim.y - 1) / blockDim.y, 1);
  kernel<<< gridDim, blockDim, 0 >>>(d_data, height, width);

  // Unbind the array from the texture
  cudaUnbindTexture(tex);
} //end foo()

__global__ void kernel(float* odata, int height, int width)
{
   unsigned int x = blockIdx.x*blockDim.x + threadIdx.x;
   unsigned int y = blockIdx.y*blockDim.y + threadIdx.y;
   if (x < width && y < height) {
      float c = tex2D(tex, x, y);
      odata[y*width+x] = c;
   }
}

아래는 GPU에서 두 배열의 곱을 계산하는 파이썬 예시이다. 비공식 파이썬 언어 바인딩은 PyCUDA에서 얻을 수 있다.^[35]

import pycuda.compiler as comp
import pycuda.driver as drv
import numpy
import pycuda.autoinit

mod = comp.SourceModule(
    """
__global__ void multiply_them(float *dest, float *a, float *b)
{
  const int i = threadIdx.x;
  dest[i] = a[i] * b[i];
}
"""
)

multiply_them = mod.get_function("multiply_them")

a = numpy.random.randn(400).astype(numpy.float32)
b = numpy.random.randn(400).astype(numpy.float32)

dest = numpy.zeros_like(a)
multiply_them(drv.Out(dest), drv.In(a), drv.In(b), block=(400, 1, 1))

print(dest - a * b)

행렬 곱셈 연산을 단순화하는 추가 파이썬 바인딩은 pycublas 프로그램에서 찾을 수 있다.^[36]

import numpy
from pycublas import CUBLASMatrix

A = CUBLASMatrix(numpy.mat([[1, 2, 3], [4, 5, 6]], numpy.float32))
B = CUBLASMatrix(numpy.mat([[2, 3], [4, 5], [6, 7]], numpy.float32))
C = A * B
print(C.np_mat())

반면 CuPy는 NumPy를 직접 대체한다.^[37]

import cupy

a = cupy.random.randn(400)
b = cupy.random.randn(400)

dest = cupy.zeros_like(a)

print(dest - a * b)

지원 GPU

CUDA SDK 버전 및 마이크로아키텍처 (코드명 기준)별 지원 CUDA 컴퓨팅 기능 버전:

컴퓨팅 기능 (CUDA SDK 지원 vs. 마이크로아키텍처)
CUDA SDK 버전	테슬라	페르미	케플러 (초기)	케플러 (후기)	맥스웰	파스칼	볼타	튜링	암페어	에이다 러브레이스	호퍼	블랙웰
1.0^[38]	1.0 – 1.1
1.1	1.0 – 1.1+x
2.0	1.0 – 1.1+x
2.1 – 2.3.1^[39]^[40]^[41]^[42]	1.0 – 1.3
3.0 – 3.1^[43]^[44]	1.0	2.0
3.2^[45]	1.0	2.1
4.0 – 4.2	1.0	2.1
5.0 – 5.5	1.0		3.0	3.5
6.0	1.0		3.2	3.5
6.5	1.1			3.7	5.x
7.0 – 7.5		2.0			5.x
8.0		2.0				6.x
9.0 – 9.2			3.0				7.0 – 7.2
10.0 – 10.2			3.0					7.5
11.0^[46]				3.5					8.0
11.1 – 11.4^[47]				3.5					8.6
11.5 – 11.7.1^[48]				3.5					8.7
11.8^[49]				3.5						8.9	9.0
12.0 – 12.6					5.0						9.0
12.8					5.0							12.0
12.9					5.0							12.1

참고: CUDA SDK 10.2는 macOS의 최신 공식 릴리스이며, 이후 릴리스에서는 macOS 지원이 제공되지 않는다.

버전별 CUDA 컴퓨팅 기능, 관련 GPU 반도체 및 GPU 카드 모델 (다양한 애플리케이션 영역별로 구분):

컴퓨팅 기능, GPU 반도체 및 엔비디아 GPU 보드 제품
컴퓨팅 기능 (버전)	마이크로- 아키텍처	GPU	지포스	쿼드로, NVS	테슬라/데이터센터	테그라, 젯슨, DRIVE
1.0	테슬라	G80	GeForce 8800 Ultra, GeForce 8800 GTX, GeForce 8800 GTS(G80)	Quadro FX 5600, Quadro FX 4600, Quadro Plex 2100 S4	Tesla C870, Tesla D870, Tesla S870
1.1		G92, G94, G96, G98, G84, G86	GeForce GTS 250, GeForce 9800 GX2, GeForce 9800 GTX, GeForce 9800 GT, GeForce 8800 GTS(G92), GeForce 8800 GT, GeForce 9600 GT, GeForce 9500 GT, GeForce 9400 GT, GeForce 8600 GTS, GeForce 8600 GT, GeForce 8500 GT, GeForce G110M, GeForce 9300M GS, GeForce 9200M GS, GeForce 9100M G, GeForce 8400M GT, GeForce G105M	Quadro FX 4700 X2, Quadro FX 3700, Quadro FX 1800, Quadro FX 1700, Quadro FX 580, Quadro FX 570, Quadro FX 470, Quadro FX 380, Quadro FX 370, Quadro FX 370 Low Profile, Quadro NVS 450, Quadro NVS 420, Quadro NVS 290, Quadro NVS 295, Quadro Plex 2100 D4, Quadro FX 3800M, Quadro FX 3700M, Quadro FX 3600M, Quadro FX 2800M, Quadro FX 2700M, Quadro FX 1700M, Quadro FX 1600M, Quadro FX 770M, Quadro FX 570M, Quadro FX 370M, Quadro FX 360M, Quadro NVS 320M, Quadro NVS 160M, Quadro NVS 150M, Quadro NVS 140M, Quadro NVS 135M, Quadro NVS 130M, Quadro NVS 450, Quadro NVS 420,^[50] Quadro NVS 295
1.2		GT218, GT216, GT215	GeForce GT 340, GeForce GT 330, GeForce GT 320, GeForce 315, GeForce 310*, GeForce GT 240, GeForce GT 220, GeForce 210, GeForce GTS 360M, GeForce GTS 350M, GeForce GT 335M, GeForce GT 330M, GeForce GT 325M, GeForce GT 240M, GeForce G210M, GeForce 310M, GeForce 305M	Quadro FX 380 Low Profile, Quadro FX 1800M, Quadro FX 880M, Quadro FX 380M, Nvidia NVS 300, NVS 5100M, NVS 3100M, NVS 2100M, ION
1.3		GT200, GT200b	GeForce GTX 295, GTX 285, GTX 280, GeForce GTX 275, GeForce GTX 260	Quadro FX 5800, Quadro FX 4800, Quadro FX 4800 for Mac, Quadro FX 3800, Quadro CX, Quadro Plex 2200 D2	Tesla C1060, Tesla S1070, Tesla M1060
2.0	페르미	GF100, GF110	GeForce GTX 590, GeForce GTX 580, GeForce GTX 570, GeForce GTX 480, GeForce GTX 470, GeForce GTX 465, GeForce GTX 480M	Quadro 6000, Quadro 5000, Quadro 4000, Quadro 4000 for Mac, Quadro Plex 7000, Quadro 5010M, Quadro 5000M	Tesla C2075, Tesla C2050/C2070, Tesla M2050/M2070/M2075/M2090
2.1	페르미	GF104, GF106 GF108, GF114, GF116, GF117, GF119	GeForce GTX 560 Ti, GeForce GTX 550 Ti, GeForce GTX 460, GeForce GTS 450, GeForce GTS 450, GeForce GT 640 (GDDR3), GeForce GT 630, GeForce GT 620, GeForce GT 610, GeForce GT 520, GeForce GT 440, GeForce GT 440, GeForce GT 430, GeForce GT 430, GeForce GT 420, GeForce GTX 675M, GeForce GTX 670M, GeForce GT 635M, GeForce GT 630M, GeForce GT 625M, GeForce GT 720M, GeForce GT 620M, GeForce 710M, GeForce 610M, GeForce 820M, GeForce GTX 580M, GeForce GTX 570M, GeForce GTX 560M, GeForce GT 555M, GeForce GT 550M, GeForce GT 540M, GeForce GT 525M, GeForce GT 520MX, GeForce GT 520M, GeForce GTX 485M, GeForce GTX 470M, GeForce GTX 460M, GeForce GT 445M, GeForce GT 435M, GeForce GT 420M, GeForce GT 415M, GeForce 710M, GeForce 410M	Quadro 2000, Quadro 2000D, Quadro 600, Quadro 4000M, Quadro 3000M, Quadro 2000M, Quadro 1000M, NVS 310, NVS 315, NVS 5400M, NVS 5200M, NVS 4200M
3.0	케플러	GK104, GK106, GK107	GeForce GTX 770, GeForce GTX 760, GeForce GT 740, GeForce GTX 690, GeForce GTX 680, GeForce GTX 670, GeForce GTX 660 Ti, GeForce GTX 660, GeForce GTX 650 Ti BOOST, GeForce GTX 650 Ti, GeForce GTX 650, GeForce GTX 880M, GeForce GTX 870M, GeForce GTX 780M, GeForce GTX 770M, GeForce GTX 765M, GeForce GTX 760M, GeForce GTX 680MX, GeForce GTX 680M, GeForce GTX 675MX, GeForce GTX 670MX, GeForce GTX 660M, GeForce GT 750M, GeForce GT 650M, GeForce GT 745M, GeForce GT 645M, GeForce GT 740M, GeForce GT 730M, GeForce GT 640M, GeForce GT 640M LE, GeForce GT 735M, GeForce GT 730M	Quadro K5000, Quadro K4200, Quadro K4000, Quadro K2000, Quadro K2000D, Quadro K600, Quadro K420, Quadro K500M, Quadro K510M, Quadro K610M, Quadro K1000M, Quadro K2000M, Quadro K1100M, Quadro K2100M, Quadro K3000M, Quadro K3100M, Quadro K4000M, Quadro K5000M, Quadro K4100M, Quadro K5100M, NVS 510, Quadro 410	Tesla K10, GRID K340, GRID K520, GRID K2
3.2		GK20A				테그라 K1, 젯슨 TK1
3.5		GK110, GK208	GeForce GTX Titan Z, GeForce GTX Titan Black, GeForce GTX Titan, GeForce GTX 780 Ti, GeForce GTX 780, GeForce GT 640 (GDDR5), GeForce GT 630 v2, GeForce GT 730, GeForce GT 720, GeForce GT 710, GeForce GT 740M (64-bit, DDR3), GeForce GT 920M	Quadro K6000, Quadro K5200	Tesla K40, Tesla K20x, Tesla K20
3.7		GK210			Tesla K80
5.0	맥스웰	GM107, GM108	GeForce GTX 750 Ti, GeForce GTX 750, GeForce GTX 960M, GeForce GTX 950M, GeForce 940M, GeForce 930M, GeForce GTX 860M, GeForce GTX 850M, GeForce 845M, GeForce 840M, GeForce 830M	Quadro K1200, Quadro K2200, Quadro K620, Quadro M2000M, Quadro M1000M, Quadro M600M, Quadro K620M, NVS 810	Tesla M10
5.2		GM200, GM204, GM206	GeForce GTX Titan X, GeForce GTX 980 Ti, GeForce GTX 980, GeForce GTX 970, GeForce GTX 960, GeForce GTX 950, GeForce GTX 750 SE, GeForce GTX 980M, GeForce GTX 970M, GeForce GTX 965M	Quadro M6000 24GB, Quadro M6000, Quadro M5000, Quadro M4000, Quadro M2000, Quadro M5500, Quadro M5000M, Quadro M4000M, Quadro M3000M	Tesla M4, Tesla M40, Tesla M6, Tesla M60
5.3		GM20B				테그라 X1, 젯슨 TX1, 젯슨 나노, DRIVE CX, DRIVE PX
6.0	파스칼	GP100		Quadro GP100	Tesla P100
6.1		GP102, GP104, GP106, GP107, GP108	Nvidia TITAN Xp, Titan X, GeForce GTX 1080 Ti, GTX 1080, GTX 1070 Ti, GTX 1070, GTX 1060, GTX 1050 Ti, GTX 1050, GT 1030, GT 1010, MX350, MX330, MX250, MX230, MX150, MX130, MX110	Quadro P6000, Quadro P5000, Quadro P4000, Quadro P2200, Quadro P2000, Quadro P1000, Quadro P400, Quadro P500, Quadro P520, Quadro P600, Quadro P5000 (모바일), Quadro P4000 (모바일), Quadro P3000 (모바일)	Tesla P40, Tesla P6, Tesla P4
6.2		GP10B^[51]				테그라 X2, 젯슨 TX2, DRIVE PX 2
7.0	볼타	GV100	NVIDIA TITAN V	Quadro GV100	Tesla V100, Tesla V100S
7.2	볼타	GV10B^[52] GV11B^[53]^[54]				테그라 자비에르, 젯슨 자비에르 NX, 젯슨 AGX 자비에르, DRIVE AGX 자비에르, DRIVE AGX 페가수스, Clara AGX
7.5	튜링	TU102, TU104, TU106, TU116, TU117	NVIDIA TITAN RTX, GeForce RTX 2080 Ti, RTX 2080 Super, RTX 2080, RTX 2070 Super, RTX 2070, RTX 2060 Super, RTX 2060 12GB, RTX 2060, GeForce GTX 1660 Ti, GTX 1660 Super, GTX 1660, GTX 1650 Super, GTX 1650, MX550, MX450	Quadro RTX 8000, Quadro RTX 6000, Quadro RTX 5000, Quadro RTX 4000, T1000, T600, T400 T1200 (모바일), T600 (모바일), T500 (모바일), Quadro T2000 (모바일), Quadro T1000 (모바일)	Tesla T4
8.0	암페어	GA100			A100 80GB, A100 40GB, A30
8.6		GA102, GA103, GA104, GA106, GA107	GeForce RTX 3090 Ti, RTX 3090, RTX 3080 Ti, RTX 3080 12GB, RTX 3080, RTX 3070 Ti, RTX 3070, RTX 3060 Ti, RTX 3060, RTX 3050, RTX 3050 Ti (모바일), RTX 3050 (모바일), RTX 2050 (모바일), MX570	RTX A6000, RTX A5500, RTX A5000, RTX A4500, RTX A4000, RTX A2000 RTX A5000 (모바일), RTX A4000 (모바일), RTX A3000 (모바일), RTX A2000 (모바일)	A40, A16, A10, A2
8.7		GA10B				젯슨 오린 나노, 젯슨 오린 NX, 젯슨 AGX 오린, DRIVE AGX 오린, IGX 오린
8.9	에이다 러브레이스^[55]	AD102, AD103, AD104, AD106, AD107	GeForce RTX 4090, RTX 4080 Super, RTX 4080, RTX 4070 Ti Super, RTX 4070 Ti, RTX 4070 Super, RTX 4070, RTX 4060 Ti, RTX 4060, RTX 4050 (모바일)	RTX 6000 Ada, RTX 5880 Ada, RTX 5000 Ada, RTX 4500 Ada, RTX 4000 Ada, RTX 4000 SFF Ada, RTX 2000 Ada, RTX 5000 Ada (모바일), RTX 4000 Ada (모바일), RTX 3500 Ada (모바일), RTX 2000 Ada (모바일)	L40S, L40, L20, L4, L2
9.0	호퍼	GH100			H200, H100, GH200
10.0	블랙웰	GB100			B200, B100, GB200
10.1						젯슨 AGX 토르, DRIVE AGX 토르
10.3		GB200, G10			B300, GB10
12.0		GB202, GB203, GB205, GB206, GB207	GeForce RTX 5090, RTX 5080, RTX 5070 Ti, RTX 5070, RTX 5060 Ti, RTX 5060, RTX 5050	RTX PRO 6000 Blackwell, RTX PRO 5000 Blackwell, RTX PRO 4500 Blackwell, RTX PRO 4000 Blackwell	B40
12.1
컴퓨팅 기능 (버전)	마이크로- 아키텍처	GPU	지포스	쿼드로, NVS	테슬라/데이터센터	테그라, 젯슨, DRIVE

* – OEM 전용 제품

버전 기능 및 사양

기능 지원 (나열되지 않은 기능은 모든 컴퓨팅 기능에서 지원)	컴퓨팅 기능 (버전)
기능 지원 (나열되지 않은 기능은 모든 컴퓨팅 기능에서 지원)	1.0, 1.1	1.2, 1.3	2.x	3.0	3.2	3.5, 3.7, 5.x, 6.x, 7.0, 7.2	7.5	8.x	9.0, 10.x, 12.x
워프 투표 함수 (__all(), __any())	아니요	예
워프 투표 함수 (__ballot())	아니요		예
메모리 펜스 함수 (__threadfence_system())
동기화 함수 (__syncthreads_count(), __syncthreads_and(), __syncthreads_or())
서피스 함수
스레드 블록의 3D 그리드
워프 셔플 함수	아니요			예
통합 메모리 프로그래밍	아니요			예
퍼널 시프트	아니요				예
동적 병렬 처리	아니요					예
균일 데이터패스^[56]	아니요						예
하드웨어 가속 비동기 복사	아니요							예
하드웨어 가속 분할 도착/대기 배리어
리덕션 연산을 위한 워프 수준 지원
L2 캐시 상주 관리
가속화된 동적 프로그래밍을 위한 DPX 명령어	아니요								예
분산 공유 메모리
스레드 블록 클러스터
텐서 메모리 가속기 (TMA) 장치
기능 지원 (나열되지 않은 기능은 모든 컴퓨팅 기능에서 지원)	1.0, 1.1	1.2, 1.3	2.x	3.0	3.2	3.5, 3.7, 5.x, 6.x, 7.0, 7.2	7.5	8.x	9.0, 10.x, 12.x
기능 지원 (나열되지 않은 기능은 모든 컴퓨팅 기능에서 지원)	컴퓨팅 기능 (버전)

^[57]

데이터 유형

부동소수점 유형

데이터 유형	지원 벡터 유형	저장 길이 비트 (전체 벡터)	사용 길이 비트 (단일 값)	부호 비트	지수 비트	가수 비트	비고
E2M1 = FP4	e2m1x2 / e2m1x4	8 / 16	4	1	2	1
E2M3 = FP6 변형	e2m3x2 / e2m3x4	16 / 32	6	1	2	3
E3M2 = FP6 변형	e3m2x2 / e3m2x4	16 / 32	6	1	3	2
UE4M3	ue4m3	8	7	0	4	3	스케일링에 사용 (E2M1만 해당)
E4M3 = FP8 변형	e4m3 / e4m3x2 / e4m3x4	8 / 16 / 32	8	1	4	3
E5M2 = FP8 변형	e5m2 / e5m2x2 / e5m2x4	8 / 16 / 32	8	1	5	2	FP16의 지수/범위, 8비트에 들어감
UE8M0	ue8m0x2	16	8	0	8	0	스케일링에 사용 (모든 FP4 또는 FP6 또는 FP8 형식)
FP16	f16 / f16x2	16 / 32	16	1	5	10
BF16	bf16 / bf16x2	16 / 32	16	1	8	7	FP32의 지수/범위, 16비트에 들어감
TF32	tf32	32	19	1	8	10	FP32의 지수/범위, FP16의 가수/정밀도
FP32	f32 / f32x2	32 / 64	32	1	8	23
FP64	f64	64	64	1	11	52

버전 지원

데이터 유형	기본 연산	지원 시작	원자적 연산	전역 메모리 지원 시작	공유 메모리 지원 시작
8비트 정수 부호 있는/없는	로딩, 저장, 변환	1.0	빈칸	빈칸
16비트 정수 부호 있는/없는	일반 연산	1.0	atomicCAS()	3.5
32비트 정수 부호 있는/없는	일반 연산	1.0	원자적 함수	1.1	1.2
64비트 정수 부호 있는/없는	일반 연산	1.0	원자적 함수	1.2	2.0
모든 128비트 간단히 복사 가능한 유형	일반 연산	아니요	atomicExch, atomicCAS	9.0
16비트 부동소수점 FP16	덧셈, 뺄셈, 곱셈, 비교, 워프 셔플 함수, 변환	5.3	half2 원자적 덧셈	6.0
16비트 부동소수점 FP16	덧셈, 뺄셈, 곱셈, 비교, 워프 셔플 함수, 변환	5.3	원자적 덧셈	7.0
16비트 부동소수점 BF16	덧셈, 뺄셈, 곱셈, 비교, 워프 셔플 함수, 변환	8.0	원자적 덧셈	8.0
32비트 부동소수점	일반 연산	1.0	atomicExch()	1.1	1.2
32비트 부동소수점	일반 연산	1.0	원자적 덧셈	2.0
32비트 부동소수점 float2 및 float4	일반 연산	아니요	원자적 덧셈	9.0
64비트 부동소수점	일반 연산	1.3	원자적 덧셈	6.0

참고: 누락된 줄이나 빈 항목은 해당 항목에 대한 정보 부족을 나타낸다.^[58]

텐서 코어

텐서 코어당 사이클당 FMA^[59]	지원 시작		7.0	7.2	7.5 워크스테이션	7.5 데스크톱	8.0	8.6 워크스테이션	8.6 데스크톱	8.9 데스크톱	8.9 워크스테이션	9.0	10.0	10.1	12.0
데이터 유형	조밀 행렬용	희소 행렬용	1세대 (8x/SM)	1세대? (8x/SM)	2세대 (8x/SM)		3세대 (4x/SM)			4세대 (4x/SM)			5세대 (4x/SM)
1비트 값 (AND)	8.0 (실험적)	아니요	아니요				4096		2048			속도 미정
1비트 값 (XOR)	7.5–8.9 (실험적)	아니요	아니요		1024		4096		2048			Deprecated 또는 제거?
4비트 정수	7.5–8.9 (실험적)	8.0–8.9 (실험적)	아니요		256		1024		512			Deprecated 또는 제거?
4비트 부동소수점 FP4 (E2M1)	10.0		아니요										4096	미정	512
6비트 부동소수점 FP6 (E3M2 및 E2M3)	10.0		아니요										2048		미정
8비트 정수	7.2	8.0	아니요	128	128		512		256			1024	2048		256
FP16 누적을 사용하는 8비트 부동소수점 FP8 (E4M3 및 E5M2)	8.9		아니요							256					256
FP32 누적을 사용하는 8비트 부동소수점 FP8 (E4M3 및 E5M2)	8.9		아니요							128					128
FP16 누적을 사용하는 16비트 부동소수점 FP16	7.0	8.0	64		64	64	256		128			512	1024		128
FP32 누적을 사용하는 16비트 부동소수점 FP16	7.0	8.0	64		64	32			64		128				64
FP32 누적을 사용하는 16비트 부동소수점 BF16	7.5^[60]	8.0	아니요		64^[61]				64		128				64
32비트 (19비트 사용) 부동소수점 TF32	7.5^[60]	8.0			속도 미정 (32?)^[61]		128		32		64	256	512		32
64비트 부동소수점	8.0	아니요			아니요		16	속도 미정				32	16		미정

참고: 누락된 줄이나 빈 항목은 해당 항목에 대한 정보 부족을 나타낸다.^[62]^[63] ^[64] ^[65] ^[66] ^[67]

텐서 코어 구성	7.0	7.2, 7.5	8.0, 8.6	8.7	9.0
FP16 단위의 점곱 유닛 폭 (바이트)^[68]^[69]^[70]^[71]	4 (8)		8 (16)	4 (8)	16 (32)
텐서 코어당 점곱 유닛 수	16		32
SM 파티션당 텐서 코어 수	2		1
SM 파티션당 전체 처리량 (바이트/사이클)^[72]^[73]	256		512	256	1024
FP 텐서 코어: 워프 단위 행렬 계산을 위한 최소 사이클	8		4	8
FP 텐서 코어: 전체 처리량을 위한 최소 행렬 형태 (바이트)^[74]	2048
INT 텐서 코어: 워프 단위 행렬 계산을 위한 최소 사이클	아니요	4
INT 텐서 코어: 전체 처리량을 위한 최소 행렬 형태 (바이트)	아니요	1024	2048	1024

^[75]^[76]^[77]^[78]

FP64 텐서 코어 구성	8.0	8.6	9.0
FP64 단위의 점곱 유닛 폭 (바이트)	4 (32)	미정	4 (32)
텐서 코어당 점곱 유닛 수	4	미정	8
SM 파티션당 텐서 코어 수	1
SM 파티션당 전체 처리량 (바이트/사이클)^[72]^[73]	128	미정	256
워프 단위 행렬 계산을 위한 최소 사이클	16	미정
전체 처리량을 위한 최소 행렬 형태 (바이트)^[74]	2048

기술 사양

기술 사양	컴퓨팅 기능 (버전)
기술 사양	1.0	1.1	1.2	1.3	2.x	3.0	3.2	3.5	3.7	5.0	5.2	5.3	6.0	6.1	6.2	7.0	7.2	7.5	8.0	8.6	8.7	8.9	9.0	10.x	12.x
장치당 최대 상주 그리드 수 (동시 커널 실행, 특정 장치에서는 더 낮을 수 있음)	1				16		4	32				16	128	32	16	128	16	128
스레드 블록 그리드의 최대 차원	2				3
스레드 블록 그리드의 최대 x-차원	65535					2³¹ − 1
스레드 블록 그리드의 최대 y 또는 z-차원	65535
스레드 블록의 최대 차원	3
블록의 최대 x 또는 y-차원	512				1024
블록의 최대 z-차원	64
블록당 최대 스레드 수	512				1024
워프 크기	32
멀티프로세서당 최대 상주 블록 수	8					16				32								16	32	16		24	32
멀티프로세서당 최대 상주 워프 수	24		32		48	64												32	64	48			64		48
멀티프로세서당 최대 상주 스레드 수	768		1024		1536	2048												1024	2048	1536			2048		1536
멀티프로세서당 32비트 일반 레지스터 수	8 K		16 K		32 K	64 K			128 K	64 K
멀티프로세서당 32비트 균일 레지스터 수	아니요																	2 K^[79] ^[80]
스레드 블록당 최대 32비트 레지스터 수	8 K		16 K		32 K	64 K	32 K	64 K				32 K	64 K		32 K	64 K
스레드당 최대 32비트 일반 레지스터 수	124				63		255
워프당 최대 32비트 균일 레지스터 수	아니요																	63^[79] ^[81]
멀티프로세서당 공유 메모리 양 (전체 공유 메모리 + L1 캐시 중에서, 해당되는 경우)	16 KiB				16 / 48 KiB (64 KiB 중)	16 / 32 / 48 KiB (64 KiB 중)			80 / 96 / 112 KiB (128 KiB 중)	64 KiB	96 KiB	64 KiB		96 KiB	64 KiB	0 / 8 / 16 / 32 / 64 / 96 KiB (128 KiB 중)		32 / 64 KiB (96 KiB 중)	0 / 8 / 16 / 32 / 64 / 100 / 132 / 164 KiB (192 KiB 중)	0 / 8 / 16 / 32 / 64 / 100 KiB (128 KiB 중)	0 / 8 / 16 / 32 / 64 / 100 / 132 / 164 KiB (192 KiB 중)	0 / 8 / 16 / 32 / 64 / 100 KiB (128 KiB 중)	0 / 8 / 16 / 32 / 64 / 100 / 132 / 164 / 196 / 228 KiB (256 KiB 중)		0 / 8 / 16 / 32 / 64 / 100 KiB (128 KiB 중)
스레드 블록당 최대 공유 메모리 양	16 KiB				48 KiB											96 KiB	48 KiB	64 KiB	163 KiB	99 KiB	163 KiB	99 KiB	227 KiB		99 KiB
공유 메모리 뱅크 수	16				32
스레드당 로컬 메모리 양	16 KiB				512 KiB
CUDA C/C++로 접근 가능한 상수 메모리 크기 (1개 뱅크, PTX는 11개 뱅크 접근 가능, SASS는 18개 뱅크 접근 가능)	64 KiB
상수 메모리용 멀티프로세서당 캐시 작업 세트	8 KiB												4 KiB	8 KiB
텍스처 메모리용 멀티프로세서당 캐시 작업 세트	TPC당 16 KiB			TPC당 24 KiB	12 KiB	12 – 48 KiB^[82]				24 KiB	48 KiB	32 KiB^[83]	24 KiB	48 KiB	24 KiB	32 – 128 KiB		32 – 64 KiB	28 – 192 KiB	28 – 128 KiB	28 – 192 KiB	28 – 128 KiB	28 – 256 KiB
CUDA 배열에 바인딩된 1D 텍스처 참조의 최대 너비	8192				65536								131072
선형 메모리에 바인딩된 1D 텍스처 참조의 최대 너비	2²⁷												2²⁸	2²⁷		2²⁸	2²⁷	2²⁸
1D 계층형 텍스처 참조의 최대 너비 및 계층 수	8192 × 512				16384 × 2048								32768 x 2048
CUDA 배열에 바인딩된 2D 텍스처 참조의 최대 너비 및 높이	65536 × 32768				65536 × 65535								131072 x 65536
선형 메모리에 바인딩된 2D 텍스처 참조의 최대 너비 및 높이	65000 x 65000									65536 x 65536			131072 x 65000
텍스처 수집을 지원하는 CUDA 배열에 바인딩된 2D 텍스처 참조의 최대 너비 및 높이	빈칸				16384 x 16384								32768 x 32768
2D 계층형 텍스처 참조의 최대 너비, 높이 및 계층 수	8192 × 8192 × 512				16384 × 16384 × 2048								32768 x 32768 x 2048
선형 메모리 또는 CUDA 배열에 바인딩된 3D 텍스처 참조의 최대 너비, 높이 및 깊이	2048³					4096³							16384³
큐브맵 텍스처 참조의 최대 너비 (및 높이)	빈칸				16384								32768
큐브맵 계층형 텍스처 참조의 최대 너비 (및 높이) 및 계층 수	빈칸				16384 × 2046								32768 × 2046
커널에 바인딩될 수 있는 최대 텍스처 수	128					256
CUDA 배열에 바인딩된 1D 서피스 참조의 최대 너비	지원 안됨				65536					16384			32768
1D 계층형 서피스 참조의 최대 너비 및 계층 수					65536 × 2048					16384 × 2048			32768 × 2048
CUDA 배열에 바인딩된 2D 서피스 참조의 최대 너비 및 높이					65536 × 32768					16384 × 65536			131072 × 65536
2D 계층형 서피스 참조의 최대 너비, 높이 및 계층 수					65536 × 32768 × 2048					16384 × 16384 × 2048			32768 × 32768 × 2048
CUDA 배열에 바인딩된 3D 서피스 참조의 최대 너비, 높이 및 깊이					65536 × 32768 × 2048					4096 × 4096 × 4096			16384 × 16384 × 16384
CUDA 배열에 바인딩된 큐브맵 서피스 참조의 최대 너비 (및 높이)					32768					16384			32768
큐브맵 계층형 서피스 참조의 최대 너비 및 계층 수					32768 × 2046					16384 × 2046			32768 × 2046
커널에 바인딩될 수 있는 최대 서피스 수					8	16										32
커널당 최대 명령어 수	200만				5억 1200만
스레드 블록 클러스터당 최대 스레드 블록 수^[84]	아니요																						16		8
기술 사양	1.0	1.1	1.2	1.3	2.x	3.0	3.2	3.5	3.7	5.0	5.2	5.3	6.0	6.1	6.2	7.0	7.2	7.5	8.0	8.6	8.7	8.9	9.0	10.x	12.x
기술 사양	컴퓨팅 기능 (버전)

엔비디아 CUDA C++ 프로그래밍 가이드에서 더 많은 정보를 읽을 수 있다.^[85]

멀티프로세서 아키텍처

아키텍처 사양	컴퓨팅 기능 (버전)
아키텍처 사양	1.0	1.1	1.2	1.3	2.0	2.1	3.0	3.2	3.5	3.7	5.0	5.2	5.3	6.0	6.1	6.2	7.0	7.2	7.5	8.0	8.6	8.7	8.9	9.0	10.x	12.x
INT32 산술 연산용 ALU 레인 수	8				32	48	192^[86]				128		128	64	128	128	64				64		64		128
모든 INT32 또는 FP32 산술 연산용 ALU 레인 수																	빈칸				64		빈칸
FP32 산술 연산용 ALU 레인 수																	64			64			128	128
FP16x2 산술 연산용 ALU 레인 수	아니요														1		64			128^[87]	128^[88]		64^[89]	128
FP64 산술 연산용 ALU 레인 수	아니요			1	FP32 16개^[90]	FP32 4개^[91]	8		8 / 64^[92]	64	4^[93]			32	4		32		2	32	2			64		2
부하/저장 장치 수	SM 2개당 4개	SM 2개당 8개	SM 2개당 8개 / SM 3개당 8개^[92]	SM 3개당 8개	16		32							16	32					16				32
단정밀도 부동소수점 초월 함수용 특수 함수 장치 수	2^[94]				4	8	32						16		32		16
텍스처 매핑 장치 (TMU) 수	SM 2개당 4개	SM 2개당 8개	SM 2개/3개당 8개^[92]	SM 3개당 8개	4	4 / 8^[92]	16	8	16		8						4
균일 INT32 산술 연산용 ALU 레인 수	아니요																		2^[95]
텐서 코어 수	아니요																8 (1세대)^[96]		0 / 8^[92] (2세대)	4 (3세대)			4 (4세대)
레이 트레이싱 코어 수	아니요																		0 / 1^[92] (1세대)	아니요	1 (2세대)	아니요	1 (3세대)	아니요
SM 파티션 수 = 처리 블록^[97]	1										4			2	4
SM 파티션당 워프 스케줄러 수	1				2		4				1
단일 스케줄러가 매 사이클마다 발행하는 최대 새 명령어 수^[98]	2^[99]				1	2^[100]	2										1
데이터 캐시 및 공유 메모리용 통합 메모리 크기	16 KiB^[101]			16 KiB^[101]	64 KiB					128 KiB	64 KiB SM + 24 KiB L1 (별도)^[102]	96 KiB SM + 24 KiB L1 (별도)^[102]	64 KiB SM + 24 KiB L1 (별도)^[102]	64 KiB SM + 24 KiB L1 (별도)^[102]	96 KiB SM + 24 KiB L1 (별도)^[102]	64 KiB SM + 24 KiB L1 (별도)^[102]	128 KiB		96 KiB^[103]	192 KiB	128 KiB	192 KiB	128 KiB	256 KiB
GPU당 L3 명령어 캐시 크기				32 KiB^[104]			L2 데이터 캐시 사용
텍스처 프로세서 클러스터 (TPC)당 L2 명령어 캐시 크기				8 KiB			L2 데이터 캐시 사용
SM당 L1.5 명령어 캐시 크기^[105]				4 KiB						32 KiB		32 KiB	48 KiB^[83]	128 KiB	32 KiB		128 KiB		~46 KiB^[106]	128 KiB^[107]
SM당 L1 명령어 캐시 크기				4 KiB						8 KiB				8 KiB			128 KiB		~46 KiB^[106]	128 KiB^[107]
SM 파티션당 L0 명령어 캐시 크기	SM당 파티션 1개만 해당										아니요						12 KiB		16 KiB?^[108]	32 KiB
명령어 너비^[105]	32비트 명령어 및 64비트 명령어^[109]						64비트 명령어 + 7개 명령어당 64비트 제어 로직				64비트 명령어 + 3개 명령어당 64비트 제어 로직						128비트 결합 명령어 및 제어 로직
메모리 파티션당 메모리 버스 너비 (비트)	64 ((G)DDR)												32 ((G)DDR)	512 (HBM)	32 ((G)DDR)		512 (HBM)	32 ((G)DDR)		512 (HBM)	32 ((G)DDR)			512 (HBM)		32 ((G)DDR)
메모리 파티션당 L2 캐시	16 KiB^[110]			32 KiB^[110]	128 KiB				256 KiB		1 MiB	512 KiB	128 KiB	512 KiB	256 KiB	128 KiB	768 KiB	64 KiB	512 KiB	4 MiB	512 KiB		8 MiB^[111]	5 MiB	6.25 MiB	8 MiB^[112]
메모리 파티션당 (또는 이후 모델의 GPC당) 렌더 출력 장치 (ROP) 수	4				8			4	8			16	8	12	8	4	16	2	8	16	GPC당 16개	GPC당 3개	GPC당 16개
아키텍처 사양	1.0	1.1	1.2	1.3	2.0	2.1	3.0	3.2	3.5	3.7	5.0	5.2	5.3	6.0	6.1	6.2	7.0	7.2	7.5	8.0	8.6	8.7	8.9	9.0	10.x	12.x
아키텍처 사양	컴퓨팅 기능 (버전)

CUDA 아키텍처 사용례

3D 그래픽의 가속 렌더링
비디오 파일 형식의 가속 상호 변환
가속 암호화, 복호화 및 압축
생물정보학, 예: NGS DNA 염기서열 분석 BarraCUDA^[113]
단백질의 원시 형태 예측과 같은 분산 계산
의료 분석 시뮬레이션, 예를 들어 CT 및 MRI 스캔 이미지를 기반으로 한 가상 현실
물리 시뮬레이션,^[114] 특히 유체동역학
기계 학습 문제에서의 신경망 훈련
대규모 언어 모델 추론
얼굴 인식
SETI@home 및 BOINC 소프트웨어를 사용하는 기타 프로젝트와 같은 자원 컴퓨팅 프로젝트
분자동역학
암호화폐 채굴
SfM 소프트웨어

경쟁사와의 비교

CUDA는 다른 GPU 컴퓨팅 스택인 인텔 OneAPI 및 AMD ROCm과 경쟁한다.

엔비디아의 CUDA는 클로즈드 소스인 반면, 인텔의 OneAPI와 AMD의 ROCm은 오픈 소스이다.

인텔 OneAPI

oneAPI는 여러 하드웨어 아키텍처를 위한 소프트웨어 개발을 지원하기 위해 만들어진 오픈 표준 기반의 이니셔티브이다.^[115] oneAPI 라이브러리는 특별 관심 그룹에서 공개적으로 논의되는 오픈 사양을 구현해야 하며, 모든 개발자 또는 조직이 자신만의 oneAPI 라이브러리 버전을 구현할 가능성을 제공한다.^[116]^[117]

원래 인텔에서 만들었으며, 다른 하드웨어 채택자로는 후지쓰와 화웨이가 있다.

UXL (Unified Acceleration Foundation)

UXL (Unified Acceleration Foundation)은 엔비디아의 CUDA에 대한 오픈 대안을 제공하는 것을 목표로 워킹 그룹 및 특별 관심 그룹 (SIG)을 통해 새로운 오픈 표준 가속기 소프트웨어 생태계, 관련 오픈 표준 및 사양 프로젝트를 지속적으로 개발하기 위해 노력하는 새로운 기술 컨소시엄이다. 주요 참여 기업은 인텔, 구글, ARM, 퀄컴, 삼성, 이매지네이션, 그리고 VMware이다.^[118]

AMD ROCm

ROCm^[119]은 AMD (Advanced Micro Devices)의 그래픽 처리 장치 (GPU) 프로그래밍을 위한 오픈 소스 소프트웨어 스택이다.

같이 보기

각주

↑ ^가 ^나 Shah, Agam. “Nvidia not totally against third parties making CUDA chips”. 《www.theregister.com》 (영어). 2024년 4월 25일에 확인함.
↑ “Nvidia CUDA Home Page”. 2017년 7월 18일.
↑ Shimpi, Anand Lal; Wilson, Derek (2006년 11월 8일). “Nvidia's GeForce 8800 (G80): GPUs Re-architected for DirectX 10”. AnandTech. 2015년 5월 16일에 확인함.
↑ “Introduction — nsight-visual-studio-edition 12.6 documentation”. 《docs.nvidia.com》. 2024년 10월 10일에 확인함.
↑ ^가 ^나 Abi-Chahla, Fedy (2008년 6월 18일). “Nvidia's CUDA: The End of the CPU?”. Tom's Hardware. 2015년 5월 17일에 확인함.
↑ Zunitch, Peter (2018년 1월 24일). “CUDA vs. OpenCL vs. OpenGL”. 《Videomaker》 (미국 영어). 2018년 9월 16일에 확인함.
↑ “OpenCL”. 《NVIDIA Developer》 (영어). 2013년 4월 24일. 2019년 11월 4일에 확인함.
↑ Witt, Stephen (2023년 11월 27일). “How Jensen Huang's Nvidia Is Powering the A.I. Revolution”. 《The New Yorker》 (미국 영어). ISSN 0028-792X. 2023년 12월 10일에 확인함.
↑ “CUDA LLVM Compiler”. 2012년 5월 7일.
↑ First OpenCL demo on a GPU - 유튜브
↑ DirectCompute Ocean Demo Running on Nvidia CUDA-enabled GPU - 유튜브
↑ Vasiliadis, Giorgos; Antonatos, Spiros; Polychronakis, Michalis; Markatos, Evangelos P.; Ioannidis, Sotiris (September 2008). 〈Gnort: High Performance Network Intrusion Detection Using Graphics Processors〉 (PDF). 《Recent Advances in Intrusion Detection》. Lecture Notes in Computer Science 5230. 116–134쪽. doi:10.1007/978-3-540-87403-4_7. ISBN 978-3-540-87402-7.
↑ Schatz, Michael C.; Trapnell, Cole; Delcher, Arthur L.; Varshney, Amitabh (2007). 《High-throughput sequence alignment using Graphics Processing Units》. 《BMC Bioinformatics》 8. 474쪽. doi:10.1186/1471-2105-8-474. PMC 2222658. PMID 18070356.
↑ Manavski, Svetlin A.; Giorgio, Valle (2008). 《CUDA compatible GPU cards as efficient hardware accelerators for Smith-Waterman sequence alignment》. 《BMC Bioinformatics》 10. S10쪽. doi:10.1186/1471-2105-9-S2-S10. PMC 2323659. PMID 18387198.
↑ “Pyrit – Google Code”.
↑ “Use your Nvidia GPU for scientific computing”. BOINC. 2008년 12월 18일. 2008년 12월 28일에 원본 문서에서 보존된 문서. 2017년 8월 8일에 확인함.
↑ “Nvidia CUDA Software Development Kit (CUDA SDK) – Release Notes Version 2.0 for MAC OS X”. 2009년 1월 6일에 원본 문서에서 보존된 문서.
↑ “CUDA 1.1 – Now on Mac OS X”. 2008년 2월 14일. 2008년 11월 22일에 원본 문서에서 보존된 문서.
↑ “CUDA 11 Features Revealed”. 2020년 5월 14일.
↑ “CUDA Toolkit 11.1 Introduces Support for GeForce RTX 30 Series and Quadro RTX Series GPUs”. 2020년 9월 23일.
↑ “Enhancing Memory Allocation with New NVIDIA CUDA 11.2 Features”. 2020년 12월 16일.
↑ “Exploring the New Features of CUDA 11.3”. 2021년 4월 16일.
↑ Silberstein, Mark; Schuster, Assaf; Geiger, Dan; Patney, Anjul; Owens, John D. (2008). 〈Efficient computation of sum-products on GPUs through software-managed cache〉 (PDF). 《Proceedings of the 22nd annual international conference on Supercomputing – ICS '08》 (PDF). Proceedings of the 22nd annual international conference on Supercomputing – ICS '08. 309–318쪽. doi:10.1145/1375527.1375572. ISBN 978-1-60558-158-3.
↑ “CUDA C Programming Guide v8.0” (PDF). 《nVidia Developer Zone》. January 2017. 19쪽. 2017년 3월 22일에 확인함.
↑ “NVCC forces c++ compilation of .cu files”. 2011년 11월 29일.
↑ Whitehead, Nathan; Fit-Florea, Alex. “Precision & Performance: Floating Point and IEEE 754 Compliance for Nvidia GPUs” (PDF). Nvidia. 2014년 11월 18일에 확인함.
↑ “CUDA-Enabled Products”. 《CUDA Zone》. Nvidia Corporation. 2008년 11월 3일에 확인함.
↑ “Coriander Project: Compile CUDA Codes To OpenCL, Run Everywhere”. Phoronix.
↑ Perkins, Hugh (2017). “cuda-on-cl” (PDF). IWOCL. 2017년 8월 8일에 확인함.
↑ “hughperkins/coriander: Build NVIDIA® CUDA™ code for OpenCL™ 1.2 devices”. GitHub. 2019년 5월 6일.
↑ “CU2CL Documentation”. 《chrec.cs.vt.edu》.
↑ “GitHub – vosen/ZLUDA”. 《GitHub》.
↑ Larabel, Michael (2024년 2월 12일), “AMD Quietly Funded A Drop-In CUDA Implementation Built On ROCm: It's Now Open-Source”, 《Phoronix》 (영어), 2024년 2월 12일에 확인함
↑ “GitHub – chip-spv/chipStar”. 《GitHub》.
↑ “PyCUDA”.
↑ “pycublas”. 2009년 4월 20일에 원본 문서에서 보존된 문서. 2017년 8월 8일에 확인함.
↑ “CuPy” (영어). 2020년 1월 8일에 확인함.
↑ “NVIDIA CUDA Programming Guide. Version 1.0” (PDF). 2007년 6월 23일.
↑ “NVIDIA CUDA Programming Guide. Version 2.1” (PDF). 2008년 12월 8일.
↑ “NVIDIA CUDA Programming Guide. Version 2.2” (PDF). 2009년 4월 2일.
↑ “NVIDIA CUDA Programming Guide. Version 2.2.1” (PDF). 2009년 5월 26일.
↑ “NVIDIA CUDA Programming Guide. Version 2.3.1” (PDF). 2009년 8월 26일.
↑ “NVIDIA CUDA Programming Guide. Version 3.0” (PDF). 2010년 2월 20일.
↑ “NVIDIA CUDA C Programming Guide. Version 3.1.1” (PDF). 2010년 7월 21일.
↑ “NVIDIA CUDA C Programming Guide. Version 3.2” (PDF). 2010년 11월 9일.
↑ “CUDA 11.0 Release Notes”. 《NVIDIA Developer》.
↑ “CUDA 11.1 Release Notes”. 《NVIDIA Developer》.
↑ “CUDA 11.5 Release Notes”. 《NVIDIA Developer》.
↑ “CUDA 11.8 Release Notes”. 《NVIDIA Developer》.
↑ “NVIDIA Quadro NVS 420 Specs”. 《TechPowerUp GPU Database》. 2023년 8월 25일.
↑ Larabel, Michael (2017년 3월 29일). “NVIDIA Rolls Out Tegra X2 GPU Support In Nouveau”. Phoronix. 2017년 8월 8일에 확인함.
↑ Nvidia Xavier Specs on TechPowerUp (preliminary)
↑ “Welcome — Jetson LinuxDeveloper Guide 34.1 documentation”.
↑ “NVIDIA Bringing up Open-Source Volta GPU Support for Their Xavier SoC”.
↑ “NVIDIA Ada Lovelace Architecture”.
↑ Dissecting the Turing GPU Architecture through Microbenchmarking
↑ “H.1. Features and Technical Specifications – Table 13. Feature Support per Compute Capability”. 《docs.nvidia.com》 (미국 영어). 2020년 9월 23일에 확인함.
↑ “CUDA C++ Programming Guide”.
↑ 실제로 실행되는 퓨즈드 곱셈-덧셈, 조밀 행렬
↑ 7.5부터 SASS로, 8.0부터 PTX로
↑ ^가 ^나 SASS에서 비공식 지원
↑ “Technical brief. NVIDIA Jetson AGX Orin Series” (PDF). 《nvidia.com》. 2023년 9월 5일에 확인함.
↑ “NVIDIA Ampere GA102 GPU Architecture” (PDF). 《nvidia.com》. 2023년 9월 5일에 확인함.
↑ Luo, Weile; Fan, Ruibo; Li, Zeyu; Du, Dayou; Wang, Qiang; Chu, Xiaowen (2024). “Benchmarking and Dissecting the Nvidia Hopper GPU Architecture”. arXiv:2402.13499v1 [cs.AR].
↑ “Datasheet NVIDIA A40” (PDF). 《nvidia.com》. 2024년 4월 27일에 확인함.
↑ “NVIDIA AMPERE GA102 GPU ARCHITECTURE” (PDF). 2024년 4월 27일.
↑ “Datasheet NVIDIA L40” (PDF). 2024년 4월 27일.
↑ 화이트페이퍼에서 텐서 코어 큐브 다이어그램은 점곱 유닛 폭을 높이 (볼타 및 튜링은 4 FP16, A100은 8 FP16, GA102는 4 FP16, GH100은 16 FP16)로 나타낸다. 다른 두 차원은 점곱 유닛의 수 (볼타 및 튜링은 4x4 = 16, 암페어 및 호퍼는 8x4 = 32)를 나타낸다. 결과 회색 블록은 사이클당 FP16 FMA 연산이다. 텐서 코어가 없는 파스칼은 속도 비교를 위해 표시되며, 비 FP16 데이터 유형을 사용하는 볼타 V100도 마찬가지이다.
↑ “NVIDIA Turing Architecture Whitepaper” (PDF). 《nvidia.com》. 2023년 9월 5일에 확인함.
↑ “NVIDIA Tensor Core GPU” (PDF). 《nvidia.com》. 2023년 9월 5일에 확인함.
↑ “NVIDIA Hopper Architecture In-Depth”. 2022년 3월 22일.
↑ ^가 ^나 형태 x 변환된 피연산자 크기, 예: 2 텐서 코어 x 4x4x4xFP16/사이클 = 256 바이트/사이클
↑ ^가 ^나 = 처음 3개 표 행의 곱
↑ ^가 ^나 = 이전 2개 표 행의 곱; 형태: 예: 8x8x4xFP16 = 512 바이트
↑ Sun, Wei; Li, Ang; Geng, Tong; Stuijk, Sander; Corporaal, Henk (2023). 《Dissecting Tensor Cores via Microbenchmarks: Latency, Throughput and Numeric Behaviors》. 《IEEE Transactions on Parallel and Distributed Systems》 34. 246–261쪽. arXiv:2206.02874. doi:10.1109/tpds.2022.3217824. S2CID 249431357.
↑ “Parallel Thread Execution ISA Version 7.7”.
↑ Raihan, Md Aamir; Goli, Negar; Aamodt, Tor (2018). “Modeling Deep Learning Accelerator Enabled GPUs”. arXiv:1811.08309 [cs.MS].
↑ “NVIDIA Ada Lovelace Architecture”.
↑ ^가 ^나 Jia, Zhe; Maggioni, Marco; Smith, Jeffrey; Daniele Paolo Scarpazza (2019). “Dissecting the NVidia Turing T4 GPU via Microbenchmarking”. arXiv:1903.07486 [cs.DC].
↑ Burgess, John (2019). 〈RTX ON – The NVIDIA TURING GPU〉. 《2019 IEEE Hot Chips 31 Symposium (HCS)》. 1–27쪽. doi:10.1109/HOTCHIPS.2019.8875651. ISBN 978-1-7281-2089-8. S2CID 204822166.
↑ Burgess, John (2019). 〈RTX ON – The NVIDIA TURING GPU〉. 《2019 IEEE Hot Chips 31 Symposium (HCS)》. 1–27쪽. doi:10.1109/HOTCHIPS.2019.8875651. ISBN 978-1-7281-2089-8. S2CID 204822166.
↑ 장치에 따라 다름
↑ ^가 ^나 “Tegra X1”. 2015년 1월 9일.
↑ NVIDIA H100 Tensor Core GPU Architecture
↑ “CUDA C++ Programming Guide, Compute Capabilities”. 《docs.nvidia.com》 (미국 영어). 2025년 2월 6일에 확인함.
↑ 프로그래밍 가이드에 따르면 160개의 정수 명령어만 실행할 수 있음
↑ [1]에 따르면 128. 64는 FP32 + 64는 별도 단위?
↑ 64는 FP32 코어, 64는 유연한 FP32/INT 코어
↑ “CUDA C++ Programming Guide”.
↑ 32개의 FP32 레인이 16개의 FP64 레인으로 결합. 모델에 따라 낮을 수 있음
↑ 16개의 FP32 레인만 지원하며, 4개의 FP64 레인으로 결합
↑ ^가 ^나 ^다 ^라 ^마 ^바 모델에 따라 다름
↑ 실제 속도이며, 아마도 FP32 포트를 통해 이루어짐. 실제 FP64 코어에 대한 설명 없음
↑ 정수 덧셈 및 비교에도 사용할 수 있음
↑ SM 파티션당 2클럭 사이클/명령어 Burgess, John (2019). 〈RTX ON – The NVIDIA TURING GPU〉. 《2019 IEEE Hot Chips 31 Symposium (HCS)》. 1–27쪽. doi:10.1109/HOTCHIPS.2019.8875651. ISBN 978-1-7281-2089-8. S2CID 204822166.
↑ Durant, Luke; Giroux, Olivier; Harris, Mark; Stam, Nick (2017년 5월 10일). “Inside Volta: The World's Most Advanced Data Center GPU”. 《Nvidia developer blog》.
↑ 스케줄러와 디스패처는 페르미와 케플러와 달리 전용 실행 장치를 가지고 있다.
↑ 디스패칭은 동시에 중첩될 수 있다 (SM 파티션당 실행 장치가 32개 미만일 때).
↑ MAD 파이프 및 SFU 파이프를 이중 발행할 수 있음
↑ 하나의 스케줄러만 한 번에 2개의 명령어를 발행할 수 있음. 첫 번째 스케줄러는 홀수 ID를 가진 워프를 담당. 두 번째 스케줄러는 짝수 ID를 가진 워프를 담당.
↑ ^가 ^나 공유 메모리만 해당, 데이터 캐시 없음
↑ ^가 ^나 ^다 ^라 ^마 ^바 공유 메모리는 별도이지만 L1에는 텍스처 캐시 포함
↑ “H.6.1. Architecture”. 《docs.nvidia.com》 (미국 영어). 2019년 5월 13일에 확인함.
↑ “Demystifying GPU Microarchitecture through Microbenchmarking” (PDF).
↑ ^가 ^나 Jia, Zhe; Maggioni, Marco; Staiger, Benjamin; Scarpazza, Daniele P. (2018). “Dissecting the NVIDIA Volta GPU Architecture via Microbenchmarking”. arXiv:1804.06826 [cs.DC].
↑ Jia, Zhe; Maggioni, Marco; Smith, Jeffrey; Daniele Paolo Scarpazza (2019). “Dissecting the NVidia Turing T4 GPU via Microbenchmarking”. arXiv:1903.07486 [cs.DC].
↑ “Dissecting the Ampere GPU Architecture through Microbenchmarking”.
↑ 참고: Jia, Zhe; Maggioni, Marco; Smith, Jeffrey; Daniele Paolo Scarpazza (2019). “Dissecting the NVidia Turing T4 GPU via Microbenchmarking”. arXiv:1903.07486 [cs.DC]. 에서는 SM 파티션당 2 KiB L0 명령어 캐시와 SM당 16 KiB L1 명령어 캐시라고 주장하며 이와 불일치함
↑ “asfermi Opcode”. 《GitHub》.
↑ ^가 ^나 텍스처 엔진으로만 접근 가능
↑ RTX 4060, RTX 4070, RTX 4070 Ti, RTX 4090에서 25% 비활성화
↑ RTX 5070 Ti, RTX 5090에서 25% 비활성화
↑ “nVidia CUDA Bioinformatics: BarraCUDA”. 《BioCentric》 (영어). 2019년 7월 19일. 2019년 10월 15일에 확인함.
↑ “Part V: Physics Simulation”. 《NVIDIA Developer》 (영어). 2020년 9월 11일에 확인함.
↑ “oneAPI Programming Model”. 《oneAPI.io》 (미국 영어). 2024년 7월 27일에 확인함.
↑ “Specifications | oneAPI”. 《oneAPI.io》 (미국 영어). 2024년 7월 27일에 확인함.
↑ “oneAPI Specification — oneAPI Specification 1.3-rev-1 documentation”. 《oneapi-spec.uxlfoundation.org》. 2024년 7월 27일에 확인함.
↑ “Exclusive: Behind the plot to break Nvidia's grip on AI by targeting software”. 《로이터》. 2024년 4월 5일에 확인함.
↑ “Question: What does ROCm stand for? · Issue #1628 · RadeonOpenCompute/ROCm”. 《Github.com》. 2022년 1월 18일에 확인함.

제이슨 샌더스, 에드워드 캔드롯 저, 박춘언 역, 예제로 배우는 CUDA 프로그래밍(입문자를 위한 GPGPU 프로그래밍의 기초), ISBN 9788994774060.
Farber, Rob 저, CUDA Application Design and Development, ISBN 9780123884268.
Hwu, Wen-Mei 저, GPU Computing GEMs - Jade Edition, ISBN 9780123859631.

외부 링크

위키미디어 공용에 CUDA 관련 미디어 분류가 있습니다.
(영어) CUDA - 공식 웹사이트
(영어) CUDA 커뮤니티 - 구글+
(영어) VRAM 크기 조절 도구
(영어) CUDA GPUs - 공식적으로 CUDA를 지원하는 장치 목록

[:0-1] 가 ^나 Shah, Agam. “Nvidia not totally against third parties making CUDA chips”. 《www.theregister.com》 (영어). 2024년 4월 25일에 확인함.

[2] “Nvidia CUDA Home Page”. 2017년 7월 18일.

[CUDA_intro_-_AnandTech-3] Shimpi, Anand Lal; Wilson, Derek (2006년 11월 8일). “Nvidia's GeForce 8800 (G80): GPUs Re-architected for DirectX 10”. AnandTech. 2015년 5월 16일에 확인함.

[4] “Introduction — nsight-visual-studio-edition 12.6 documentation”. 《docs.nvidia.com》. 2024년 10월 10일에 확인함.

[CUDA_intro_-_TomsHardware-5] 가 ^나 Abi-Chahla, Fedy (2008년 6월 18일). “Nvidia's CUDA: The End of the CPU?”. Tom's Hardware. 2015년 5월 17일에 확인함.

[6] Zunitch, Peter (2018년 1월 24일). “CUDA vs. OpenCL vs. OpenGL”. 《Videomaker》 (미국 영어). 2018년 9월 16일에 확인함.

[7] “OpenCL”. 《NVIDIA Developer》 (영어). 2013년 4월 24일. 2019년 11월 4일에 확인함.

[8] Witt, Stephen (2023년 11월 27일). “How Jensen Huang's Nvidia Is Powering the A.I. Revolution”. 《The New Yorker》 (미국 영어). ISSN 0028-792X. 2023년 12월 10일에 확인함.

[9] “CUDA LLVM Compiler”. 2012년 5월 7일.

[10] First OpenCL demo on a GPU - 유튜브

[11] DirectCompute Ocean Demo Running on Nvidia CUDA-enabled GPU - 유튜브

[Ioannidis08-12] Vasiliadis, Giorgos; Antonatos, Spiros; Polychronakis, Michalis; Markatos, Evangelos P.; Ioannidis, Sotiris (September 2008). 〈Gnort: High Performance Network Intrusion Detection Using Graphics Processors〉 (PDF). 《Recent Advances in Intrusion Detection》. Lecture Notes in Computer Science 5230. 116–134쪽. doi:10.1007/978-3-540-87403-4_7. ISBN 978-3-540-87402-7.

[13] Schatz, Michael C.; Trapnell, Cole; Delcher, Arthur L.; Varshney, Amitabh (2007). 《High-throughput sequence alignment using Graphics Processing Units》. 《BMC Bioinformatics》 8. 474쪽. doi:10.1186/1471-2105-8-474. PMC 2222658. PMID 18070356.

[Manavski2008-14] Manavski, Svetlin A.; Giorgio, Valle (2008). 《CUDA compatible GPU cards as efficient hardware accelerators for Smith-Waterman sequence alignment》. 《BMC Bioinformatics》 10. S10쪽. doi:10.1186/1471-2105-9-S2-S10. PMC 2323659. PMID 18387198.

[15] “Pyrit – Google Code”.

[16] “Use your Nvidia GPU for scientific computing”. BOINC. 2008년 12월 18일. 2008년 12월 28일에 원본 문서에서 보존된 문서. 2017년 8월 8일에 확인함.

[17] “Nvidia CUDA Software Development Kit (CUDA SDK) – Release Notes Version 2.0 for MAC OS X”. 2009년 1월 6일에 원본 문서에서 보존된 문서.

[18] “CUDA 1.1 – Now on Mac OS X”. 2008년 2월 14일. 2008년 11월 22일에 원본 문서에서 보존된 문서.

[19] “CUDA 11 Features Revealed”. 2020년 5월 14일.

[20] “CUDA Toolkit 11.1 Introduces Support for GeForce RTX 30 Series and Quadro RTX Series GPUs”. 2020년 9월 23일.

[21] “Enhancing Memory Allocation with New NVIDIA CUDA 11.2 Features”. 2020년 12월 16일.

[22] “Exploring the New Features of CUDA 11.3”. 2021년 4월 16일.

[23] Silberstein, Mark; Schuster, Assaf; Geiger, Dan; Patney, Anjul; Owens, John D. (2008). 〈Efficient computation of sum-products on GPUs through software-managed cache〉 (PDF). 《Proceedings of the 22nd annual international conference on Supercomputing – ICS '08》 (PDF). Proceedings of the 22nd annual international conference on Supercomputing – ICS '08. 309–318쪽. doi:10.1145/1375527.1375572. ISBN 978-1-60558-158-3.

[CUDA_Prog_v8-24] “CUDA C Programming Guide v8.0” (PDF). 《nVidia Developer Zone》. January 2017. 19쪽. 2017년 3월 22일에 확인함.

[25] “NVCC forces c++ compilation of .cu files”. 2011년 11월 29일.

[26] Whitehead, Nathan; Fit-Florea, Alex. “Precision & Performance: Floating Point and IEEE 754 Compliance for Nvidia GPUs” (PDF). Nvidia. 2014년 11월 18일에 확인함.

[CUDA_products-27] “CUDA-Enabled Products”. 《CUDA Zone》. Nvidia Corporation. 2008년 11월 3일에 확인함.

[28] “Coriander Project: Compile CUDA Codes To OpenCL, Run Everywhere”. Phoronix.

[29] Perkins, Hugh (2017). “cuda-on-cl” (PDF). IWOCL. 2017년 8월 8일에 확인함.

[30] “hughperkins/coriander: Build NVIDIA® CUDA™ code for OpenCL™ 1.2 devices”. GitHub. 2019년 5월 6일.

[31] “CU2CL Documentation”. 《chrec.cs.vt.edu》.

[32] “GitHub – vosen/ZLUDA”. 《GitHub》.

[33] Larabel, Michael (2024년 2월 12일), “AMD Quietly Funded A Drop-In CUDA Implementation Built On ROCm: It's Now Open-Source”, 《Phoronix》 (영어), 2024년 2월 12일에 확인함

[34] “GitHub – chip-spv/chipStar”. 《GitHub》.

[35] “PyCUDA”.

[36] “pycublas”. 2009년 4월 20일에 원본 문서에서 보존된 문서. 2017년 8월 8일에 확인함.

[37] “CuPy” (영어). 2020년 1월 8일에 확인함.

[38] “NVIDIA CUDA Programming Guide. Version 1.0” (PDF). 2007년 6월 23일.

[39] “NVIDIA CUDA Programming Guide. Version 2.1” (PDF). 2008년 12월 8일.

[40] “NVIDIA CUDA Programming Guide. Version 2.2” (PDF). 2009년 4월 2일.

[41] “NVIDIA CUDA Programming Guide. Version 2.2.1” (PDF). 2009년 5월 26일.

[42] “NVIDIA CUDA Programming Guide. Version 2.3.1” (PDF). 2009년 8월 26일.

[43] “NVIDIA CUDA Programming Guide. Version 3.0” (PDF). 2010년 2월 20일.

[44] “NVIDIA CUDA C Programming Guide. Version 3.1.1” (PDF). 2010년 7월 21일.

[45] “NVIDIA CUDA C Programming Guide. Version 3.2” (PDF). 2010년 11월 9일.

[46] “CUDA 11.0 Release Notes”. 《NVIDIA Developer》.

[47] “CUDA 11.1 Release Notes”. 《NVIDIA Developer》.

[48] “CUDA 11.5 Release Notes”. 《NVIDIA Developer》.

[49] “CUDA 11.8 Release Notes”. 《NVIDIA Developer》.

[50] “NVIDIA Quadro NVS 420 Specs”. 《TechPowerUp GPU Database》. 2023년 8월 25일.

[51] Larabel, Michael (2017년 3월 29일). “NVIDIA Rolls Out Tegra X2 GPU Support In Nouveau”. Phoronix. 2017년 8월 8일에 확인함.

[52] Nvidia Xavier Specs on TechPowerUp (preliminary)

[53] “Welcome — Jetson LinuxDeveloper Guide 34.1 documentation”.

[54] “NVIDIA Bringing up Open-Source Volta GPU Support for Their Xavier SoC”.

[55] “NVIDIA Ada Lovelace Architecture”.

[56] Dissecting the Turing GPU Architecture through Microbenchmarking

[57] “H.1. Features and Technical Specifications – Table 13. Feature Support per Compute Capability”. 《docs.nvidia.com》 (미국 영어). 2020년 9월 23일에 확인함.

[58] “CUDA C++ Programming Guide”.

[59] 실제로 실행되는 퓨즈드 곱셈-덧셈, 조밀 행렬

[60] 7.5부터 SASS로, 8.0부터 PTX로

[unofficial_support_in_SASS-61] 가 ^나 SASS에서 비공식 지원

[62] “Technical brief. NVIDIA Jetson AGX Orin Series” (PDF). 《nvidia.com》. 2023년 9월 5일에 확인함.

[63] “NVIDIA Ampere GA102 GPU Architecture” (PDF). 《nvidia.com》. 2023년 9월 5일에 확인함.

[64] Luo, Weile; Fan, Ruibo; Li, Zeyu; Du, Dayou; Wang, Qiang; Chu, Xiaowen (2024). “Benchmarking and Dissecting the Nvidia Hopper GPU Architecture”. arXiv:2402.13499v1 [cs.AR].

[65] “Datasheet NVIDIA A40” (PDF). 《nvidia.com》. 2024년 4월 27일에 확인함.

[66] “NVIDIA AMPERE GA102 GPU ARCHITECTURE” (PDF). 2024년 4월 27일.

[67] “Datasheet NVIDIA L40” (PDF). 2024년 4월 27일.

[68] 화이트페이퍼에서 텐서 코어 큐브 다이어그램은 점곱 유닛 폭을 높이 (볼타 및 튜링은 4 FP16, A100은 8 FP16, GA102는 4 FP16, GH100은 16 FP16)로 나타낸다. 다른 두 차원은 점곱 유닛의 수 (볼타 및 튜링은 4x4 = 16, 암페어 및 호퍼는 8x4 = 32)를 나타낸다. 결과 회색 블록은 사이클당 FP16 FMA 연산이다. 텐서 코어가 없는 파스칼은 속도 비교를 위해 표시되며, 비 FP16 데이터 유형을 사용하는 볼타 V100도 마찬가지이다.

[69] “NVIDIA Turing Architecture Whitepaper” (PDF). 《nvidia.com》. 2023년 9월 5일에 확인함.

[70] “NVIDIA Tensor Core GPU” (PDF). 《nvidia.com》. 2023년 9월 5일에 확인함.

[71] “NVIDIA Hopper Architecture In-Depth”. 2022년 3월 22일.

[ReferenceC-72] 가 ^나 형태 x 변환된 피연산자 크기, 예: 2 텐서 코어 x 4x4x4xFP16/사이클 = 256 바이트/사이클

[product_first_3_table_rows-73] 가 ^나 = 처음 3개 표 행의 곱

[ReferenceD-74] 가 ^나 = 이전 2개 표 행의 곱; 형태: 예: 8x8x4xFP16 = 512 바이트

[75] Sun, Wei; Li, Ang; Geng, Tong; Stuijk, Sander; Corporaal, Henk (2023). 《Dissecting Tensor Cores via Microbenchmarks: Latency, Throughput and Numeric Behaviors》. 《IEEE Transactions on Parallel and Distributed Systems》 34. 246–261쪽. arXiv:2206.02874. doi:10.1109/tpds.2022.3217824. S2CID 249431357.

[76] “Parallel Thread Execution ISA Version 7.7”.

[77] Raihan, Md Aamir; Goli, Negar; Aamodt, Tor (2018). “Modeling Deep Learning Accelerator Enabled GPUs”. arXiv:1811.08309 [cs.MS].

[78] “NVIDIA Ada Lovelace Architecture”.

[ReferenceE-79] 가 ^나 Jia, Zhe; Maggioni, Marco; Smith, Jeffrey; Daniele Paolo Scarpazza (2019). “Dissecting the NVidia Turing T4 GPU via Microbenchmarking”. arXiv:1903.07486 [cs.DC].

[80] Burgess, John (2019). 〈RTX ON – The NVIDIA TURING GPU〉. 《2019 IEEE Hot Chips 31 Symposium (HCS)》. 1–27쪽. doi:10.1109/HOTCHIPS.2019.8875651. ISBN 978-1-7281-2089-8. S2CID 204822166.

[81] Burgess, John (2019). 〈RTX ON – The NVIDIA TURING GPU〉. 《2019 IEEE Hot Chips 31 Symposium (HCS)》. 1–27쪽. doi:10.1109/HOTCHIPS.2019.8875651. ISBN 978-1-7281-2089-8. S2CID 204822166.

[82] 장치에 따라 다름

[Tegra_X1-83] 가 ^나 “Tegra X1”. 2015년 1월 9일.

[84] NVIDIA H100 Tensor Core GPU Architecture

[85] “CUDA C++ Programming Guide, Compute Capabilities”. 《docs.nvidia.com》 (미국 영어). 2025년 2월 6일에 확인함.

[86] 프로그래밍 가이드에 따르면 160개의 정수 명령어만 실행할 수 있음

[87] [1]에 따르면 128. 64는 FP32 + 64는 별도 단위?

[88] 64는 FP32 코어, 64는 유연한 FP32/INT 코어

[89] “CUDA C++ Programming Guide”.

[90] 32개의 FP32 레인이 16개의 FP64 레인으로 결합. 모델에 따라 낮을 수 있음

[91] 16개의 FP32 레인만 지원하며, 4개의 FP64 레인으로 결합

[depending_on_model-92] 가 ^나 ^다 ^라 ^마 ^바 모델에 따라 다름

[93] 실제 속도이며, 아마도 FP32 포트를 통해 이루어짐. 실제 FP64 코어에 대한 설명 없음

[94] 정수 덧셈 및 비교에도 사용할 수 있음

[95] SM 파티션당 2클럭 사이클/명령어 Burgess, John (2019). 〈RTX ON – The NVIDIA TURING GPU〉. 《2019 IEEE Hot Chips 31 Symposium (HCS)》. 1–27쪽. doi:10.1109/HOTCHIPS.2019.8875651. ISBN 978-1-7281-2089-8. S2CID 204822166.

[inside-volta-96] Durant, Luke; Giroux, Olivier; Harris, Mark; Stam, Nick (2017년 5월 10일). “Inside Volta: The World's Most Advanced Data Center GPU”. 《Nvidia developer blog》.

[97] 스케줄러와 디스패처는 페르미와 케플러와 달리 전용 실행 장치를 가지고 있다.

[98] 디스패칭은 동시에 중첩될 수 있다 (SM 파티션당 실행 장치가 32개 미만일 때).

[99] MAD 파이프 및 SFU 파이프를 이중 발행할 수 있음

[100] 하나의 스케줄러만 한 번에 2개의 명령어를 발행할 수 있음. 첫 번째 스케줄러는 홀수 ID를 가진 워프를 담당. 두 번째 스케줄러는 짝수 ID를 가진 워프를 담당.

[shared_memory_only,_no_data_cache-101] 가 ^나 공유 메모리만 해당, 데이터 캐시 없음

[ReferenceA-102] 가 ^나 ^다 ^라 ^마 ^바 공유 메모리는 별도이지만 L1에는 텍스처 캐시 포함

[103] “H.6.1. Architecture”. 《docs.nvidia.com》 (미국 영어). 2019년 5월 13일에 확인함.

[104] “Demystifying GPU Microarchitecture through Microbenchmarking” (PDF).

[ReferenceF-105] 가 ^나 Jia, Zhe; Maggioni, Marco; Staiger, Benjamin; Scarpazza, Daniele P. (2018). “Dissecting the NVIDIA Volta GPU Architecture via Microbenchmarking”. arXiv:1804.06826 [cs.DC].

[106] Jia, Zhe; Maggioni, Marco; Smith, Jeffrey; Daniele Paolo Scarpazza (2019). “Dissecting the NVidia Turing T4 GPU via Microbenchmarking”. arXiv:1903.07486 [cs.DC].

[107] “Dissecting the Ampere GPU Architecture through Microbenchmarking”.

[108] 참고: Jia, Zhe; Maggioni, Marco; Smith, Jeffrey; Daniele Paolo Scarpazza (2019). “Dissecting the NVidia Turing T4 GPU via Microbenchmarking”. arXiv:1903.07486 [cs.DC]. 에서는 SM 파티션당 2 KiB L0 명령어 캐시와 SM당 16 KiB L1 명령어 캐시라고 주장하며 이와 불일치함

[109] “asfermi Opcode”. 《GitHub》.

[ReferenceB-110] 가 ^나 텍스처 엔진으로만 접근 가능

[111] RTX 4060, RTX 4070, RTX 4070 Ti, RTX 4090에서 25% 비활성화

[112] RTX 5070 Ti, RTX 5090에서 25% 비활성화

[113] “nVidia CUDA Bioinformatics: BarraCUDA”. 《BioCentric》 (영어). 2019년 7월 19일. 2019년 10월 15일에 확인함.

[114] “Part V: Physics Simulation”. 《NVIDIA Developer》 (영어). 2020년 9월 11일에 확인함.

[115] “oneAPI Programming Model”. 《oneAPI.io》 (미국 영어). 2024년 7월 27일에 확인함.

[116] “Specifications | oneAPI”. 《oneAPI.io》 (미국 영어). 2024년 7월 27일에 확인함.

[117] “oneAPI Specification — oneAPI Specification 1.3-rev-1 documentation”. 《oneapi-spec.uxlfoundation.org》. 2024년 7월 27일에 확인함.

[118] “Exclusive: Behind the plot to break Nvidia's grip on AI by targeting software”. 《로이터》. 2024년 4월 5일에 확인함.

[119] “Question: What does ROCm stand for? · Issue #1628 · RadeonOpenCompute/ROCm”. 《Github.com》. 2022년 1월 18일에 확인함.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]

[72]

[73]

[74]

[75]

[76]

[77]

[78]

[79]

[80]

[81]

[82]

[83]

[84]

[85]

[86]

[87]

[88]

[89]

[90]

[91]

[92]

[93]

[94]

[95]

[96]

[97]

[98]

[99]

[100]

v t e 프로세서 기술
구조	튜링 기계 포스트 튜링 기계 범용 튜링 기계 양자 튜링 기계 벨트 머신 스택 머신 레지스터 머신 카운터 머신 포인터 머신 랜덤 접근 기계 랜덤 액세스 스토어드 프로그램 머신 유한 상태 기계 큐 오토마톤 폰 노이만 하버드 (수정됨) 데이터플로 TTA 셀룰러 인공신경망 기계 학습 딥 러닝 신경 처리 장치 (NPU) 돌림형 신경망 로드/스토어 아키텍처 레지스터 메모리 아키텍처 엔디언 FIFO 제로 카피 NUMA HUMA HSA 모바일 컴퓨팅 서피스 컴퓨팅 착용 컴퓨팅 이기종 컴퓨팅 병렬 컴퓨팅 병행 컴퓨팅 분산 컴퓨팅 클라우드 컴퓨팅 무정형 컴퓨팅 유비쿼터스 컴퓨팅 패브릭 컴퓨팅 재배열 컴퓨팅 인지 컴퓨팅 아날로그 컴퓨팅 기계식 컴퓨팅 하이브리드 컴퓨팅 디지털 컴퓨팅 DNA 컴퓨팅 펩타이드 컴퓨팅 화학 컴퓨팅 유기 컴퓨팅 웻웨어 컴퓨팅 양자 컴퓨터 신경 모방 컴퓨팅 광 컴퓨터 리버서블 컴퓨팅 비전통 컴퓨팅 하이퍼 계산 3진법 컴퓨터 대칭형 다중 처리 (SMP) 비대칭형 다중 처리 (AMP) 캐시 계층 메모리 계층 구조
ISA 유형	ASIP CISC RISC EDGE (TRIPS) VLIW (EPIC) MISC OISC NISC ZISC 비교
ISA	X86 z/아키텍처 ARM MIPS 파워 아키텍처 (파워PC) SPARC 밀 아이테니엄 (IA-64) 알파 프리즘 슈퍼H V850 클리퍼 VAX 유니코어 PA-RISC 마이크로블레이즈 RISC-V
워드 크기	1비트 2비트 4비트 8비트 9비트 10비트 12비트 15비트 16비트 18비트 22비트 24비트 25비트 26비트 27비트 31비트 32비트 33비트 34비트 36비트 39비트 40비트 48비트 50비트 60비트 64비트 128비트 256비트 512비트 가변
실행	명령어 파이프라인 버블 피연산자 포워딩 비순차적 명령어 처리 레지스터 리네이밍 모의 실행 분기 예측 메모리 의존성 예측 하자드
병렬 레벨	비트 비트 직렬 워드 명령어 파이프라이닝 스칼라 슈퍼스칼라 태스크 스레드 프로세스 데이터 벡터 메모리
멀티스레딩	시간적 동시 (SMT) (하이퍼스레딩) SpMT 선점 협력형 클러스터 멀티스레드 (CMT) 하드웨어 스카웃
플린 분류	SISD SIMD (SWAR) SIMT MISD MIMD SPMD 어드레싱 모드
CPU 성능	초당 명령 수 (IPS) 클럭당 명령어 처리 횟수 (IPC) 명령어 당 사이클 (CPI) 플롭스 (FLOPS) 초당 트랜잭션 수 (TPS) SUPS 전성비 계산 차수 캐시 성능 측정 및 메트릭
코어 카운트	싱글 코어 프로세서 멀티 코어 매니코어 프로세서
유형	중앙 처리 장치 (CPU) GPGPU AI 가속기 시각 처리 장치 (VPU) 벡터 프로세서 배럴 프로세서 스트림 프로세서 디지털 신호 처리 장치 (DSP) 입출력 프로세서/DMA 컨트롤러 네트워크 프로세서 베이스밴드 프로세서 물리 처리 장치 (PPU) 코프로세서 안전한 암호 보조 처리기 주문형 반도체 FPGA FPOA 복합 프로그래머블 논리 소자 마이크로컨트롤러 마이크로프로세서 모바일 프로세서 노트북 프로세서 초저전압 프로세서 멀티 코어 매니코어 프로세서 타일 프로세서 멀티칩 모듈 (MCM) 칩 스택 멀티칩 모듈 단일 칩 시스템 (SoC) 멀티프로세서 시스템 온 칩 (MPSoC) 프로그래밍 가능 단일 칩 시스템 (PSoC) 네트워크 온 칩 (NoC)
구성 요소	실행 장치 (EU) 산술 논리 장치 (ALU) 주소 생성 장치 (AGU) 부동소수점 장치 (FPU) 로드 스토어 유닛 (LSU) 분기 예측 유니파이드 레저베이션 스테이션 배럴 시프터 언코어 Sum addressed decoder (SAD) 프론트 사이드 버스 백사이드 버스 노스브리지 사우스브리지 가산기 곱셈기 복호화 주소 디코더 멀티플렉서 멀티플렉서 레지스터 캐시 메모리 관리 장치 (MMU) IOMMU 통합 메모리 컨트롤러 (IMC) 전원 관리 장치 (PMU) 변환 색인 버퍼 (TLB) 스택 엔진 레지스터 파일 프로세서 레지스터 하드웨어 레지스터 메모리 버퍼 레지스터 (MBR) 프로그램 카운터 마이크로코드 ROM 데이터패스 제어 장치 인스트럭션 유닛 재배열 버퍼 버퍼 쓰기 버퍼 코프로세서 전자 개폐기 전자 회로 집적 회로 3차원 집적 회로 불리언 회로 디지털 회로 아날로그 회로 혼합 신호 집적 회로 전원 관리 집적 회로 퀀텀 회로 논리 회로 조합 논리 순차 논리 이미터 결합 논리 (ECL) 트랜지스터-트랜지스터 논리 (TTL) 글루 로직 퀀텀 게이트 게이트 배열 계수기 버스 반도체 소자 클럭 속도 CPU 배수 비전 칩 멤리스터
전원 관리	APM ACPI 동적 주파수 스케일링 동적 전압 스케일링 클럭 게이팅
하드웨어 보안	NX 비트 인텔 MPX 인텔 시큐어 키 하드웨어 제한 (펌웨어) Software Guard Extensions (인텔 SGX) Trusted Execution Technology 신뢰 플랫폼 모듈 (TPM) 안전한 암호 보조 처리기 하드웨어 보안 모듈 헝즈칩
관련 항목	범용 CPU의 역사

v t e 병렬 컴퓨팅
일반	클라우드 컴퓨팅 고성능 컴퓨팅 클러스터 컴퓨팅 분산 컴퓨팅 그리드 컴퓨팅
병렬화 수준	비트 명령어 데이터 테스크
스레드	슈퍼스레딩 하이퍼스레딩
이론	암달의 법칙 구스타프슨의 법칙 비용 효과 카프-플랫 척도 감속 스피드업
구성 요소	프로세스 스레드 파이버 PRAM 명령어 윈도우
조정	멀티스레딩 메모리 일관성 캐시 일관성 메모리 배리어 동기화 애플리케이션 체크포인트
프로그래밍	모델(내재적 병렬성 외재적 병렬성 동시성) 플린의 분류학(SISD SIMD MISD MIMD) 스레드
하드웨어	다중 처리(대칭형 비대칭형) 메모리(NUMA COMA 분산 공유 분산 공유) SMT SMP MPP 슈퍼스칼라 벡터 프로세서 슈퍼컴퓨터 베어울프
API	POSIX 스레드 OpenMP PVM MPI UPC 스레딩 빌딩 블록 Boost 전역 배열 Charm++ Cilk/실크 플러스 코어레이 포트란 OpenCL CUDA
문제	처치 곤란 병렬 문제 그랜드 챌린지 문제 소프트웨어 락아웃 확장성 경쟁 상태 교착 상태 라이브락 결정론적 알고리즘 병렬 감속