„Parallel Thread Execution“ – Versionsunterschied

Versionsgeschichte interaktiv durchsuchen

[ungesichtete Version]

[gesichtete Version]

← Zum vorherigen Versionsunterschied Zum nächsten Versionsunterschied →

Inhalt gelöscht Inhalt hinzugefügt

Inline

Version vom 31. Juli 2022, 18:47 Uhr

Parallel Thread Execution (PTX oder NVPTX^[1]) ist eine Befehlssatzarchitektur und virtuelle Maschine für die Ausführung von parallelen Threads, die in der CUDA-Programmierung von Nvidia verwendet wird. Der NVCC-Kompilierer übersetzt Code, der in CUDA, einer C++-ähnlichen Sprache, geschrieben wurde, in PTX-Anweisungen (eine Maschinensprache dargestellt als ASCII-Text). Der Grafiktreiber enthält einen Kompilierer, der die PTX-Anweisungen in den ausführbaren Binärcode übersetzt^[2], der auf den Prozessorkernen der Nvidia-GPUs ausgeführt werden kann. Die GNU-Compiler-Kollektion verfügt auch über grundlegende Fähigkeiten zur PTX-Erzeugung im Zusammenhang mit OpenMP.^[3] Inline-PTX-Assembly kann in CUDA verwendet werden.^[4]

Register

PTX verwendet einen beliebig großen Registersatz; die Ausgabe des Compilers erfolgt fast ausschließlich in Form von Einzelzuweisungen, wobei sich aufeinanderfolgende Zeilen im Allgemeinen auf aufeinanderfolgende Register beziehen. Programme beginnen mit Deklarationen der Form

.reg .u32 %r<335>;            // deklariere 335 Register %r0, %r1, ..., %r334 vom Typ vorzeichenlosem 32-Bit Integer

Es handelt sich um eine Assemblersprache mit drei Argumenten. Fast alle Befehle geben ausdrücklich den Datentyp (in Form von Vorzeichen und Breite) an, mit dem sie arbeiten. Registernamen wird ein %-Zeichen vorangestellt und Konstanten sind Literale z.B.:

shr.u64 %rd14, %rd12, 32;     // schiebe einen vorzeichenlose 64-Bit Integer aus %rd12 nach rechts um 32 Positionen, Ergebnis in %rd14
cvt.u64.u32 %rd142, %r112;    // konvertiere einen vorzeichenlosen 32-Bit Integer zu 64-Bit

Es gibt Prädikatsregister, aber kompilierter Code im Shader-Modell 1.0 verwendet diese nur in Verbindung mit Verzweigungsbefehlen; die bedingte Verzweigung ist

@%p14 bra $label;             // gehe zu  $label

Die Anweisung setp.cc.type setzt ein Prädikatsregister auf das Ergebnis des Vergleichs zweier Register des entsprechenden Types. Es gibt auch einen Anweisung set, wobei set.le.u32.u64 %r101, %rd12, %rd28 das 32-Bit-Register %r101 zu 0xffffffff setzt, wenn das 64-Bit-Register %rd12 kleiner oder gleich dem 64-Bit-Register %rd28 ist. Andernfalls wird %r101 zu 0x00000000 gesetzt.

Es gibt ein paar vordefinierte Bezeichner, die Pseudoregister bezeichnen. Unter anderem enthalten %tid, %ntid, %ctaid, und %nctaid Thread-Indizes, Block-Dimensionen, Block-Indizes und Grid-Dimensionen.^[5]

Zustandsbereiche

Die Befehle Laden (ld) und Speichern (st) beziehen sich auf einen von mehreren verschiedenen Zustandsbereichen, z.B. ld.param. Es gibt acht Zustandsbereiche:^[5]

.reg : Register
.sreg : spezielle, plattformspezifische Register
.const : geteilter, nur lesender Speicher
.global : globaler Speicher von allen Threads
.local : thread-lokaler Speicher
.param : Parameter, die an der Kernel übergeben werden
.shared : gemeinsamer Speicher von Threads im selben Block
.tex : globaler Texturspeicher (veraltet)

Geteilter Speicher wird in der PTX-Datei wie folgt deklariert:

.shared .align 8 .b8 pbatch_cache[15744]; // definiere 15.744 Bytes, ausgerichtet an 8-Byte-Grenzen

Das Schreiben von Kerneln in PTX erfordert die explizite Registrierung von PTX-Modulen über die CUDA-Treiber-API, was in der Regel umständlicher ist als die Verwendung der CUDA-Runtime-API und des CUDA-Compilers nvcc von Nvidia. Das GPU Ocelot-Projekt bot eine API zur Registrierung von PTX-Modulen neben CUDA-Runtime-API-Kernelaufrufen, allerdings wird GPU Ocelot nicht mehr aktiv weiterentwickelt.^[6]

Siehe auch

Standard Portable Intermediate Representation (SPIR)
CUDA binary (cubin) – a type of fat binary

Einzelnachweise

Weblinks

PTX ISA bei NVIDIA Developer Zone

↑ User Guide for NVPTX Back-end — LLVM 7 documentation. In: llvm.org. Abgerufen im 1. Januar 1
↑ CUDA Binary Utilities. In: docs.nvidia.com. Abgerufen am 19. Oktober 2019 (amerikanisches Englisch).
↑ nvptx. In: GCC Wiki. Abgerufen im 1. Januar 1
↑ Inline PTX Assembly in CUDA. In: docs.nvidia.com. Abgerufen am 3. November 2019 (amerikanisches Englisch).
↑ ^a ^b PTX ISA Version 2.3. Abgerufen im 1. Januar 1 Referenzfehler: Ungültiges <ref>-Tag. Der Name „ptx-isa“ wurde mehrere Male mit einem unterschiedlichen Inhalt definiert.
↑ GPUOCelot: A dynamic compilation framework for PTX. In: github.com. Abgerufen im 1. Januar 1

[1] User Guide for NVPTX Back-end — LLVM 7 documentation. In: llvm.org. Abgerufen im 1. Januar 1

[2] CUDA Binary Utilities. In: docs.nvidia.com. Abgerufen am 19. Oktober 2019 (amerikanisches Englisch).

[3] nvptx. In: GCC Wiki. Abgerufen im 1. Januar 1

[4] Inline PTX Assembly in CUDA. In: docs.nvidia.com. Abgerufen am 3. November 2019 (amerikanisches Englisch).

[ptx-isa-5] PTX ISA Version 2.3. Abgerufen im 1. Januar 1 Referenzfehler: Ungültiges <ref>-Tag. Der Name „ptx-isa“ wurde mehrere Male mit einem unterschiedlichen Inhalt definiert.

[6] GPUOCelot: A dynamic compilation framework for PTX. In: github.com. Abgerufen im 1. Januar 1

[1]

[2]

[3]

[4]

[5]

[6]

@@ Zeile 1: / Zeile 1: @@
+'''Parallel Thread Execution''' ('''PTX''' oder '''NVPTX'''<ref>{{Cite web|url=https://llvm.org/docs/NVPTXUsage.html|title=User Guide for NVPTX Back-end — LLVM 7 documentation|work=llvm.org}}</ref>) ist eine [[Befehlssatzarchitektur]] und [[virtuelle Maschine]] für die Ausführung von [[Parallelrechner|parallelen]] [[Thread (Informatik)|Threads]], die in der [[CUDA]]-Programmierung von [[Nvidia]] verwendet wird. Der NVCC-Kompilierer übersetzt Code, der in CUDA, einer C++-ähnlichen Sprache, geschrieben wurde, in PTX-Anweisungen (eine Maschinensprache dargestellt als [[American Standard Code for Information Interchange|ASCII]]-Text). Der Grafiktreiber enthält einen Kompilierer, der die PTX-Anweisungen in den ausführbaren Binärcode übersetzt<ref>{{Cite web|url=https://docs.nvidia.com/cuda/cuda-binary-utilities/index.html#instruction-set-ref|title=CUDA Binary Utilities|date=|accessdate=2019-10-19|last=|first=|work=docs.nvidia.com|language=en-us|archiveurl=|archivedate=|url-status=live}}</ref>, der auf den Prozessorkernen der [[Liste der Nvidia-Grafikprozessoren|Nvidia-GPUs]] ausgeführt werden kann. Die [[GNU Compiler Collection|GNU-Compiler-Kollektion]] verfügt auch über grundlegende Fähigkeiten zur PTX-Erzeugung im Zusammenhang mit [[OpenMP]].<ref>{{Cite web|url=https://gcc.gnu.org/wiki/nvptx|title=nvptx|work=GCC Wiki}}</ref> Inline-PTX-Assembly kann in CUDA verwendet werden.<ref>{{Cite web|url=http://docs.nvidia.com/cuda/inline-ptx-assembly/index.html|title=Inline PTX Assembly in CUDA|accessdate=2019-11-03|work=docs.nvidia.com|language=en-us}}</ref>
-{{Primary sources|date=August 2020}}
-{{short description|Low-level parallel thread execution virtual machine and instruction set architecture}}
-'''Parallel Thread Execution''' ('''PTX''' or '''NVPTX'''<ref>{{cite web|url=https://llvm.org/docs/NVPTXUsage.html|title=User Guide for NVPTX Back-end — LLVM 7 documentation|website=llvm.org}}</ref>) is a low-level [[Parallel computing|parallel]] [[Thread (computing)|thread]] [[Execution (computing)|execution]] [[virtual machine]] and [[instruction set architecture]] used in [[Nvidia]]'s [[CUDA]] programming environment. The [[Nvidia CUDA Compiler|NVCC]] compiler translates code written in CUDA, a [[C++ (programming language)|C++]]-like language, into PTX instructions (an [[assembly language]] represented as [[ASCII]] text), and the graphics driver contains a compiler which translates the PTX instructions into the executable binary code<ref>{{Cite web|url=https://docs.nvidia.com/cuda/cuda-binary-utilities/index.html#instruction-set-ref|title=CUDA Binary Utilities|last=|first=|date=|website=docs.nvidia.com|language=en-us|url-status=live|archive-url=|archive-date=|access-date=2019-10-19}}</ref> which can be run on the processing cores of [[List of Nvidia graphics processing units|Nvidia GPUs]]. The [[GNU Compiler Collection]] also has basic ability for PTX generation in the context of [[OpenMP]] offloading.<ref>{{cite web |title=nvptx |url=https://gcc.gnu.org/wiki/nvptx |website=GCC Wiki}}</ref> Inline PTX assembly can be used in CUDA.<ref>{{Cite web|url=http://docs.nvidia.com/cuda/inline-ptx-assembly/index.html|title=Inline PTX Assembly in CUDA|website=docs.nvidia.com|language=en-us|access-date=2019-11-03}}</ref>
-== Registers ==
+== Register ==
+PTX verwendet einen beliebig großen Registersatz; die Ausgabe des Compilers erfolgt fast ausschließlich in Form von Einzelzuweisungen, wobei sich aufeinanderfolgende Zeilen im Allgemeinen auf aufeinanderfolgende Register beziehen.  Programme beginnen mit Deklarationen der Form<syntaxhighlight lang="asm">
-PTX uses an arbitrarily large register set; the output from the compiler is almost pure [[Static_single_assignment_form|single-assignment form]], with consecutive lines generally referring to consecutive registers.  Programs start with declarations of the form
+.reg .u32 %r<335>;            // deklariere 335 Register %r0, %r1, ..., %r334 vom Typ vorzeichenlosem 32-Bit Integer
-<syntaxhighlight lang="asm">
+</syntaxhighlight>Es handelt sich um eine Assemblersprache mit drei Argumenten. Fast alle Befehle geben ausdrücklich den Datentyp (in Form von Vorzeichen und Breite) an, mit dem sie arbeiten. Registernamen wird ein %-Zeichen vorangestellt und Konstanten sind Literale z.B.:<syntaxhighlight lang="asm">
-.reg .u32 %r<335>;            // declare 335 registers %r0, %r1, ..., %r334 of type unsigned 32-bit integer
+shr.u64 %rd14, %rd12, 32;     // schiebe einen vorzeichenlose 64-Bit Integer aus %rd12 nach rechts um 32 Positionen, Ergebnis in %rd14
-</syntaxhighlight>
+cvt.u64.u32 %rd142, %r112;    // konvertiere einen vorzeichenlosen 32-Bit Integer zu 64-Bit
+</syntaxhighlight>Es gibt Prädikatsregister, aber kompilierter Code im Shader-Modell 1.0 verwendet diese nur in Verbindung mit Verzweigungsbefehlen; die bedingte Verzweigung ist<syntaxhighlight lang="asm">
+@%p14 bra $label;             // gehe zu  $label
+</syntaxhighlight>Die Anweisung <code>setp.cc.type</code> setzt ein Prädikatsregister auf das Ergebnis des Vergleichs zweier Register des entsprechenden Types. Es gibt auch einen Anweisung <code>set</code>, wobei <syntaxhighlight lang="asm" inline="">set.le.u32.u64 %r101, %rd12, %rd28</syntaxhighlight> das 32-Bit-Register <code>%r101</code> zu <code>0xffffffff</code> setzt, wenn das 64-Bit-Register <code>%rd12</code> kleiner oder gleich dem 64-Bit-Register <code>%rd28</code> ist. Andernfalls wird <code>%r101</code> zu <code>0x00000000</code> gesetzt.
+Es gibt ein paar vordefinierte Bezeichner, die Pseudoregister bezeichnen. Unter anderem enthalten <code>%tid, %ntid, %ctaid</code>, und <code>%nctaid</code> Thread-Indizes, Block-Dimensionen, Block-Indizes und Grid-Dimensionen.<ref name="ptx-isa">{{Cite web|url=http://developer.download.nvidia.com/compute/cuda/3_1/toolkit/docs/ptx_isa_2.3.pdf|title=PTX ISA Version 2.3|publisher=}}</ref>
-It is a three-argument assembly language, and almost all instructions explicitly list the data type (in terms of sign and width) on which they operate.  Register names are preceded with a % character and constants are literal, e.g.:
-<syntaxhighlight lang="asm">
-shr.u64 %rd14, %rd12, 32;     // shift right an unsigned 64-bit integer from %rd12 by 32 positions, result in %rd14
-cvt.u64.u32 %rd142, %r112;    // convert an unsigned 32-bit integer to 64-bit
-</syntaxhighlight>
+== Zustandsbereiche ==
-There are predicate registers, but compiled code in shader model 1.0 uses these only in conjunction with branch commands; the conditional branch is
+Die Befehle Laden (<code>ld</code>) und Speichern (<code>st</code>) beziehen sich auf einen von mehreren verschiedenen Zustandsbereichen, z.B. <code>ld.param</code>.
-<syntaxhighlight lang="asm">
+Es gibt acht Zustandsbereiche:<ref name="ptx-isa">{{Cite web|url=http://developer.download.nvidia.com/compute/cuda/3_1/toolkit/docs/ptx_isa_2.3.pdf|title=PTX ISA Version 2.3|publisher=}}<cite class="citation web cs1" data-ve-ignore="true">[http://developer.download.nvidia.com/compute/cuda/3_1/toolkit/docs/ptx_isa_2.3.pdf "PTX ISA Version 2.3"] <span class="cs1-format">(PDF)</span>.</cite></ref>
-@%p14 bra $label;             // branch to $label
-</syntaxhighlight>
+* <code>.reg</code> : Register
-The <code>setp.cc.type</code> instruction sets a predicate register to the result of comparing two registers of appropriate type, there is also a <code>set</code> instruction, where <syntaxhighlight lang="asm" inline>set.le.u32.u64 %r101, %rd12, %rd28</syntaxhighlight> sets the 32-bit register <code>%r101</code> to <code>0xffffffff</code> if the 64-bit register <code>%rd12</code> is less than or equal to the 64-bit register <code>%rd28</code>. Otherwise <code>%r101</code> is set to <code>0x00000000</code>.
+* <code>.sreg</code> : spezielle, plattformspezifische Register
+* <code>.const</code> : geteilter, nur lesender Speicher
+* <code>.global</code> : globaler Speicher von allen Threads
+* <code>.local</code> : thread-lokaler Speicher
+* <code>.param</code> : Parameter, die an der Kernel übergeben werden
+* <code>.shared</code> : gemeinsamer Speicher von Threads im selben Block
+* <code>.tex</code> : globaler Texturspeicher (veraltet)
+Geteilter Speicher wird in der PTX-Datei wie folgt deklariert:<syntaxhighlight lang="nasm">
-There are a few predefined identifiers that denote pseudoregisters. Among others, <code>%tid, %ntid, %ctaid</code>, and <code>%nctaid</code> contain, respectively, thread indices, block dimensions, block indices, and grid dimensions.<ref name="ptx-isa">{{cite web|url=http://developer.download.nvidia.com/compute/cuda/3_1/toolkit/docs/ptx_isa_2.3.pdf|title=PTX ISA Version 2.3|publisher=}}</ref>
+.shared .align 8 .b8 pbatch_cache[15744]; // definiere 15.744 Bytes, ausgerichtet an 8-Byte-Grenzen
+</syntaxhighlight>Das Schreiben von Kerneln in PTX erfordert die explizite Registrierung von PTX-Modulen über die CUDA-Treiber-API, was in der Regel umständlicher ist als die Verwendung der CUDA-Runtime-API und des CUDA-Compilers nvcc von Nvidia. Das GPU Ocelot-Projekt bot eine API zur Registrierung von PTX-Modulen neben CUDA-Runtime-API-Kernelaufrufen, allerdings wird GPU Ocelot nicht mehr aktiv weiterentwickelt.<ref>{{Cite web|url=https://github.com/gtcasl/gpuocelot|title=GPUOCelot: A dynamic compilation framework for PTX|date=|accessdate=|last=|first=|work=github.com|archiveurl=|archivedate=|url-status=live}}</ref>
-== State spaces ==
+== Siehe auch ==
-Load (<code>ld</code>) and store (<code>st</code>) commands refer to one of several distinct state spaces (memory banks), e.g. <code>ld.param</code>.
-There are eight state spaces:<ref name="ptx-isa"/>
-* <code>.reg</code> : registers
-* <code>.sreg</code> : special, read-only, platform-specific registers
-* <code>.const</code> : shared, read-only memory
-* <code>.global</code> : global memory, shared by all threads
-* <code>.local</code> : local memory, private to each thread
-* <code>.param</code> : parameters passed to the kernel
-* <code>.shared</code> : memory shared between threads in a block
-* <code>.tex</code> : global texture memory (deprecated)
+* Standard Portable Intermediate Representation (SPIR)
-Shared memory is declared in the PTX file via lines at the start of the form:
+* [[Fat Binary|CUDA binary]] (cubin) – a type of fat binary
-<syntaxhighlight lang="nasm">
-.shared .align 8 .b8 pbatch_cache[15744]; // define 15,744 bytes, aligned to an 8-byte boundary
-</syntaxhighlight>
-<!-- mov.u64 	%rd9, pbatch_cache;
-Shared memory is generally addressed via a kernel-global pointer set up at the start of the kernel by
--->
+== Einzelnachweise ==
-Writing kernels in PTX requires explicitly registering PTX modules via the CUDA Driver API, typically more cumbersome than using the CUDA Runtime API and Nvidia's CUDA compiler, nvcc. The GPU Ocelot project provided an API to register PTX modules alongside CUDA Runtime API kernel invocations, though the GPU Ocelot is no longer actively maintained.<ref>{{cite web|url=https://github.com/gtcasl/gpuocelot|title=GPUOCelot: A dynamic compilation framework for PTX|last=|first=|date=|website=github.com|url-status=live|archive-url=|archive-date=|access-date=}}</ref>
-==See also==
+== Weblinks ==
-* [[Standard Portable Intermediate Representation]] (SPIR)
-* [[CUDA binary]] (cubin) – a type of fat binary
+* [https://docs.nvidia.com/cuda/parallel-thread-execution/ PTX ISA bei NVIDIA Developer Zone]
-== References ==
+[[Kategorie:Nvidia]]
-{{Reflist}}
-== External links ==
-*[https://docs.nvidia.com/cuda/parallel-thread-execution/ PTX ISA page on NVIDIA Developer Zone]
-[[Category:Nvidia]]