„Tensor Processing Unit“ – Versionsunterschied
[gesichtete Version] | [gesichtete Version] |
질량 분석 (Diskussion | Beiträge) |
Aka (Diskussion | Beiträge) K Tippfehler entfernt, deutsch |
||
(17 dazwischenliegende Versionen von 6 Benutzern werden nicht angezeigt) | |||
Zeile 1: | Zeile 1: | ||
[[Datei:TPU v4.png|mini|TPUs der vierten Generation. Die farbigen Schläuche führen die Kühlflüssigkeit zu den vier ASICs]] |
|||
'''Tensor Processing Units''' ('''TPUs'''), auch '''[[Tensor]]-Prozessoren''', sind [[Anwendungsspezifische integrierte Schaltung|anwendungsspezifische Chips]] |
'''Tensor Processing Units''' ('''TPUs'''), auch '''[[Tensor]]-Prozessoren''', sind [[Anwendungsspezifische integrierte Schaltung|anwendungsspezifische Chips]] zur Beschleunigung von [[Maschinelles Lernen|maschinellem Lernen]]. TPUs werden vor allem genutzt, um Daten in [[Künstliches neuronales Netz|künstlichen neuronalen Netzen]] zu verarbeiten (siehe [[Deep Learning]]). |
||
Die von [[Google Inc.|Google]] entwickelten TPUs wurden speziell für die Softwaresammlung [[TensorFlow]]<ref name="tf"/> entworfen. TPUs sind die Basis für alle Google Services, |
Die von [[Google Inc.|Google]] entwickelten TPUs wurden speziell für die Softwaresammlung [[TensorFlow]]<ref name="tf"/> entworfen. TPUs sind die Basis für alle Google Services, die maschinelles Lernen einsetzen, und wurden auch in den [[AlphaGo]]-Maschine-vs.-Mensch-Wettkämpfen gegen [[Lee Sedol]], einen der weltbesten [[Go (Spiel)|Go]]-Spieler, eingesetzt.<ref>{{Internetquelle|url=https://www.heise.de/newsticker/meldung/Google-I-O-2016-Tensor-Prozessoren-halfen-beim-Go-Sieg-3210953.html |titel=Google I/O 2016: "Tensor-Prozessoren" halfen beim Go-Sieg – heise online |autor=Christof Windeck |werk=heise.de |datum=2016-05-19 |zugriff=2016-11-23}}</ref> |
||
== |
== Generationen der Tensor Processing Units == |
||
=== Erste Generation === |
=== Erste Generation === |
||
Die erste Generation von Googles TPU wurde auf der [[Google I/O#2016|Google I/O 2016]] vorgestellt und speziell entworfen, um die Anwendung eines bereits trainierten [[Künstliches neuronales Netz|künstlichen neuronalen Netzwerks]] zu unterstützen bzw. zu beschleunigen.<ref name="supercharge" /> Dies wurde u. a. durch eine geringere Präzision im Vergleich zu normalen [[CPU]]s oder [[Grafikprozessor|GPUs]] und |
Die erste Generation von Googles TPU wurde auf der [[Google I/O#2016|Google I/O 2016]] vorgestellt und speziell entworfen, um die Anwendung eines bereits trainierten [[Künstliches neuronales Netz|künstlichen neuronalen Netzwerks]] zu unterstützen bzw. zu beschleunigen.<ref name="supercharge" /> Dies wurde u. a. durch eine geringere Präzision im Vergleich zu normalen [[CPU]]s oder [[Grafikprozessor|GPUs]] und eine Spezialisierung auf Matrizenoperationen erreicht. |
||
Die TPU besteht aus einem [[Systolischer Array|systolischen Array]] mit einer 256×256-8-Bit- |
Die TPU besteht aus einem [[Systolischer Array|systolischen Array]] mit einer 256×256-8-Bit-Matrizenmultiplikationseinheit (MMU), welche von einem Mikroprozessor mit einem [[Complex Instruction Set Computer|CISC]]-Befehlsatz angesteuert wird. Der Chip wurde in einem 28-nm-Prozess gefertigt und taktet mit 700 MHz bei einer [[Thermal Design Power]] von 28 bis 40 W. Die TPU besitzt 28 MiB Arbeitsspeicher am Chip. Zudem sind 4-MiB-32-Bit-[[Akkumulator (Computer)|Akkumulatoren]] verbaut, welche die Ergebnisse der Matrizenmultiplikationseinheit übernehmen. Die TPU kann [[Matrizenmultiplikation]]en, [[Faltung (Mathematik)|Faltungen]] und [[Künstliches Neuron#Aktivierungsfunktionen|Aktivierungsfunktionen]] sowie Datentransfer zum Hostsystem über [[PCI Express|PCIe]] 3.0 oder zum DDR3 DRAM, welcher sich am Board befindet, ausführen. |
||
=== Zweite Generation === |
=== Zweite Generation === |
||
Die zweite Generation von Googles TPU (''TPUv2'') wurde auf der [[Google I/O#2017|Google I/O 2017]] vorgestellt. Diese soll nicht nur die Anwendung von neuronalen Netzwerken (''Inferenz''), sondern auch das Training dieser Netzwerke beschleunigen. Diese TPUs besitzen zwei „Matrizenausführungseinheiten“ (''{{lang|en|Matrix Execution Unit}}''; ''MXU'') mit je 8 GiB Arbeitsspeicher.<ref name="tnp_TPU3" /> Jede MXU weist eine Rechenleistung von 22,5 [[Floating Point Operations Per Second|TFLOPS]] auf, wobei jedoch der [[bfloat16]]-Datentyp zum Einsatz kommt, welcher nicht [[IEEE 754]] entspricht.<ref name="tnp_TPU3" /> Ein TPU-Board mit vier TPUs kommt somit auf 180 TFLOPS. |
Die zweite Generation von Googles TPU (''TPUv2'') wurde auf der [[Google I/O#2017|Google I/O 2017]] vorgestellt. Diese soll nicht nur die Anwendung von neuronalen Netzwerken (''Inferenz''), sondern auch das Training dieser Netzwerke beschleunigen. Diese TPUs besitzen zwei „Matrizenausführungseinheiten“ (''{{lang|en|Matrix Execution Unit}}''; ''MXU'') mit je 8 GiB Arbeitsspeicher.<ref name="tnp_TPU3" /> Jede MXU weist eine Rechenleistung von 22,5 [[Floating Point Operations Per Second|TFLOPS]] auf, wobei jedoch der [[bfloat16]]-Datentyp zum Einsatz kommt, welcher nicht [[IEEE 754]] entspricht.<ref name="tnp_TPU3" /> Ein TPU-Board mit vier TPUs kommt somit auf 180 TFLOPS. |
||
Die TPUs werden zu einem „Pod“ mit 11,5 [[ |
Die TPUs werden zu einem „Pod“ mit 11,5 [[PFLOPS]] zusammengeschaltet, einem [[Rechnerverbund]] (Cluster-[[Systemarchitektur]]) von 256 TPUs und 128 Server-CPUs. Die TPUs sind hierbei in einer sphärenförmigen (2D-Torus) Netzwerktopologie von je 8×8 TPUs zusammengeschaltet. Zur Verbindung der CPUs mit den TPUs kommt [[PCI-Express]] 3.0 mit 32 Lanes (8 Lanes je TPU) zum Einsatz.<ref name="tnp_TPU3" /> |
||
Die TPUs der zweiten Generation sind in Form der [[Google Compute Engine]], einem [[Cloud Computing|Cloud]]-Angebot von Google, nutzbar. |
Die TPUs der zweiten Generation sind in Form der [[Google Compute Engine]], einem [[Cloud Computing|Cloud]]-Angebot von Google, nutzbar. |
||
Um die Speicherbandbreite der Architektur zu erhöhen kommt [[High Bandwidth Memory|HBM]]-Speicher zum Einsatz.<ref>{{Internetquelle |url=https://cloud.google.com/tpu/docs/system-architecture?hl=de |titel=Systemarchitektur {{!}} Cloud TPU |abruf=2020-01-12 |sprache=de}}</ref> |
Um die Speicherbandbreite der Architektur zu erhöhen, kommt [[High Bandwidth Memory|HBM]]-Speicher zum Einsatz.<ref>{{Internetquelle |url=https://cloud.google.com/tpu/docs/system-architecture?hl=de |titel=Systemarchitektur {{!}} Cloud TPU |abruf=2020-01-12 |sprache=de}}</ref> |
||
=== Dritte Generation === |
=== Dritte Generation === |
||
[[Datei:Tensor Processing Unit 3.0.jpg|alternativtext=TPUv3 |
[[Datei:Tensor Processing Unit 3.0.jpg|alternativtext=TPUv3-Karte|mini|TPUv3-Karte]] |
||
Die dritte Generation von Googles TPU (''TPU 3.0'') wurde auf der [[Google I/O#2018|Google I/O 2018]] vorgestellt. Die TPUs besitzen 4 MXUs mit je 8 GiB Arbeitsspeicher (32 GiB je TPU).<ref name="tnp_TPU3" /> Die Netzwerktopologie der TPUs ist ebenfalls in Form eines 2D-[[Torus]] ausgelegt. Die Racks besitzen zudem eine [[Wasserkühlung]], mit der die TPUs gekühlt werden.<ref name="tnp_TPU3" /> TPU 3.0-Pods bestehen aus 8 Racks mit insgesamt 1024 TPUs und 256 Server-CPUs. Die Rechenleistung eines Pod liegt bei knapp über 100 PFLOPS.<ref name="tnp_TPU3" /> |
Die dritte Generation von Googles TPU (''TPU 3.0'') wurde auf der [[Google I/O#2018|Google I/O 2018]] vorgestellt. Die TPUs besitzen 4 MXUs mit je 8 GiB Arbeitsspeicher (32 GiB je TPU).<ref name="tnp_TPU3" /> Die Netzwerktopologie der TPUs ist ebenfalls in Form eines 2D-[[Torus]] ausgelegt. Die Racks besitzen zudem eine [[Wasserkühlung]], mit der die TPUs gekühlt werden.<ref name="tnp_TPU3" /> TPU 3.0-Pods bestehen aus 8 Racks mit insgesamt 1024 TPUs und 256 Server-CPUs. Die Rechenleistung eines Pod liegt bei knapp über 100 PFLOPS.<ref name="tnp_TPU3" /> |
||
=== Vierte Generation === |
=== Vierte Generation === |
||
Die vierte Generation von Googles TPU (''TPU v4'') wurde von Google im Dezember 2021 vorgestellt.<ref>{{Internetquelle |url=https://cloud.google.com/blog/topics/tpus/google-showcases-cloud-tpu-v4-pods-for-large-model-training |titel=Google showcases Cloud TPU v4 Pods for large model training {{!}} |abruf=2022-04-11 |sprache=de}}</ref> |
Die vierte Generation von Googles TPU (''TPU v4'') wurde von Google im Dezember 2021 vorgestellt.<ref>{{Internetquelle |url=https://cloud.google.com/blog/topics/tpus/google-showcases-cloud-tpu-v4-pods-for-large-model-training |titel=Google showcases Cloud TPU v4 Pods for large model training {{!}} |abruf=2022-04-11 |sprache=de}}</ref> |
||
Mit den sogenannten SparseCores und Optical Circuit Switches (OCS) kann der TPU v4 interne Verbindungen dynamisch rekonfigurieren und skalieren. Das optische Netzwerk kann außerdem an die Struktur des berechneten KI-Modells angepasst werden |
Mit den sogenannten SparseCores und Optical Circuit Switches (OCS) kann der TPU v4 interne Verbindungen dynamisch rekonfigurieren und skalieren. Das optische Netzwerk kann außerdem an die Struktur des berechneten KI-Modells angepasst werden. Die Sicherheit soll durch die Trennung der Racks auf Netzwerkebene erhöht werden. Der OCS ist verhältnismäßig günstig, da er unter fünf Prozent der Gesamtkosten der TPU ausmacht. Bei der Leistungsaufnahme schlägt das optische Netzwerk mit unter drei Prozent ebenfalls kaum zu Buche.<ref>golem.de, Johannes Hiltscher: [https://www.golem.de/news/google-erklaert-tpu-v4-ki-supercomputer-mit-flexiblem-optischen-netz-2304-173234-2.html Google erklärt TPU v4: KI-Supercomputer mit flexiblem optischen Netz], 5. April 2023</ref> |
||
Die TPU v4 hat dank einer Umstellung auf eine 7-nm-Fertigung und einer Transistorzahl von 22 Milliarden eine mehr als doppelt so hohe Rechenleistung von 275 TFLOPS bei |
Die TPU v4 hat dank einer Umstellung auf eine 7-nm-Fertigung und einer Transistorzahl von 22 Milliarden eine mehr als doppelt so hohe Rechenleistung von 275 TFLOPS bei [[bfloat16]] und [[int8]]. Trotzdem ist sie mit einer Größe von nur 600 mm² kleiner und verbraucht maximal 192 Watt, was im Vergleich zur TPU v3 eine Einsparung darstellt.<ref>{{Internetquelle|autor=Norman P. Jouppi u. a. |url=https://arxiv.org/abs/2304.01433 |titel=TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings |werk=[[arxiv.org]] | sprache=en |datum=2023-04-04 |abruf=2023-04-06 |abruf-verborgen=1}} {{DOI|10.48550/arXiv.2304.01433}}</ref> |
||
== Tabellarische Übersicht über einzelne TPU-Parameter== |
== Tabellarische Übersicht über einzelne TPU-Parameter == |
||
{| class="wikitable" |
{| class="wikitable" |
||
|+Tensor Processing Units |
|+Tensor Processing Units<ref name=Cloud-System-Architecture>{{Cite web |title=System Architecture {{!}} Cloud TPU |url=https://cloud.google.com/tpu/docs/system-architecture-tpu-vm |access-date=2022-12-11 |website=Google Cloud |language=en}}</ref><ref name='TPU_memory'>{{cite news|last1=Kennedy|first1=Patrick|title=Case Study on the Google TPU and GDDR5 from Hot Chips 29|url=https://www.servethehome.com/case-study-google-tpu-gddr5-hot-chips-29/|access-date=2017-08-23|publisher=Serve The Home|date=2017-08-22}}</ref><ref>{{Internetquelle|autor= |url=https://cloud.google.com/blog/products/ai-machine-learning/google-breaks-ai-performance-records-in-mlperf-with-worlds-fastest-training-supercomputer?hl=en |titel=Google wins MLPerf benchmark contest with fastest ML training supercomputer – Google Cloud Blog |werk=cloud.google.com | sprache=en |datum=2020-07-30 |abruf=2023-04-06}}</ref> |
||
! !! TPU v1 !! TPU v2 !! TPU v3 !! TPU v4 !! Edge v1 |
|||
! !! TPUv1 !! TPUv2 !! TPUv3 !! TPUv4<ref name=Cloud-System-Architecture/><ref>[https://cloud.google.com/blog/products/ai-machine-learning/google-breaks-ai-performance-records-in-mlperf-with-worlds-fastest-training-supercomputer Stay tuned, more information on TPU v4 is coming soon], retrieved 2020-08-06.</ref> !! Edge v1 |
|||
|- |
|- |
||
| Einführungsdatum || 2016 || 2017 || 2018 || 2021 || 2018 |
| Einführungsdatum || 2016 || 2017 || 2018 || 2021 || 2018 |
||
|- |
|- |
||
| |
| [[Technologieknoten]] || 28 nm || 16 nm || 16 nm || 7 nm || |
||
|- |
|- |
||
| Die-Größe (mm<sup>2</sup>) || 331 || < 625 || < 700 || < 400 || |
| Die-Größe (mm<sup>2</sup>) || 331 || < 625 || < 700 || < 400 || |
||
Zeile 43: | Zeile 44: | ||
| Taktgeschwindigkeit (MHz) || 700 || 700 || 940 || 1050 || |
| Taktgeschwindigkeit (MHz) || 700 || 700 || 940 || 1050 || |
||
|- |
|- |
||
| Speicher || 8 GiB [[SDRAM|DDR3]] || 16 GiB [[High Bandwidth Memory|HBM]] || 32 GiB HBM || 32 GiB HBM || |
| Speicher || 8 GiB [[DDR-SDRAM|DDR3]] || 16 GiB [[High Bandwidth Memory|HBM]] || 32 GiB HBM || 32 GiB HBM || |
||
|- |
|- |
||
| Speicherbandbreite |
| Speicherbandbreite |
||
Zeile 54: | Zeile 55: | ||
| [[Thermal Design Power]] (W) || 75 || 280 || 220 || 170 || 2 |
| [[Thermal Design Power]] (W) || 75 || 280 || 220 || 170 || 2 |
||
|- |
|- |
||
| |
| [[TFLOPS]] || 23 || 45 || 123 || 275 || 4 |
||
|- |
|- |
||
| |
| TFLOPS/W || {{#expr: 23/75 round 2}} || {{#expr: 45/280 round 2}} || {{#expr: 123/220 round 2}} || {{#expr: 275/170 round 2}} || {{#expr: 4/2 round 2}} |
||
|} |
|} |
||
Zeile 65: | Zeile 66: | ||
== Literatur == |
== Literatur == |
||
* Norman P. Jouppi, Cliff Young, Nishant Patil, David Patterson: ''[https://cacm.acm.org/magazines/2018/9/230571-a-domain-specific-architecture-for-deep-neural-networks/fulltext A domain-specific architecture for deep neural networks.]'' In: ''Communications of the ACM.'' 61, 2018, S. 50, {{DOI|10.1145/3154484}}. |
* Norman P. Jouppi, Cliff Young, Nishant Patil, David Patterson: ''[https://cacm.acm.org/magazines/2018/9/230571-a-domain-specific-architecture-for-deep-neural-networks/fulltext A domain-specific architecture for deep neural networks.]'' In: ''Communications of the ACM.'' 61, 2018, S. 50, {{DOI|10.1145/3154484}}. |
||
* {{Internetquelle|autor=Norman P. Jouppi u.a. |url=https://arxiv.org/abs/2304.01433 |titel=TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings |werk=[[arxiv.org]] | sprache=en |datum=2023-04-04 |abruf=2023-04-06 |abruf-verborgen=1}} {{DOI|10.48550/arXiv.2304.01433}} |
* {{Internetquelle|autor=Norman P. Jouppi u. a. |url=https://arxiv.org/abs/2304.01433 |titel=TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings |werk=[[arxiv.org]] | sprache=en |datum=2023-04-04 |abruf=2023-04-06 |abruf-verborgen=1}} {{DOI|10.48550/arXiv.2304.01433}} |
||
== Weblinks == |
== Weblinks == |
Aktuelle Version vom 25. Oktober 2024, 18:06 Uhr

Tensor Processing Units (TPUs), auch Tensor-Prozessoren, sind anwendungsspezifische Chips zur Beschleunigung von maschinellem Lernen. TPUs werden vor allem genutzt, um Daten in künstlichen neuronalen Netzen zu verarbeiten (siehe Deep Learning).
Die von Google entwickelten TPUs wurden speziell für die Softwaresammlung TensorFlow[1] entworfen. TPUs sind die Basis für alle Google Services, die maschinelles Lernen einsetzen, und wurden auch in den AlphaGo-Maschine-vs.-Mensch-Wettkämpfen gegen Lee Sedol, einen der weltbesten Go-Spieler, eingesetzt.[2]
Generationen der Tensor Processing Units
[Bearbeiten | Quelltext bearbeiten]Erste Generation
[Bearbeiten | Quelltext bearbeiten]Die erste Generation von Googles TPU wurde auf der Google I/O 2016 vorgestellt und speziell entworfen, um die Anwendung eines bereits trainierten künstlichen neuronalen Netzwerks zu unterstützen bzw. zu beschleunigen.[3] Dies wurde u. a. durch eine geringere Präzision im Vergleich zu normalen CPUs oder GPUs und eine Spezialisierung auf Matrizenoperationen erreicht.
Die TPU besteht aus einem systolischen Array mit einer 256×256-8-Bit-Matrizenmultiplikationseinheit (MMU), welche von einem Mikroprozessor mit einem CISC-Befehlsatz angesteuert wird. Der Chip wurde in einem 28-nm-Prozess gefertigt und taktet mit 700 MHz bei einer Thermal Design Power von 28 bis 40 W. Die TPU besitzt 28 MiB Arbeitsspeicher am Chip. Zudem sind 4-MiB-32-Bit-Akkumulatoren verbaut, welche die Ergebnisse der Matrizenmultiplikationseinheit übernehmen. Die TPU kann Matrizenmultiplikationen, Faltungen und Aktivierungsfunktionen sowie Datentransfer zum Hostsystem über PCIe 3.0 oder zum DDR3 DRAM, welcher sich am Board befindet, ausführen.
Zweite Generation
[Bearbeiten | Quelltext bearbeiten]Die zweite Generation von Googles TPU (TPUv2) wurde auf der Google I/O 2017 vorgestellt. Diese soll nicht nur die Anwendung von neuronalen Netzwerken (Inferenz), sondern auch das Training dieser Netzwerke beschleunigen. Diese TPUs besitzen zwei „Matrizenausführungseinheiten“ (Matrix Execution Unit; MXU) mit je 8 GiB Arbeitsspeicher.[4] Jede MXU weist eine Rechenleistung von 22,5 TFLOPS auf, wobei jedoch der bfloat16-Datentyp zum Einsatz kommt, welcher nicht IEEE 754 entspricht.[4] Ein TPU-Board mit vier TPUs kommt somit auf 180 TFLOPS.
Die TPUs werden zu einem „Pod“ mit 11,5 PFLOPS zusammengeschaltet, einem Rechnerverbund (Cluster-Systemarchitektur) von 256 TPUs und 128 Server-CPUs. Die TPUs sind hierbei in einer sphärenförmigen (2D-Torus) Netzwerktopologie von je 8×8 TPUs zusammengeschaltet. Zur Verbindung der CPUs mit den TPUs kommt PCI-Express 3.0 mit 32 Lanes (8 Lanes je TPU) zum Einsatz.[4]
Die TPUs der zweiten Generation sind in Form der Google Compute Engine, einem Cloud-Angebot von Google, nutzbar.
Um die Speicherbandbreite der Architektur zu erhöhen, kommt HBM-Speicher zum Einsatz.[5]
Dritte Generation
[Bearbeiten | Quelltext bearbeiten]
Die dritte Generation von Googles TPU (TPU 3.0) wurde auf der Google I/O 2018 vorgestellt. Die TPUs besitzen 4 MXUs mit je 8 GiB Arbeitsspeicher (32 GiB je TPU).[4] Die Netzwerktopologie der TPUs ist ebenfalls in Form eines 2D-Torus ausgelegt. Die Racks besitzen zudem eine Wasserkühlung, mit der die TPUs gekühlt werden.[4] TPU 3.0-Pods bestehen aus 8 Racks mit insgesamt 1024 TPUs und 256 Server-CPUs. Die Rechenleistung eines Pod liegt bei knapp über 100 PFLOPS.[4]
Vierte Generation
[Bearbeiten | Quelltext bearbeiten]Die vierte Generation von Googles TPU (TPU v4) wurde von Google im Dezember 2021 vorgestellt.[6]
Mit den sogenannten SparseCores und Optical Circuit Switches (OCS) kann der TPU v4 interne Verbindungen dynamisch rekonfigurieren und skalieren. Das optische Netzwerk kann außerdem an die Struktur des berechneten KI-Modells angepasst werden. Die Sicherheit soll durch die Trennung der Racks auf Netzwerkebene erhöht werden. Der OCS ist verhältnismäßig günstig, da er unter fünf Prozent der Gesamtkosten der TPU ausmacht. Bei der Leistungsaufnahme schlägt das optische Netzwerk mit unter drei Prozent ebenfalls kaum zu Buche.[7]
Die TPU v4 hat dank einer Umstellung auf eine 7-nm-Fertigung und einer Transistorzahl von 22 Milliarden eine mehr als doppelt so hohe Rechenleistung von 275 TFLOPS bei bfloat16 und int8. Trotzdem ist sie mit einer Größe von nur 600 mm² kleiner und verbraucht maximal 192 Watt, was im Vergleich zur TPU v3 eine Einsparung darstellt.[8]
Tabellarische Übersicht über einzelne TPU-Parameter
[Bearbeiten | Quelltext bearbeiten]TPU v1 | TPU v2 | TPU v3 | TPU v4 | Edge v1 | |
---|---|---|---|---|---|
Einführungsdatum | 2016 | 2017 | 2018 | 2021 | 2018 |
Technologieknoten | 28 nm | 16 nm | 16 nm | 7 nm | |
Die-Größe (mm2) | 331 | < 625 | < 700 | < 400 | |
On-Chip-Speicher (MiB) | 28 | 32 | 32 | 144 | |
Taktgeschwindigkeit (MHz) | 700 | 700 | 940 | 1050 | |
Speicher | 8 GiB DDR3 | 16 GiB HBM | 32 GiB HBM | 32 GiB HBM | |
Speicherbandbreite | 34 GB/s | 600 GB/s | 900 GB/s | 1200 GB/s | |
Thermal Design Power (W) | 75 | 280 | 220 | 170 | 2 |
TFLOPS | 23 | 45 | 123 | 275 | 4 |
TFLOPS/W | 0.31 | 0.16 | 0.56 | 1.62 | 2 |
Siehe auch
[Bearbeiten | Quelltext bearbeiten]- Google Tensor, SoC von Google mit integrierter TPU
Literatur
[Bearbeiten | Quelltext bearbeiten]- Norman P. Jouppi, Cliff Young, Nishant Patil, David Patterson: A domain-specific architecture for deep neural networks. In: Communications of the ACM. 61, 2018, S. 50, doi:10.1145/3154484.
- Norman P. Jouppi u. a.: TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings. In: arxiv.org. 4. April 2023 (englisch). doi:10.48550/arXiv.2304.01433
Weblinks
[Bearbeiten | Quelltext bearbeiten]- Cloud TPUs (TensorFlow @ O’Reilly AI Conference, San Francisco '18) auf YouTube, vom 25. Oktober 2018
- A simple classification model using Keras with Cloud TPUs. In: colab.research.google.com. Abgerufen am 10. November 2018.
- Edge TPU Devices. In: aiyprojects.withgoogle.com. Abgerufen am 22. März 2019.
- Sebastian Grüner: Tensor Processing Unit: Google baut eigene Chips für maschinelles Lernen. In: golem.de. 19. Mai 2016, abgerufen am 23. November 2016.
- Harald Bögeholz: Künstliche Intelligenz: Architektur und Performance von Googles KI-Chip TPU – heise online. In: heise.de. 6. April 2017, abgerufen am 7. April 2017.
- David Patterson, Google TPU Team: In-Data Center Performance Analysis of a Tensor Processing Unit. (PDF) 2. April 2017, abgerufen am 23. Mai 2017 (englisch).
Patente
[Bearbeiten | Quelltext bearbeiten]- Patent US20160342889: Vector Computation Unit in Neural Network Processor. Angemeldet am 3. September 2015, veröffentlicht am 24. November 2016, Anmelder: Google Inc., Erfinder: Gregory Michael Thorson, Christopher Aaron Clark, Dan Luu.
- Patent WO2016186823: Batch Processing in a Neural Network Processor. Angemeldet am 3. März 2016, veröffentlicht am 24. November 2016, Anmelder: Google Inc., Erfinder: Reginald Clifford Young.
- Patent WO2016186801: Neural Network Processor. Angemeldet am 26. April 2016, veröffentlicht am 24. November 2016, Anmelder: Google Inc., Erfinder: Jonathan Ross, Norman Paul Jouppi, Andrew Everett Phelps, Reginald Clifford Young, Thomas Norrie, Gregory Michael Thorson, Dan Luu.
- Patent WO2014105865: System and method for parallelizing convolutional neural networks. Angemeldet am 23. Dezember 2013, veröffentlicht am 3. Juli 2014, Anmelder: Google Inc., Erfinder: Alexander Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton.
Einzelnachweise
[Bearbeiten | Quelltext bearbeiten]- ↑ Jeff Dean, Rajat Monga: TensorFlow - Google’s latest machine learning system, open sourced for everyone. In: Google Research Blog. Google, 9. November 2015, abgerufen am 29. Juni 2016 (englisch).
- ↑ Christof Windeck: Google I/O 2016: "Tensor-Prozessoren" halfen beim Go-Sieg – heise online. In: heise.de. 19. Mai 2016, abgerufen am 23. November 2016.
- ↑ Norm Jouppi: Google supercharges machine learning tasks with TPU custom chip. In: Google Cloud Platform Blog. 18. Mai 2016, abgerufen am 29. Juni 2016 (amerikanisches Englisch).
- ↑ a b c d e f Timothy Prickett Morgan: Tearing apart Google's TPU 3.0 AI Coprocessor. In: The Next Platform. 10. Mai 2018, abgerufen am 24. Mai 2018 (englisch).
- ↑ Systemarchitektur | Cloud TPU. Abgerufen am 12. Januar 2020.
- ↑ Google showcases Cloud TPU v4 Pods for large model training |. Abgerufen am 11. April 2022.
- ↑ golem.de, Johannes Hiltscher: Google erklärt TPU v4: KI-Supercomputer mit flexiblem optischen Netz, 5. April 2023
- ↑ Norman P. Jouppi u. a.: TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings. In: arxiv.org. 4. April 2023 (englisch). doi:10.48550/arXiv.2304.01433
- ↑ System Architecture | Cloud TPU. In: Google Cloud. Abgerufen am 11. Dezember 2022 (englisch).
- ↑ Patrick Kennedy: Case Study on the Google TPU and GDDR5 from Hot Chips 29, Serve The Home, 22. August 2017. Abgerufen am 23. August 2017
- ↑ Google wins MLPerf benchmark contest with fastest ML training supercomputer – Google Cloud Blog. In: cloud.google.com. 30. Juli 2020, abgerufen am 6. April 2023 (englisch).