FERMI

Nowa generacja architektury CUDA, karty NVIDIA Tesla™ C2050 i C2070, oznaczone nazwą kodową „Fermi”, to najbardziej zaawansowana architektura dedykowana obliczeniom na GPU, jaka kiedykolwiek powstała. Dzięki ponad trzem miliardom tranzystorów oraz aż do 448 rdzeniom przetwarzania CUDA, zapewnia ona możliwości i wydajność superkomputerów opartych o 4 rdzeniowe układy CPU, przy 1/10 ceny oraz 1/20 zapotrzebowania na energię tradycyjnych serwerów korzystających wyłącznie z układów CPU.

Architektura FERMI dostarcza wiele od dawna oczekiwanych cech technicznych:

- wsparcie dla C + +,

- obsługę pamięci ECC dla bezkompromisowej dokładności i skalowalności

- 7 krotny wzrost wydajności dla obliczeń podwójnej precyzji w porównaniu z kartami TESLA serii 10xx

Cechy produktu:

448 CUDA Cores Delivers up to 515 Gigaflops of double-precision peak performance in each GPU, enabling a single workstation to deliver a Teraflop or more of performance. Single precision peak performance is over a Teraflop per GPU.
ECC Memory Meets a critical requirement for computing accuracy and reliability for workstations. Offers protection of data in memory to enhance data integrity and reliability for applications. Register files, L1/L2 caches, shared memory, and DRAM all are ECC protected.
Desktop Cluster Performance Solves large-scale problems faster than a small server cluster on a single workstation with multiple GPUs.
Up to 6GB of GDDR5 memory per GPU Maximizes performance and reduces data transfers by keeping larger data sets in local memory that is attached directly to the GPU.
NVIDIA Parallel DataCache™ Accelerates algorithms such as physics solvers, ray-tracing, and sparse matrix multiplication where data addresses are not known beforehand. This includes a configurable L1 cache per Streaming Multiprocessor block and a unified L2 cache for all of the processor cores.
NVIDIA GigaThread™ Engine Maximizes the throughput by faster context switching that is 10X faster than previous architecture, concurrent kernel execution, and improved thread block scheduling.
Asynchronous Transfer Turbocharges system performance by transferring data over the PCIe bus while the computing cores are crunching other data. Even applications with heavy data-transfer requirements, such as seismic processing, can maximize the computing efficiency by transferring data to local memory before it is needed.
CUDA programming environment with broad support of programming languages and APIs Choose C, C++, OpenCL, DirectCompute, or Fortran to express application parallelism and take advantage of the “Fermi” GPU’s innovative architecture. NVIDIA Parallel Nsight™ tool is available for Microsoft Visual Studio developers.
High Speed , PCIe Gen 2.0 Data Transfer Maximizes bandwidth between the host system and the Tesla processors. Enables Tesla systems to work with virtually any PCIe-compliant host system with an open PCIe x16 slot.

Specyfikacja techniczna:

Form Factor 9.75″ PCIe x16 form factor
# of Tesla GPUs 1
# of CUDA Core 448
Frequency of CUDA Cores 1.15 GHz
Double Precision floating point performance (peak) 515 Gflops
Single Precision floating point performance (peak) 1.03 Tflops
Total Dedicated Memory*

Tesla C2050
Tesla C2070
3GB GDDR5
6GB GDDR5
Memory Speed 1.55 GHz
Memory Interface 384-bit
Memory Bandwidth 148 GB/sec
Power Consumption 238W TDP
System Interface PCIe x16 Gen2
Thermal Solution Active Fansink
Software Development Tools CUDA C/C++/Fortran, OpenCL, DirectCompute Toolkits. NVIDIA Parallel Nsight™ for Visual Studio

Poniżej orientacyjne ceny kart w nowej architekturze dostępnych od połowy 2010 roku:

Tesla C2050 Board 3GB ECC GDDR5, do 0.52 TFlops (Double Precision)

Sugerowana cena netto: 2’050,00 EURO / (1Euro=4PLN) = 8’200,00 PLN (w przypadku instytucji naukowych atrakcyjne upusty)

Tesla C2070 Board 6GB ECC GDDR5, do 0.52 TFlops (Double Precision)

Sugerowana cena netto: 3’070,00 EURO / (1Euro=4PLN) = 12’280,00 PLN (w przypadku instytucji naukowych atrakcyjne upusty)

Dostępne są również serwery wyposażone w zestaw 4 kart GPU:

TESLA S2050 (4x C2050, 12GB RAM)

Sugerowana cena netto: 10′790,00 EURO / (1Euro=4PLN) = 43’160,00 PLN (w przypadku instytucji naukowych atrakcyjne upusty)

TESLA S2070 (4x C2070, 24GB RAM)

Sugerowana cena netto: 15′790,00 EURO / (1Euro=4PLN) = 63’160,00 PLN (w przypadku instytucji naukowych atrakcyjne upusty)

http://www.nvidia.pl/object/fermi_architecture_pl.html

Architektura Fermi sprawia, że przetwarzanie współbieżne z użyciem układów GPU i CPU staje się wszechobecne, znajdując zastosowanie w pełnym spektrum aplikacji obliczeniowych. Ta zaprojektowana pod kątem języka C++ i dostępna z poziomu środowiska tworzenia aplikacji Visual Studio architektura ułatwia programowanie równoległe i zapewnia akcelerację w zakresie zastosowań szerszym niż kiedykolwiek dotąd – włączając w to radykalny wzrost wydajności w takich dziedzinach jak ray tracing, obliczenia fizyczne, analiza metodą elementów skończonych, obliczenia naukowe wysokiej precyzji, algebra liniowa wykorzystująca macierze rzadkie, algorytmy sortujące i wyszukujące.

Architekturę Fermi cechuje kilka zasadniczych innowacji:
• 448 rdzeni przetwarzających CUDA
• Technologia NVIDIA Parallel DataCache™
• Silnik NVIDIA GigaThread™ 3.0
• Pełna obsługa pamięci ECC