| ข้อมูลจำเพาะของ NVIDIA L4 | |
|---|---|
| FP 32 | 30.3 teraFLOPs |
| TF32 Tensor Core | 60 teraFLOPs |
| FP16 Tensor Core | 121 teraFLOPs |
| BFLOAT16 Tensor Core | 121 teraFLOPs |
| FP8 Tensor Core | 242.5 teraFLOPs |
| INT8 Tensor Core | 242.5 TOPs |
| หน่วยความจำ GPU | 24GB GDDR6 |
| แบนด์วิดท์หน่วยความจำ GPU | 300GB/s |
| กำลังออกแบบระบายความร้อนสูงสุด (TDP) | 72W |
| รูปแบบ | PCIe โปรไฟล์ต่ำ 1 สล็อต |
| การเชื่อมต่อ | PCIe Gen4 x16 |
| ตารางข้อมูลจำเพาะ | L4 |
แน่นอนว่าด้วยราคา L4 ที่ประมาณ 2500 ดอลลาร์ A2 ที่มีราคาประมาณครึ่งหนึ่ง และ T4 ที่เก่ากว่า (แต่ยังคงมีความสามารถค่อนข้างดี) ที่มีราคาต่ำกว่า 1000 ดอลลาร์เมื่อใช้มือสอง คำถามที่ชัดเจนคือความแตกต่างระหว่าง GPU สำหรับการอนุมานทั้งสามนี้คืออะไร
| ข้อมูลจำเพาะของ NVIDIA L4, A2 และ T4 | NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| FP 32 | 30.3 teraFLOPs | 4.5 teraFLOPs | 8.1 teraFLOPs |
| TF32 Tensor Core | 60 teraFLOPs | 9 teraFLOPs | N/A |
| FP16 Tensor Core | 121 teraFLOPs | 18 teraFLOPs | N/A |
| BFLOAT16 Tensor Core | 121 teraFLOPs | 18 teraFLOPs | N/A |
| FP8 Tensor Core | 242.5 teraFLOPs | N/A | N/A |
| INT8 Tensor Core | 242.5 TOPs | 36 TOPS | 130 TOPS |
| หน่วยความจำ GPU | 24GB GDDR6 | 16GB GDDR6 | 16GB GDDR6 |
| แบนด์วิดท์หน่วยความจำ GPU | 300GB/s | 200GB/s | 320+ GB/s |
| กำลังออกแบบระบายความร้อนสูงสุด (TDP) | 72W | 40-60W | 70W |
| รูปแบบ | PCIe โปรไฟล์ต่ำ 1 สล็อต | ||
| การเชื่อมต่อ | PCIe Gen4 x16 | PCIe Gen4 x8 | PCIe Gen3 x16 |
| ตารางข้อมูลจำเพาะ | L4 | A2 | T4 |
สิ่งหนึ่งที่ต้องเข้าใจเมื่อพิจารณากราฟทั้งสามนี้คือ พวกมันไม่ใช่การแทนที่รุ่นต่อรุ่นแบบตรงไปตรงมา ซึ่งอธิบายได้ว่าทำไม T4 จึงยังคงเป็นตัวเลือกยอดนิยมสำหรับบางกรณีการใช้งานมาหลายปีแล้ว A2 ออกมาเพื่อแทนที่ T4 ในฐานะตัวเลือกที่ใช้พลังงานต่ำและเข้ากันได้มากกว่า (x8 เทียบกับ x16 เชิงกล) ในทางเทคนิคแล้ว L4 จึงเป็นการแทนที่ T4 โดย A2 อยู่ตรงกลางระหว่างนั้น ซึ่งอาจจะมีการปรับปรุงในอนาคตหรือไม่ก็ได้
ประสิทธิภาพการอนุมาน MLPerf 3.1
MLPerf เป็นกลุ่มผู้นำด้าน AI จากสถาบันการศึกษา การวิจัย และอุตสาหกรรมที่ก่อตั้งขึ้นเพื่อจัดทำเกณฑ์มาตรฐานฮาร์ดแวร์และซอฟต์แวร์ AI ที่ยุติธรรมและเกี่ยวข้อง เกณฑ์มาตรฐานเหล่านี้ออกแบบมาเพื่อวัดประสิทธิภาพของฮาร์ดแวร์ ซอฟต์แวร์ และบริการการเรียนรู้ของเครื่องในงานและสถานการณ์ต่างๆ
การทดสอบของเรามุ่งเน้นไปที่เกณฑ์มาตรฐาน MLPerf สองรายการ ได้แก่ Resnet50 และ BERT
- Resnet50: นี่คือโครงข่ายประสาทเทียมแบบคอนโวลูชัน (convolutional neural network) ที่ใช้สำหรับการจำแนกรูปภาพเป็นหลัก เป็นตัวบ่งชี้ที่ดีว่าระบบสามารถจัดการกับงานการเรียนรู้เชิงลึกที่เกี่ยวข้องกับการประมวลผลรูปภาพได้ดีเพียงใด
- BERT (Bidirectional Encoder Representations from Transformers): เกณฑ์มาตรฐานนี้มุ่งเน้นไปที่งานประมวลผลภาษาธรรมชาติ (natural language processing) ให้ข้อมูลเชิงลึกเกี่ยวกับประสิทธิภาพของระบบในการทำความเข้าใจและประมวลผลภาษามนุษย์
การทดสอบทั้งสองนี้มีความสำคัญอย่างยิ่งต่อการประเมินขีดความสามารถของฮาร์ดแวร์ AI ในสถานการณ์จริงที่เกี่ยวข้องกับการประมวลผลรูปภาพและภาษา
การประเมิน NVIDIA L4 ด้วยเกณฑ์มาตรฐานเหล่านี้มีความสำคัญอย่างยิ่งในการช่วยทำความเข้าใจขีดความสามารถของ L4 GPU ในงาน AI ที่เฉพาะเจาะจง นอกจากนี้ยังให้ข้อมูลเชิงลึกเกี่ยวกับวิธีการที่การกำหนดค่าที่แตกต่างกัน (การตั้งค่าเดี่ยว คู่ และสี่ตัว) ส่งผลต่อประสิทธิภาพ ข้อมูลนี้มีความสำคัญอย่างยิ่งสำหรับมืออาชีพและองค์กรที่ต้องการเพิ่มประสิทธิภาพโครงสร้างพื้นฐาน AI ของตน
โมเดลทำงานภายใต้สองโหมดหลัก: Server และ Offline
- โหมด Offline: โหมดนี้วัดประสิทธิภาพของระบบเมื่อข้อมูลทั้งหมดพร้อมสำหรับการประมวลผลพร้อมกัน เปรียบเสมือนการประมวลผลแบบแบตช์ (batch processing) ซึ่งระบบจะประมวลผลชุดข้อมูลขนาดใหญ่ในแบตช์เดียว โหมด Offline มีความสำคัญสำหรับสถานการณ์ที่ความหน่วง (latency) ไม่ใช่ข้อกังวลหลัก แต่ปริมาณงาน (throughput) และประสิทธิภาพเป็นสิ่งสำคัญ
- โหมด Server: ในทางตรงกันข้าม โหมด Server จะประเมินประสิทธิภาพของระบบในสถานการณ์ที่เลียนแบบสภาพแวดล้อมเซิร์ฟเวอร์จริง ซึ่งคำขอเข้ามาทีละรายการ โหมดนี้มีความไวต่อความหน่วง โดยวัดว่าระบบสามารถตอบสนองต่อแต่ละคำขอได้เร็วเพียงใด มีความสำคัญสำหรับแอปพลิเคชันแบบเรียลไทม์ เช่น เว็บเซิร์ฟเวอร์หรือแอปพลิเคชันแบบโต้ตอบ ซึ่งจำเป็นต้องมีการตอบสนองทันที
1 x NVIDIA L4 – Dell PowerEdge XR7620
ในฐานะส่วนหนึ่งของการตรวจสอบ Dell PowerEdge XR7620 ล่าสุดของเรา ซึ่งติดตั้ง NVIDIA L4 เพียงตัวเดียว เราได้นำไปทดสอบที่ส่วนขอบเพื่อรันงานหลายอย่าง รวมถึง MLPerf
การกำหนดค่าระบบทดสอบของเราประกอบด้วยส่วนประกอบต่อไปนี้:
- 2 x Xeon Gold 6426Y – 16 คอร์ 2.5GHz
- 1 x NVIDIA L4
- 8 x 16GB DDR5
- 480GB BOSS RAID1
- Ubuntu Server 22.04
- NVIDIA Driver 535
| Dell PowerEdge XR7620 1x NVIDIA L4 | คะแนน |
|---|---|
| Resnet50 – Server | 12,204.40 |
| Resnet50 – Offline | 13,010.20 |
| BERT K99 – Server | 898.945 |
| BERT K99 – Offline | 973.435 |
ประสิทธิภาพในสถานการณ์ Server และ Offline สำหรับ Resnet50 และ BERT K99 เกือบจะเหมือนกัน แสดงให้เห็นว่า L4 รักษาประสิทธิภาพที่สม่ำเสมอในโมเดลเซิร์ฟเวอร์ที่แตกต่างกัน
1, 2 & 4 NVIDIA L4’s – Dell PowerEdge T560
การกำหนดค่าหน่วยตรวจสอบของเราประกอบด้วยส่วนประกอบต่อไปนี้:
- 2 x Intel Xeon Gold 6448Y (32 คอร์/64 เธรดต่อตัว, 225 วัตต์ TDP, 2.1-4.1GHz)
- 8 x 1.6TB Solidigm P5520 SSD พร้อมการ์ด PERC 12 RAID
- 1-4x NVIDIA L4 GPUs
- 8 x 64GB RDIMMs
- Ubuntu Server 22.04
- NVIDIA Driver 535
| Dell PowerEdge T560 1x NVIDIA L4 | คะแนน |
|---|---|
| Resnet50 – Server | 12,204.40 |
| Resnet50 – Offline | 12,872.10 |
| Bert K99 – Server | 898.945 |
| Bert K99 – Offline | 945.146 |
ในการทดสอบของเราด้วย L4 สองตัวใน Dell T560 เราสังเกตเห็นการปรับขนาดประสิทธิภาพที่เกือบจะเป็นเชิงเส้นสำหรับทั้งเกณฑ์มาตรฐาน Resnet50 และ BERT K99 การปรับขนาดนี้เป็นข้อพิสูจน์ถึงประสิทธิภาพของ L4 GPUs และความสามารถในการทำงานร่วมกันโดยไม่มีการสูญเสียที่สำคัญเนื่องจากค่าใช้จ่ายในการดำเนินงานหรือความไม่มีประสิทธิภาพ
| Dell PowerEdge T560 2x NVIDIA L4 | คะแนน |
|---|---|
| Resnet50 – Server | 24,407.50 |
| Resnet50 – Offline | 25,463.20 |
| BERT K99 – Server | 1,801.28 |
| BERT K99 – Offline | 1,904.10 |
การปรับขนาดเชิงเส้นที่สม่ำเสมอที่เราสังเกตเห็นด้วย NVIDIA L4 GPUs สองตัว ขยายไปยังการกำหนดค่าที่มี L4 สี่ตัวได้อย่างน่าประทับใจ การปรับขนาดนี้มีความสำคัญอย่างยิ่ง เนื่องจากความพยายามในการรักษาผลกำไรเชิงเส้นให้ได้นั้นท้าทายมากขึ้นเรื่อยๆ กับ GPU ที่เพิ่มเข้ามาแต่ละตัว เนื่องจากความซับซ้อนของการประมวลผลแบบขนานและการจัดการทรัพยากร
| Dell PowerEdge T560 4x NVIDIA L4 | คะแนน |
|---|---|
| Resnet50 – Server | 48,818.30 |
| Resnet50 – Offline | 51,381.70 |
| BERT K99 – Server | 3,604.96 |
| BERT K99 – Offline | 3,821.46 |
ผลลัพธ์เหล่านี้มีไว้เพื่อเป็นภาพประกอบเท่านั้น และไม่ใช่ผลลัพธ์ MLPerf ที่แข่งขันได้หรือเป็นทางการ สำหรับรายการผลลัพธ์อย่างเป็นทางการฉบับสมบูรณ์ โปรดไปที่หน้าผลลัพธ์ MLPerf
นอกเหนือจากการตรวจสอบความสามารถในการปรับขนาดเชิงเส้นของ NVIDIA L4 GPUs แล้ว การทดสอบของเราในห้องปฏิบัติการยังให้ข้อมูลเชิงลึกเกี่ยวกับผลกระทบในทางปฏิบัติของการปรับใช้หน่วยเหล่านี้ในสถานการณ์การดำเนินงานที่แตกต่างกัน ตัวอย่างเช่น ความสม่ำเสมอของประสิทธิภาพระหว่างโหมด Server และ Offline ในทุกการกำหนดค่าด้วย L4 GPUs แสดงให้เห็นถึงความน่าเชื่อถือและความอเนกประสงค์
แง่มุมนี้มีความเกี่ยวข้องอย่างยิ่งสำหรับธุรกิจและสถาบันวิจัยที่บริบทการดำเนินงานแตกต่างกันอย่างมาก นอกจากนี้ ข้อสังเกตของเราเกี่ยวกับผลกระทบที่น้อยที่สุดของคอขวดในการเชื่อมต่อและประสิทธิภาพของการซิงโครไนซ์ GPU ในการตั้งค่า multi-GPU ให้ข้อมูลเชิงลึกที่มีคุณค่าสำหรับผู้ที่ต้องการปรับขนาดโครงสร้างพื้นฐาน AI ของตน ข้อมูลเชิงลึกเหล่านี้ก้าวข้ามตัวเลขเกณฑ์มาตรฐานธรรมดาๆ โดยให้ความเข้าใจที่ลึกซึ้งยิ่งขึ้นว่าฮาร์ดแวร์ดังกล่าวสามารถนำไปใช้อย่างเหมาะสมที่สุดในสถานการณ์จริงได้อย่างไร ซึ่งนำไปสู่การตัดสินใจด้านสถาปัตยกรรมที่ดีขึ้นและกลยุทธ์การลงทุนในโครงสร้างพื้นฐาน AI และ HPC
NVIDIA L4 – ประสิทธิภาพแอปพลิเคชัน
เราเปรียบเทียบประสิทธิภาพของ NVIDIA L4 ใหม่กับ NVIDIA A2 และ NVIDIA T4 ที่มาก่อนหน้า เพื่อแสดงการอัปเกรดประสิทธิภาพนี้เมื่อเทียบกับรุ่นก่อนหน้า เราได้ปรับใช้ทั้งสามรุ่นภายในเซิร์ฟเวอร์ในห้องปฏิบัติการของเรา โดยใช้ Windows Server 2022 และไดรเวอร์ NVIDIA ล่าสุด โดยใช้ชุดทดสอบ GPU ทั้งหมดของเรา
การ์ดเหล่านี้ได้รับการทดสอบบน Dell Poweredge R760 ด้วยการกำหนดค่าต่อไปนี้:
- 2 x Intel Xeon Gold 6430 (32 คอร์, 2.1GHz)
- Windows Server 2022
- NVIDIA Driver 538.15
- ปิด ECC บนการ์ดทั้งหมดสำหรับการสุ่มตัวอย่าง 1x
เมื่อเราเริ่มการทดสอบประสิทธิภาพระหว่างกลุ่ม GPU ระดับองค์กรทั้งสามนี้ สิ่งสำคัญคือต้องสังเกตความแตกต่างด้านประสิทธิภาพที่เป็นเอกลักษณ์ระหว่างรุ่น A2 และ T4 ก่อนหน้านี้ เมื่อ A2 เปิดตัว มันได้นำเสนอการปรับปรุงที่น่าสังเกตบางประการ เช่น การใช้พลังงานที่ต่ำลงและการทำงานบนสล็อต PCIe Gen4 x8 ที่เล็กกว่า แทนที่จะเป็นสล็อต PCIe Gen3 x16 ที่ใหญ่กว่าซึ่ง T4 รุ่นเก่าต้องการ ทำให้สามารถติดตั้งในระบบได้มากขึ้น โดยเฉพาะอย่างยิ่งด้วยขนาดที่เล็กลงที่จำเป็น
Blender OptiX 4.0
Blender OptiX เป็นแอปพลิเคชันสร้างแบบจำลอง 3 มิติแบบโอเพนซอร์ส การทดสอบนี้สามารถรันได้ทั้ง CPU และ GPU แต่เราทำเฉพาะ GPU เช่นเดียวกับการทดสอบอื่นๆ ส่วนใหญ่ที่นี่ เกณฑ์มาตรฐานนี้รันโดยใช้ยูทิลิตี้ Blender Benchmark CLI คะแนนคือตัวอย่างต่อนาที โดยยิ่งสูงยิ่งดี
| Blender 4.0 (ยิ่งสูงยิ่งดี) |
NVIDIA L4 | NVIDIA A2 | Nvidia T4 |
|---|---|---|---|
| GPU Blender CLI – Monster | 2,207.765 | 458.692 | 850.076 |
| GPU Blender CLI – Junkshop | 1,127.829 | 292.553 | 517.243 |
| GPU Blender CLI – Classroom | 1,111.753 | 262.387 | 478.786 |
Blackmagic RAW Speed Test
เราทดสอบ CPU และ GPU ด้วย Blackmagic’s RAW Speed Test ซึ่งทดสอบความเร็วในการเล่นวิดีโอ นี่เป็นการทดสอบแบบผสมผสานที่รวมประสิทธิภาพ CPU และ GPU สำหรับการถอดรหัส RAW ในโลกแห่งความเป็นจริง สิ่งเหล่านี้แสดงเป็นผลลัพธ์แยกต่างหาก แต่เรามุ่งเน้นเฉพาะ GPU เท่านั้น ดังนั้นผลลัพธ์ CPU จึงถูกละเว้น
| Blackmagic RAW Speed Test (ยิ่งสูงยิ่งดี) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| 8K CUDA | 95 FPS | 38 FPS | 53 FPS |
Cinebench 2024 GPU
Maxon’s Cinebench 2024 เป็นเกณฑ์มาตรฐานการเรนเดอร์ CPU และ GPU ที่ใช้คอร์และเธรด CPU ทั้งหมด อีกครั้ง เนื่องจากเรามุ่งเน้นที่ผลลัพธ์ GPU เราจึงไม่ได้รันส่วน CPU ของการทดสอบ คะแนนที่สูงขึ้นจะดีกว่า
| Cinebench 2024 (ยิ่งสูงยิ่งดี) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| GPU | 15,263 | 4,006 | 5,644 |
GPU PI
GPUPI 3.3.3 เป็นเวอร์ชันของยูทิลิตี้การวัดประสิทธิภาพน้ำหนักเบาที่ออกแบบมาเพื่อคำนวณ π (pi) เป็นพันล้านทศนิยมโดยใช้การเร่งด้วยฮาร์ดแวร์ผ่าน GPU และ CPU มันใช้ประโยชน์จากพลังการประมวลผลของ OpenCL และ CUDA ซึ่งรวมถึงหน่วยประมวลผลกลางและกราฟิก เราได้รัน CUDA เท่านั้นบน GPU ทั้ง 3 ตัว และตัวเลขที่นี่คือเวลาในการคำนวณโดยไม่รวมเวลาลดทอน ยิ่งต่ำยิ่งดี
| เวลาคำนวณ GPU PI เป็นวินาที (ยิ่งต่ำยิ่งดี) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| GPUPI v3.3 – 1B | 3.732s | 19.799s | 7.504s |
| GPUPI v3.3 – 32B | 244.380s | 1,210.801s | 486.231s |
แม้ว่าผลลัพธ์ก่อนหน้านี้จะพิจารณาเพียงการวนซ้ำเดียวของการ์ดแต่ละใบ เราก็ยังมีโอกาสได้พิจารณาการปรับใช้ NVIDIA L4 แบบ 5x ภายใน Dell PowerEdge T560
| เวลาคำนวณ GPU PI เป็นวินาที (ยิ่งต่ำยิ่งดี) |
Dell PowerEdge T560 (2x Xeon Gold 6448Y) พร้อม 5x NVIDIA L4 |
|---|---|
| GPUPI v3.3 – 1B | 0วินาที 850มิลลิวินาที |
| GPUPI v3.3 – 32B | 50วินาที 361มิลลิวินาที |
Octanebench
OctaneBench เป็นยูทิลิตี้การวัดประสิทธิภาพสำหรับ OctaneRender ซึ่งเป็นโปรแกรมเรนเดอร์ 3 มิติอีกตัวที่มีการรองรับ RTX คล้ายกับ V-Ray
| Octane (ยิ่งสูงยิ่งดี) | ||||
| ฉาก | Kernel | NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
| ภายใน | ช่องข้อมูล | 15.59 | 4.49 | 6.39 |
| แสงโดยตรง | 50.85 | 14.32 | 21.76 | |
| การติดตามเส้นทาง | 64.02 | 18.46 | 25.76 | |
| ไอเดีย | ช่องข้อมูล | 9.30 | 2.77 | 3.93 |
| แสงโดยตรง | 39.34 | 11.53 | 16.79 | |
| การติดตามเส้นทาง | 48.24 | 14.21 | 20.32 | |
| ATV | ช่องข้อมูล | 24.38 | 6.83 | 9.50 |
| แสงโดยตรง | 54.86 | 16.05 | 21.98 | |
| การติดตามเส้นทาง | 68.98 | 20.06 | 27.50 | |
| กล่อง | ช่องข้อมูล | 12.89 | 3.88 | 5.42 |
| แสงโดยตรง | 48.80 | 14.59 | 21.36 | |
| การติดตามเส้นทาง | 54.56 | 16.51 | 23.85 | |
| คะแนนรวม | 491.83 | 143.71 | 204.56 | |
Geekbench 6 GPU
Geekbench 6 เป็นเกณฑ์มาตรฐานข้ามแพลตฟอร์มที่วัดประสิทธิภาพโดยรวมของระบบ มีตัวเลือกการทดสอบสำหรับการวัดประสิทธิภาพทั้ง CPU และ GPU คะแนนที่สูงขึ้นจะดีกว่า อีกครั้ง เราพิจารณาเฉพาะผลลัพธ์ GPU เท่านั้น
คุณสามารถเปรียบเทียบกับระบบใดก็ได้ที่คุณต้องการใน Geekbench Browser
| Geekbench 6.1.0 (ยิ่งสูงยิ่งดี) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| Geekbench GPU OpenCL | 156,224 | 35,835 | 83,046 |
Luxmark
LuxMark เป็นเครื่องมือวัดประสิทธิภาพข้ามแพลตฟอร์ม OpenCL จากผู้ดูแลเอนจิ้นเรนเดอร์ 3 มิติโอเพนซอร์ส LuxRender เครื่องมือนี้พิจารณาประสิทธิภาพ GPU ในการสร้างแบบจำลอง 3 มิติ แสง และงานวิดีโอ สำหรับบทวิจารณ์นี้ เราใช้เวอร์ชันล่าสุด v4alpha0 ใน LuxMark คะแนนที่สูงขึ้นจะดีกว่าเมื่อเทียบกับคะแนน
| Luxmark v4.0alpha0 OpenCL GPUs (ยิ่งสูงยิ่งดี) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| Hall Bench | 14,328 | 3,759 | 5,893 |
| Food Bench | 5,330 | 1,258 | 2,033 |
GROMACS CUDA
เรายังได้จัดหา GROMACS ซึ่งเป็นซอฟต์แวร์พลวัตโมเลกุลที่คอมไพล์มาโดยเฉพาะสำหรับ CUDA การคอมไพล์แบบกำหนดเองนี้มีวัตถุประสงค์เพื่อใช้ประโยชน์จากความสามารถในการประมวลผลแบบขนานของ NVIDIA L4 GPUs 5 ตัว ซึ่งจำเป็นสำหรับการเร่งการจำลองเชิงคำนวณ
กระบวนการนี้เกี่ยวข้องกับการใช้ nvcc ซึ่งเป็นคอมไพเลอร์ CUDA ของ NVIDIA พร้อมกับการวนซ้ำหลายครั้งของแฟล็กการปรับให้เหมาะสมที่เหมาะสมเพื่อให้แน่ใจว่าไบนารีได้รับการปรับแต่งอย่างเหมาะสมกับสถาปัตยกรรมของเซิร์ฟเวอร์ การรวมการรองรับ CUDA ในการคอมไพล์ GROMACS ช่วยให้ซอฟต์แวร์สามารถโต้ตอบโดยตรงกับฮาร์ดแวร์ GPU ซึ่งสามารถปรับปรุงเวลาการคำนวณสำหรับการจำลองที่ซับซ



