logo
บ้าน กรณี

NVIDIA L4 GPU รีวิว ผู้นําการสรุปพลังงานต่ํา

ได้รับการรับรอง
จีน Beijing Qianxing Jietong Technology Co., Ltd. รับรอง
จีน Beijing Qianxing Jietong Technology Co., Ltd. รับรอง
ความคิดเห็นของลูกค้า
พนักงานขายของ Beijing Qianxing Jietong Technology Co. , Ltd เป็นมืออาชีพและอดทนมาก พวกเขาสามารถให้ใบเสนอราคาได้อย่างรวดเร็ว คุณภาพและบรรจุภัณฑ์ของผลิตภัณฑ์ก็ดีมากเช่นกัน ความร่วมมือของเราเป็นไปอย่างราบรื่น

—— 《Festfing DV》 LLC

เมื่อฉันกำลังมองหา Intel CPU และ Toshiba SSD อย่างเร่งด่วน Sandy จาก Beijing Qianxing Jietong Technology Co., Ltd ให้ความช่วยเหลืออย่างมากและได้ผลิตภัณฑ์ที่ฉันต้องการอย่างรวดเร็ว ฉันชื่นชมเธอจริงๆ

—— คิตตี้ เยน

แซนดี้แห่งปักกิ่ง Qianxing Jietong Technology Co. , Ltd เป็นพนักงานขายที่ระมัดระวัง ซึ่งสามารถเตือนฉันถึงข้อผิดพลาดในการกำหนดค่าในเวลาที่ฉันซื้อเซิร์ฟเวอร์ วิศวกรมีความเป็นมืออาชีพมากและสามารถดำเนินการทดสอบให้เสร็จสิ้นได้อย่างรวดเร็ว

—— Strelkin Mikhail Vladimirovich

เรามีความสุขมากกับประสบการณ์การทำงานกับ Beijing Qianxing Jietong คุณภาพของผลิตภัณฑ์ยอดเยี่ยมและการจัดส่งตรงเวลาเสมอ ทีมขายของพวกเขามืออาชีพ อดทน และช่วยเหลือดีมากกับคำถามทั้งหมดของเรา เราขอขอบคุณการสนับสนุนของพวกเขาอย่างแท้จริงและหวังว่าจะได้ร่วมงานกันในระยะยาว แนะนำเป็นอย่างยิ่ง!

—— Ahmad Navid

คุณภาพ: ประสบการณ์ที่ดีกับผู้จําหน่ายของฉัน The MikroTik RB3011 ได้ถูกใช้แล้ว แต่มันอยู่ในสภาพที่ดีมาก และทุกอย่างทํางานอย่างสมบูรณ์แบบ การสื่อสารเร็วและเรียบร้อยและความกังวลทั้งหมดของฉันถูกแก้ไขอย่างรวดเร็วซัพพลายเออร์ที่น่าเชื่อถือมาก แนะนํามาก

—— เจรัน โคเลซิโอ

สนทนาออนไลน์ตอนนี้ฉัน

NVIDIA L4 GPU รีวิว ผู้นําการสรุปพลังงานต่ํา

March 13, 2026
ในคลื่นแห่งนวัตกรรมที่ไม่หยุดยั้งในภูมิทัศน์ AI ในปัจจุบัน การวัดและทำความเข้าใจขีดความสามารถของแพลตฟอร์มฮาร์ดแวร์ต่างๆ เป็นสิ่งสำคัญ แอปพลิเคชัน AI ไม่จำเป็นต้องใช้ฟาร์มฝึก GPU ขนาดใหญ่เสมอไป มีส่วนสำคัญของ AI สำหรับการอนุมาน (inferencing) ที่มักต้องการพลังงาน GPU น้อยกว่า โดยเฉพาะอย่างยิ่งที่ส่วนขอบ (edge) ในบทวิจารณ์นี้ เราจะตรวจสอบ NVIDIA L4 GPU หลายตัวบนเซิร์ฟเวอร์ Dell สามเครื่องและชุดเวิร์กโหลดที่หลากหลาย รวมถึง MLperf เพื่อประเมินประสิทธิภาพของ L4
 
กรณี บริษัท ล่าสุดเกี่ยวกับ NVIDIA L4 GPU รีวิว ผู้นําการสรุปพลังงานต่ํา  0
 
NVIDIA L4
NVIDIA L4 GPU
โดยพื้นฐานแล้ว L4 ให้ประสิทธิภาพ FP32 ที่น่าประทับใจถึง 30.3 teraFLOPs ทำให้เหมาะสำหรับงานคำนวณที่มีความแม่นยำสูง ความสามารถของมันขยายไปถึงการคำนวณแบบผสมความแม่นยำ (mixed-precision) ผ่าน Tensor Cores แบบ TF32, FP16 และ BFLOAT16 ซึ่งเป็นคุณสมบัติสำคัญในการเพิ่มประสิทธิภาพการเรียนรู้เชิงลึก (deep learning) ตามเอกสารข้อมูลจำเพาะของ L4 ประสิทธิภาพในโหมดผสมความแม่นยำเหล่านี้มีตั้งแต่ 60 ถึง 121 teraFLOPs
 
L4 โดดเด่นในงานที่มีความแม่นยำต่ำ โดยมี FP8 และ INT8 Tensor Cores ถึง 242.5 teraFLOPs ซึ่งช่วยเพิ่มประสิทธิภาพการอนุมานโครงข่ายประสาทเทียม (neural network inferencing) ได้อย่างมาก ด้วยหน่วยความจำ GDDR6 ขนาด 24GB และแบนด์วิดท์ 300GB/s จึงสามารถจัดการชุดข้อมูลขนาดใหญ่และโมเดลที่ซับซ้อนได้อย่างง่ายดาย สิ่งที่โดดเด่นที่สุดเกี่ยวกับ L4 คือประสิทธิภาพการใช้พลังงาน: ด้วย TDP 72W จึงเหมาะสำหรับสภาพแวดล้อมการประมวลผลที่หลากหลาย การผสมผสานระหว่างประสิทธิภาพสูง ประสิทธิภาพหน่วยความจำ และการใช้พลังงานต่ำ ทำให้ NVIDIA L4 เป็นตัวเลือกที่น่าสนใจสำหรับการจัดการกับความท้าทายของการประมวลผลที่ส่วนขอบ
 
กรณี บริษัท ล่าสุดเกี่ยวกับ NVIDIA L4 GPU รีวิว ผู้นําการสรุปพลังงานต่ํา  1
 
ข้อมูลจำเพาะของ NVIDIA L4
FP 32 30.3 teraFLOPs
TF32 Tensor Core 60 teraFLOPs
FP16 Tensor Core 121 teraFLOPs
BFLOAT16 Tensor Core 121 teraFLOPs
FP8 Tensor Core 242.5 teraFLOPs
INT8 Tensor Core 242.5 TOPs
หน่วยความจำ GPU 24GB GDDR6
แบนด์วิดท์หน่วยความจำ GPU 300GB/s
กำลังออกแบบระบายความร้อนสูงสุด (TDP) 72W
รูปแบบ PCIe โปรไฟล์ต่ำ 1 สล็อต
การเชื่อมต่อ PCIe Gen4 x16
ตารางข้อมูลจำเพาะ L4

 

 

แน่นอนว่าด้วยราคา L4 ที่ประมาณ 2500 ดอลลาร์ A2 ที่มีราคาประมาณครึ่งหนึ่ง และ T4 ที่เก่ากว่า (แต่ยังคงมีความสามารถค่อนข้างดี) ที่มีราคาต่ำกว่า 1000 ดอลลาร์เมื่อใช้มือสอง คำถามที่ชัดเจนคือความแตกต่างระหว่าง GPU สำหรับการอนุมานทั้งสามนี้คืออะไร

ข้อมูลจำเพาะของ NVIDIA L4, A2 และ T4 NVIDIA L4 NVIDIA A2 NVIDIA T4
FP 32 30.3 teraFLOPs 4.5 teraFLOPs 8.1 teraFLOPs
TF32 Tensor Core 60 teraFLOPs 9 teraFLOPs N/A
FP16 Tensor Core 121 teraFLOPs 18 teraFLOPs N/A
BFLOAT16 Tensor Core 121 teraFLOPs 18 teraFLOPs N/A
FP8 Tensor Core 242.5 teraFLOPs N/A N/A
INT8 Tensor Core 242.5 TOPs 36 TOPS 130 TOPS
หน่วยความจำ GPU 24GB GDDR6 16GB GDDR6 16GB GDDR6
แบนด์วิดท์หน่วยความจำ GPU 300GB/s 200GB/s 320+ GB/s
กำลังออกแบบระบายความร้อนสูงสุด (TDP) 72W 40-60W 70W
รูปแบบ PCIe โปรไฟล์ต่ำ 1 สล็อต
การเชื่อมต่อ PCIe Gen4 x16 PCIe Gen4 x8 PCIe Gen3 x16
ตารางข้อมูลจำเพาะ L4 A2 T4

 

 

สิ่งหนึ่งที่ต้องเข้าใจเมื่อพิจารณากราฟทั้งสามนี้คือ พวกมันไม่ใช่การแทนที่รุ่นต่อรุ่นแบบตรงไปตรงมา ซึ่งอธิบายได้ว่าทำไม T4 จึงยังคงเป็นตัวเลือกยอดนิยมสำหรับบางกรณีการใช้งานมาหลายปีแล้ว A2 ออกมาเพื่อแทนที่ T4 ในฐานะตัวเลือกที่ใช้พลังงานต่ำและเข้ากันได้มากกว่า (x8 เทียบกับ x16 เชิงกล) ในทางเทคนิคแล้ว L4 จึงเป็นการแทนที่ T4 โดย A2 อยู่ตรงกลางระหว่างนั้น ซึ่งอาจจะมีการปรับปรุงในอนาคตหรือไม่ก็ได้

ประสิทธิภาพการอนุมาน MLPerf 3.1

MLPerf เป็นกลุ่มผู้นำด้าน AI จากสถาบันการศึกษา การวิจัย และอุตสาหกรรมที่ก่อตั้งขึ้นเพื่อจัดทำเกณฑ์มาตรฐานฮาร์ดแวร์และซอฟต์แวร์ AI ที่ยุติธรรมและเกี่ยวข้อง เกณฑ์มาตรฐานเหล่านี้ออกแบบมาเพื่อวัดประสิทธิภาพของฮาร์ดแวร์ ซอฟต์แวร์ และบริการการเรียนรู้ของเครื่องในงานและสถานการณ์ต่างๆ

การทดสอบของเรามุ่งเน้นไปที่เกณฑ์มาตรฐาน MLPerf สองรายการ ได้แก่ Resnet50 และ BERT

  • Resnet50: นี่คือโครงข่ายประสาทเทียมแบบคอนโวลูชัน (convolutional neural network) ที่ใช้สำหรับการจำแนกรูปภาพเป็นหลัก เป็นตัวบ่งชี้ที่ดีว่าระบบสามารถจัดการกับงานการเรียนรู้เชิงลึกที่เกี่ยวข้องกับการประมวลผลรูปภาพได้ดีเพียงใด
  • BERT (Bidirectional Encoder Representations from Transformers): เกณฑ์มาตรฐานนี้มุ่งเน้นไปที่งานประมวลผลภาษาธรรมชาติ (natural language processing) ให้ข้อมูลเชิงลึกเกี่ยวกับประสิทธิภาพของระบบในการทำความเข้าใจและประมวลผลภาษามนุษย์

การทดสอบทั้งสองนี้มีความสำคัญอย่างยิ่งต่อการประเมินขีดความสามารถของฮาร์ดแวร์ AI ในสถานการณ์จริงที่เกี่ยวข้องกับการประมวลผลรูปภาพและภาษา

การประเมิน NVIDIA L4 ด้วยเกณฑ์มาตรฐานเหล่านี้มีความสำคัญอย่างยิ่งในการช่วยทำความเข้าใจขีดความสามารถของ L4 GPU ในงาน AI ที่เฉพาะเจาะจง นอกจากนี้ยังให้ข้อมูลเชิงลึกเกี่ยวกับวิธีการที่การกำหนดค่าที่แตกต่างกัน (การตั้งค่าเดี่ยว คู่ และสี่ตัว) ส่งผลต่อประสิทธิภาพ ข้อมูลนี้มีความสำคัญอย่างยิ่งสำหรับมืออาชีพและองค์กรที่ต้องการเพิ่มประสิทธิภาพโครงสร้างพื้นฐาน AI ของตน

โมเดลทำงานภายใต้สองโหมดหลัก: Server และ Offline

  • โหมด Offline: โหมดนี้วัดประสิทธิภาพของระบบเมื่อข้อมูลทั้งหมดพร้อมสำหรับการประมวลผลพร้อมกัน เปรียบเสมือนการประมวลผลแบบแบตช์ (batch processing) ซึ่งระบบจะประมวลผลชุดข้อมูลขนาดใหญ่ในแบตช์เดียว โหมด Offline มีความสำคัญสำหรับสถานการณ์ที่ความหน่วง (latency) ไม่ใช่ข้อกังวลหลัก แต่ปริมาณงาน (throughput) และประสิทธิภาพเป็นสิ่งสำคัญ
  • โหมด Server: ในทางตรงกันข้าม โหมด Server จะประเมินประสิทธิภาพของระบบในสถานการณ์ที่เลียนแบบสภาพแวดล้อมเซิร์ฟเวอร์จริง ซึ่งคำขอเข้ามาทีละรายการ โหมดนี้มีความไวต่อความหน่วง โดยวัดว่าระบบสามารถตอบสนองต่อแต่ละคำขอได้เร็วเพียงใด มีความสำคัญสำหรับแอปพลิเคชันแบบเรียลไทม์ เช่น เว็บเซิร์ฟเวอร์หรือแอปพลิเคชันแบบโต้ตอบ ซึ่งจำเป็นต้องมีการตอบสนองทันที

1 x NVIDIA L4 – Dell PowerEdge XR7620

 

กรณี บริษัท ล่าสุดเกี่ยวกับ NVIDIA L4 GPU รีวิว ผู้นําการสรุปพลังงานต่ํา  2

ในฐานะส่วนหนึ่งของการตรวจสอบ Dell PowerEdge XR7620 ล่าสุดของเรา ซึ่งติดตั้ง NVIDIA L4 เพียงตัวเดียว เราได้นำไปทดสอบที่ส่วนขอบเพื่อรันงานหลายอย่าง รวมถึง MLPerf

การกำหนดค่าระบบทดสอบของเราประกอบด้วยส่วนประกอบต่อไปนี้:

  • 2 x Xeon Gold 6426Y – 16 คอร์ 2.5GHz
  • 1 x NVIDIA L4
  • 8 x 16GB DDR5
  • 480GB BOSS RAID1
  • Ubuntu Server 22.04
  • NVIDIA Driver 535
Dell PowerEdge XR7620 1x NVIDIA L4 คะแนน
Resnet50 – Server 12,204.40
Resnet50 – Offline 13,010.20
BERT K99 – Server 898.945
BERT K99 – Offline 973.435

 

 

ประสิทธิภาพในสถานการณ์ Server และ Offline สำหรับ Resnet50 และ BERT K99 เกือบจะเหมือนกัน แสดงให้เห็นว่า L4 รักษาประสิทธิภาพที่สม่ำเสมอในโมเดลเซิร์ฟเวอร์ที่แตกต่างกัน

1, 2 & 4 NVIDIA L4’s – Dell PowerEdge T560

กรณี บริษัท ล่าสุดเกี่ยวกับ NVIDIA L4 GPU รีวิว ผู้นําการสรุปพลังงานต่ํา  3

การกำหนดค่าหน่วยตรวจสอบของเราประกอบด้วยส่วนประกอบต่อไปนี้:

  • 2 x Intel Xeon Gold 6448Y (32 คอร์/64 เธรดต่อตัว, 225 วัตต์ TDP, 2.1-4.1GHz)
  • 8 x 1.6TB Solidigm P5520 SSD พร้อมการ์ด PERC 12 RAID
  • 1-4x NVIDIA L4 GPUs
  • 8 x 64GB RDIMMs
  • Ubuntu Server 22.04
  • NVIDIA Driver 535
เมื่อกลับมาที่ศูนย์ข้อมูลจากส่วนขอบและใช้เซิร์ฟเวอร์ Dell T560 Tower ที่มีความยืดหยุ่น เราสังเกตว่า L4 ทำงานได้ดีเช่นกันในการทดสอบ GPU เดี่ยว สิ่งนี้แสดงให้เห็นว่าทั้งสองแพลตฟอร์มสามารถให้พื้นฐานที่แข็งแกร่งแก่ L4 ได้โดยไม่มีคอขวด
 
Dell PowerEdge T560 1x NVIDIA L4 คะแนน
Resnet50 – Server 12,204.40
Resnet50 – Offline 12,872.10
Bert K99 – Server 898.945
Bert K99 – Offline 945.146

 

 

ในการทดสอบของเราด้วย L4 สองตัวใน Dell T560 เราสังเกตเห็นการปรับขนาดประสิทธิภาพที่เกือบจะเป็นเชิงเส้นสำหรับทั้งเกณฑ์มาตรฐาน Resnet50 และ BERT K99 การปรับขนาดนี้เป็นข้อพิสูจน์ถึงประสิทธิภาพของ L4 GPUs และความสามารถในการทำงานร่วมกันโดยไม่มีการสูญเสียที่สำคัญเนื่องจากค่าใช้จ่ายในการดำเนินงานหรือความไม่มีประสิทธิภาพ

Dell PowerEdge T560 2x NVIDIA L4 คะแนน
Resnet50 – Server 24,407.50
Resnet50 – Offline 25,463.20
BERT K99 – Server 1,801.28
BERT K99 – Offline 1,904.10

 

 

การปรับขนาดเชิงเส้นที่สม่ำเสมอที่เราสังเกตเห็นด้วย NVIDIA L4 GPUs สองตัว ขยายไปยังการกำหนดค่าที่มี L4 สี่ตัวได้อย่างน่าประทับใจ การปรับขนาดนี้มีความสำคัญอย่างยิ่ง เนื่องจากความพยายามในการรักษาผลกำไรเชิงเส้นให้ได้นั้นท้าทายมากขึ้นเรื่อยๆ กับ GPU ที่เพิ่มเข้ามาแต่ละตัว เนื่องจากความซับซ้อนของการประมวลผลแบบขนานและการจัดการทรัพยากร

Dell PowerEdge T560 4x NVIDIA L4 คะแนน
Resnet50 – Server 48,818.30
Resnet50 – Offline 51,381.70
BERT K99 – Server 3,604.96
BERT K99 – Offline 3,821.46

 

 

ผลลัพธ์เหล่านี้มีไว้เพื่อเป็นภาพประกอบเท่านั้น และไม่ใช่ผลลัพธ์ MLPerf ที่แข่งขันได้หรือเป็นทางการ สำหรับรายการผลลัพธ์อย่างเป็นทางการฉบับสมบูรณ์ โปรดไปที่หน้าผลลัพธ์ MLPerf

นอกเหนือจากการตรวจสอบความสามารถในการปรับขนาดเชิงเส้นของ NVIDIA L4 GPUs แล้ว การทดสอบของเราในห้องปฏิบัติการยังให้ข้อมูลเชิงลึกเกี่ยวกับผลกระทบในทางปฏิบัติของการปรับใช้หน่วยเหล่านี้ในสถานการณ์การดำเนินงานที่แตกต่างกัน ตัวอย่างเช่น ความสม่ำเสมอของประสิทธิภาพระหว่างโหมด Server และ Offline ในทุกการกำหนดค่าด้วย L4 GPUs แสดงให้เห็นถึงความน่าเชื่อถือและความอเนกประสงค์

แง่มุมนี้มีความเกี่ยวข้องอย่างยิ่งสำหรับธุรกิจและสถาบันวิจัยที่บริบทการดำเนินงานแตกต่างกันอย่างมาก นอกจากนี้ ข้อสังเกตของเราเกี่ยวกับผลกระทบที่น้อยที่สุดของคอขวดในการเชื่อมต่อและประสิทธิภาพของการซิงโครไนซ์ GPU ในการตั้งค่า multi-GPU ให้ข้อมูลเชิงลึกที่มีคุณค่าสำหรับผู้ที่ต้องการปรับขนาดโครงสร้างพื้นฐาน AI ของตน ข้อมูลเชิงลึกเหล่านี้ก้าวข้ามตัวเลขเกณฑ์มาตรฐานธรรมดาๆ โดยให้ความเข้าใจที่ลึกซึ้งยิ่งขึ้นว่าฮาร์ดแวร์ดังกล่าวสามารถนำไปใช้อย่างเหมาะสมที่สุดในสถานการณ์จริงได้อย่างไร ซึ่งนำไปสู่การตัดสินใจด้านสถาปัตยกรรมที่ดีขึ้นและกลยุทธ์การลงทุนในโครงสร้างพื้นฐาน AI และ HPC

NVIDIA L4 – ประสิทธิภาพแอปพลิเคชัน

เราเปรียบเทียบประสิทธิภาพของ NVIDIA L4 ใหม่กับ NVIDIA A2 และ NVIDIA T4 ที่มาก่อนหน้า เพื่อแสดงการอัปเกรดประสิทธิภาพนี้เมื่อเทียบกับรุ่นก่อนหน้า เราได้ปรับใช้ทั้งสามรุ่นภายในเซิร์ฟเวอร์ในห้องปฏิบัติการของเรา โดยใช้ Windows Server 2022 และไดรเวอร์ NVIDIA ล่าสุด โดยใช้ชุดทดสอบ GPU ทั้งหมดของเรา

การ์ดเหล่านี้ได้รับการทดสอบบน Dell Poweredge R760 ด้วยการกำหนดค่าต่อไปนี้:

  • 2 x Intel Xeon Gold 6430 (32 คอร์, 2.1GHz)
  • Windows Server 2022
  • NVIDIA Driver 538.15
  • ปิด ECC บนการ์ดทั้งหมดสำหรับการสุ่มตัวอย่าง 1x
กรณี บริษัท ล่าสุดเกี่ยวกับ NVIDIA L4 GPU รีวิว ผู้นําการสรุปพลังงานต่ํา  4

เมื่อเราเริ่มการทดสอบประสิทธิภาพระหว่างกลุ่ม GPU ระดับองค์กรทั้งสามนี้ สิ่งสำคัญคือต้องสังเกตความแตกต่างด้านประสิทธิภาพที่เป็นเอกลักษณ์ระหว่างรุ่น A2 และ T4 ก่อนหน้านี้ เมื่อ A2 เปิดตัว มันได้นำเสนอการปรับปรุงที่น่าสังเกตบางประการ เช่น การใช้พลังงานที่ต่ำลงและการทำงานบนสล็อต PCIe Gen4 x8 ที่เล็กกว่า แทนที่จะเป็นสล็อต PCIe Gen3 x16 ที่ใหญ่กว่าซึ่ง T4 รุ่นเก่าต้องการ ทำให้สามารถติดตั้งในระบบได้มากขึ้น โดยเฉพาะอย่างยิ่งด้วยขนาดที่เล็กลงที่จำเป็น

Blender OptiX 4.0

Blender OptiX เป็นแอปพลิเคชันสร้างแบบจำลอง 3 มิติแบบโอเพนซอร์ส การทดสอบนี้สามารถรันได้ทั้ง CPU และ GPU แต่เราทำเฉพาะ GPU เช่นเดียวกับการทดสอบอื่นๆ ส่วนใหญ่ที่นี่ เกณฑ์มาตรฐานนี้รันโดยใช้ยูทิลิตี้ Blender Benchmark CLI คะแนนคือตัวอย่างต่อนาที โดยยิ่งสูงยิ่งดี

Blender 4.0
(ยิ่งสูงยิ่งดี)
NVIDIA L4 NVIDIA A2 Nvidia T4
GPU Blender CLI – Monster 2,207.765 458.692 850.076
GPU Blender CLI – Junkshop 1,127.829 292.553 517.243
GPU Blender CLI – Classroom 1,111.753 262.387 478.786

 

 

Blackmagic RAW Speed Test

เราทดสอบ CPU และ GPU ด้วย Blackmagic’s RAW Speed Test ซึ่งทดสอบความเร็วในการเล่นวิดีโอ นี่เป็นการทดสอบแบบผสมผสานที่รวมประสิทธิภาพ CPU และ GPU สำหรับการถอดรหัส RAW ในโลกแห่งความเป็นจริง สิ่งเหล่านี้แสดงเป็นผลลัพธ์แยกต่างหาก แต่เรามุ่งเน้นเฉพาะ GPU เท่านั้น ดังนั้นผลลัพธ์ CPU จึงถูกละเว้น

Blackmagic RAW Speed Test
(ยิ่งสูงยิ่งดี)
NVIDIA L4 NVIDIA A2 NVIDIA T4
8K CUDA 95 FPS 38 FPS 53 FPS

Cinebench 2024 GPU

Maxon’s Cinebench 2024 เป็นเกณฑ์มาตรฐานการเรนเดอร์ CPU และ GPU ที่ใช้คอร์และเธรด CPU ทั้งหมด อีกครั้ง เนื่องจากเรามุ่งเน้นที่ผลลัพธ์ GPU เราจึงไม่ได้รันส่วน CPU ของการทดสอบ คะแนนที่สูงขึ้นจะดีกว่า

Cinebench 2024
(ยิ่งสูงยิ่งดี)
NVIDIA L4 NVIDIA A2 NVIDIA T4
GPU 15,263 4,006 5,644

GPU PI

GPUPI 3.3.3 เป็นเวอร์ชันของยูทิลิตี้การวัดประสิทธิภาพน้ำหนักเบาที่ออกแบบมาเพื่อคำนวณ π (pi) เป็นพันล้านทศนิยมโดยใช้การเร่งด้วยฮาร์ดแวร์ผ่าน GPU และ CPU มันใช้ประโยชน์จากพลังการประมวลผลของ OpenCL และ CUDA ซึ่งรวมถึงหน่วยประมวลผลกลางและกราฟิก เราได้รัน CUDA เท่านั้นบน GPU ทั้ง 3 ตัว และตัวเลขที่นี่คือเวลาในการคำนวณโดยไม่รวมเวลาลดทอน ยิ่งต่ำยิ่งดี

เวลาคำนวณ GPU PI เป็นวินาที
(ยิ่งต่ำยิ่งดี)
NVIDIA L4 NVIDIA A2 NVIDIA T4
GPUPI v3.3 – 1B 3.732s 19.799s 7.504s
GPUPI v3.3 – 32B 244.380s 1,210.801s 486.231s

แม้ว่าผลลัพธ์ก่อนหน้านี้จะพิจารณาเพียงการวนซ้ำเดียวของการ์ดแต่ละใบ เราก็ยังมีโอกาสได้พิจารณาการปรับใช้ NVIDIA L4 แบบ 5x ภายใน Dell PowerEdge T560

เวลาคำนวณ GPU PI เป็นวินาที
(ยิ่งต่ำยิ่งดี)
Dell PowerEdge T560 (2x Xeon Gold 6448Y) พร้อม 5x NVIDIA L4
GPUPI v3.3 – 1B 0วินาที 850มิลลิวินาที
GPUPI v3.3 – 32B 50วินาที 361มิลลิวินาที

 

 

Octanebench

OctaneBench เป็นยูทิลิตี้การวัดประสิทธิภาพสำหรับ OctaneRender ซึ่งเป็นโปรแกรมเรนเดอร์ 3 มิติอีกตัวที่มีการรองรับ RTX คล้ายกับ V-Ray

Octane (ยิ่งสูงยิ่งดี)
ฉาก Kernel NVIDIA L4 NVIDIA A2 NVIDIA T4
ภายใน ช่องข้อมูล 15.59 4.49 6.39
  แสงโดยตรง 50.85 14.32 21.76
  การติดตามเส้นทาง 64.02 18.46 25.76
ไอเดีย ช่องข้อมูล 9.30 2.77 3.93
  แสงโดยตรง 39.34 11.53 16.79
  การติดตามเส้นทาง 48.24 14.21 20.32
ATV ช่องข้อมูล 24.38 6.83 9.50
  แสงโดยตรง 54.86 16.05 21.98
  การติดตามเส้นทาง 68.98 20.06 27.50
กล่อง ช่องข้อมูล 12.89 3.88 5.42
  แสงโดยตรง 48.80 14.59 21.36
  การติดตามเส้นทาง 54.56 16.51 23.85
คะแนนรวม 491.83 143.71 204.56

 

 

Geekbench 6 GPU

Geekbench 6 เป็นเกณฑ์มาตรฐานข้ามแพลตฟอร์มที่วัดประสิทธิภาพโดยรวมของระบบ มีตัวเลือกการทดสอบสำหรับการวัดประสิทธิภาพทั้ง CPU และ GPU คะแนนที่สูงขึ้นจะดีกว่า อีกครั้ง เราพิจารณาเฉพาะผลลัพธ์ GPU เท่านั้น

คุณสามารถเปรียบเทียบกับระบบใดก็ได้ที่คุณต้องการใน Geekbench Browser

Geekbench 6.1.0
(ยิ่งสูงยิ่งดี)
NVIDIA L4 NVIDIA A2 NVIDIA T4
Geekbench GPU OpenCL 156,224 35,835 83,046

Luxmark

LuxMark เป็นเครื่องมือวัดประสิทธิภาพข้ามแพลตฟอร์ม OpenCL จากผู้ดูแลเอนจิ้นเรนเดอร์ 3 มิติโอเพนซอร์ส LuxRender เครื่องมือนี้พิจารณาประสิทธิภาพ GPU ในการสร้างแบบจำลอง 3 มิติ แสง และงานวิดีโอ สำหรับบทวิจารณ์นี้ เราใช้เวอร์ชันล่าสุด v4alpha0 ใน LuxMark คะแนนที่สูงขึ้นจะดีกว่าเมื่อเทียบกับคะแนน

Luxmark v4.0alpha0
OpenCL GPUs
(ยิ่งสูงยิ่งดี)
NVIDIA L4 NVIDIA A2 NVIDIA T4
Hall Bench 14,328 3,759 5,893
Food Bench 5,330 1,258 2,033

GROMACS CUDA

เรายังได้จัดหา GROMACS ซึ่งเป็นซอฟต์แวร์พลวัตโมเลกุลที่คอมไพล์มาโดยเฉพาะสำหรับ CUDA การคอมไพล์แบบกำหนดเองนี้มีวัตถุประสงค์เพื่อใช้ประโยชน์จากความสามารถในการประมวลผลแบบขนานของ NVIDIA L4 GPUs 5 ตัว ซึ่งจำเป็นสำหรับการเร่งการจำลองเชิงคำนวณ

กระบวนการนี้เกี่ยวข้องกับการใช้ nvcc ซึ่งเป็นคอมไพเลอร์ CUDA ของ NVIDIA พร้อมกับการวนซ้ำหลายครั้งของแฟล็กการปรับให้เหมาะสมที่เหมาะสมเพื่อให้แน่ใจว่าไบนารีได้รับการปรับแต่งอย่างเหมาะสมกับสถาปัตยกรรมของเซิร์ฟเวอร์ การรวมการรองรับ CUDA ในการคอมไพล์ GROMACS ช่วยให้ซอฟต์แวร์สามารถโต้ตอบโดยตรงกับฮาร์ดแวร์ GPU ซึ่งสามารถปรับปรุงเวลาการคำนวณสำหรับการจำลองที่ซับซ

รายละเอียดการติดต่อ
Beijing Qianxing Jietong Technology Co., Ltd.

ผู้ติดต่อ: Ms. Sandy Yang

โทร: 13426366826

ส่งคำถามของคุณกับเราโดยตรง (0 / 3000)