บ้าน กรณี

NVIDIA L4 GPU รีวิว ผู้นําการสรุปพลังงานต่ํา

ผลิตภัณฑ์ทั้งหมด

เซิร์ฟเวอร์จัดเก็บข้อมูลแร็ค
(165)

Huawei เซิร์ฟเวอร์ฟิวชั่น
(31)

เซิร์ฟเวอร์ Dell Poweredge
(59)

เซิร์ฟเวอร์ H3C
(30)

สวิตช์ ดาต้าคอม
(97)

อุปกรณ์ WLAN
(21)

เราเตอร์ไร้สายอัจฉริยะ
(10)

ฮาร์ดไดรฟ์ HDD
(24)

ฮาร์ดไดรฟ์ภายใน SSD
(16)

การ์ดจอ Geforce
(27)

โปรเซสเซอร์ INTEL CPU
(20)

หน่วยความจำเซิร์ฟเวอร์ RAM
(6)

เซิร์ฟเวอร์จัดเก็บข้อมูลที่ตกแต่งใหม่
(6)

โมดูลตัวรับส่งสัญญาณ SFP
(4)

สวิตช์ช่องสัญญาณไฟเบอร์
(42)

ได้รับการรับรอง

จีน Beijing Qianxing Jietong Technology Co., Ltd. รับรอง

ความคิดเห็นของลูกค้า

พนักงานขายของ Beijing Qianxing Jietong Technology Co. , Ltd เป็นมืออาชีพและอดทนมาก พวกเขาสามารถให้ใบเสนอราคาได้อย่างรวดเร็ว คุณภาพและบรรจุภัณฑ์ของผลิตภัณฑ์ก็ดีมากเช่นกัน ความร่วมมือของเราเป็นไปอย่างราบรื่น

—— 《Festfing DV》 LLC

เมื่อฉันกำลังมองหา Intel CPU และ Toshiba SSD อย่างเร่งด่วน Sandy จาก Beijing Qianxing Jietong Technology Co., Ltd ให้ความช่วยเหลืออย่างมากและได้ผลิตภัณฑ์ที่ฉันต้องการอย่างรวดเร็ว ฉันชื่นชมเธอจริงๆ

—— คิตตี้ เยน

แซนดี้แห่งปักกิ่ง Qianxing Jietong Technology Co. , Ltd เป็นพนักงานขายที่ระมัดระวัง ซึ่งสามารถเตือนฉันถึงข้อผิดพลาดในการกำหนดค่าในเวลาที่ฉันซื้อเซิร์ฟเวอร์ วิศวกรมีความเป็นมืออาชีพมากและสามารถดำเนินการทดสอบให้เสร็จสิ้นได้อย่างรวดเร็ว

—— Strelkin Mikhail Vladimirovich

เรามีความสุขมากกับประสบการณ์การทำงานกับ Beijing Qianxing Jietong คุณภาพของผลิตภัณฑ์ยอดเยี่ยมและการจัดส่งตรงเวลาเสมอ ทีมขายของพวกเขามืออาชีพ อดทน และช่วยเหลือดีมากกับคำถามทั้งหมดของเรา เราขอขอบคุณการสนับสนุนของพวกเขาอย่างแท้จริงและหวังว่าจะได้ร่วมงานกันในระยะยาว แนะนำเป็นอย่างยิ่ง!

—— Ahmad Navid

คุณภาพ: ประสบการณ์ที่ดีกับผู้จําหน่ายของฉัน The MikroTik RB3011 ได้ถูกใช้แล้ว แต่มันอยู่ในสภาพที่ดีมาก และทุกอย่างทํางานอย่างสมบูรณ์แบบ การสื่อสารเร็วและเรียบร้อยและความกังวลทั้งหมดของฉันถูกแก้ไขอย่างรวดเร็วซัพพลายเออร์ที่น่าเชื่อถือมาก แนะนํามาก

—— เจรัน โคเลซิโอ

สนทนาออนไลน์ตอนนี้ฉัน

NVIDIA L4 GPU รีวิว ผู้นําการสรุปพลังงานต่ํา

March 13, 2026

ในคลื่นแห่งนวัตกรรมที่ไม่หยุดยั้งในภูมิทัศน์ AI ในปัจจุบัน การวัดและทำความเข้าใจขีดความสามารถของแพลตฟอร์มฮาร์ดแวร์ต่างๆ เป็นสิ่งสำคัญ แอปพลิเคชัน AI ไม่จำเป็นต้องใช้ฟาร์มฝึก GPU ขนาดใหญ่เสมอไป มีส่วนสำคัญของ AI สำหรับการอนุมาน (inferencing) ที่มักต้องการพลังงาน GPU น้อยกว่า โดยเฉพาะอย่างยิ่งที่ส่วนขอบ (edge) ในบทวิจารณ์นี้ เราจะตรวจสอบ NVIDIA L4 GPU หลายตัวบนเซิร์ฟเวอร์ Dell สามเครื่องและชุดเวิร์กโหลดที่หลากหลาย รวมถึง MLperf เพื่อประเมินประสิทธิภาพของ L4

NVIDIA L4

NVIDIA L4 GPU

โดยพื้นฐานแล้ว L4 ให้ประสิทธิภาพ FP32 ที่น่าประทับใจถึง 30.3 teraFLOPs ทำให้เหมาะสำหรับงานคำนวณที่มีความแม่นยำสูง ความสามารถของมันขยายไปถึงการคำนวณแบบผสมความแม่นยำ (mixed-precision) ผ่าน Tensor Cores แบบ TF32, FP16 และ BFLOAT16 ซึ่งเป็นคุณสมบัติสำคัญในการเพิ่มประสิทธิภาพการเรียนรู้เชิงลึก (deep learning) ตามเอกสารข้อมูลจำเพาะของ L4 ประสิทธิภาพในโหมดผสมความแม่นยำเหล่านี้มีตั้งแต่ 60 ถึง 121 teraFLOPs

L4 โดดเด่นในงานที่มีความแม่นยำต่ำ โดยมี FP8 และ INT8 Tensor Cores ถึง 242.5 teraFLOPs ซึ่งช่วยเพิ่มประสิทธิภาพการอนุมานโครงข่ายประสาทเทียม (neural network inferencing) ได้อย่างมาก ด้วยหน่วยความจำ GDDR6 ขนาด 24GB และแบนด์วิดท์ 300GB/s จึงสามารถจัดการชุดข้อมูลขนาดใหญ่และโมเดลที่ซับซ้อนได้อย่างง่ายดาย สิ่งที่โดดเด่นที่สุดเกี่ยวกับ L4 คือประสิทธิภาพการใช้พลังงาน: ด้วย TDP 72W จึงเหมาะสำหรับสภาพแวดล้อมการประมวลผลที่หลากหลาย การผสมผสานระหว่างประสิทธิภาพสูง ประสิทธิภาพหน่วยความจำ และการใช้พลังงานต่ำ ทำให้ NVIDIA L4 เป็นตัวเลือกที่น่าสนใจสำหรับการจัดการกับความท้าทายของการประมวลผลที่ส่วนขอบ

ข้อมูลจำเพาะของ NVIDIA L4
FP 32	30.3 teraFLOPs
TF32 Tensor Core	60 teraFLOPs
FP16 Tensor Core	121 teraFLOPs
BFLOAT16 Tensor Core	121 teraFLOPs
FP8 Tensor Core	242.5 teraFLOPs
INT8 Tensor Core	242.5 TOPs
หน่วยความจำ GPU	24GB GDDR6
แบนด์วิดท์หน่วยความจำ GPU	300GB/s
กำลังออกแบบระบายความร้อนสูงสุด (TDP)	72W
รูปแบบ	PCIe โปรไฟล์ต่ำ 1 สล็อต
การเชื่อมต่อ	PCIe Gen4 x16
ตารางข้อมูลจำเพาะ	L4

แน่นอนว่าด้วยราคา L4 ที่ประมาณ 2500 ดอลลาร์ A2 ที่มีราคาประมาณครึ่งหนึ่ง และ T4 ที่เก่ากว่า (แต่ยังคงมีความสามารถค่อนข้างดี) ที่มีราคาต่ำกว่า 1000 ดอลลาร์เมื่อใช้มือสอง คำถามที่ชัดเจนคือความแตกต่างระหว่าง GPU สำหรับการอนุมานทั้งสามนี้คืออะไร

ข้อมูลจำเพาะของ NVIDIA L4, A2 และ T4	NVIDIA L4	NVIDIA A2	NVIDIA T4
FP 32	30.3 teraFLOPs	4.5 teraFLOPs	8.1 teraFLOPs
TF32 Tensor Core	60 teraFLOPs	9 teraFLOPs	N/A
FP16 Tensor Core	121 teraFLOPs	18 teraFLOPs	N/A
BFLOAT16 Tensor Core	121 teraFLOPs	18 teraFLOPs	N/A
FP8 Tensor Core	242.5 teraFLOPs	N/A	N/A
INT8 Tensor Core	242.5 TOPs	36 TOPS	130 TOPS
หน่วยความจำ GPU	24GB GDDR6	16GB GDDR6	16GB GDDR6
แบนด์วิดท์หน่วยความจำ GPU	300GB/s	200GB/s	320+ GB/s
กำลังออกแบบระบายความร้อนสูงสุด (TDP)	72W	40-60W	70W
รูปแบบ	PCIe โปรไฟล์ต่ำ 1 สล็อต
การเชื่อมต่อ	PCIe Gen4 x16	PCIe Gen4 x8	PCIe Gen3 x16
ตารางข้อมูลจำเพาะ	L4	A2	T4

สิ่งหนึ่งที่ต้องเข้าใจเมื่อพิจารณากราฟทั้งสามนี้คือ พวกมันไม่ใช่การแทนที่รุ่นต่อรุ่นแบบตรงไปตรงมา ซึ่งอธิบายได้ว่าทำไม T4 จึงยังคงเป็นตัวเลือกยอดนิยมสำหรับบางกรณีการใช้งานมาหลายปีแล้ว A2 ออกมาเพื่อแทนที่ T4 ในฐานะตัวเลือกที่ใช้พลังงานต่ำและเข้ากันได้มากกว่า (x8 เทียบกับ x16 เชิงกล) ในทางเทคนิคแล้ว L4 จึงเป็นการแทนที่ T4 โดย A2 อยู่ตรงกลางระหว่างนั้น ซึ่งอาจจะมีการปรับปรุงในอนาคตหรือไม่ก็ได้

ประสิทธิภาพการอนุมาน MLPerf 3.1

MLPerf เป็นกลุ่มผู้นำด้าน AI จากสถาบันการศึกษา การวิจัย และอุตสาหกรรมที่ก่อตั้งขึ้นเพื่อจัดทำเกณฑ์มาตรฐานฮาร์ดแวร์และซอฟต์แวร์ AI ที่ยุติธรรมและเกี่ยวข้อง เกณฑ์มาตรฐานเหล่านี้ออกแบบมาเพื่อวัดประสิทธิภาพของฮาร์ดแวร์ ซอฟต์แวร์ และบริการการเรียนรู้ของเครื่องในงานและสถานการณ์ต่างๆ

การทดสอบของเรามุ่งเน้นไปที่เกณฑ์มาตรฐาน MLPerf สองรายการ ได้แก่ Resnet50 และ BERT

Resnet50: นี่คือโครงข่ายประสาทเทียมแบบคอนโวลูชัน (convolutional neural network) ที่ใช้สำหรับการจำแนกรูปภาพเป็นหลัก เป็นตัวบ่งชี้ที่ดีว่าระบบสามารถจัดการกับงานการเรียนรู้เชิงลึกที่เกี่ยวข้องกับการประมวลผลรูปภาพได้ดีเพียงใด
BERT (Bidirectional Encoder Representations from Transformers): เกณฑ์มาตรฐานนี้มุ่งเน้นไปที่งานประมวลผลภาษาธรรมชาติ (natural language processing) ให้ข้อมูลเชิงลึกเกี่ยวกับประสิทธิภาพของระบบในการทำความเข้าใจและประมวลผลภาษามนุษย์

การทดสอบทั้งสองนี้มีความสำคัญอย่างยิ่งต่อการประเมินขีดความสามารถของฮาร์ดแวร์ AI ในสถานการณ์จริงที่เกี่ยวข้องกับการประมวลผลรูปภาพและภาษา

การประเมิน NVIDIA L4 ด้วยเกณฑ์มาตรฐานเหล่านี้มีความสำคัญอย่างยิ่งในการช่วยทำความเข้าใจขีดความสามารถของ L4 GPU ในงาน AI ที่เฉพาะเจาะจง นอกจากนี้ยังให้ข้อมูลเชิงลึกเกี่ยวกับวิธีการที่การกำหนดค่าที่แตกต่างกัน (การตั้งค่าเดี่ยว คู่ และสี่ตัว) ส่งผลต่อประสิทธิภาพ ข้อมูลนี้มีความสำคัญอย่างยิ่งสำหรับมืออาชีพและองค์กรที่ต้องการเพิ่มประสิทธิภาพโครงสร้างพื้นฐาน AI ของตน

โมเดลทำงานภายใต้สองโหมดหลัก: Server และ Offline

โหมด Offline: โหมดนี้วัดประสิทธิภาพของระบบเมื่อข้อมูลทั้งหมดพร้อมสำหรับการประมวลผลพร้อมกัน เปรียบเสมือนการประมวลผลแบบแบตช์ (batch processing) ซึ่งระบบจะประมวลผลชุดข้อมูลขนาดใหญ่ในแบตช์เดียว โหมด Offline มีความสำคัญสำหรับสถานการณ์ที่ความหน่วง (latency) ไม่ใช่ข้อกังวลหลัก แต่ปริมาณงาน (throughput) และประสิทธิภาพเป็นสิ่งสำคัญ
โหมด Server: ในทางตรงกันข้าม โหมด Server จะประเมินประสิทธิภาพของระบบในสถานการณ์ที่เลียนแบบสภาพแวดล้อมเซิร์ฟเวอร์จริง ซึ่งคำขอเข้ามาทีละรายการ โหมดนี้มีความไวต่อความหน่วง โดยวัดว่าระบบสามารถตอบสนองต่อแต่ละคำขอได้เร็วเพียงใด มีความสำคัญสำหรับแอปพลิเคชันแบบเรียลไทม์ เช่น เว็บเซิร์ฟเวอร์หรือแอปพลิเคชันแบบโต้ตอบ ซึ่งจำเป็นต้องมีการตอบสนองทันที

1 x NVIDIA L4 – Dell PowerEdge XR7620

ในฐานะส่วนหนึ่งของการตรวจสอบ Dell PowerEdge XR7620 ล่าสุดของเรา ซึ่งติดตั้ง NVIDIA L4 เพียงตัวเดียว เราได้นำไปทดสอบที่ส่วนขอบเพื่อรันงานหลายอย่าง รวมถึง MLPerf

การกำหนดค่าระบบทดสอบของเราประกอบด้วยส่วนประกอบต่อไปนี้:

2 x Xeon Gold 6426Y – 16 คอร์ 2.5GHz
1 x NVIDIA L4
8 x 16GB DDR5
480GB BOSS RAID1
Ubuntu Server 22.04
NVIDIA Driver 535

Dell PowerEdge XR7620 1x NVIDIA L4	คะแนน
Resnet50 – Server	12,204.40
Resnet50 – Offline	13,010.20
BERT K99 – Server	898.945
BERT K99 – Offline	973.435

ประสิทธิภาพในสถานการณ์ Server และ Offline สำหรับ Resnet50 และ BERT K99 เกือบจะเหมือนกัน แสดงให้เห็นว่า L4 รักษาประสิทธิภาพที่สม่ำเสมอในโมเดลเซิร์ฟเวอร์ที่แตกต่างกัน

1, 2 & 4 NVIDIA L4’s – Dell PowerEdge T560

การกำหนดค่าหน่วยตรวจสอบของเราประกอบด้วยส่วนประกอบต่อไปนี้:

2 x Intel Xeon Gold 6448Y (32 คอร์/64 เธรดต่อตัว, 225 วัตต์ TDP, 2.1-4.1GHz)
8 x 1.6TB Solidigm P5520 SSD พร้อมการ์ด PERC 12 RAID
1-4x NVIDIA L4 GPUs
8 x 64GB RDIMMs
Ubuntu Server 22.04
NVIDIA Driver 535

เมื่อกลับมาที่ศูนย์ข้อมูลจากส่วนขอบและใช้เซิร์ฟเวอร์ Dell T560 Tower ที่มีความยืดหยุ่น เราสังเกตว่า L4 ทำงานได้ดีเช่นกันในการทดสอบ GPU เดี่ยว สิ่งนี้แสดงให้เห็นว่าทั้งสองแพลตฟอร์มสามารถให้พื้นฐานที่แข็งแกร่งแก่ L4 ได้โดยไม่มีคอขวด

Dell PowerEdge T560 1x NVIDIA L4	คะแนน
Resnet50 – Server	12,204.40
Resnet50 – Offline	12,872.10
Bert K99 – Server	898.945
Bert K99 – Offline	945.146

ในการทดสอบของเราด้วย L4 สองตัวใน Dell T560 เราสังเกตเห็นการปรับขนาดประสิทธิภาพที่เกือบจะเป็นเชิงเส้นสำหรับทั้งเกณฑ์มาตรฐาน Resnet50 และ BERT K99 การปรับขนาดนี้เป็นข้อพิสูจน์ถึงประสิทธิภาพของ L4 GPUs และความสามารถในการทำงานร่วมกันโดยไม่มีการสูญเสียที่สำคัญเนื่องจากค่าใช้จ่ายในการดำเนินงานหรือความไม่มีประสิทธิภาพ

Dell PowerEdge T560 2x NVIDIA L4	คะแนน
Resnet50 – Server	24,407.50
Resnet50 – Offline	25,463.20
BERT K99 – Server	1,801.28
BERT K99 – Offline	1,904.10

การปรับขนาดเชิงเส้นที่สม่ำเสมอที่เราสังเกตเห็นด้วย NVIDIA L4 GPUs สองตัว ขยายไปยังการกำหนดค่าที่มี L4 สี่ตัวได้อย่างน่าประทับใจ การปรับขนาดนี้มีความสำคัญอย่างยิ่ง เนื่องจากความพยายามในการรักษาผลกำไรเชิงเส้นให้ได้นั้นท้าทายมากขึ้นเรื่อยๆ กับ GPU ที่เพิ่มเข้ามาแต่ละตัว เนื่องจากความซับซ้อนของการประมวลผลแบบขนานและการจัดการทรัพยากร

Dell PowerEdge T560 4x NVIDIA L4	คะแนน
Resnet50 – Server	48,818.30
Resnet50 – Offline	51,381.70
BERT K99 – Server	3,604.96
BERT K99 – Offline	3,821.46

ผลลัพธ์เหล่านี้มีไว้เพื่อเป็นภาพประกอบเท่านั้น และไม่ใช่ผลลัพธ์ MLPerf ที่แข่งขันได้หรือเป็นทางการ สำหรับรายการผลลัพธ์อย่างเป็นทางการฉบับสมบูรณ์ โปรดไปที่หน้าผลลัพธ์ MLPerf

นอกเหนือจากการตรวจสอบความสามารถในการปรับขนาดเชิงเส้นของ NVIDIA L4 GPUs แล้ว การทดสอบของเราในห้องปฏิบัติการยังให้ข้อมูลเชิงลึกเกี่ยวกับผลกระทบในทางปฏิบัติของการปรับใช้หน่วยเหล่านี้ในสถานการณ์การดำเนินงานที่แตกต่างกัน ตัวอย่างเช่น ความสม่ำเสมอของประสิทธิภาพระหว่างโหมด Server และ Offline ในทุกการกำหนดค่าด้วย L4 GPUs แสดงให้เห็นถึงความน่าเชื่อถือและความอเนกประสงค์

แง่มุมนี้มีความเกี่ยวข้องอย่างยิ่งสำหรับธุรกิจและสถาบันวิจัยที่บริบทการดำเนินงานแตกต่างกันอย่างมาก นอกจากนี้ ข้อสังเกตของเราเกี่ยวกับผลกระทบที่น้อยที่สุดของคอขวดในการเชื่อมต่อและประสิทธิภาพของการซิงโครไนซ์ GPU ในการตั้งค่า multi-GPU ให้ข้อมูลเชิงลึกที่มีคุณค่าสำหรับผู้ที่ต้องการปรับขนาดโครงสร้างพื้นฐาน AI ของตน ข้อมูลเชิงลึกเหล่านี้ก้าวข้ามตัวเลขเกณฑ์มาตรฐานธรรมดาๆ โดยให้ความเข้าใจที่ลึกซึ้งยิ่งขึ้นว่าฮาร์ดแวร์ดังกล่าวสามารถนำไปใช้อย่างเหมาะสมที่สุดในสถานการณ์จริงได้อย่างไร ซึ่งนำไปสู่การตัดสินใจด้านสถาปัตยกรรมที่ดีขึ้นและกลยุทธ์การลงทุนในโครงสร้างพื้นฐาน AI และ HPC

NVIDIA L4 – ประสิทธิภาพแอปพลิเคชัน

เราเปรียบเทียบประสิทธิภาพของ NVIDIA L4 ใหม่กับ NVIDIA A2 และ NVIDIA T4 ที่มาก่อนหน้า เพื่อแสดงการอัปเกรดประสิทธิภาพนี้เมื่อเทียบกับรุ่นก่อนหน้า เราได้ปรับใช้ทั้งสามรุ่นภายในเซิร์ฟเวอร์ในห้องปฏิบัติการของเรา โดยใช้ Windows Server 2022 และไดรเวอร์ NVIDIA ล่าสุด โดยใช้ชุดทดสอบ GPU ทั้งหมดของเรา

การ์ดเหล่านี้ได้รับการทดสอบบน Dell Poweredge R760 ด้วยการกำหนดค่าต่อไปนี้:

2 x Intel Xeon Gold 6430 (32 คอร์, 2.1GHz)
Windows Server 2022
NVIDIA Driver 538.15
ปิด ECC บนการ์ดทั้งหมดสำหรับการสุ่มตัวอย่าง 1x

เมื่อเราเริ่มการทดสอบประสิทธิภาพระหว่างกลุ่ม GPU ระดับองค์กรทั้งสามนี้ สิ่งสำคัญคือต้องสังเกตความแตกต่างด้านประสิทธิภาพที่เป็นเอกลักษณ์ระหว่างรุ่น A2 และ T4 ก่อนหน้านี้ เมื่อ A2 เปิดตัว มันได้นำเสนอการปรับปรุงที่น่าสังเกตบางประการ เช่น การใช้พลังงานที่ต่ำลงและการทำงานบนสล็อต PCIe Gen4 x8 ที่เล็กกว่า แทนที่จะเป็นสล็อต PCIe Gen3 x16 ที่ใหญ่กว่าซึ่ง T4 รุ่นเก่าต้องการ ทำให้สามารถติดตั้งในระบบได้มากขึ้น โดยเฉพาะอย่างยิ่งด้วยขนาดที่เล็กลงที่จำเป็น

Blender OptiX 4.0

Blender OptiX เป็นแอปพลิเคชันสร้างแบบจำลอง 3 มิติแบบโอเพนซอร์ส การทดสอบนี้สามารถรันได้ทั้ง CPU และ GPU แต่เราทำเฉพาะ GPU เช่นเดียวกับการทดสอบอื่นๆ ส่วนใหญ่ที่นี่ เกณฑ์มาตรฐานนี้รันโดยใช้ยูทิลิตี้ Blender Benchmark CLI คะแนนคือตัวอย่างต่อนาที โดยยิ่งสูงยิ่งดี

Blender 4.0 (ยิ่งสูงยิ่งดี)	NVIDIA L4	NVIDIA A2	Nvidia T4
GPU Blender CLI – Monster	2,207.765	458.692	850.076
GPU Blender CLI – Junkshop	1,127.829	292.553	517.243
GPU Blender CLI – Classroom	1,111.753	262.387	478.786

Blackmagic RAW Speed Test

เราทดสอบ CPU และ GPU ด้วย Blackmagic’s RAW Speed Test ซึ่งทดสอบความเร็วในการเล่นวิดีโอ นี่เป็นการทดสอบแบบผสมผสานที่รวมประสิทธิภาพ CPU และ GPU สำหรับการถอดรหัส RAW ในโลกแห่งความเป็นจริง สิ่งเหล่านี้แสดงเป็นผลลัพธ์แยกต่างหาก แต่เรามุ่งเน้นเฉพาะ GPU เท่านั้น ดังนั้นผลลัพธ์ CPU จึงถูกละเว้น

Blackmagic RAW Speed Test (ยิ่งสูงยิ่งดี)	NVIDIA L4	NVIDIA A2	NVIDIA T4
8K CUDA	95 FPS	38 FPS	53 FPS

Cinebench 2024 GPU

Maxon’s Cinebench 2024 เป็นเกณฑ์มาตรฐานการเรนเดอร์ CPU และ GPU ที่ใช้คอร์และเธรด CPU ทั้งหมด อีกครั้ง เนื่องจากเรามุ่งเน้นที่ผลลัพธ์ GPU เราจึงไม่ได้รันส่วน CPU ของการทดสอบ คะแนนที่สูงขึ้นจะดีกว่า

Cinebench 2024 (ยิ่งสูงยิ่งดี)	NVIDIA L4	NVIDIA A2	NVIDIA T4
GPU	15,263	4,006	5,644

GPU PI

GPUPI 3.3.3 เป็นเวอร์ชันของยูทิลิตี้การวัดประสิทธิภาพน้ำหนักเบาที่ออกแบบมาเพื่อคำนวณ π (pi) เป็นพันล้านทศนิยมโดยใช้การเร่งด้วยฮาร์ดแวร์ผ่าน GPU และ CPU มันใช้ประโยชน์จากพลังการประมวลผลของ OpenCL และ CUDA ซึ่งรวมถึงหน่วยประมวลผลกลางและกราฟิก เราได้รัน CUDA เท่านั้นบน GPU ทั้ง 3 ตัว และตัวเลขที่นี่คือเวลาในการคำนวณโดยไม่รวมเวลาลดทอน ยิ่งต่ำยิ่งดี

เวลาคำนวณ GPU PI เป็นวินาที (ยิ่งต่ำยิ่งดี)	NVIDIA L4	NVIDIA A2	NVIDIA T4
GPUPI v3.3 – 1B	3.732s	19.799s	7.504s
GPUPI v3.3 – 32B	244.380s	1,210.801s	486.231s

แม้ว่าผลลัพธ์ก่อนหน้านี้จะพิจารณาเพียงการวนซ้ำเดียวของการ์ดแต่ละใบ เราก็ยังมีโอกาสได้พิจารณาการปรับใช้ NVIDIA L4 แบบ 5x ภายใน Dell PowerEdge T560

เวลาคำนวณ GPU PI เป็นวินาที (ยิ่งต่ำยิ่งดี)	Dell PowerEdge T560 (2x Xeon Gold 6448Y) พร้อม 5x NVIDIA L4
GPUPI v3.3 – 1B	0วินาที 850มิลลิวินาที
GPUPI v3.3 – 32B	50วินาที 361มิลลิวินาที

Octanebench

OctaneBench เป็นยูทิลิตี้การวัดประสิทธิภาพสำหรับ OctaneRender ซึ่งเป็นโปรแกรมเรนเดอร์ 3 มิติอีกตัวที่มีการรองรับ RTX คล้ายกับ V-Ray

Octane (ยิ่งสูงยิ่งดี)
ฉาก	Kernel	NVIDIA L4	NVIDIA A2	NVIDIA T4
ภายใน	ช่องข้อมูล	15.59	4.49	6.39
	แสงโดยตรง	50.85	14.32	21.76
	การติดตามเส้นทาง	64.02	18.46	25.76
ไอเดีย	ช่องข้อมูล	9.30	2.77	3.93
	แสงโดยตรง	39.34	11.53	16.79
	การติดตามเส้นทาง	48.24	14.21	20.32
ATV	ช่องข้อมูล	24.38	6.83	9.50
	แสงโดยตรง	54.86	16.05	21.98
	การติดตามเส้นทาง	68.98	20.06	27.50
กล่อง	ช่องข้อมูล	12.89	3.88	5.42
	แสงโดยตรง	48.80	14.59	21.36
	การติดตามเส้นทาง	54.56	16.51	23.85
คะแนนรวม		491.83	143.71	204.56

Geekbench 6 GPU

Geekbench 6 เป็นเกณฑ์มาตรฐานข้ามแพลตฟอร์มที่วัดประสิทธิภาพโดยรวมของระบบ มีตัวเลือกการทดสอบสำหรับการวัดประสิทธิภาพทั้ง CPU และ GPU คะแนนที่สูงขึ้นจะดีกว่า อีกครั้ง เราพิจารณาเฉพาะผลลัพธ์ GPU เท่านั้น

คุณสามารถเปรียบเทียบกับระบบใดก็ได้ที่คุณต้องการใน Geekbench Browser

Geekbench 6.1.0 (ยิ่งสูงยิ่งดี)	NVIDIA L4	NVIDIA A2	NVIDIA T4
Geekbench GPU OpenCL	156,224	35,835	83,046

Luxmark

LuxMark เป็นเครื่องมือวัดประสิทธิภาพข้ามแพลตฟอร์ม OpenCL จากผู้ดูแลเอนจิ้นเรนเดอร์ 3 มิติโอเพนซอร์ส LuxRender เครื่องมือนี้พิจารณาประสิทธิภาพ GPU ในการสร้างแบบจำลอง 3 มิติ แสง และงานวิดีโอ สำหรับบทวิจารณ์นี้ เราใช้เวอร์ชันล่าสุด v4alpha0 ใน LuxMark คะแนนที่สูงขึ้นจะดีกว่าเมื่อเทียบกับคะแนน

Luxmark v4.0alpha0 OpenCL GPUs (ยิ่งสูงยิ่งดี)	NVIDIA L4	NVIDIA A2	NVIDIA T4
Hall Bench	14,328	3,759	5,893
Food Bench	5,330	1,258	2,033

GROMACS CUDA

เรายังได้จัดหา GROMACS ซึ่งเป็นซอฟต์แวร์พลวัตโมเลกุลที่คอมไพล์มาโดยเฉพาะสำหรับ CUDA การคอมไพล์แบบกำหนดเองนี้มีวัตถุประสงค์เพื่อใช้ประโยชน์จากความสามารถในการประมวลผลแบบขนานของ NVIDIA L4 GPUs 5 ตัว ซึ่งจำเป็นสำหรับการเร่งการจำลองเชิงคำนวณ

กระบวนการนี้เกี่ยวข้องกับการใช้ nvcc ซึ่งเป็นคอมไพเลอร์ CUDA ของ NVIDIA พร้อมกับการวนซ้ำหลายครั้งของแฟล็กการปรับให้เหมาะสมที่เหมาะสมเพื่อให้แน่ใจว่าไบนารีได้รับการปรับแต่งอย่างเหมาะสมกับสถาปัตยกรรมของเซิร์ฟเวอร์ การรวมการรองรับ CUDA ในการคอมไพล์ GROMACS ช่วยให้ซอฟต์แวร์สามารถโต้ตอบโดยตรงกับฮาร์ดแวร์ GPU ซึ่งสามารถปรับปรุงเวลาการคำนวณสำหรับการจำลองที่ซับซ

PREV: Samsung 990 EVO Plus SSD รีวิว

NEXT: CoolIT Systems เปิดตัว CDU ใหม่สําหรับ AI และ HPC Cooling Solutions

รายละเอียดการติดต่อ

Beijing Qianxing Jietong Technology Co., Ltd.

ผู้ติดต่อ: Ms. Sandy Yang

โทร: 13426366826

เกี่ยวกับ

เซิร์ฟเวอร์จัดเก็บข้อมูลแร็ค: 12 Bays 1U ที่วางแร็ค Server Lenovo ThinkSystem SR630 ชั้นวาง Server; Think System SR250 V2 4SFF เซิร์ฟเวอร์จัดเก็บข้อมูลแร็ค Intel Xeon E-2378G Processor; เซิร์ฟเวอร์จัดเก็บข้อมูลแร็ค Intel C621A Inspur NF5180M6 1U ชั้นวาง Mount Server

Huawei เซิร์ฟเวอร์ฟิวชั่น: เซิร์ฟเวอร์ฟิวชั่น 5288 V6 4U แร็คเซิร์ฟเวอร์ 32 DDR4 DIMM 44 ฮาร์ดดิสก์ 3.5 นิ้ว; เซิร์ฟเวอร์จัดเก็บข้อมูลเครือข่าย Huawei Fusion 1U ความหนาแน่นสูงพิเศษ 1288H V5; ใหม่ Gen OceanStor 5310 Huawei ชั้นวาง Server Hybrid Flash Storage

ทิ้งข้อความไว้