logo
บ้าน กรณี

NVIDIA DGX Spark Cluster Review: การสรุปกระจายบน Dell, GIGABYTE และ HP

ได้รับการรับรอง
จีน Beijing Qianxing Jietong Technology Co., Ltd. รับรอง
จีน Beijing Qianxing Jietong Technology Co., Ltd. รับรอง
ความคิดเห็นของลูกค้า
พนักงานขายของ Beijing Qianxing Jietong Technology Co. , Ltd เป็นมืออาชีพและอดทนมาก พวกเขาสามารถให้ใบเสนอราคาได้อย่างรวดเร็ว คุณภาพและบรรจุภัณฑ์ของผลิตภัณฑ์ก็ดีมากเช่นกัน ความร่วมมือของเราเป็นไปอย่างราบรื่น

—— 《Festfing DV》 LLC

เมื่อฉันกำลังมองหา Intel CPU และ Toshiba SSD อย่างเร่งด่วน Sandy จาก Beijing Qianxing Jietong Technology Co., Ltd ให้ความช่วยเหลืออย่างมากและได้ผลิตภัณฑ์ที่ฉันต้องการอย่างรวดเร็ว ฉันชื่นชมเธอจริงๆ

—— คิตตี้ เยน

แซนดี้แห่งปักกิ่ง Qianxing Jietong Technology Co. , Ltd เป็นพนักงานขายที่ระมัดระวัง ซึ่งสามารถเตือนฉันถึงข้อผิดพลาดในการกำหนดค่าในเวลาที่ฉันซื้อเซิร์ฟเวอร์ วิศวกรมีความเป็นมืออาชีพมากและสามารถดำเนินการทดสอบให้เสร็จสิ้นได้อย่างรวดเร็ว

—— Strelkin Mikhail Vladimirovich

เรามีความสุขมากกับประสบการณ์การทำงานกับ Beijing Qianxing Jietong คุณภาพของผลิตภัณฑ์ยอดเยี่ยมและการจัดส่งตรงเวลาเสมอ ทีมขายของพวกเขามืออาชีพ อดทน และช่วยเหลือดีมากกับคำถามทั้งหมดของเรา เราขอขอบคุณการสนับสนุนของพวกเขาอย่างแท้จริงและหวังว่าจะได้ร่วมงานกันในระยะยาว แนะนำเป็นอย่างยิ่ง!

—— Ahmad Navid

คุณภาพ: ประสบการณ์ที่ดีกับผู้จําหน่ายของฉัน The MikroTik RB3011 ได้ถูกใช้แล้ว แต่มันอยู่ในสภาพที่ดีมาก และทุกอย่างทํางานอย่างสมบูรณ์แบบ การสื่อสารเร็วและเรียบร้อยและความกังวลทั้งหมดของฉันถูกแก้ไขอย่างรวดเร็วซัพพลายเออร์ที่น่าเชื่อถือมาก แนะนํามาก

—— เจรัน โคเลซิโอ

สนทนาออนไลน์ตอนนี้ฉัน

NVIDIA DGX Spark Cluster Review: การสรุปกระจายบน Dell, GIGABYTE และ HP

May 15, 2026
คุณลักษณะที่กำหนดสองประการที่โดดเด่นสำหรับ NVIDIA DGX Spark: หน่วยความจำรวม 128GB ในหน่วยเดสก์ท็อปราคา 4,000 ดอลลาร์ และเครือข่ายระดับศูนย์ข้อมูล 200Gb ในตัว โครงสร้างความเร็วสูงนี้สร้างความแตกต่างจากเวิร์กสเตชันทั่วไป ช่วยให้สามารถทำคลัสเตอร์แบบหลายโหนดได้เฉพาะเซิร์ฟเวอร์แบบติดตั้งบนชั้นวางเท่านั้น การตรวจสอบเกณฑ์มาตรฐานนี้กระจายการอนุมานระหว่างรุ่นต่างๆ ของ Dell, GIGABYTE และ HP Spark ในคลัสเตอร์ 200GbE แบบสองโหนดในรุ่นและปริมาณงานที่หลากหลาย นอกจากนี้ยังวิเคราะห์ไปป์ไลน์ความขนาน (PP) ซึ่งเป็นวิธีการแยกทางเลือกที่มีประสิทธิภาพเหนือกว่าเทนเซอร์ขนาน (TP) เริ่มต้นของ NVIDIA

กรณี บริษัท ล่าสุดเกี่ยวกับ NVIDIA DGX Spark Cluster Review: การสรุปกระจายบน Dell, GIGABYTE และ HP  0

โครงสร้างเครือข่าย 200Gb


Spark แต่ละตัวติดตั้ง QSFP56 Cage สองตัวที่จับคู่กับ ConnectX-7 SmartNIC ในตัว ถูกจำกัดโดยแบนด์วิธ PCIe Gen5 x4 ความเร็วเครือข่ายที่ใช้งานได้สูงสุดที่ 200Gb โดยมีหนึ่งพอร์ตเพียงพอสำหรับแบนด์วิธเต็ม พอร์ตที่สองนำเสนอความยืดหยุ่นของโทโพโลยี มีการกำหนดค่าทั่วไปสามแบบ: ลิงก์ Spark-to-Spark 200Gb โดยตรง, โทโพโลยีริงแบบไม่มีสวิตช์ผ่านพอร์ต 100Gb คู่ และการทำคลัสเตอร์แบบไฮบริดพร้อมการเข้าถึงพื้นที่จัดเก็บข้อมูลความเร็วสูง NVMe-oF NVIDIA จำหน่ายเดสก์ท็อปหน่วยเดียว คลัสเตอร์สองโหนดที่ได้รับการตรวจสอบ และการตั้งค่าสี่โหนดที่เพิ่งเปิดตัว การกำหนดค่า dual-Spark เป็นวิธีที่ใช้งานได้จริงที่สุดสำหรับการอนุมานในรูปแบบการใช้งานจริงและจุดเน้นของการทดสอบนี้

กรณี บริษัท ล่าสุดเกี่ยวกับ NVIDIA DGX Spark Cluster Review: การสรุปกระจายบน Dell, GIGABYTE และ HP  1

เหตุผลสำหรับการทำคลัสเตอร์ Spark


ประโยชน์หลักคือการขยายความจุของโมเดล: Spark ที่เชื่อมโยงกันสองตัวสามารถเรียกใช้โมเดลพารามิเตอร์ 120B ที่เกินขีดจำกัดหน่วยความจำหน่วยเดียวได้ ที่สำคัญกว่านั้น แพลตฟอร์มนี้ทำหน้าที่เป็นเครื่องมือทางการศึกษาราคาไม่แพง NVIDIA ออกแบบ Spark สำหรับผู้เริ่มต้นเพื่อเรียนรู้เวิร์กโฟลว์ AI พร้อมคำแนะนำอย่างเป็นทางการที่ครอบคลุมการปรับใช้โมเดล การปรับแต่งอย่างละเอียด และการพัฒนา PyTorch/JAX คลัสเตอร์แบบโหนดคู่ยังสอนเพิ่มเติมเกี่ยวกับความขนานแบบหลายโหนดและการวิเคราะห์คอขวดของเครือข่ายโดยไม่ต้องใช้ฮาร์ดแวร์ศูนย์ข้อมูลที่มีราคาแพง โดยเฉพาะอย่างยิ่ง Spark ไม่ได้รับการปรับให้เหมาะสมสำหรับการอนุมานการผลิต จำกัดโดยแบนด์วิธหน่วยความจำและเวลาแฝงระหว่างโหนด ลิงก์ 200GbE จึงช้ากว่าการเชื่อมต่อ PCIe ภายใน คลัสเตอร์ขนาดใหญ่ประสบปัญหาประสิทธิภาพการทำงานลดลงอย่างมาก โดยมีปริมาณงานโทเค็นต่ำ ซึ่งจำกัดไว้สำหรับการใช้งานด้านการศึกษามากกว่าการให้บริการเชิงพาณิชย์

การทดสอบประสิทธิภาพ: PP กับ TP


การเลือกกลยุทธ์ความเท่าเทียม


NVIDIA ตั้งค่าเริ่มต้นเป็น TP ซึ่งจะแยกเลเยอร์หม้อแปลงแต่ละชั้นออกเป็น GPU สองตัวโดยมีการแลกเปลี่ยนข้อมูลแบบลดทั้งหมดบ่อยครั้ง ในทางตรงกันข้าม PP แบ่งโมเดลตามเลเยอร์ โดยถ่ายโอนการเปิดใช้งานระหว่างโหนดเพียงครั้งเดียว บนลิงก์ 200GbE นั้น PP จะย่อการสื่อสารข้ามโหนดให้เหลือน้อยที่สุด สำหรับรุ่นขนาดใหญ่ที่มีปริมาณการผลิตจำนวนมาก PP มีประสิทธิภาพเหนือกว่า TP อย่างมากมาย TP ทำได้ดีเยี่ยมในสถานการณ์การแชทที่มีเวลาแฝงต่ำคำขอเดียวเท่านั้น
การทดสอบบน GPT-OSS-120B ยืนยันช่องว่างนี้ ที่ขนาดแบทช์ 128 PP สูงถึง 554.69 tok/s (เร็วกว่า TP 2.20 เท่า) ในปริมาณงานที่สมดุล 310.63 tok/s เทียบกับ 164.99 tok/s ในงานที่กรอกข้อมูลล่วงหน้าจำนวนมาก TP ลีดที่ขนาดแบทช์ 1 เท่านั้น สำหรับรุ่นขนาดเล็ก เช่น Llama-3.1-8B นั้น TP ครองขนาดแบทช์ส่วนใหญ่เนื่องจากการคำนวณเลเยอร์น้ำหนักเบา โดยที่ PP แซงหน้า TP เพียงแต่มีการทำงานพร้อมกันสูงเท่านั้น

ผลลัพธ์เกณฑ์มาตรฐานหลายรุ่น (PP=2)


ซีรี่ส์ GPT-OSS


สำหรับ GPT-OSS-120B ปริมาณงานสูงสุดที่เติมไว้ล่วงหน้าของ HP ในปริมาณงานที่สมดุล (504.88 tok/s) และการเติมล่วงหน้าจำนวนมาก (441.63 tok/s) GIGABYTE นำการทดสอบการถอดรหัสอย่างหนัก (494.37 tok/s) สำหรับ GPT-OSS-20B นั้น Dell ครองสถานการณ์ที่สมดุล (976.77 tok/s) และ prefill-heavy (852.39 tok/s) ในขณะที่ GIGABYTE เป็นผู้นำในการถอดรหัส (945.55 tok/s)

Llama 3.1 8B รุ่นต่างๆ


ในความแม่นยำ BF16 นั้น Dell นำเวิร์กโหลดที่สมดุล (689.53 tok/s) และถอดรหัสหนัก (581.43 tok/s) GIGABYTE ชนะการทดสอบแบบเติมล่วงหน้าอย่างหนัก (539.27 tok/s) การเพิ่มประสิทธิภาพ FP4 ช่วยเพิ่มปริมาณงานได้อย่างมาก: GIGABYTE นำงานที่สมดุล (1458.86 tok/s) และงานที่ต้องกรอกข้อมูลล่วงหน้าหนัก (954.23 tok/s) สำหรับ FP8 นั้น Dell รักษาลีดที่แคบในสถานการณ์ที่สมดุล (1105.42 tok/s) และถอดรหัสหนัก (862.33 tok/s)

โมเดลมิสทรัลและเควน


Mistral Small 3.1 24B มีช่องว่างน้อยที่สุด: GIGABYTE สูงสุดที่ 255.09 tok/s ในเวิร์กโหลดที่สมดุล สำหรับ Qwen3 Coder 30B (ฐาน A3B), GIGABYTE นำงานพรีฟิลหนักๆ (1862.40 tok/s); Dell เป็นเลิศในสถานการณ์การถอดรหัส ภายใต้การหาปริมาณ FB8 นั้น GIGABYTE มีทรูพุตที่กรอกข้อมูลล่วงหน้าจำนวนมาก (3088.62 tok/s) ในขณะที่ Dell เป็นผู้นำในการถอดรหัส (705.77 tok/s)

สรุปเอาต์พุตสูงสุดของ Dual Spark Systems


แบบอย่าง
สถานการณ์ (BS – 64)
เอาท์พุตสูงสุดของเดลล์
GIGABYTE เอาต์พุตสูงสุด
HP เอาท์พุตสูงสุด
GPT-OSS-120B
ISL/OSL เท่ากัน
463.97 ตอค/วินาที
497.26 ทอค/วินาที
504.88 ตอค/วินาที
GPT-OSS-120B
เติมหนักไว้ก่อน
419.56 ตอค/วินาที
417.34 ต็อค/วินาที
441.63 ทอค/วินาที
GPT-OSS-120B
ถอดรหัสหนัก
451.18 ทอค/วินาที
494.37 ต็อค/วินาที
474.85 ตอค/วินาที
GPT-OSS-20B
ISL/OSL เท่ากัน
976.77 ตอค/วินาที
952.31 ต็อค/วินาที
915.72 ตอค/วินาที
GPT-OSS-20B
เติมหนักไว้ก่อน
852.39 ต็อค/วินาที
802.37 ทอค/วินาที
757.05 ทอค/วินาที
GPT-OSS-20B
ถอดรหัสหนัก
938.65 ตอค/วินาที
945.55 ตอค/วินาที
865.78 ตอค/วินาที
Llama-3.1-8B-คำสั่ง
ISL/OSL เท่ากัน
689.53 ตอค/วินาที
687.48 ต็อค/วินาที
618.87 ตอค/วินาที
Llama-3.1-8B-คำสั่ง
เติมหนักไว้ก่อน
515.45 ตอค/วินาที
539.27 ตอค/วินาที
463.39 ต็อค/วินาที
Llama-3.1-8B-คำสั่ง
ถอดรหัสหนัก
581.43 ต็อค/วินาที
576.91 ตอค/วินาที
531.07 ตอค/วินาที
ลามะ-3.1-8B-FP4
ISL/OSL เท่ากัน
1427.39 ต็อค/วินาที
1458.86 ต็อค/วินาที
1413.51 ทอค/วินาที
ลามะ-3.1-8B-FP4
เติมหนักไว้ก่อน
884.22 ทอค/วินาที
954.23 ทอค/วินาที
843.57 ตอค/วินาที
ลามะ-3.1-8B-FP4
ถอดรหัสหนัก
1,008.98 ทอค/วินาที
1,007.23 ทอค/วินาที
943.73 ต็อค/วินาที
ลามะ-3.1-8B-FP8
ISL/OSL เท่ากัน
1105.42 ทอค/วินาที
1,089.85 ทอค/วินาที
1,076.68 ทอค/วินาที
ลามะ-3.1-8B-FP8
เติมหนักไว้ก่อน
759.50 ตอค/วินาที
827.40 ต็อค/วินาที
725.51 ตอค/วินาที
ลามะ-3.1-8B-FP8
ถอดรหัสหนัก
862.33 ต็อค/วินาที
855.81 ต็อค/วินาที
800.78 ตอค/วินาที
มิสทรัล-เล็ก-3.1-24B
ISL/OSL เท่ากัน
249.77 ต็อค/วินาที
255.09 ต็อค/วินาที
239.09 ต็อค/วินาที
มิสทรัล-เล็ก-3.1-24B
เติมหนักไว้ก่อน
216.01 ทอค/วินาที
214.38 ต็อค/วินาที
197.92 ตอค/วินาที
มิสทรัล-เล็ก-3.1-24B
ถอดรหัสหนัก
238.44 ต็อค/วินาที
237.97 ตอค/วินาที
221.41 ต็อค/วินาที


บทสรุป


ยูนิต Dell, GIGABYTE และ HP Spark มอบช่องว่างด้านประสิทธิภาพเล็กน้อย โดยมีโอกาสในการขายเฉพาะกลุ่มเล็กน้อย การตัดสินใจซื้อควรให้ความสำคัญกับการออกแบบแชสซี ประสิทธิภาพการระบายความร้อน การรับประกัน และการสนับสนุนหลังการขาย มากกว่าความแตกต่างเกณฑ์มาตรฐานเล็กน้อย กลยุทธ์ความเท่าเทียมส่งผลกระทบมากกว่ารูปแบบ OEM มาก: PP มีประสิทธิภาพเหนือกว่า TP สำหรับการอนุมานแบบแบตช์ ในขณะที่ TP เหมาะกับการโต้ตอบที่มีเวลาแฝงต่ำแบบสตรีมเดียว คำแนะนำ TP ของ NVIDIA สอดคล้องกับตำแหน่งของ Spark ในฐานะอุปกรณ์การเรียนรู้เชิงโต้ตอบมากกว่าโครงสร้างพื้นฐานด้านการผลิต คลัสเตอร์ Spark แบบดูอัลโหนดทำหน้าที่เป็นแพลตฟอร์มการสอนราคาไม่แพงสำหรับ AI แบบกระจาย การทดสอบในอนาคตจะครอบคลุมคลัสเตอร์ขนาดใหญ่ขึ้นและการฝึกอบรมโมเดลขนาดเล็กแบบ end-to-end ซึ่งอยู่ระหว่างการพิจารณาปรับใช้สวิตช์ 800Gb ในห้องปฏิบัติการ

Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/ผู้อำนวยการฝ่ายกลยุทธ์ระดับโลก
WhatsApp / WeChat: +86 13426366826
อีเมล: yangyd@qianxingdata.com
เว็บไซต์: www.qianxingdata.com/www.storagesserver.com
มุ่งเน้นธุรกิจ:
การจัดจำหน่ายผลิตภัณฑ์ ICT/บูรณาการระบบและบริการ/โซลูชั่นโครงสร้างพื้นฐาน
ด้วยประสบการณ์การจัดจำหน่ายด้านไอทีมากกว่า 20 ปี เราร่วมมือกับแบรนด์ชั้นนำระดับโลกเพื่อนำเสนอผลิตภัณฑ์ที่เชื่อถือได้และบริการระดับมืออาชีพ
“ใช้เทคโนโลยีเพื่อสร้างโลกอัจฉริยะ” ผู้ให้บริการผลิตภัณฑ์ ICT ที่เชื่อถือได้ของคุณ!
รายละเอียดการติดต่อ
Beijing Qianxing Jietong Technology Co., Ltd.

ผู้ติดต่อ: Ms. Sandy Yang

โทร: 13426366826

ส่งคำถามของคุณกับเราโดยตรง (0 / 3000)