บ้าน กรณี

NVIDIA DGX Spark Cluster Review: การสรุปกระจายบน Dell, GIGABYTE และ HP

ผลิตภัณฑ์ทั้งหมด

เซิร์ฟเวอร์จัดเก็บข้อมูลแร็ค
(165)

Huawei เซิร์ฟเวอร์ฟิวชั่น
(31)

เซิร์ฟเวอร์ Dell Poweredge
(59)

เซิร์ฟเวอร์ H3C
(31)

สวิตช์ ดาต้าคอม
(96)

อุปกรณ์ WLAN
(21)

เราเตอร์ไร้สายอัจฉริยะ
(10)

ฮาร์ดไดรฟ์ HDD
(78)

ฮาร์ดไดรฟ์ภายใน SSD
(16)

การ์ดจอ Geforce
(27)

โปรเซสเซอร์ INTEL CPU
(20)

หน่วยความจำเซิร์ฟเวอร์ RAM
(6)

เซิร์ฟเวอร์จัดเก็บข้อมูลที่ตกแต่งใหม่
(6)

โมดูลตัวรับส่งสัญญาณ SFP
(4)

สวิตช์ช่องสัญญาณไฟเบอร์
(42)

ได้รับการรับรอง

จีน Beijing Qianxing Jietong Technology Co., Ltd. รับรอง

ความคิดเห็นของลูกค้า

พนักงานขายของ Beijing Qianxing Jietong Technology Co. , Ltd เป็นมืออาชีพและอดทนมาก พวกเขาสามารถให้ใบเสนอราคาได้อย่างรวดเร็ว คุณภาพและบรรจุภัณฑ์ของผลิตภัณฑ์ก็ดีมากเช่นกัน ความร่วมมือของเราเป็นไปอย่างราบรื่น

—— 《Festfing DV》 LLC

เมื่อฉันกำลังมองหา Intel CPU และ Toshiba SSD อย่างเร่งด่วน Sandy จาก Beijing Qianxing Jietong Technology Co., Ltd ให้ความช่วยเหลืออย่างมากและได้ผลิตภัณฑ์ที่ฉันต้องการอย่างรวดเร็ว ฉันชื่นชมเธอจริงๆ

—— คิตตี้ เยน

แซนดี้แห่งปักกิ่ง Qianxing Jietong Technology Co. , Ltd เป็นพนักงานขายที่ระมัดระวัง ซึ่งสามารถเตือนฉันถึงข้อผิดพลาดในการกำหนดค่าในเวลาที่ฉันซื้อเซิร์ฟเวอร์ วิศวกรมีความเป็นมืออาชีพมากและสามารถดำเนินการทดสอบให้เสร็จสิ้นได้อย่างรวดเร็ว

—— Strelkin Mikhail Vladimirovich

เรามีความสุขมากกับประสบการณ์การทำงานกับ Beijing Qianxing Jietong คุณภาพของผลิตภัณฑ์ยอดเยี่ยมและการจัดส่งตรงเวลาเสมอ ทีมขายของพวกเขามืออาชีพ อดทน และช่วยเหลือดีมากกับคำถามทั้งหมดของเรา เราขอขอบคุณการสนับสนุนของพวกเขาอย่างแท้จริงและหวังว่าจะได้ร่วมงานกันในระยะยาว แนะนำเป็นอย่างยิ่ง!

—— Ahmad Navid

คุณภาพ: ประสบการณ์ที่ดีกับผู้จําหน่ายของฉัน The MikroTik RB3011 ได้ถูกใช้แล้ว แต่มันอยู่ในสภาพที่ดีมาก และทุกอย่างทํางานอย่างสมบูรณ์แบบ การสื่อสารเร็วและเรียบร้อยและความกังวลทั้งหมดของฉันถูกแก้ไขอย่างรวดเร็วซัพพลายเออร์ที่น่าเชื่อถือมาก แนะนํามาก

—— เจรัน โคเลซิโอ

สนทนาออนไลน์ตอนนี้ฉัน

NVIDIA DGX Spark Cluster Review: การสรุปกระจายบน Dell, GIGABYTE และ HP

May 15, 2026

คุณลักษณะที่กำหนดสองประการที่โดดเด่นสำหรับ NVIDIA DGX Spark: หน่วยความจำรวม 128GB ในหน่วยเดสก์ท็อปราคา 4,000 ดอลลาร์ และเครือข่ายระดับศูนย์ข้อมูล 200Gb ในตัว โครงสร้างความเร็วสูงนี้สร้างความแตกต่างจากเวิร์กสเตชันทั่วไป ช่วยให้สามารถทำคลัสเตอร์แบบหลายโหนดได้เฉพาะเซิร์ฟเวอร์แบบติดตั้งบนชั้นวางเท่านั้น การตรวจสอบเกณฑ์มาตรฐานนี้กระจายการอนุมานระหว่างรุ่นต่างๆ ของ Dell, GIGABYTE และ HP Spark ในคลัสเตอร์ 200GbE แบบสองโหนดในรุ่นและปริมาณงานที่หลากหลาย นอกจากนี้ยังวิเคราะห์ไปป์ไลน์ความขนาน (PP) ซึ่งเป็นวิธีการแยกทางเลือกที่มีประสิทธิภาพเหนือกว่าเทนเซอร์ขนาน (TP) เริ่มต้นของ NVIDIA

โครงสร้างเครือข่าย 200Gb

Spark แต่ละตัวติดตั้ง QSFP56 Cage สองตัวที่จับคู่กับ ConnectX-7 SmartNIC ในตัว ถูกจำกัดโดยแบนด์วิธ PCIe Gen5 x4 ความเร็วเครือข่ายที่ใช้งานได้สูงสุดที่ 200Gb โดยมีหนึ่งพอร์ตเพียงพอสำหรับแบนด์วิธเต็ม พอร์ตที่สองนำเสนอความยืดหยุ่นของโทโพโลยี มีการกำหนดค่าทั่วไปสามแบบ: ลิงก์ Spark-to-Spark 200Gb โดยตรง, โทโพโลยีริงแบบไม่มีสวิตช์ผ่านพอร์ต 100Gb คู่ และการทำคลัสเตอร์แบบไฮบริดพร้อมการเข้าถึงพื้นที่จัดเก็บข้อมูลความเร็วสูง NVMe-oF NVIDIA จำหน่ายเดสก์ท็อปหน่วยเดียว คลัสเตอร์สองโหนดที่ได้รับการตรวจสอบ และการตั้งค่าสี่โหนดที่เพิ่งเปิดตัว การกำหนดค่า dual-Spark เป็นวิธีที่ใช้งานได้จริงที่สุดสำหรับการอนุมานในรูปแบบการใช้งานจริงและจุดเน้นของการทดสอบนี้

เหตุผลสำหรับการทำคลัสเตอร์ Spark

ประโยชน์หลักคือการขยายความจุของโมเดล: Spark ที่เชื่อมโยงกันสองตัวสามารถเรียกใช้โมเดลพารามิเตอร์ 120B ที่เกินขีดจำกัดหน่วยความจำหน่วยเดียวได้ ที่สำคัญกว่านั้น แพลตฟอร์มนี้ทำหน้าที่เป็นเครื่องมือทางการศึกษาราคาไม่แพง NVIDIA ออกแบบ Spark สำหรับผู้เริ่มต้นเพื่อเรียนรู้เวิร์กโฟลว์ AI พร้อมคำแนะนำอย่างเป็นทางการที่ครอบคลุมการปรับใช้โมเดล การปรับแต่งอย่างละเอียด และการพัฒนา PyTorch/JAX คลัสเตอร์แบบโหนดคู่ยังสอนเพิ่มเติมเกี่ยวกับความขนานแบบหลายโหนดและการวิเคราะห์คอขวดของเครือข่ายโดยไม่ต้องใช้ฮาร์ดแวร์ศูนย์ข้อมูลที่มีราคาแพง โดยเฉพาะอย่างยิ่ง Spark ไม่ได้รับการปรับให้เหมาะสมสำหรับการอนุมานการผลิต จำกัดโดยแบนด์วิธหน่วยความจำและเวลาแฝงระหว่างโหนด ลิงก์ 200GbE จึงช้ากว่าการเชื่อมต่อ PCIe ภายใน คลัสเตอร์ขนาดใหญ่ประสบปัญหาประสิทธิภาพการทำงานลดลงอย่างมาก โดยมีปริมาณงานโทเค็นต่ำ ซึ่งจำกัดไว้สำหรับการใช้งานด้านการศึกษามากกว่าการให้บริการเชิงพาณิชย์

การทดสอบประสิทธิภาพ: PP กับ TP

การเลือกกลยุทธ์ความเท่าเทียม

NVIDIA ตั้งค่าเริ่มต้นเป็น TP ซึ่งจะแยกเลเยอร์หม้อแปลงแต่ละชั้นออกเป็น GPU สองตัวโดยมีการแลกเปลี่ยนข้อมูลแบบลดทั้งหมดบ่อยครั้ง ในทางตรงกันข้าม PP แบ่งโมเดลตามเลเยอร์ โดยถ่ายโอนการเปิดใช้งานระหว่างโหนดเพียงครั้งเดียว บนลิงก์ 200GbE นั้น PP จะย่อการสื่อสารข้ามโหนดให้เหลือน้อยที่สุด สำหรับรุ่นขนาดใหญ่ที่มีปริมาณการผลิตจำนวนมาก PP มีประสิทธิภาพเหนือกว่า TP อย่างมากมาย TP ทำได้ดีเยี่ยมในสถานการณ์การแชทที่มีเวลาแฝงต่ำคำขอเดียวเท่านั้น

การทดสอบบน GPT-OSS-120B ยืนยันช่องว่างนี้ ที่ขนาดแบทช์ 128 PP สูงถึง 554.69 tok/s (เร็วกว่า TP 2.20 เท่า) ในปริมาณงานที่สมดุล 310.63 tok/s เทียบกับ 164.99 tok/s ในงานที่กรอกข้อมูลล่วงหน้าจำนวนมาก TP ลีดที่ขนาดแบทช์ 1 เท่านั้น สำหรับรุ่นขนาดเล็ก เช่น Llama-3.1-8B นั้น TP ครองขนาดแบทช์ส่วนใหญ่เนื่องจากการคำนวณเลเยอร์น้ำหนักเบา โดยที่ PP แซงหน้า TP เพียงแต่มีการทำงานพร้อมกันสูงเท่านั้น

ผลลัพธ์เกณฑ์มาตรฐานหลายรุ่น (PP=2)

ซีรี่ส์ GPT-OSS

สำหรับ GPT-OSS-120B ปริมาณงานสูงสุดที่เติมไว้ล่วงหน้าของ HP ในปริมาณงานที่สมดุล (504.88 tok/s) และการเติมล่วงหน้าจำนวนมาก (441.63 tok/s) GIGABYTE นำการทดสอบการถอดรหัสอย่างหนัก (494.37 tok/s) สำหรับ GPT-OSS-20B นั้น Dell ครองสถานการณ์ที่สมดุล (976.77 tok/s) และ prefill-heavy (852.39 tok/s) ในขณะที่ GIGABYTE เป็นผู้นำในการถอดรหัส (945.55 tok/s)

Llama 3.1 8B รุ่นต่างๆ

ในความแม่นยำ BF16 นั้น Dell นำเวิร์กโหลดที่สมดุล (689.53 tok/s) และถอดรหัสหนัก (581.43 tok/s) GIGABYTE ชนะการทดสอบแบบเติมล่วงหน้าอย่างหนัก (539.27 tok/s) การเพิ่มประสิทธิภาพ FP4 ช่วยเพิ่มปริมาณงานได้อย่างมาก: GIGABYTE นำงานที่สมดุล (1458.86 tok/s) และงานที่ต้องกรอกข้อมูลล่วงหน้าหนัก (954.23 tok/s) สำหรับ FP8 นั้น Dell รักษาลีดที่แคบในสถานการณ์ที่สมดุล (1105.42 tok/s) และถอดรหัสหนัก (862.33 tok/s)

โมเดลมิสทรัลและเควน

Mistral Small 3.1 24B มีช่องว่างน้อยที่สุด: GIGABYTE สูงสุดที่ 255.09 tok/s ในเวิร์กโหลดที่สมดุล สำหรับ Qwen3 Coder 30B (ฐาน A3B), GIGABYTE นำงานพรีฟิลหนักๆ (1862.40 tok/s); Dell เป็นเลิศในสถานการณ์การถอดรหัส ภายใต้การหาปริมาณ FB8 นั้น GIGABYTE มีทรูพุตที่กรอกข้อมูลล่วงหน้าจำนวนมาก (3088.62 tok/s) ในขณะที่ Dell เป็นผู้นำในการถอดรหัส (705.77 tok/s)

สรุปเอาต์พุตสูงสุดของ Dual Spark Systems

แบบอย่าง	สถานการณ์ (BS – 64)	เอาท์พุตสูงสุดของเดลล์	GIGABYTE เอาต์พุตสูงสุด	HP เอาท์พุตสูงสุด
GPT-OSS-120B	ISL/OSL เท่ากัน	463.97 ตอค/วินาที	497.26 ทอค/วินาที	504.88 ตอค/วินาที
GPT-OSS-120B	เติมหนักไว้ก่อน	419.56 ตอค/วินาที	417.34 ต็อค/วินาที	441.63 ทอค/วินาที
GPT-OSS-120B	ถอดรหัสหนัก	451.18 ทอค/วินาที	494.37 ต็อค/วินาที	474.85 ตอค/วินาที
GPT-OSS-20B	ISL/OSL เท่ากัน	976.77 ตอค/วินาที	952.31 ต็อค/วินาที	915.72 ตอค/วินาที
GPT-OSS-20B	เติมหนักไว้ก่อน	852.39 ต็อค/วินาที	802.37 ทอค/วินาที	757.05 ทอค/วินาที
GPT-OSS-20B	ถอดรหัสหนัก	938.65 ตอค/วินาที	945.55 ตอค/วินาที	865.78 ตอค/วินาที
Llama-3.1-8B-คำสั่ง	ISL/OSL เท่ากัน	689.53 ตอค/วินาที	687.48 ต็อค/วินาที	618.87 ตอค/วินาที
Llama-3.1-8B-คำสั่ง	เติมหนักไว้ก่อน	515.45 ตอค/วินาที	539.27 ตอค/วินาที	463.39 ต็อค/วินาที
Llama-3.1-8B-คำสั่ง	ถอดรหัสหนัก	581.43 ต็อค/วินาที	576.91 ตอค/วินาที	531.07 ตอค/วินาที
ลามะ-3.1-8B-FP4	ISL/OSL เท่ากัน	1427.39 ต็อค/วินาที	1458.86 ต็อค/วินาที	1413.51 ทอค/วินาที
ลามะ-3.1-8B-FP4	เติมหนักไว้ก่อน	884.22 ทอค/วินาที	954.23 ทอค/วินาที	843.57 ตอค/วินาที
ลามะ-3.1-8B-FP4	ถอดรหัสหนัก	1,008.98 ทอค/วินาที	1,007.23 ทอค/วินาที	943.73 ต็อค/วินาที
ลามะ-3.1-8B-FP8	ISL/OSL เท่ากัน	1105.42 ทอค/วินาที	1,089.85 ทอค/วินาที	1,076.68 ทอค/วินาที
ลามะ-3.1-8B-FP8	เติมหนักไว้ก่อน	759.50 ตอค/วินาที	827.40 ต็อค/วินาที	725.51 ตอค/วินาที
ลามะ-3.1-8B-FP8	ถอดรหัสหนัก	862.33 ต็อค/วินาที	855.81 ต็อค/วินาที	800.78 ตอค/วินาที
มิสทรัล-เล็ก-3.1-24B	ISL/OSL เท่ากัน	249.77 ต็อค/วินาที	255.09 ต็อค/วินาที	239.09 ต็อค/วินาที
มิสทรัล-เล็ก-3.1-24B	เติมหนักไว้ก่อน	216.01 ทอค/วินาที	214.38 ต็อค/วินาที	197.92 ตอค/วินาที
มิสทรัล-เล็ก-3.1-24B	ถอดรหัสหนัก	238.44 ต็อค/วินาที	237.97 ตอค/วินาที	221.41 ต็อค/วินาที

บทสรุป

ยูนิต Dell, GIGABYTE และ HP Spark มอบช่องว่างด้านประสิทธิภาพเล็กน้อย โดยมีโอกาสในการขายเฉพาะกลุ่มเล็กน้อย การตัดสินใจซื้อควรให้ความสำคัญกับการออกแบบแชสซี ประสิทธิภาพการระบายความร้อน การรับประกัน และการสนับสนุนหลังการขาย มากกว่าความแตกต่างเกณฑ์มาตรฐานเล็กน้อย กลยุทธ์ความเท่าเทียมส่งผลกระทบมากกว่ารูปแบบ OEM มาก: PP มีประสิทธิภาพเหนือกว่า TP สำหรับการอนุมานแบบแบตช์ ในขณะที่ TP เหมาะกับการโต้ตอบที่มีเวลาแฝงต่ำแบบสตรีมเดียว คำแนะนำ TP ของ NVIDIA สอดคล้องกับตำแหน่งของ Spark ในฐานะอุปกรณ์การเรียนรู้เชิงโต้ตอบมากกว่าโครงสร้างพื้นฐานด้านการผลิต คลัสเตอร์ Spark แบบดูอัลโหนดทำหน้าที่เป็นแพลตฟอร์มการสอนราคาไม่แพงสำหรับ AI แบบกระจาย การทดสอบในอนาคตจะครอบคลุมคลัสเตอร์ขนาดใหญ่ขึ้นและการฝึกอบรมโมเดลขนาดเล็กแบบ end-to-end ซึ่งอยู่ระหว่างการพิจารณาปรับใช้สวิตช์ 800Gb ในห้องปฏิบัติการ

Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/ผู้อำนวยการฝ่ายกลยุทธ์ระดับโลก
WhatsApp / WeChat: +86 13426366826
อีเมล: yangyd@qianxingdata.com
เว็บไซต์: www.qianxingdata.com/www.storagesserver.com
มุ่งเน้นธุรกิจ:
การจัดจำหน่ายผลิตภัณฑ์ ICT/บูรณาการระบบและบริการ/โซลูชั่นโครงสร้างพื้นฐาน
ด้วยประสบการณ์การจัดจำหน่ายด้านไอทีมากกว่า 20 ปี เราร่วมมือกับแบรนด์ชั้นนำระดับโลกเพื่อนำเสนอผลิตภัณฑ์ที่เชื่อถือได้และบริการระดับมืออาชีพ
“ใช้เทคโนโลยีเพื่อสร้างโลกอัจฉริยะ” ผู้ให้บริการผลิตภัณฑ์ ICT ที่เชื่อถือได้ของคุณ!

PREV: รีวิว ORICO X50: ความเร็ว Thunderbolt 5 ในเคส SSD แบบพกพา

NEXT: รีวิว Seagate IronWolf Pro 32TB: ความจุสูงสุดสำหรับ Multi-Bay NAS

รายละเอียดการติดต่อ

Beijing Qianxing Jietong Technology Co., Ltd.

ผู้ติดต่อ: Ms. Sandy Yang

โทร: 13426366826

NVIDIA DGX Spark Cluster Review: การสรุปกระจายบน Dell, GIGABYTE และ HP

เซิร์ฟเวอร์จัดเก็บข้อมูลแร็ค

Huawei เซิร์ฟเวอร์ฟิวชั่น

เซิร์ฟเวอร์ Dell Poweredge

เซิร์ฟเวอร์ H3C

สวิตช์ ดาต้าคอม

อุปกรณ์ WLAN

เราเตอร์ไร้สายอัจฉริยะ

ฮาร์ดไดรฟ์ HDD

ฮาร์ดไดรฟ์ภายใน SSD

การ์ดจอ Geforce

โปรเซสเซอร์ INTEL CPU

หน่วยความจำเซิร์ฟเวอร์ RAM

เซิร์ฟเวอร์จัดเก็บข้อมูลที่ตกแต่งใหม่

โมดูลตัวรับส่งสัญญาณ SFP

สวิตช์ช่องสัญญาณไฟเบอร์

NVIDIA DGX Spark Cluster Review: การสรุปกระจายบน Dell, GIGABYTE และ HP

โครงสร้างเครือข่าย 200Gb

เหตุผลสำหรับการทำคลัสเตอร์ Spark

การทดสอบประสิทธิภาพ: PP กับ TP

การเลือกกลยุทธ์ความเท่าเทียม

ผลลัพธ์เกณฑ์มาตรฐานหลายรุ่น (PP=2)

ซีรี่ส์ GPT-OSS

Llama 3.1 8B รุ่นต่างๆ

โมเดลมิสทรัลและเควน

สรุปเอาต์พุตสูงสุดของ Dual Spark Systems

บทสรุป

เซิร์ฟเวอร์จัดเก็บข้อมูลแร็ค

12 Bays 1U ที่วางแร็ค Server Lenovo ThinkSystem SR630 ชั้นวาง Server

Think System SR250 V2 4SFF เซิร์ฟเวอร์จัดเก็บข้อมูลแร็ค Intel Xeon E-2378G Processor

เซิร์ฟเวอร์จัดเก็บข้อมูลแร็ค Intel C621A Inspur NF5180M6 1U ชั้นวาง Mount Server

Huawei เซิร์ฟเวอร์ฟิวชั่น

เซิร์ฟเวอร์ฟิวชั่น 5288 V6 4U แร็คเซิร์ฟเวอร์ 32 DDR4 DIMM 44 ฮาร์ดดิสก์ 3.5 นิ้ว

เซิร์ฟเวอร์จัดเก็บข้อมูลเครือข่าย Huawei Fusion 1U ความหนาแน่นสูงพิเศษ 1288H V5

ใหม่ Gen OceanStor 5310 Huawei ชั้นวาง Server Hybrid Flash Storage