คุณลักษณะที่กำหนดสองประการที่โดดเด่นสำหรับ NVIDIA DGX Spark: หน่วยความจำรวม 128GB ในหน่วยเดสก์ท็อปราคา 4,000 ดอลลาร์ และเครือข่ายระดับศูนย์ข้อมูล 200Gb ในตัว โครงสร้างความเร็วสูงนี้สร้างความแตกต่างจากเวิร์กสเตชันทั่วไป ช่วยให้สามารถทำคลัสเตอร์แบบหลายโหนดได้เฉพาะเซิร์ฟเวอร์แบบติดตั้งบนชั้นวางเท่านั้น การตรวจสอบเกณฑ์มาตรฐานนี้กระจายการอนุมานระหว่างรุ่นต่างๆ ของ Dell, GIGABYTE และ HP Spark ในคลัสเตอร์ 200GbE แบบสองโหนดในรุ่นและปริมาณงานที่หลากหลาย นอกจากนี้ยังวิเคราะห์ไปป์ไลน์ความขนาน (PP) ซึ่งเป็นวิธีการแยกทางเลือกที่มีประสิทธิภาพเหนือกว่าเทนเซอร์ขนาน (TP) เริ่มต้นของ NVIDIA
โครงสร้างเครือข่าย 200Gb
Spark แต่ละตัวติดตั้ง QSFP56 Cage สองตัวที่จับคู่กับ ConnectX-7 SmartNIC ในตัว ถูกจำกัดโดยแบนด์วิธ PCIe Gen5 x4 ความเร็วเครือข่ายที่ใช้งานได้สูงสุดที่ 200Gb โดยมีหนึ่งพอร์ตเพียงพอสำหรับแบนด์วิธเต็ม พอร์ตที่สองนำเสนอความยืดหยุ่นของโทโพโลยี มีการกำหนดค่าทั่วไปสามแบบ: ลิงก์ Spark-to-Spark 200Gb โดยตรง, โทโพโลยีริงแบบไม่มีสวิตช์ผ่านพอร์ต 100Gb คู่ และการทำคลัสเตอร์แบบไฮบริดพร้อมการเข้าถึงพื้นที่จัดเก็บข้อมูลความเร็วสูง NVMe-oF NVIDIA จำหน่ายเดสก์ท็อปหน่วยเดียว คลัสเตอร์สองโหนดที่ได้รับการตรวจสอบ และการตั้งค่าสี่โหนดที่เพิ่งเปิดตัว การกำหนดค่า dual-Spark เป็นวิธีที่ใช้งานได้จริงที่สุดสำหรับการอนุมานในรูปแบบการใช้งานจริงและจุดเน้นของการทดสอบนี้
เหตุผลสำหรับการทำคลัสเตอร์ Spark
ประโยชน์หลักคือการขยายความจุของโมเดล: Spark ที่เชื่อมโยงกันสองตัวสามารถเรียกใช้โมเดลพารามิเตอร์ 120B ที่เกินขีดจำกัดหน่วยความจำหน่วยเดียวได้ ที่สำคัญกว่านั้น แพลตฟอร์มนี้ทำหน้าที่เป็นเครื่องมือทางการศึกษาราคาไม่แพง NVIDIA ออกแบบ Spark สำหรับผู้เริ่มต้นเพื่อเรียนรู้เวิร์กโฟลว์ AI พร้อมคำแนะนำอย่างเป็นทางการที่ครอบคลุมการปรับใช้โมเดล การปรับแต่งอย่างละเอียด และการพัฒนา PyTorch/JAX คลัสเตอร์แบบโหนดคู่ยังสอนเพิ่มเติมเกี่ยวกับความขนานแบบหลายโหนดและการวิเคราะห์คอขวดของเครือข่ายโดยไม่ต้องใช้ฮาร์ดแวร์ศูนย์ข้อมูลที่มีราคาแพง โดยเฉพาะอย่างยิ่ง Spark ไม่ได้รับการปรับให้เหมาะสมสำหรับการอนุมานการผลิต จำกัดโดยแบนด์วิธหน่วยความจำและเวลาแฝงระหว่างโหนด ลิงก์ 200GbE จึงช้ากว่าการเชื่อมต่อ PCIe ภายใน คลัสเตอร์ขนาดใหญ่ประสบปัญหาประสิทธิภาพการทำงานลดลงอย่างมาก โดยมีปริมาณงานโทเค็นต่ำ ซึ่งจำกัดไว้สำหรับการใช้งานด้านการศึกษามากกว่าการให้บริการเชิงพาณิชย์
การทดสอบประสิทธิภาพ: PP กับ TP
การเลือกกลยุทธ์ความเท่าเทียม
NVIDIA ตั้งค่าเริ่มต้นเป็น TP ซึ่งจะแยกเลเยอร์หม้อแปลงแต่ละชั้นออกเป็น GPU สองตัวโดยมีการแลกเปลี่ยนข้อมูลแบบลดทั้งหมดบ่อยครั้ง ในทางตรงกันข้าม PP แบ่งโมเดลตามเลเยอร์ โดยถ่ายโอนการเปิดใช้งานระหว่างโหนดเพียงครั้งเดียว บนลิงก์ 200GbE นั้น PP จะย่อการสื่อสารข้ามโหนดให้เหลือน้อยที่สุด สำหรับรุ่นขนาดใหญ่ที่มีปริมาณการผลิตจำนวนมาก PP มีประสิทธิภาพเหนือกว่า TP อย่างมากมาย TP ทำได้ดีเยี่ยมในสถานการณ์การแชทที่มีเวลาแฝงต่ำคำขอเดียวเท่านั้น
การทดสอบบน GPT-OSS-120B ยืนยันช่องว่างนี้ ที่ขนาดแบทช์ 128 PP สูงถึง 554.69 tok/s (เร็วกว่า TP 2.20 เท่า) ในปริมาณงานที่สมดุล 310.63 tok/s เทียบกับ 164.99 tok/s ในงานที่กรอกข้อมูลล่วงหน้าจำนวนมาก TP ลีดที่ขนาดแบทช์ 1 เท่านั้น สำหรับรุ่นขนาดเล็ก เช่น Llama-3.1-8B นั้น TP ครองขนาดแบทช์ส่วนใหญ่เนื่องจากการคำนวณเลเยอร์น้ำหนักเบา โดยที่ PP แซงหน้า TP เพียงแต่มีการทำงานพร้อมกันสูงเท่านั้น
ผลลัพธ์เกณฑ์มาตรฐานหลายรุ่น (PP=2)
ซีรี่ส์ GPT-OSS
สำหรับ GPT-OSS-120B ปริมาณงานสูงสุดที่เติมไว้ล่วงหน้าของ HP ในปริมาณงานที่สมดุล (504.88 tok/s) และการเติมล่วงหน้าจำนวนมาก (441.63 tok/s) GIGABYTE นำการทดสอบการถอดรหัสอย่างหนัก (494.37 tok/s) สำหรับ GPT-OSS-20B นั้น Dell ครองสถานการณ์ที่สมดุล (976.77 tok/s) และ prefill-heavy (852.39 tok/s) ในขณะที่ GIGABYTE เป็นผู้นำในการถอดรหัส (945.55 tok/s)
Llama 3.1 8B รุ่นต่างๆ
ในความแม่นยำ BF16 นั้น Dell นำเวิร์กโหลดที่สมดุล (689.53 tok/s) และถอดรหัสหนัก (581.43 tok/s) GIGABYTE ชนะการทดสอบแบบเติมล่วงหน้าอย่างหนัก (539.27 tok/s) การเพิ่มประสิทธิภาพ FP4 ช่วยเพิ่มปริมาณงานได้อย่างมาก: GIGABYTE นำงานที่สมดุล (1458.86 tok/s) และงานที่ต้องกรอกข้อมูลล่วงหน้าหนัก (954.23 tok/s) สำหรับ FP8 นั้น Dell รักษาลีดที่แคบในสถานการณ์ที่สมดุล (1105.42 tok/s) และถอดรหัสหนัก (862.33 tok/s)
โมเดลมิสทรัลและเควน
Mistral Small 3.1 24B มีช่องว่างน้อยที่สุด: GIGABYTE สูงสุดที่ 255.09 tok/s ในเวิร์กโหลดที่สมดุล สำหรับ Qwen3 Coder 30B (ฐาน A3B), GIGABYTE นำงานพรีฟิลหนักๆ (1862.40 tok/s); Dell เป็นเลิศในสถานการณ์การถอดรหัส ภายใต้การหาปริมาณ FB8 นั้น GIGABYTE มีทรูพุตที่กรอกข้อมูลล่วงหน้าจำนวนมาก (3088.62 tok/s) ในขณะที่ Dell เป็นผู้นำในการถอดรหัส (705.77 tok/s)
สรุปเอาต์พุตสูงสุดของ Dual Spark Systems
|
แบบอย่าง
|
สถานการณ์ (BS – 64)
|
เอาท์พุตสูงสุดของเดลล์
|
GIGABYTE เอาต์พุตสูงสุด
|
HP เอาท์พุตสูงสุด
|
|---|---|---|---|---|
|
GPT-OSS-120B
|
ISL/OSL เท่ากัน
|
463.97 ตอค/วินาที
|
497.26 ทอค/วินาที
|
504.88 ตอค/วินาที
|
|
GPT-OSS-120B
|
เติมหนักไว้ก่อน
|
419.56 ตอค/วินาที
|
417.34 ต็อค/วินาที
|
441.63 ทอค/วินาที
|
|
GPT-OSS-120B
|
ถอดรหัสหนัก
|
451.18 ทอค/วินาที
|
494.37 ต็อค/วินาที
|
474.85 ตอค/วินาที
|
|
GPT-OSS-20B
|
ISL/OSL เท่ากัน
|
976.77 ตอค/วินาที
|
952.31 ต็อค/วินาที
|
915.72 ตอค/วินาที
|
|
GPT-OSS-20B
|
เติมหนักไว้ก่อน
|
852.39 ต็อค/วินาที
|
802.37 ทอค/วินาที
|
757.05 ทอค/วินาที
|
|
GPT-OSS-20B
|
ถอดรหัสหนัก
|
938.65 ตอค/วินาที
|
945.55 ตอค/วินาที
|
865.78 ตอค/วินาที
|
|
Llama-3.1-8B-คำสั่ง
|
ISL/OSL เท่ากัน
|
689.53 ตอค/วินาที
|
687.48 ต็อค/วินาที
|
618.87 ตอค/วินาที
|
|
Llama-3.1-8B-คำสั่ง
|
เติมหนักไว้ก่อน
|
515.45 ตอค/วินาที
|
539.27 ตอค/วินาที
|
463.39 ต็อค/วินาที
|
|
Llama-3.1-8B-คำสั่ง
|
ถอดรหัสหนัก
|
581.43 ต็อค/วินาที
|
576.91 ตอค/วินาที
|
531.07 ตอค/วินาที
|
|
ลามะ-3.1-8B-FP4
|
ISL/OSL เท่ากัน
|
1427.39 ต็อค/วินาที
|
1458.86 ต็อค/วินาที
|
1413.51 ทอค/วินาที
|
|
ลามะ-3.1-8B-FP4
|
เติมหนักไว้ก่อน
|
884.22 ทอค/วินาที
|
954.23 ทอค/วินาที
|
843.57 ตอค/วินาที
|
|
ลามะ-3.1-8B-FP4
|
ถอดรหัสหนัก
|
1,008.98 ทอค/วินาที
|
1,007.23 ทอค/วินาที
|
943.73 ต็อค/วินาที
|
|
ลามะ-3.1-8B-FP8
|
ISL/OSL เท่ากัน
|
1105.42 ทอค/วินาที
|
1,089.85 ทอค/วินาที
|
1,076.68 ทอค/วินาที
|
|
ลามะ-3.1-8B-FP8
|
เติมหนักไว้ก่อน
|
759.50 ตอค/วินาที
|
827.40 ต็อค/วินาที
|
725.51 ตอค/วินาที
|
|
ลามะ-3.1-8B-FP8
|
ถอดรหัสหนัก
|
862.33 ต็อค/วินาที
|
855.81 ต็อค/วินาที
|
800.78 ตอค/วินาที
|
|
มิสทรัล-เล็ก-3.1-24B
|
ISL/OSL เท่ากัน
|
249.77 ต็อค/วินาที
|
255.09 ต็อค/วินาที
|
239.09 ต็อค/วินาที
|
|
มิสทรัล-เล็ก-3.1-24B
|
เติมหนักไว้ก่อน
|
216.01 ทอค/วินาที
|
214.38 ต็อค/วินาที
|
197.92 ตอค/วินาที
|
|
มิสทรัล-เล็ก-3.1-24B
|
ถอดรหัสหนัก
|
238.44 ต็อค/วินาที
|
237.97 ตอค/วินาที
|
221.41 ต็อค/วินาที
|
บทสรุป
ยูนิต Dell, GIGABYTE และ HP Spark มอบช่องว่างด้านประสิทธิภาพเล็กน้อย โดยมีโอกาสในการขายเฉพาะกลุ่มเล็กน้อย การตัดสินใจซื้อควรให้ความสำคัญกับการออกแบบแชสซี ประสิทธิภาพการระบายความร้อน การรับประกัน และการสนับสนุนหลังการขาย มากกว่าความแตกต่างเกณฑ์มาตรฐานเล็กน้อย กลยุทธ์ความเท่าเทียมส่งผลกระทบมากกว่ารูปแบบ OEM มาก: PP มีประสิทธิภาพเหนือกว่า TP สำหรับการอนุมานแบบแบตช์ ในขณะที่ TP เหมาะกับการโต้ตอบที่มีเวลาแฝงต่ำแบบสตรีมเดียว คำแนะนำ TP ของ NVIDIA สอดคล้องกับตำแหน่งของ Spark ในฐานะอุปกรณ์การเรียนรู้เชิงโต้ตอบมากกว่าโครงสร้างพื้นฐานด้านการผลิต คลัสเตอร์ Spark แบบดูอัลโหนดทำหน้าที่เป็นแพลตฟอร์มการสอนราคาไม่แพงสำหรับ AI แบบกระจาย การทดสอบในอนาคตจะครอบคลุมคลัสเตอร์ขนาดใหญ่ขึ้นและการฝึกอบรมโมเดลขนาดเล็กแบบ end-to-end ซึ่งอยู่ระหว่างการพิจารณาปรับใช้สวิตช์ 800Gb ในห้องปฏิบัติการ
Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/ผู้อำนวยการฝ่ายกลยุทธ์ระดับโลก
WhatsApp / WeChat: +86 13426366826
อีเมล: yangyd@qianxingdata.com
เว็บไซต์: www.qianxingdata.com/www.storagesserver.com
มุ่งเน้นธุรกิจ:
การจัดจำหน่ายผลิตภัณฑ์ ICT/บูรณาการระบบและบริการ/โซลูชั่นโครงสร้างพื้นฐาน
ด้วยประสบการณ์การจัดจำหน่ายด้านไอทีมากกว่า 20 ปี เราร่วมมือกับแบรนด์ชั้นนำระดับโลกเพื่อนำเสนอผลิตภัณฑ์ที่เชื่อถือได้และบริการระดับมืออาชีพ
“ใช้เทคโนโลยีเพื่อสร้างโลกอัจฉริยะ” ผู้ให้บริการผลิตภัณฑ์ ICT ที่เชื่อถือได้ของคุณ!
Sandy Yang/ผู้อำนวยการฝ่ายกลยุทธ์ระดับโลก
WhatsApp / WeChat: +86 13426366826
อีเมล: yangyd@qianxingdata.com
เว็บไซต์: www.qianxingdata.com/www.storagesserver.com
มุ่งเน้นธุรกิจ:
การจัดจำหน่ายผลิตภัณฑ์ ICT/บูรณาการระบบและบริการ/โซลูชั่นโครงสร้างพื้นฐาน
ด้วยประสบการณ์การจัดจำหน่ายด้านไอทีมากกว่า 20 ปี เราร่วมมือกับแบรนด์ชั้นนำระดับโลกเพื่อนำเสนอผลิตภัณฑ์ที่เชื่อถือได้และบริการระดับมืออาชีพ
“ใช้เทคโนโลยีเพื่อสร้างโลกอัจฉริยะ” ผู้ให้บริการผลิตภัณฑ์ ICT ที่เชื่อถือได้ของคุณ!



