AMD ได้เปิดตัว Instinct MI350P อย่างเป็นทางการ เป็นเครื่องเร่ง PCIe ใหม่ที่ปรับปรุงให้กับผู้ใช้บริษัทที่ต้องการการสรุป AI ในสถานที่โดยไม่ต้องปรับปรุงพื้นฐานศูนย์ข้อมูลที่มีอยู่มีสล็อตคู่การ์ดกราฟฟิกนี้มีความสูงและความยาวเต็มรูปแบบมันยังเป็นการปล่อยชิป Instinct ของรุ่นปัจจุบันของ AMD ครั้งแรกที่ได้รับการออกแบบสําหรับสล็อตเซอร์เวอร์มาตรฐานในรอบเกือบสี่ปี.
AMD Instinct MI350P
สายสินค้า Instinct ของ AMD ที่ใช้ PCIe ยังคงหยุดยั้งหลังจากเปิดตัว MI210 ในต้นปี 2022 ทุกรุ่นถัดมา รวมถึง MI300X, MI325X และ MI350X ในรูปแบบ OAMโมดูล OAM ที่ติดกับซอคเก็ตที่ได้รับการรับรองโมดูลเหล่านี้ต้องใช้กล่องที่กําหนดเองที่มีการจัดส่งพลังงานที่แข็งแกร่งและการไหลของอากาศเพื่อรองรับถึงแปดตัวเร่งระดับ 1,000W ในตู้เดียวสถาปัตยกรรมฮาร์ดแวร์ดังกล่าวเหมาะกับผู้ให้บริการเมฆขนาดใหญ่ที่ซื้อ racks GPU ในจํานวนมาก, แต่มันไม่สามารถรองรับธุรกิจทั่วไปที่ไม่ต้องการหรือไม่สามารถใช้ Racks AI ที่กําหนดเองสําหรับงานการสรุปในสถานที่. MI350P จับช่องว่างตลาดนี้อย่างแม่นยํา. ปัจจุบัน,NVIDIA ไม่มีผู้แข่งขัน PCIe ระดับเซอร์เวอร์ระดับสูงในส่วนนี้, ทําให้ AMD มีสิทธิเฉพาะทางในตลาดชั่วคราว
การเปรียบเทียบฮาร์ดแวร์: MI350P VS MI350X OAM
MI350P ไม่ใช่ตัวแปรที่ตัดลงของ MI350X; AMD ออกแบบชิปประปาแบบอิสระสําหรับรุ่นใหม่นี้MI350X มีเครื่อง I/O 2 เครื่อง พร้อมกับเครื่อง XCD 8 เครื่อง, ส่ง 256 หน่วยคํานวณทั้งหมด. ในส่วนที่ตรงกันข้าม MI350P มี 1 I / O die และ 4 XCD, เท่ากับ 128 หน่วยคํานวณ. แม้จะลดขนาดซิลิคอนเป็นครึ่ง, มันยังคงมีขนาดเดียวกัน 2.ความถี่นาฬิกาสูงสุด 2 GHz เป็นคู่หูชั้นสูงกว่าการตั้งค่าความทรงจําปฏิบัติตามรายละเอียดลดระดับเดียวกัน: สี่ HBM3E สตั๊ก (เทียบกับแปด), บัสความทรงจํา 4,096-bit (ลดจาก 8,192-bit),พร้อมกับความจุความจํา 144GB และความกว้างแบนด์บิด 4 TB/s, เมื่อเทียบกับ MI350Xs 288GB และ 8 TB/s
สถาปัตยกรรม AMD Instinct MI350P
ความสามารถในการคํานวณที่สูงสุดยังลดลงเป็นครึ่ง โดย MI350P จะมีขนาด 4,600 MXFP4 TFLOPS เมื่อเทียบกับ MI350XS 9.2 PFLOPS พร้อมกับ 2,300 FP8 TFLOPS เมื่อเทียบกับรุ่นพรีเมี่ยม 4.6 PFLOPSเมตรการทํางานสําหรับ BF16, FP16 และมาตรฐานความแม่นยําอื่น ๆ ติดตามการลดลงในสัดส่วนเดียวกัน. โดยเฉพาะอย่างยิ่ง AMD ได้ตีพิมพ์ข้อมูลการทํางานสูงสุดและโลกจริงเพื่อความโปร่งใส.299 TFLOPS ตาม MXFP4, 1,529 TFLOPS ภายใต้ FP8 และ 713 TFLOPS ภายใต้ BF16 ตัวเลขเชิงปฏิบัติการนี้แสดงผลิตจริงภายในวงจรพลังงาน 600Wซึ่งข้อจํากัดของพลังงานและข้อจํากัดของความกว้างแบนด์วิทของความจํา จะทําให้การทํางานสูงสุดในทฤษฎีลดลงอย่างไม่เลี่ยงได้.
ทีมงานบรรณาธิการได้ประเมินแพลตฟอร์ม MI350X ผ่านโปรแกรม Jumpstart ของ Supermicro และยอมรับความสามารถในการผล inference ที่แข็งแกร่งทีมงานกําลังตั้งใจที่จะทดสอบ MI350P, การวิเคราะห์ว่า PCIe-form-factor accelerator ทํางานอย่างไร ภายในแชสเซอร์สินค้ามาตรฐาน
MI350P ไม่มีการลดพลังงาน 50% ถึงแม้จะมีขนาดซิลิคอนลดลงครึ่ง. มันมีกําลังการเรท 600W TBP, เท่ากับประมาณ 60% ของขีด 1000W ของ MI350X.พลังงานสูงสุดนี้ถึงขอบเหนือของรายละเอียด PCIe CEM, การทํางานของบัตรที่ขั้นต่ําอุณหภูมิสูงสุดของสล็อต. โหมดการทํางานลด 450W มีให้บริการสําหรับเซอร์เวอร์ที่มีการเย็นไม่เพียงพอ, พร้อมด้วยการตัดประสิทธิภาพปานกลาง.วางไว้ในเข็มพลังงานเดียวกัน, MI350P ติดต่อแข่งขันโดยตรงกับ NVIDIA's H200 NVL และ RTX Pro 6000 Server สําหรับการจัดหาองค์กร.
ไม่เหมือนกับ NVIDIA H200 ที่มีการเชื่อมต่อความเร็วสูง NVL4, MI350P ปิดการเผยแพร่ Infinity Fabric. การถ่ายทอดข้อมูลระหว่าง GPU ทั้งหมดจํากัดความกว้างแบนด์ 128 GB / s ของ PCIe Gen5 x16.
การจัดจําหน่ายแบบเย็นด้วยอากาศ 8 GPU
เป็นการ์ด FHFL PCIe แบบสองสล็อตมาตรฐาน MI350P สามารถใช้งานกับเซอร์เวอร์ธุรกิจที่มีอยู่รวมถึง Dell PowerEdge XE7740 และ HPE ProLiant DL380a Gen12 ที่เคยรีวิวมาก่อนปรับปรุงให้เหมาะสมกับเครื่องเร่ง 600W แพลตฟอร์มเหล่านี้ไม่จําเป็นต้องมีราฟที่กําหนดเอง การเย็นของเหลวหรือ OAM baseboards
การปรับแต่ง MI350P จํานวนแปดบัตรให้บริการ 1,152GB HBM3E และความกว้างแบนด์วิทรวม 32 TB/s เพียงพอที่จะจัดจําหน่ายรูปแบบปารามิเตอร์พันล้านในความแม่นยํา MXFP4 ภายในชาสีที่เย็นด้วยอากาศเดียวมันเสียสละเนื้อผ้าที่ผสมผสานขณะที่ MI350X ใช้ Infinity Fabric สําหรับการสื่อสารระหว่างโมดูลอย่างรวดเร็ว MI350P ใช้ PCIe Gen5 เท่านั้นสถาปัตยกรรมนี้เหมาะกับ Node-local tensor parallelism และ Cross-node data parallelism สําหรับการสรุปโดย MI350X ที่ใช้ OAM ยังคงเหนือกว่าสําหรับภารกิจการฝึก AI ที่ใช้ความกว้างแดนมาก
รูปแบบความแม่นยํา
MI350P ได้รับมรดกทุกรูปแบบความแม่นยําจาก MI350X โดยไม่มีการปรับปรุง OCP ประเภทการปรับขนาดบล็อกรวมถึง MXFP4, MXFP6 และ MXFP8 ได้กลายเป็นหลักในการพัฒนารุ่น AIทําให้การฝึกอบรมมีความแม่นยําต่ํา กับการลดคุณภาพที่ไม่สําคัญ. MXFP4 ให้ความเร็วมากกว่าสองเท่าของ FP8 และผ่านสี่เท่าของ BF16. กรณีในโลกจริงเช่น OpenAI gpt-oss และ Kimi K2.6 พิสูจน์คุณค่าของการควานติซชั่นแบบเบาบิตพื้นบ้านเนื่องจาก MXFP4 และ INT4 น้ําหนักครอบครองเพียง 25% ของพื้นที่ความจํา BF16, รูปแบบปารามิเตอร์พันล้านสามารถนําไปใช้ภายในเซอร์เวอร์ GPU จํานวนแปดตัวเดียว โดยกําจัดคลัสเตอร์หลายโน้ดที่คับคั่งสําหรับบริษัทในสถานที่
สรุป
องค์กร AI ในสถานที่ส่วนใหญ่ถูกจํากัดด้วยพลังงาน, การเย็น, ความหนาแน่นและงบประมาณ แทนความสามารถในการคิดเลขสด. MI350P ที่ลงมาได้อย่างมีประสิทธิภาพบรรเทาอุปสรรคการใช้งานเหล่านี้ด้วย NVIDIA ที่ขาด GPU เซอร์เวอร์ PCIe หลักในส่วนนี้, AMD ยังคงมีข้อดีในการแข่งขันที่ชัดเจนในขณะนี้ รายละเอียดเพิ่มเติมสามารถหาได้ในเว็บไซต์ Instinct ของ AMD
บริษัท เทคโนโลยีจีเทงจี (Beijing Qianxing Jietong Technology Co., Ltd.)
แซนดี้ แยง (Sandy Yang) ผู้อํานวยการยุทธศาสตร์โลก
วอทแอป / เวชแชท: +86 13426366826
อีเมล: yangyd@qianxingdata.com
เว็บไซต์: www.qianxingdata.com/www.storagesserver.com
เน้นธุรกิจ:
การจัดจําหน่ายสินค้า ICT/การบูรณาการระบบและบริการ/การแก้ไขพื้นฐาน
ด้วยประสบการณ์การจําหน่ายไอที 20 ปีขึ้นไป เราร่วมมือกับแบรนด์ชั้นนําระดับโลก เพื่อให้ผลิตภัณฑ์ที่น่าเชื่อถือและบริการมืออาชีพ
การใช้เทคโนโลยีเพื่อสร้างโลกที่ฉลาด ผู้ให้บริการสินค้า ICT ที่คุณไว้วางใจ
แซนดี้ แยง (Sandy Yang) ผู้อํานวยการยุทธศาสตร์โลก
วอทแอป / เวชแชท: +86 13426366826
อีเมล: yangyd@qianxingdata.com
เว็บไซต์: www.qianxingdata.com/www.storagesserver.com
เน้นธุรกิจ:
การจัดจําหน่ายสินค้า ICT/การบูรณาการระบบและบริการ/การแก้ไขพื้นฐาน
ด้วยประสบการณ์การจําหน่ายไอที 20 ปีขึ้นไป เราร่วมมือกับแบรนด์ชั้นนําระดับโลก เพื่อให้ผลิตภัณฑ์ที่น่าเชื่อถือและบริการมืออาชีพ
การใช้เทคโนโลยีเพื่อสร้างโลกที่ฉลาด ผู้ให้บริการสินค้า ICT ที่คุณไว้วางใจ



