AMD ได้ประกาศผลมาตรฐาน MLPerf Inference v6.0 ของมัน ทําให้ GPU Instinct MI355X เป็นแพลตฟอร์มการสรุปที่สามารถปรับขนาดได้สูง สามารถรองรับหน่วยเดียวและการใช้งานแบบไม่เหมือนกันนอกเหนือจากการเพิ่มประสิทธิภาพเพิ่มเติม การยื่นเสนอแนะนําภาระการทํางานใหม่ แสดงถึงการผ่านขนาดคลาสเตอร์ที่เกิน 1 ล้านเครื่องหมายต่อวินาทีและยืนยันความเป็นไปได้ของผลงานที่ต่อเนื่องในระบบนิเวศพันธมิตรที่กําลังขยาย.
CDNA 4 เป้าหมายสถาปัตยกรรม
Instinct MI355X ถูกสร้างขึ้นบนสถาปัตยกรรม CDNA 4 ของ AMD โดยใช้การออกแบบชิปเล็ตกระบวนการสองแบบของ TSMC: เครื่องคอมพิวเตอร์ (XCDs) ใช้หน่วย 3nm ส่วนเครื่อง I/O ใช้เทคโนโลยี FinFET 6nmแพคเกจหลายชิปเล็ตรวมทรานซิสเตอร์ 185 พันล้านชิป และรองรับรูปแบบข้อมูล FP4 และ FP6. GPU แต่ละ GPU มีความจํา HBM3E สูงสุด 288 GB (ให้ความจําความกว้าง 8 TB / วินาที) ทําให้สามารถรองรับแบบจําลองได้ถึง 520 พันล้านปารามิเตอร์บนอุปกรณ์เดียวAMD เน้นว่าการผสมผสานของความหนาแน่นของคอมพิวเตอร์และความจุความจํานี้กําจัดความจําเป็นในการแบ่งแบบที่เกิน, ข้อดีสําคัญสําหรับภาระงานสรุปขนาดใหญ่
มีให้เลือกในรูปแบบ UBB8 แพลตฟอร์มนี้ให้บริการทั้งแบบเย็นด้วยอากาศและแบบเย็นโดยเหลวโดยตรง ซึ่งตรงกับความต้องการในการจัดจําหน่ายศูนย์ข้อมูลที่หลากหลาย โดยเฉพาะอย่างยิ่งMI355X มี TBP 1400W (Thermal Design Power) พร้อมเครื่องเย็นเหลว, ส่งผลงานสูงกว่าตัวแทนที่เย็นด้วยอากาศของ MI350X
ความสามารถในการใช้งานของ Multinode มากกว่า 1 ล้านเครื่องหมายต่อวินาที
ผลสําเร็จที่โดดเด่นจากรอบ MLPerf v6.0 คือความเร็วในการทํางานของ AMD มากกว่า 1 ล้านต๊อกเคนต่อวินาทีAMD ประสบขั้นตอนนี้กับ Llama 2 70B ทั้งใน Server และ Offline, และด้วย GPT-OSS-120B ในโหมดออฟไลน์
AMD MLPerf 1M โทเกนต่อกราฟวินาที
ผลลัพธ์เหล่านี้สะท้อนถึงการเปลี่ยนแปลงของอุตสาหกรรมที่เพิ่มขึ้นไปสู่การประเมินผลการสรุปในระดับคลัสเตอร์ แทนที่จะเป็นแต่ละเร่งการผลิตรวมและเวลาในการบริการได้กลายเป็นเมตรหลักในการกําหนดความพร้อมในการผลิตในการใช้ AI ในขนาดใหญ่.
AMD ยังแสดงให้เห็นถึงประสิทธิภาพในการปรับขนาดที่โดดเด่น สําหรับ Llama 2 70B การปรับแต่ง GPU 87 หน่วย 11 หน่วย ทําได้มากกว่า 1 ล้านเครื่องหมายต่อวินาทีมีประสิทธิภาพในการปรับขนาดตั้งแต่ 93% ถึง 98%สําหรับ GPT-OSS-120B คลัสเตอร์ 12 หน่วย, 94 GPU ส่งผ่านที่คล้ายกันกับประสิทธิภาพการปรับขนาดมากกว่า 90%
ผลประโยชน์ต่อรุ่น และผลประกอบการที่มีความสามารถในการแข่งขันในหน่วยเดียว
AMD รายงานการปรับปรุงรุ่นที่สําคัญ โดย Instinct MI355X ส่งผลการทํางานที่ดีกว่า 3.1 เท่าบน Llama 2 70B Server เมื่อเทียบกับ Instinct MI325X รุ่นก่อน282 โตเกนต่อวินาทีการปรับปรุงนี้มาจากทั้งการปรับปรุงสถาปัตยกรรมของ CDNA 4 และการปรับปรุงโปรแกรม ROCm. คะแนนออฟไลน์ดีขึ้น 4.4x และคะแนน Server ดีขึ้น 4.8x เมื่อเทียบกับรอบ MLPerf ก่อนหน้านี้โดยเฉพาะอย่างยิ่งโดย FP4 การควานติเซชั่น ภาพสําคัญของ MI355X ที่เปิดให้มีความสามารถในการทํางานที่สูงขึ้นสําหรับ AI.
ผลการสรุป AMD vs กราฟิกรุ่นก่อน
ในการเปรียบเทียบหน่วยเดียวกับแพลตฟอร์ม NVIDIA, MI355X แสดงความสามารถในการแข่งขันที่แข็งแกร่ง. บน Llama 2 70B มันตรงกับ NVIDIA B200 ในออฟไลน์ประสบความสําเร็จใกล้ parity ในการทํางาน Serverราคาของ MI355X มากกว่า NVIDIA B300 โดย MI355X ส่งผลประกอบการ 92% ของออฟไลน์, 93% ของเซอร์เวอร์ และเกิน 4% ของออนไลน์MI355X ยังมีประสิทธิภาพในเรื่องค่าใช้จ่ายสูงกว่า, ส่งท็อคเกนเพิ่มขึ้น 40% ต่อดอลลาร์ เมื่อเทียบกับ NVIDIA B200
การเปิดตัวรุ่นครั้งแรกขยายการครอบคลุม
MLPerf Inference v6.0 นําเสนอภาระการทํางานใหม่หลายอย่าง และ AMD ใช้รอบนี้เพื่อแสดงการเปิดตัวรุ่นรวดเร็ว GPT-OSS-120B เป็นรุ่นผสมผสานของผู้เชี่ยวชาญการบรรลุผลการแข่งขันกับระบบ NVIDIA ในกรณี Offline และ Server.
AMD ยังส่งผลการสร้างข้อความเป็นวิดีโอ Wan-2.2 ซึ่งเป็นการเข้าสู่การสรุปวิดีโอแบบมัลติโมดัลและการสร้างวิดีโอผลลัพธ์ได้เท่าเทียมกับแพลตฟอร์มที่มีอยู่การปรับปรุงหลังการส่งผลการทํางานเพิ่มเติม, ยกระดับพื้นที่สําหรับการปรับปรุงตามที่ซอฟต์แวร์สเต็กมีอายุ
การเพิ่มเติมเหล่านี้ย้ําความมุ่งมั่นของ AMD ในการขยายไปนอกจากมาตรฐาน LLM แบบดั้งเดิม เพื่อรองรับภาระงาน AI ที่กําลังเกิดขึ้นในกรณีการใช้งานที่หลากหลาย
โปรแกรม ROCm ช่วยให้มีการปรับขนาดและการสรุปแบบไม่เหมือนกัน
AMD ให้เครดิตความสามารถในการทํางานและการปรับขนาดของ MI355X ให้กับซอฟต์แวร์ ROCm. การปรับปรุงหลัก ๆ ประกอบด้วยการดําเนินงาน FP4 ที่ปรับปรุง, การสื่อสาร GPU-to-GPU ที่ดีขึ้นสําหรับการสรุปกระจายและสนับสนุนการกระจายภาระงานแบบไดนามิก ระหว่างสภาพแวดล้อมที่ไม่เหมือนกัน.
AMD MLPerf ผลการสรุป สัญชาตญาณ mI355x
การนําเสนอแบบไม่เหมือนกันที่สําคัญที่พัฒนาโดย Dell และ MangoBoost ใช้ AMD Instinct GPU แบบสามแบบคือ MI300X, MI325X และ MI355X521 ท็อคเกนต่อวินาทีบน Llama 2 70B Server และ 151โดยเฉพาะอย่างยิ่ง แพลตฟอร์ม MI355X ตั้งอยู่ในห้องปฏิบัติการของ Dellขณะที่ระบบ MI300X และ MI325X อยู่ในเกาหลี แสดงความสามารถในการประสานงาน ระบบที่กระจายไปทั่วสถานที่ทางภูมิศาสตร์.
การเติบโตและการผลิตพันธุ์ของระบบนิเวศ
ระบบพันธมิตรของ AMD ได้ขยายตัวอย่างสําคัญในรอบ MLPerf นี้ โดยมีบริษัท 9 แห่งส่งผลงานผ่านหลายรุ่นของ Instinct GPUกีกาคอมพิวเตอร์, HPE, MangoBoost, MiTAC, Oracle, Supermicro, และ Red Hat 反映การรับใช้ในอุตสาหกรรมที่กว้างขวางของคําตอบการสรุปของ AMD
การนําเสนอของพันธมิตรสอดคล้องอย่างใกล้ชิดกับผลการดําเนินงานภายใน AMD โดยทั่วไปในช่วง 4% และในบางกรณีในช่วง 1%ความสอดคล้องนี้ยืนยันว่าผลงานของ MI355X สามารถผลิตได้ใน OEM และแพลตฟอร์มเมฆ, ลดความเสี่ยงในการใช้งานและเพิ่มความมั่นใจในผลการทํางานในโลกจริง
บริษัท เทคโนโลยีจีเทงจี (Beijing Qianxing Jietong Technology Co., Ltd.)
แซนดี้ แยง (Sandy Yang) ผู้อํานวยการยุทธศาสตร์โลก
วอทแอป / เวชแชท: +86 13426366826
อีเมล: yangyd@qianxingdata.com
เว็บไซต์: www.qianxingdata.com/www.storagesserver.com
เน้นธุรกิจ:
การจัดจําหน่ายสินค้า ICT/การบูรณาการระบบและบริการ/การแก้ไขพื้นฐาน
ด้วยประสบการณ์การจําหน่ายไอที 20 ปีขึ้นไป เราร่วมมือกับแบรนด์ชั้นนําระดับโลก เพื่อให้ผลิตภัณฑ์ที่น่าเชื่อถือและบริการมืออาชีพ
การใช้เทคโนโลยีเพื่อสร้างโลกที่ฉลาด ผู้ให้บริการสินค้า ICT ที่คุณไว้วางใจ
แซนดี้ แยง (Sandy Yang) ผู้อํานวยการยุทธศาสตร์โลก
วอทแอป / เวชแชท: +86 13426366826
อีเมล: yangyd@qianxingdata.com
เว็บไซต์: www.qianxingdata.com/www.storagesserver.com
เน้นธุรกิจ:
การจัดจําหน่ายสินค้า ICT/การบูรณาการระบบและบริการ/การแก้ไขพื้นฐาน
ด้วยประสบการณ์การจําหน่ายไอที 20 ปีขึ้นไป เราร่วมมือกับแบรนด์ชั้นนําระดับโลก เพื่อให้ผลิตภัณฑ์ที่น่าเชื่อถือและบริการมืออาชีพ
การใช้เทคโนโลยีเพื่อสร้างโลกที่ฉลาด ผู้ให้บริการสินค้า ICT ที่คุณไว้วางใจ



