ประเด็นสําคัญ
- ความเร็วที่ไม่เคยมีมาก่อนในหน่วยเดียว:R7725xd มีความเร็วมากกว่า 300 GB / s ของความกว้างแดนภายในและ 160 GB / s ผ่าน NVMe-oF RDMA ซึ่งสามารถแข่งขันกับคลัสเตอร์การเก็บข้อมูลหลายโน้ดภายในชาสี 2U ได้
- สถาปัตยกรรม Gen5 ที่แท้จริง ไม่มีสวิตช์ ไม่มีแฟนออตSSD ขนาด 24 Micron 9550 PRO ทั้งหมดได้รับ x4 PCIe Gen5 เลนส่วนจํากัดโดยตรงจาก CPU ที่ซับซ้อน, ยอมให้การปรับขนาดความเร็วเส้นโดยไม่ต้องขัดแย้ง.
- ขับเคลื่อนโดย AMD EPYC 9005 ซีรีย์:โปรเซสเซอร์ AMD EPYC 9575F สองตัวให้จํานวนเลน, ความกว้างแบนด์วิทของความจํา, และโทปโลยี NUMA ที่จําเป็นสําหรับ I/O ที่มีความพร้อมสูงอย่างต่อเนื่อง
- ออกแบบสําหรับ AI, Analytics และ Workloads ที่ใช้จุดตรวจสอบหนัก:ระบบนี้กําจัดอุปสรรค I/O ที่หยุดการใช้งานของ GPU ที่ทันสมัย ทําให้สามารถส่งข้อมูลได้อย่างต่อเนื่องและความกว้างของแบนด์วิทสูง
- พีค: AIO เปิดการขนานเต็มที่PEAK: AIO ผสมซอฟต์แวร์รักษาโครงสร้างคิวที่อิ่มอิ่มภายใต้ภาระ, ส่งผลการดําเนินงานขององค์กรที่อัตราการต่อเนื่องของดอลลาร์ต่อGB
ส่วนการเก็บของ iDRAC 10 นําเสนอภาพรวมที่สมบูรณ์แบบของไดสก์ฟิสิกส์ทั้งหมดที่ติดตั้งใน R7725xd แผ่นสรุปแสดงจํานวนระดับสูงของไดสก์ที่เชื่อมต่อทั้งหมดพร้อมด้วยแผนภูมิรูปแบบรูปแบบที่แสดงสภาวะการขับเคลื่อนในระบบนี้ มี SSD NVMe 24 เครื่องทํางานและรายงานพร้อม พร้อมด้วยอุปกรณ์บูทเพิ่มเติมอีก 2 เครื่องในระบบ โดยแยกจากธนาคาร NVMe หน้าหลัก
ด้านขวา แพนลสรุปของดิสก์แยกพวกมันออกเป็นดิสก์ฟิสิกส์และดิสก์เสมือนใด ๆ ที่เกี่ยวข้อง,ทุกที่ขับขี่ถูกรายงานว่าเป็น Non-RAID และสามารถติดต่อกันได้เป็นตัวอย่าง โดยตรงกับการออกแบบของระบบสําหรับ NVMe พูลใหญ่และแพลตฟอร์ม SDS
ด้านล่างของสรุปสถานะ, พื้นที่เหตุการณ์การเก็บข้อมูลที่บันทึกเมื่อเร็วๆ นี้จัดรายการบันทึกการใส่สําหรับแต่ละ PCIe SSD, จัดโดยช่องและสล็อต.บันทึกนี้ยืนยันการตรวจสอบที่เหมาะสมในทุกช่องขับเคลื่อนและช่วยระบุปัญหาใด ๆ กับที่นั่งสําหรับการจัดจําหน่ายขนาดใหญ่, โล๊กเหล่านี้มีประโยชน์ในการติดตามการจัดหาไดรฟ์หรือตรวจสอบว่าความจุได้เต็มไปตามที่คาด.
ภาพจอสุดท้ายแสดงภาพของอุปกรณ์ NVMe รายละเอียดภายใน iDRAC10 แต่ละไดรฟ์ NVMe ที่ติดตั้งในระบบมีรายการพร้อมกับสถานะ, ความจุ และตําแหน่งของช่องการเลือกไดรฟ์แต่ละตัว จะเปิดการแยกลักษณะของมัน.
ในตัวอย่างนี้ แผ่นข้อมูลไดรฟ์แสดงรหัสแบบเต็มรหัส โปรโตคอลอุปกรณ์ หน่วยรูปแบบ และการเจรจาตั้งค่า PCIeอุปกรณ์ NVMe กําลังทํางานที่ความเร็วการเชื่อมต่อ 32 GT / s ด้วยการต่อรองการเชื่อมต่อ x4, ยืนยันว่าไดรฟ์กําลังทํางานด้วยความกว้างแบนด์เต็มในระบบ PCIe Gen5 รายงานในส่วนข้อมูลยังรายงานอัตราการทนทาน, สถานะสํารองที่ว่าง, และประเภทโปรโตคอลช่วยให้ผู้บริหารติดตามสุขภาพและความคาดหวังในวงจรชีวิตของรถยนต์.
รายงานการขับเคลื่อนขนาดเล็กนี้มีคุณค่าในการตั้งค่า NVMe ความหนาแน่นสูงที่ความกว้างของลิงค์ ความเร็วในการเจรจา และสภาพสื่อมีผลต่อพฤติกรรมของภาระงานและผลงานในการเก็บข้อมูลโดยตรง
โดยรวมแล้ว อินเตอร์เฟซ iDRAC 10 ให้ภาพที่ชัดเจนและเน้นฮาร์ดแวร์ของสถาปัตยกรรมการเก็บข้อมูล NVMe ของ R7725xd, ทําให้สามารถตรวจสอบความแข็งแรงของลิงค์, สถานะของไดรฟ์,และความสมบูรณ์แบบของระบบ.
Dell PowerEdge R7725xd ผลงาน
ก่อนการทดสอบ ระบบของเราถูกปรับแต่งให้มีความสมดุลและมีประสิทธิภาพสูง ระบบนี้มีโปรเซสเซอร์ AMD EPYC 9575F 2 เครื่องและคู่กับ 24 DDR5 DIMM 32GB ที่ทํางานที่ 6400 MT/sสําหรับการเก็บข้อมูล หม้อวางของเครื่องมี 24 เครื่อง SSD Micron 9550 PRO U.2 NVMe ขนาด 15.36TB ซึ่งแต่ละเครื่องเชื่อมต่อกันผ่านลิ้ง PCIe Gen5 x4 ที่มอบความจุทั้งหมด 368.64 TBและไมโครน 9550 PRO ขับส่งให้ความเร็วการอ่านเรียงลําดับสูงสุด 14,000 MB/s และความเร็วการเขียนเรียงลําดับสูงสุด 10,000 MB/s. เครือข่ายถูกจัดการโดยสี่ Broadcom BCM57608 adapters ที่ให้บริการรวมกันแปด 200Gb สนาม,พร้อมกับ BCM57412 OCP NIC ที่ให้บริการ 2 ท่า 10 กิกะบิตเพิ่มเติม.
รายละเอียดระบบทดสอบ
- CPU:2x AMD EPYC 9575F โปรเซสเซอร์ความถี่สูง 64-Core
- ความจํา:24x 32GB DDR5 @ 6400MT/s
- การเก็บรักษา:24x 15.36TB ไดรฟ์ Micron 9550 PRO U.2 (เชื่อมต่อ 4x ช่องทางของ PCIe Gen5 แต่ละตัว); รองรับถึง 128TB ไดรฟ์ในวันนี้ที่มีความจุสูงขึ้นในแนวราบ
- เครือข่าย:4x โบรดคอม BCM57608 2x200G NIC, 1x BCM57412 2x10Gb OCP NIC
- สลับ:Dell PowerSwitch Z9664
ค่าเทียบผลประกอบการ FIO
เพื่อวัดผลงานในการเก็บของ PowerEdge R7725xd เราใช้เมทริกส์มาตรฐานของอุตสาหกรรมและเครื่องมือ FIO ในส่วนนี้เราเน้นไปที่ปริมาตรฐาน FIO ต่อไปนี้:
- 4Kสุ่ม 1M
- 4K ตามลําดับ 1M
FIO ️ ท้องถิ่น ️ ความกว้างแบนด์เวท
เมื่อทดสอบการเข้าถึงพื้นที่ของ 24 พีซีไอเอจี Gen5 NVMe ดริบภายใน Dell PowerEdge R7725xdระบบแสดงให้เห็นอย่างถูกต้องสิ่งที่คุณจะคาดหวังจากแพลตฟอร์มที่ทุกที่ขับขี่ถูกเชื่อมต่อกับ CPU โดยใช้การเชื่อมต่อ x4 lane PCIe Gen5โดยไม่มีชั้นเครือข่ายที่เกี่ยวข้อง, นี่คือการผ่านที่บริสุทธิ์, ภายในของ Dell's Gen5 การวางแผนการเก็บข้อมูลและ AMD EPYC แพลตฟอร์ม's ความกว้างแบนด์ PCIe การทํางานโดยไม่ต้องจํากัด
การอ่านลําดับเริ่มต้นที่ 184 GB / s กับบล็อก 4K และปรับขนาดอย่างรวดเร็วเมื่อขนาดบล็อกเพิ่มขึ้น จาก 512K ถึง 1M เซอร์เวอร์รักษาความสม่ําเสมอ 312 ถึง 314 GB / sซึ่งเป็นการชี้แจงอย่างแข็งแรงว่าระบบสามารถรวมทุก 24 × 4 Gen5 lane เป็นความกว้างแบนด์เบนด์การอ่านที่ยั่งยืนได้อย่างไร โดยไม่ต้องมีข้อขัดขวางในระยะควบคุม.
การเขียนเรียงลําดับปฏิบัติตามเส้นโค้งที่แตกต่างกัน แต่อยู่อย่างมั่นคงในช่วงที่คาดหวัง เริ่มต้นที่ 149 GB / s ผลลัพธ์เพิ่มขึ้นผ่านกลาง 100s และถึง 182 GB / s ที่ 1 ล้าน.นี่ตรงกับพฤติกรรมการเขียนของ Micron 9550 PRO SSDs และค่าใช้จ่ายที่เกี่ยวข้องกับการเขียน NVMe ปานกลางสูงข้ามอุปกรณ์อิสระมากมาย.
ความสามารถในการอ่านแบบสุ่มเป็นจุดเด่นอีกอย่าง ระบบบรรลุความเร็วเกือบ 300 GB / s ในขนาดแบล็คขนาดเล็กที่สุดและจากนั้นจะฟื้นฟูขึ้นไปยัง 200sบนและ 300sต่ําในขนาดบล็อกใหญ่ใน 1M การอ่านสุ่มถึงสูงสุด 318 GB / s แสดงถึงความสามารถของแพลตฟอร์มในการกระจายการทํางานผสมผสานได้อย่างเท่าเทียมกันในทุก 24 ดิสก์
การเขียนแบบสุ่มจะเกิดขึ้นในอัตราที่ต่ํากว่า ซึ่งเป็นปกติสําหรับเมทาข้อมูลที่กระจายและการเขียนการจัดสรรภาระดับใน NVMe ที่กว้างผลลัพธ์ยังคงอยู่ในช่วง 140 ถึง 160 GB/s สําหรับส่วนใหญ่ของการทดสอบและกระชับไปยังเพียงเล็กน้อยกว่า 100 GB/s ที่ 1 M.
FIO โลคัล IOPS
เมื่อตรวจสอบด้าน IOPS, R7725xd แสดงผลงานขนาดเล็กที่แข็งแกร่งด้วยอัตราการขอถึงหลายสิบล้านครั้ง ก่อนที่ขนาดแบล็อกขนาดใหญ่จะย้ายภาระงานไปยังโปรไฟล์ที่ขับเคลื่อนด้วยความกว้างของแบนด์.
ที่ 4K การอ่านได้ถึง 44.9 ล้าน IOPS และการเขียนได้ถึง 36.3 ล้านการแสดงความสามารถของระบบในการกระจายภาระการทํางานที่คิวสูงได้อย่างมีประสิทธิภาพในทุกเครื่องขับค่าเหล่านี้จะลดลงตามขนาดของบล็อคเพิ่มขึ้น แต่การก้าวหน้ายังคงคงคงตลอดช่วง 8K, 16K และ 32K
โดยบล็อก 16K และ 32K การอ่านจะลงตัวอยู่ที่ 17.4 ล้านและ 8.35 ล้าน IOPS โดยการอ่านสุ่มจะตรงกันอย่างใกล้ชิดที่ 16.5 ล้านและ 8.15 ล้านการติดตามต่ํากว่า แต่ยังคงคงทั้งในรูปแบบการเข้าถึงลําดับและสุ่ม.
เมื่อเราขยับไปสู่ 64K และมากกว่านั้น การทดสอบจะเปลี่ยนจาก IOPS ที่บริสุทธิ์ไปยังฉากที่จํากัดความกว้างแบนด์เวทมากขึ้น IOPS จะตกอยู่ในช่วงลดล้าน และในที่สุดจะตกเป็นร้อยๆ พันขนาดบล็อก 1M, อ่าน IOPS ลงพื้นที่ประมาณ 300K, เขียนประมาณ 174K, และการดําเนินการสุ่มจบในย่านเดียวกัน.
โดยรวมแล้ว ผลการ IOPS ท้องถิ่นแสดงให้เห็นอย่างชัดเจนถึงความสามารถของระบบในการดําเนินงานที่มีความลึกของคิวที่สูงมาก ผ่านบล็อกขนาดเล็กด้วยการปรับขนาดที่สามารถคาดเดาได้ เมื่อการโอนข้อมูลเพิ่มขึ้น และความกว้างของแบนด์เวทกลายเป็นปัจจัยหลัก.
PEAK: AIO: ทําไม Dell PowerEdge R7725xd จะเหมาะกับภาระงานนี้
PEAK: AIO ถูกออกแบบให้กับสภาพแวดล้อมที่ต้องการการเข้าถึงข้อมูลขนาดใหญ่ที่รวดเร็วมากและความช้าต่ํา โดยทั่วไปสําหรับการฝึกอบรม AI, ไพปลายการสรุป, การจําลองทางการเงิน และการวิเคราะห์ในเวลาจริงแพลตฟอร์มเจริญเติบโตบน NVMe ที่มีความหนาแน่น, ความกว้างแบนด์วิท PCIe ที่สมดุล และความยืดหยุ่นที่คาดการณ์ได้ในขนาดแฮร์ดแวร์พื้นฐานต้องให้ผลิตต่อเนื่องในขณะที่ยังคงการทํางานที่คงและซ้ําต่อเนื่องภายใต้ภาระหนักร่วมกัน.
นี่คือจุดที่ Dell PowerEdge R7725xd สอดคล้องตามธรรมชาติกับ PEAK: AIO อาร์คิเทคชันของระบบถูกออกแบบมาเพื่อให้มีทรัพยากร PCIe Gen5 มากที่สุด โดยเปิดเผยความกว้างขวางของ 24 U ที่ติดตั้งด้านหน้า2 พื้น NVMe ตรงกับ CPU, โดยไม่พึ่งพาการควบคุม RAID แบบดั้งเดิม ลายแบบนี้ทําให้ PEAK: AIO มีรูปแบบการขนานและความช้าที่คาดหวังจากท่อข้อมูล NVMe ที่ทันสมัยการตั้งค่าระบบแบ่ง NVMe SSD เป็น 2 กลุ่ม RAID0.
ในกรณีที่ทดสอบ เราใช้ระบบลูกค้าสองระบบเชื่อมต่อกับ R7725xd แต่ละระบบพร้อมกับ Broadcom BCM57608 2x 200G NICs ที่สร้างทั้งหมดสี่ 200G uplinks การให้อาหารในแต่ละลูกค้าขยับ R7725xd เข้าสู่การปรับปรุงความสามารถสูงที่เป็นจริง ที่สะท้อนสิ่งที่ PEAK: AIO deployments ดูในการผลิต ระดับนี้ของความกว้างแบนด์วิทของเครือข่ายให้เราห้องพัก headroom เพื่อให้ความเครียดเต็มที่ NVMe ระบบย่อยและ CPU ติดต่อกันโดยไม่ต้องมีปัญหาที่ชั้น NIC.
ผลลัพธ์คือแพลตฟอร์มที่สอดคล้องได้อย่างมีประสิทธิภาพกับภาระงานของ PEAK: AIO. R7725xd ให้ความจุ NVMe ที่หนาแน่น, อัตราการทํางานของ PCIe Gen5, พรสิต AMD EPYC 9005 สองตัวสําหรับการขนานและความสามารถในเครือข่ายในการสนับสนุนการรับข้อมูลหลายลูกค้า ในระดับร้อยๆ กิ๊กบิตต่อลูกค้าคุณลักษณะทั้งหมดนี้เป็นพื้นฐานในการบรรลุความคาดหวังการทํางานของ PEAK: AIO
PEAK:AIO ✅ NVMe-of RDMA ✅ ความกว้างแบนด์เวท
การวิเคราะห์ผลความกว้างแดน NVMe-oF RDMA บน PowerEdge R7725xd ด้วย PEAK: AIO แนวโน้มทั่วไปคือสิ่งที่เราคาดหวังจากระบบที่มี PCIe และความกว้างแดนเครือข่ายมากขนาดนี้เมื่อขนาดของบล็อกเพิ่มขึ้น, อัตราการทํางานเพิ่มขึ้นอย่างรวดเร็วจนกว่ามันจะหยุดใกล้กับขีดจํากัดทางปฏิบัติของแพลตฟอร์ม
ในขนาดบล็อกขนาดเล็ก, ผลงานเริ่มต้นในช่วงกลาง 20GB / s สําหรับทั้งการอ่านและการเขียน, ซึ่งเป็นปกติเพราะการโอน 4K และ 8K ดันเส้นทาง IOPS ยากกว่าเส้นทางการผ่านเมื่อเราเข้าสู่บล็อก 16K และ 32K, ไพปไลน์จะเปิดขึ้น อ่านกระโดดไปประมาณ 154 GB / s ที่ 32K และยังคงขึ้นไปยังช่วง 160 GB / s ซึ่งตรงที่ที่เราจะคาดหวังการตั้งค่าลูกค้าคู่มากกว่าสี่ 200 Gb / s ลิงค์ที่ดิน
AIO ทํางานดีในการเก็บคิวคําสั่งให้อาหารดังนั้นความกว้างแบนด์วิธการอ่านสุ่ม โดยพื้นฐานแล้วจะติดตามความกว้างแบนด์วิธการอ่านลําดับ, ลงประมาณ 159 ถึง 161 GB/s จาก 32K ถึง 1M.และท็อปโลยี PCIe R7725xd ผันของ R7725xd ผันของ R7725xd ผันของ R7725xd.
การทํางานในการเขียนตามเส้นโค้งคล้ายกัน แม้ว่ามันจะต่ํากว่าการอ่านเล็กน้อย การเขียนเรียงลําดับยังคงอยู่ในช่วง 140 ถึง 148 GB / s ผ่านบล็อกขนาดกลางลดลงประมาณ 117 GB/s ที่ 128K แต่ฟื้นตัวเมื่อขนาดบล็อกเพิ่มขึ้นการเขียนแบบสุ่มมีพฤติกรรมที่แตกต่างกันและแบนออกใกล้ 110-117 GB / s ซึ่งเป็นเรื่องปกติสําหรับภาระงานคิวผสมผสานที่นําไปสู่ค่าใช้จ่ายเพิ่มเติม
ข้อสรุปสําคัญจากส่วนนี้คือ R7725xd ไม่มีปัญหาในการรักษาความกว้างแบนด์วิทสูงมากเหนือ NVMe-oF แม้กระทั่งกับลูกค้าหลายคนขับเคลื่อนระบบไปถึงขีดจํากัดของมันเมื่อขนาดบล็อกถึง 32K หรือมากกว่า, เซอร์เวอร์คง saturates ขนาดของเครือข่ายและความกว้างแบนด์เวทในการจองที่มีอยู่. นี้คือชนิดของประสิทธิภาพ PEAK: AIO ถูกออกแบบเพื่อการดึงทําให้ผลลัพธ์เหล่านี้ เป็นการยืนยันอย่างแข็งแกร่งถึงความสามารถของแพลตฟอร์มในการปรับขนาดภายใต้สภาพแวดล้อมจริง.
PEAK AIO ✅ NVMe-of RDMA IOPS
ในด้าน IOPS, PowerEdge R7725xd แสดงผลงานในบล็อคขนาดเล็กที่แข็งแรง แม้ว่าในตอนแรกเราสังเกตจํานวนต่ํากว่าที่คาดคาดว่าปัญหานี้จะแก้ไขด้วยการสนับสนุน Driver เครือข่ายที่ดีขึ้นในอนาคตแม้ว่าจะมีการเล่น, แนวโน้มการปรับขนาดโดยรวมปรากฏว่าเหมือนกับ NVMe-of RDMA ปกติประพฤติเมื่อขนาดบล็อกเพิ่มขึ้น.
ในขนาดบล็อกขนาดเล็กที่สุด ระบบสามารถส่งมอบ IOPS มากกว่า 6 ล้าน IOPS ทั้งลําดับและสุ่มและเขียนแบบสุ่มทั้งหมดนั่งในช่วงที่เหมือนกันใน 4K และ 8K, แสดงให้เห็นว่าลูกค้าด้านหน้า, โครงสร้างพื้นฐาน PCIe, และ NVMe ดริเวอร์ตัวเองไม่มีปัญหาในการติดตามอัตราการขอ.
เมื่อขนาดของบล็อกเติบโต, การลดที่คาดใน IOPS เริ่มต้น. ที่ 32K, อ่านดินรอบ 4.7 ล้าน IOPS, ในขณะที่เขียนร่องรอยเล็กน้อยตามหลังที่ประมาณ 4.4 ล้าน.,ลดลงถึงประมาณ 3.3 ล้าน IOPS ซึ่งตรงกับค่าคิวเพิ่มเติมและค่า CPU ที่นํามาโดยรูปแบบการเข้าถึงผสมผสาน
ขยับเข้าสู่บล็อกขนาดใหญ่ IOPS ยังคงลดลงในแบบเส้นตรงที่คาดเดาได้ เมื่อเราถึงการโอน 256K และ 512Kและ IOPS ลดลงเป็นธรรมชาติในกลางของร้อยๆ พันในขนาดบล็อก 1M ความจดหมายงานทั้งหมดจะเข้ากันถึง 140K-153K IOPS ซึ่งตรงกับจํานวนความกว้างแบนด์วิธที่เราเห็นในส่วนที่แล้ว
GPUDirect Storage Performance ความสามารถในการเก็บข้อมูล
หนึ่งในการทดสอบที่เราทํากับ R7725xd คือการทดสอบ Magnum IO GPUDirect Storage (GDS)GDS เป็นลักษณะที่พัฒนาโดย NVIDIA ที่อนุญาตให้ GPU ละเว้น CPU เมื่อเข้าถึงข้อมูลที่เก็บไว้บน NVMe drive หรืออุปกรณ์เก็บความเร็วสูงอื่นๆ. แทนที่จะนําข้อมูลผ่าน CPU และความจําระบบ GDS ทําให้การสื่อสารตรงระหว่าง GPU และอุปกรณ์การเก็บข้อมูลลดความช้าและปรับปรุงความเร็วของข้อมูลให้ดีขึ้น
วิธีการ GPUDirect Storage
โดยประเพณี เมื่อ GPU จัดการข้อมูลที่เก็บไว้บน NVMe drive ข้อมูลต้องเดินทางผ่าน CPU และความจําระบบก่อนที่จะถึง GPUเมื่อ CPU กลายเป็นตัวกลางGPUDirect Storage กําจัดความไม่ประสิทธิภาพนี้โดยทําให้ GPU สามารถเข้าถึงข้อมูลโดยตรงจากอุปกรณ์การเก็บข้อมูลผ่านบัส PCIeเส้นทางตรงนี้ ลดการเคลื่อนไหวของข้อมูล, ทําให้การถ่ายทอดข้อมูลรวดเร็วและมีประสิทธิภาพมากขึ้น
ค่าทํางานของ AI โดยเฉพาะอย่างยิ่งที่เกี่ยวข้องกับการเรียนรู้ลึก ใช้ข้อมูลมาก การฝึกเครือข่ายประสาทขนาดใหญ่ต้องประมวลผลข้อมูลหลายเทราไบต์และความช้าในการถ่ายทอดข้อมูลใด ๆ อาจนําไปสู่ GPU ที่ใช้งานน้อยและเวลาการฝึกอบรมที่ยาวนาน. GPUDirect Storage ตอบโจทย์นี้โดยการรับประกันว่าข้อมูลถูกส่งไปยัง GPU อย่างรวดเร็วที่สุด โดยการลดเวลาว่างให้น้อยที่สุดและยกระดับประสิทธิภาพการคํานวณสูงสุด
นอกจากนี้ GDS มีประโยชน์อย่างยิ่งสําหรับภาระงานที่เกี่ยวข้องกับการสตรีมเซตข้อมูลขนาดใหญ่ เช่น การประมวลผลวิดีโอ การประมวลผลภาษาธรรมชาติ หรือการสรุปในเวลาจริงโดยการลดความพึ่งพาใน CPU, GDS เร่งการเคลื่อนไหวของข้อมูลและปลดปล่อยทรัพยากร CPU สําหรับงานอื่น ๆ เพิ่มการผลิตระบบโดยรวม
นอกเหนือจากความกว้างแบนด์วิทแพร่ GPUDirect กับ NVMe-oF (TCP/RDMA) ยังให้ I/O ความช้าต่ําสุดท่อวิเคราะห์และการเล่นวีดีโออีกครั้ง
GDSIO อ่านเรียงลําดับ
เมื่อตรวจสอบ PEAK: AIO กับลูกค้าหนึ่งคนที่ใช้ GDSIO, ความสามารถในการอ่านแสดงลักษณะการปรับขนาดอย่างชัดเจนเมื่อทั้งขนาดบล็อกและจํานวน thread เพิ่มขึ้น.ลูกค้าตัวเดียวนี้ถูกเชื่อมต่อผ่าน 2 ลิงค์ 400G, จํากัดศักยภาพรวมของมัน 90 GB / s
ในขนาดบล็อกที่เล็กที่สุดและจํานวน thread ที่ต่ํามาก ความสามารถในการอ่าน 4K ต่ําต้อย โดยเริ่มต้นที่ 189 MiB/s ใน single thread เมื่อเราเพิ่มการขนาน threadระบบตอบสนองทันที, ดัน 691MiB / s ในสี่เส้นและบุกเข้าไปในช่วงหลาย GiB / s เมื่อเร



