บ้าน กรณี

การปรับขนาดจุดตรวจสอบ AI: ผลกระทบของ SSD ความจุสูงต่อการฝึกโมเดล

ผลิตภัณฑ์ทั้งหมด

เซิร์ฟเวอร์จัดเก็บข้อมูลแร็ค
(165)

Huawei เซิร์ฟเวอร์ฟิวชั่น
(31)

เซิร์ฟเวอร์ Dell Poweredge
(59)

เซิร์ฟเวอร์ H3C
(30)

สวิตช์ ดาต้าคอม
(97)

อุปกรณ์ WLAN
(21)

เราเตอร์ไร้สายอัจฉริยะ
(10)

ฮาร์ดไดรฟ์ HDD
(24)

ฮาร์ดไดรฟ์ภายใน SSD
(16)

การ์ดจอ Geforce
(27)

โปรเซสเซอร์ INTEL CPU
(20)

หน่วยความจำเซิร์ฟเวอร์ RAM
(6)

เซิร์ฟเวอร์จัดเก็บข้อมูลที่ตกแต่งใหม่
(6)

โมดูลตัวรับส่งสัญญาณ SFP
(4)

สวิตช์ช่องสัญญาณไฟเบอร์
(42)

ได้รับการรับรอง

จีน Beijing Qianxing Jietong Technology Co., Ltd. รับรอง

ความคิดเห็นของลูกค้า

พนักงานขายของ Beijing Qianxing Jietong Technology Co. , Ltd เป็นมืออาชีพและอดทนมาก พวกเขาสามารถให้ใบเสนอราคาได้อย่างรวดเร็ว คุณภาพและบรรจุภัณฑ์ของผลิตภัณฑ์ก็ดีมากเช่นกัน ความร่วมมือของเราเป็นไปอย่างราบรื่น

—— 《Festfing DV》 LLC

เมื่อฉันกำลังมองหา Intel CPU และ Toshiba SSD อย่างเร่งด่วน Sandy จาก Beijing Qianxing Jietong Technology Co., Ltd ให้ความช่วยเหลืออย่างมากและได้ผลิตภัณฑ์ที่ฉันต้องการอย่างรวดเร็ว ฉันชื่นชมเธอจริงๆ

—— คิตตี้ เยน

แซนดี้แห่งปักกิ่ง Qianxing Jietong Technology Co. , Ltd เป็นพนักงานขายที่ระมัดระวัง ซึ่งสามารถเตือนฉันถึงข้อผิดพลาดในการกำหนดค่าในเวลาที่ฉันซื้อเซิร์ฟเวอร์ วิศวกรมีความเป็นมืออาชีพมากและสามารถดำเนินการทดสอบให้เสร็จสิ้นได้อย่างรวดเร็ว

—— Strelkin Mikhail Vladimirovich

เรามีความสุขมากกับประสบการณ์การทำงานกับ Beijing Qianxing Jietong คุณภาพของผลิตภัณฑ์ยอดเยี่ยมและการจัดส่งตรงเวลาเสมอ ทีมขายของพวกเขามืออาชีพ อดทน และช่วยเหลือดีมากกับคำถามทั้งหมดของเรา เราขอขอบคุณการสนับสนุนของพวกเขาอย่างแท้จริงและหวังว่าจะได้ร่วมงานกันในระยะยาว แนะนำเป็นอย่างยิ่ง!

—— Ahmad Navid

คุณภาพ: ประสบการณ์ที่ดีกับผู้จําหน่ายของฉัน The MikroTik RB3011 ได้ถูกใช้แล้ว แต่มันอยู่ในสภาพที่ดีมาก และทุกอย่างทํางานอย่างสมบูรณ์แบบ การสื่อสารเร็วและเรียบร้อยและความกังวลทั้งหมดของฉันถูกแก้ไขอย่างรวดเร็วซัพพลายเออร์ที่น่าเชื่อถือมาก แนะนํามาก

—— เจรัน โคเลซิโอ

สนทนาออนไลน์ตอนนี้ฉัน

การปรับขนาดจุดตรวจสอบ AI: ผลกระทบของ SSD ความจุสูงต่อการฝึกโมเดล

March 13, 2026

การทำ Checkpointing เป็นสิ่งจำเป็นสำหรับการฝึกโมเดล AI เนื่องจากช่วยให้มั่นใจได้ถึงความทนทาน ประสิทธิภาพการดำเนินงาน และความสามารถในการกลับมาฝึกต่อหรือปรับแต่งจากการบันทึกสถานะ อย่างไรก็ตาม ความต้องการของเวิร์กโฟลว์ AI สมัยใหม่ ซึ่งมีลักษณะเฉพาะคือโมเดลที่ซับซ้อนมากขึ้นและชุดข้อมูลการฝึกที่กว้างขวาง กำลังผลักดันระบบจัดเก็บข้อมูลไปสู่ขีดจำกัดสูงสุด

บทบาทของ Checkpoints ในเวิร์กโฟลว์ AI

การทำ Checkpointing ในการฝึก AI เป็นกระบวนการที่สำคัญซึ่งเกี่ยวข้องกับการบันทึกสถานะสมบูรณ์ของโมเดลเป็นระยะๆ ในระหว่างรอบการฝึก สถานะนี้ประกอบด้วยน้ำหนักและพารามิเตอร์ของโมเดล สถานะของ Optimizer ตารางอัตราการเรียนรู้ และข้อมูลเมตาของการฝึก โดยการสร้างภาพรวมที่ครอบคลุมของกระบวนการฝึก ณ ช่วงเวลาที่กำหนด การทำ Checkpointing จะรับประกันความต่อเนื่องของการฝึกและเปิดใช้งานการกู้คืนในกรณีที่เกิดการหยุดชะงัก

โดยทั่วไป Checkpoints จะถูกจับที่ช่วงเวลาตามรอบ (เช่น ทุกๆ หนึ่งพันขั้นตอนการฝึก) การฝึกโมเดลภาษาขนาดใหญ่ (LLM) สมัยใหม่ ซึ่งอาจใช้เวลาหลายสัปดาห์หรือหลายเดือนและใช้ทรัพยากรคอมพิวเตอร์จำนวนมหาศาล อาศัย Checkpoints เหล่านี้อย่างมากเพื่อเป็นตาข่ายนิรภัยต่อความล้มเหลวที่อาจเกิดขึ้น ตัวอย่างเช่น การฝึกโมเดลระดับ GPT-4 สามารถสร้าง Checkpoints ได้ตั้งแต่หลายร้อยกิกะไบต์ไปจนถึงหลายเทราไบต์ ขึ้นอยู่กับขนาดของโมเดลและการกำหนดค่าการฝึก

กระบวนการฝึกที่สร้างโดย DALL-E

วัตถุประสงค์หลักของการทำ Checkpointing นั้นเกินกว่าฟังก์ชันการสำรองข้อมูลเพียงอย่างเดียว มันทำหน้าที่เป็นกลไกที่สำคัญสำหรับความทนทานในการฝึก ช่วยให้การฝึกกลับมาดำเนินการต่อจากสถานะที่บันทึกล่าสุด แทนที่จะเริ่มต้นใหม่ตั้งแต่ต้นในกรณีที่ระบบล้มเหลว ไฟดับ หรือปัญหาฮาร์ดแวร์ นอกจากนี้ Checkpoints ยังมีคุณค่าอย่างยิ่งสำหรับการวิเคราะห์โมเดล: ช่วยให้นักวิจัยสามารถตรวจสอบวิวัฒนาการของโมเดลในระยะการฝึกที่แตกต่างกัน และอาจย้อนกลับไปยังสถานะก่อนหน้าได้หากตรวจพบประสิทธิภาพที่ลดลง

จากมุมมองของการจัดเก็บ รูปแบบการเขียนระหว่างการทำ Checkpointing นั้นน่าสังเกตเป็นพิเศษ เมื่อมีการเรียกใช้ Checkpoint ระบบจะต้องเขียนข้อมูลปริมาณมหาศาลในรูปแบบการเขียนแบบ Burst สิ่งนี้สร้างโปรไฟล์ I/O ที่แตกต่างกัน: ช่วงเวลาที่มีกิจกรรมการจัดเก็บค่อนข้างต่ำระหว่างการคำนวณการฝึก ตามด้วยการดำเนินการเขียนที่เข้มข้นและแบนด์วิดท์สูงระหว่างการทำ Checkpointing การดำเนินการเขียนเหล่านี้โดยทั่วไปจะเป็นแบบลำดับและสามารถได้รับประโยชน์อย่างมากจากระบบจัดเก็บข้อมูลที่ปรับให้เหมาะสมสำหรับการเขียนแบบลำดับแบนด์วิดท์สูง

กลยุทธ์การขนานที่แตกต่างกันในการฝึกแบบกระจายสามารถส่งผลกระทบอย่างมากต่อพฤติกรรมการทำ Checkpointing กลยุทธ์เหล่านี้มีอิทธิพลต่อเวลาที่ Checkpointing เกิดขึ้นระหว่างการฝึกและส่วนของโมเดลที่จะถูกบันทึก ในการตั้งค่าการฝึกแบบกระจายสมัยใหม่ GPU หลายตัวอาจเขียนส่วนต่างๆ ของเลเยอร์เดียวกันพร้อมกัน ทำให้เกิดรูปแบบ I/O ที่ซับซ้อน ความสามารถในการเขียนแบบขนานนี้เป็นกุญแจสำคัญสำหรับประสิทธิภาพ แต่ต้องมีการประสานงานอย่างรอบคอบและระบบจัดเก็บข้อมูลที่แข็งแกร่งซึ่งสามารถจัดการการดำเนินการเขียนพร้อมกันได้ในขณะที่รักษาความสอดคล้องของข้อมูล ข้อจำกัดใดๆ ในกระบวนการนี้อาจนำไปสู่ความล่าช้าในการฝึกที่แพร่หลาย

การทำ Checkpointing ที่ช้าสามารถสร้างคอขวดในการฝึกที่สำคัญได้ เนื่องจากกระบวนการฝึกทั้งหมดต้องหยุดชะงักในขณะที่ Checkpoint ถูกเขียนไปยังที่จัดเก็บ ตัวอย่างเช่น ในการตั้งค่าการฝึกขนาดใหญ่ หากการทำ Checkpointing ใช้เวลา 30 นาทีทุกๆ สองสามชั่วโมง สิ่งนี้อาจส่งผลให้เกิดเวลาหยุดทำงานสะสมหลายชั่วโมงตลอดระยะเวลาการฝึกทั้งหมด สิ่งนี้ส่งผลกระทบโดยตรงต่อประสิทธิภาพการฝึกและเพิ่มต้นทุนการดำเนินงาน โดยเฉพาะอย่างยิ่งในสภาพแวดล้อมคลาวด์ที่ทรัพยากรคอมพิวเตอร์ถูกเรียกเก็บเงินตามชั่วโมง

การทำ Checkpointing ที่เร็วขึ้นยังช่วยให้ทีมสามารถสร้าง Checkpoints ได้บ่อยขึ้น ลดการสูญเสียข้อมูลสูงสุดที่อาจเกิดขึ้นในกรณีที่เกิดความล้มเหลว สิ่งนี้ช่วยให้ใช้วิธีการฝึกที่ก้าวร้าวมากขึ้นและปรับปรุงรอบการทำซ้ำของการทดลองได้ นอกจากนี้ เวลาในการโหลด Checkpoint ที่รวดเร็วยังช่วยอำนวยความสะดวกในการทดลองที่รวดเร็วขึ้นด้วยการกำหนดค่าการฝึกและสถาปัตยกรรมโมเดลที่แตกต่างกัน เนื่องจากนักวิจัยสามารถกู้คืนจากสถานะก่อนหน้าได้ง่ายขึ้นเพื่อทดสอบแนวทางทางเลือก

ความสามารถของระบบจัดเก็บข้อมูลในการจัดการการดำเนินการ Checkpoint เหล่านี้อย่างมีประสิทธิภาพกลายเป็นปัจจัยสำคัญในโครงสร้างพื้นฐานการฝึกโดยรวม โซลูชันการจัดเก็บข้อมูลประสิทธิภาพสูงที่สามารถจัดการทั้งรูปแบบการเขียนแบบ Burst ของการทำ Checkpointing และการดำเนินการอ่าน/เขียนที่ต่อเนื่องของการฝึก สามารถลดเวลาและต้นทุนทั้งหมดของการฝึกโมเดลภาษาขนาดใหญ่ได้อย่างมาก ดังนั้น ลักษณะประสิทธิภาพของระบบย่อยจัดเก็บข้อมูล โดยเฉพาะอย่างยิ่งความสามารถในการจัดการการเขียนแบบลำดับขนาดใหญ่และรักษาแบนด์วิดท์สูงที่สม่ำเสมอ จึงเป็นข้อควรพิจารณาที่สำคัญเมื่อออกแบบโครงสร้างพื้นฐานการฝึก LLM

สำหรับรายงานฉบับนี้ เราได้ประเมินประสิทธิภาพของ SSD สำหรับการทำ Checkpointing AI โดยประเมินประโยชน์ของ SSD Gen5 ล่าสุดเมื่อความเร็ว Checkpoint มีความสำคัญ เมื่อเทียบกับ SSD QLC ที่ใหญ่ที่สุดในตลาด ซึ่งสามารถจัดเก็บ Checkpoints จำนวนมากได้หากเป็นประโยชน์มากกว่าสำหรับโมเดลที่กำลังฝึก

ประสิทธิภาพ Checkpoint – การวัดประสิทธิภาพด้วย DLIO

เพื่อประเมินประสิทธิภาพจริงของ Solidigm SSD ในสภาพแวดล้อมการฝึก AI เราได้ใช้เครื่องมือวัดประสิทธิภาพ Data and Learning Input/Output (DLIO) DLIO พัฒนาโดย Argonne National Laboratory ออกแบบมาโดยเฉพาะเพื่อทดสอบรูปแบบ I/O ในเวิร์กโฟลว์ Deep Learning โดยให้ข้อมูลเชิงลึกเกี่ยวกับวิธีที่ระบบจัดเก็บข้อมูลจัดการกับการทำ Checkpointing การนำเข้าข้อมูล และความท้าทายในการฝึกโมเดล

โดยใช้ DLIO เรามีเป้าหมายเพื่อวัดปริมาณงาน ความหน่วงแฝง และความน่าเชื่อถือของไดรฟ์ภายใต้สถานการณ์การทำ Checkpointing ที่เข้มข้น แม้ว่าการทดสอบนี้จะดำเนินการบน D5-P5336 ขนาด 61.44TB แต่ข้อมูลประสิทธิภาพเบื้องต้นบ่งชี้ว่า Solidigm D5-P5336 เวอร์ชัน 122TB มีโปรไฟล์ประสิทธิภาพที่คล้ายคลึงกัน เรายังได้รวมผลลัพธ์จาก D7-PS1010 ที่ใช้ TLC เพื่อแสดงข้อได้เปรียบของ PCIe Gen5 ในการทดสอบนี้ เราเลือกไดรฟ์ทั้งสองนี้เพื่อแสดงมุมมองทั้งสองเกี่ยวกับ Checkpoints: มุมมองหนึ่งเน้นที่เวลา Checkpoint ที่เร็วที่สุดเท่าที่จะเป็นไปได้ และอีกมุมมองหนึ่งเน้นที่การจัดเก็บ Checkpoints จำนวนสูงสุดบน SSD เดียว

แพลตฟอร์มที่เลือกสำหรับงานนี้คือ Dell PowerEdge R760 ของเราที่ใช้ Ubuntu 22.04.02 LTS เราใช้ DLIO benchmark เวอร์ชัน 2.0 จากการเผยแพร่เมื่อวันที่ 13 สิงหาคม 2024 การกำหนดค่าระบบของเรามีดังนี้:

2 x Intel Xeon Gold 6430 (32-Core, 2.1GHz)
16 x 64GB DDR5-4400
480GB Dell BOSS SSD
Serial Cables Gen5 JBOF
- 7.68TB Solidigm D7-PS1010
- 61.44TB Solidigm D5-P5336

เพื่อให้แน่ใจว่าการวัดประสิทธิภาพของเราสะท้อนสถานการณ์จริง เราได้อิงการทดสอบของเรากับสถาปัตยกรรมโมเดล LLAMA 3.1 405B โดยใช้ torch.save() เพื่อจับพารามิเตอร์โมเดล สถานะ Optimizer และสถานะเลเยอร์ การตั้งค่าของเราจำลองระบบ 8-GPU โดยใช้กลยุทธ์การขนานแบบไฮบริดด้วยการประมวลผลแบบ Tensor Parallel 4-way และ Pipeline Parallel 2-way ที่กระจายไปทั่ว GPU แปดตัว การกำหนดค่านี้ส่งผลให้ขนาด Checkpoint 1,636 GB ซึ่งเป็นตัวแทนของความต้องการการฝึกโมเดลภาษาขนาดใหญ่สมัยใหม่

กระบวนการทดสอบของเราสำหรับเวิร์กโหลด Checkpoint DLIO ประกอบด้วยการเติมไดรฟ์แต่ละตัวให้มีระดับการใช้งานที่คล้ายคลึงกัน สำหรับ Solidigm D5-P5336 ขนาด 61.44TB แต่ละรอบจะรวมช่วงเวลา Checkpoint 33 ครั้ง รวมเป็น 54TB D7-PS1010 ขนาดเล็ก 7.68TB สามารถรองรับช่วงเวลา Checkpoint ได้สามครั้ง โดยมีพื้นที่รวม 4.9TB สามารถใส่ Checkpoint เพิ่มอีกหนึ่งรายการลงใน D7-PS1010 ได้ แม้ว่าจะทำให้ระดับการใช้งานสูงกว่าที่เราต้องการเล็กน้อย

เวิร์กโหลด Checkpoint DLIO ให้ผลลัพธ์ที่น่าสนใจเมื่อเราเปรียบเทียบ Gen4 QLC-based D5-P5336 ขนาด 61.44TB กับ Gen5 TLC-based D7-PS1010 ขนาด 7.68TB ในระหว่างรอบแรก ขณะที่ไดรฟ์เต็ม เราเห็นช่องว่างประสิทธิภาพที่กว้างขึ้นระหว่าง SSD สองรุ่น PS1010 Gen5 ที่เร็วกว่าเสร็จสิ้น Checkpoint แต่ละรายการโดยเฉลี่ยใน 464 วินาที เทียบกับ 623 วินาทีจาก P5336 Gen4 ในรอบที่สองและสาม ช่องว่างแคบลงเหลือ 579 และ 587 วินาทีสำหรับ PS1010 และ 676 และ 680 วินาทีสำหรับ P5336

สำหรับธุรกิจที่ต้องการลดช่องว่างระหว่างช่วงเวลา Checkpointing ให้เหลือน้อยที่สุด PS1010 Gen5 ที่ใช้ TLC จะให้ข้อได้เปรียบในด้านเวลาที่เสร็จสมบูรณ์เร็วที่สุด หากเป้าหมายคือการเก็บ Checkpoints จำนวนมากอย่างคุ้มค่า P5336 Gen4 ที่ใช้ QLC สามารถทำได้ เราวัดความแตกต่างของเวลา Checkpoint เฉลี่ย น้อยกว่า 17% ระหว่างไดรฟ์ทั้งสองในระหว่างรอบที่สองและสาม

แบนด์วิดท์ GPUDirect Storage

แม้ว่า DLIO จะแสดงประสิทธิภาพของแฟลชในเวิร์กโฟลว์ AI แต่เวิร์กโหลดนั้นเป็นแบบเขียนทั้งหมดจนกว่า Checkpoint จะถูกกู้คืน เพื่อให้เห็นภาพที่สมบูรณ์ยิ่งขึ้นของ Solidigm D7-PS1010 และ D5-P5336 ในเวิร์กโฟลว์ AI เราได้รวมการวัดแบนด์วิดท์การอ่านโดยใช้ GDSIO

GPU Direct Storage ทำงานอย่างไร

โดยทั่วไป เมื่อ GPU ประมวลผลข้อมูลที่จัดเก็บไว้ในไดรฟ์ NVMe ข้อมูลจะต้องเดินทางผ่าน CPU และหน่วยความจำระบบก่อนที่จะถึง GPU กระบวนการนี้สร้างคอขวด เนื่องจาก CPU กลายเป็นตัวกลาง เพิ่มความหน่วงแฝงและใช้ทรัพยากรระบบที่มีค่า GPU Direct Storage ขจัดความไร้ประสิทธิภาพนี้โดยการเปิดใช้งาน GPU ให้เข้าถึงข้อมูลได้โดยตรงจากอุปกรณ์จัดเก็บข้อมูลผ่านบัส PCIe เส้นทางตรงนี้ช่วยลดโอเวอร์เฮดที่เกี่ยวข้องกับการย้ายข้อมูล ทำให้การถ่ายโอนข้อมูลเร็วขึ้นและมีประสิทธิภาพมากขึ้น

เวิร์กโฟลว์ AI โดยเฉพาะอย่างยิ่งที่เกี่ยวข้องกับ Deep Learning นั้นต้องการข้อมูลจำนวนมาก การฝึกโครงข่ายประสาทเทียมขนาดใหญ่ต้องใช้การประมวลผลข้อมูลเทราไบต์ และความล่าช้าใดๆ ในการถ่ายโอนข้อมูลอาจนำไปสู่การใช้งาน GPU ที่ไม่เต็มที่และเวลาในการฝึกที่นานขึ้น GPU Direct Storage แก้ไขปัญหานี้โดยการรับรองว่าข้อมูลจะถูกส่งไปยัง GPU ให้เร็วที่สุดเท่าที่จะเป็นไปได้ โดยลดเวลาที่ไม่ได้ใช้งานให้เหลือน้อยที่สุดและเพิ่มประสิทธิภาพการคำนวณให้สูงสุด

เช่นเดียวกับการทดสอบ DLIO เป้าหมายคือการทำความเข้าใจและจำแนกลักษณะความแตกต่างระหว่าง SSD Gen5 ความเร็วสูงและไดรฟ์ QLC ความจุสูง ไม่ใช่ทุกเวิร์กโฟลว์ AI ที่เหมือนกัน และไดรฟ์แต่ละตัวมีข้อได้เปรียบที่แตกต่างกัน ขึ้นอยู่กับความต้องการ

เมทริกซ์การกำหนดค่าการทดสอบ

เราได้ทดสอบทุกการผสมผสานของพารามิเตอร์ต่อไปนี้กับ NVIDIA L4 ในแพลตฟอร์มทดสอบของเราอย่างเป็นระบบ:

ขนาดบล็อก: 1M, 128K, 64K, 16K, 8K
จำนวนเธรด: 128, 64, 32, 16, 8, 4, 1
จำนวนงาน: 16
ขนาดแบทช์: 16

การมองครั้งแรกของเราคือ D5-P5336 ที่ใช้ QLC ซึ่งมีปริมาณงานสูงสุดที่ 4.2GiB/s โดยใช้ขนาดการถ่ายโอน 1M ที่ระดับ IO depth 128 ผลกระทบของขนาดบล็อกทำให้ปริมาณงานเพิ่มขึ้นอย่างมาก โดยย้ายจาก 8K เป็น 1M ข้อได้เปรียบของ IO depth ที่เพิ่มขึ้นเริ่มลดลงที่ 32 ซึ่งเวิร์กโหลดเริ่มคงที่

ถัดไป เรามาดู Gen5 PS-1010 ซึ่งสามารถปรับขนาดได้สูงสุดถึง 6.2GiB/s ที่ขนาดบล็อก 1M และ IO depth 128 โดยรวมแล้วมีประสิทธิภาพเหนือกว่า P5336 ที่ใช้ Gen4 โดยเฉพาะอย่างยิ่งเวิร์กโหลดบางอย่างแสดงให้เห็นถึงปริมาณงานที่เพิ่มขึ้นอย่างมาก พื้นที่ที่น่าสังเกตของการปรับปรุงคือขนาดบล็อก 128K ซึ่งที่ IO depth 64 และ 128 PS1010 ให้แบนด์วิดท์การอ่านเป็นสองเท่าของ P5336

สิ่งสำคัญคือต้องทราบว่า SSD ทั้งสองได้รับการทดสอบโดยใช้ NVIDIA L4 แม้ว่า Gen4 D5-P5336 จะอยู่ที่ระดับสูงสุดหรือใกล้เคียงกับระดับสูงสุด แต่ GPU NVIDIA รุ่นบน เช่น H100 แสดงประสิทธิภาพที่สูงขึ้นกับ D7-PS1010 ความเร็วของไดรฟ์เป็นปัจจัยในการตัดสินใจขั้นสุดท้ายสำหรับลูกค้าบางราย ในขณะที่ลูกค้าบางรายให้ความสำคัญกับความหนาแน่นโดยรวมSolidigmนำเสนอโซลูชันสำหรับทั้งสองอย่าง ด้วยข้อเสนอ SSD QLC และ TLC

บทสรุป

ในขณะที่ขนาดและความซับซ้อนของการฝึก AI ยังคงเพิ่มขึ้นอย่างต่อเนื่อง โครงสร้างพื้นฐานการจัดเก็บข้อมูลพื้นฐานจะต้องไม่เพียงแต่ก้าวให้ทัน แต่ยังต้องกำหนดจังหวะด้วย การทดสอบของเราด้วย SSD สองตัวที่แตกต่างกันอย่างชัดเจนเน้นย้ำถึงความสำคัญของการปรับโซลูชันการจัดเก็บข้อมูลให้สอดคล้องกับลำดับความสำคัญของการฝึกที่เฉพาะเจาะจง ไม่ว่าจะเป็นการลดความหน่วงแฝงของ Checkpoint หรือการเพิ่มความหนาแน่นของ Checkpoint ให้สูงสุดเพื่อความสามารถในการปรับขนาดที่คุ้มค่า

ในการประเมินของเรา เราได้ทดสอบ Solidigm D5-P5336 (61.44TB) และ D7-PS1010 (7.68TB) ภายใต้เงื่อนไขการฝึก AI ที่สมจริง โดยใช้ประโยชน์จาก DLIO benchmark และเวิร์กโฟลว์การทำ Checkpointing LLM แบบไฮบริด-พารามิเตอร์ที่ครอบคลุม เราได้บันทึกเมตริกที่สะท้อนประสิทธิภาพการเขียน Checkpoint ในการทดสอบหลายรอบขณะที่ไดรฟ์เต็ม โดยเน้นย้ำถึงความแตกต่างของประสิทธิภาพในเวลาที่เสร็จสมบูรณ์ระหว่าง D5-P5336 ที่ใช้ Gen4 QLC และ D7-PS1010 ที่ใช้ Gen5 TLC

ในขณะที่ D7-PS1010 ให้การเขียน Checkpoint ที่เร็วที่สุดเท่าที่จะเป็นไปได้ D5-P5336 แสดงให้เห็นถึงความคุ้มค่าและข้อได้เปรียบด้านความจุที่น่าสนใจ โดยมีเพียงการแลกเปลี่ยนประสิทธิภาพเล็กน้อยเท่านั้น เราได้ตรวจสอบแบนด์วิดท์การอ่าน GPU Direct Storage (GDS) เพิ่มเติมโดยใช้ GDSIO กับ NVIDIA L4 GPU ผลการวิจัยของเราแสดงให้เห็นว่า Solidigm D5-P5336 ให้แบนด์วิดท์การอ่านสูงสุด 4.2GiB/s ด้วยขนาดการถ่ายโอน 1M ในขณะที่ D7-PS1010 ให้ปริมาณงานที่เพิ่มขึ้นอย่างมากถึง 6.2GiB/s ประสิทธิภาพจะน่าประทับใจยิ่งขึ้นเมื่อใช้ GPU ที่ทรงพลังกว่า เช่น NVIDIA L40s หรือ H100/H200

เมื่อมองไปข้างหน้า ความจุที่ไม่เคยมีมาก่อนของ Solidigm D5-P5336 122TB SSD กำลังจะเปลี่ยนแปลงการฝึกและการใช้งาน AI เนื่องจากขนาดโมเดลและความต้องการ Checkpointing ยังคงเติบโต ไดรฟ์ความจุสูงเหล่านี้จะปลดล็อกระดับประสิทธิภาพและความยืดหยุ่นใหม่ๆ ทำให้กลยุทธ์การฝึกที่ไม่เคยมีมาก่อนเป็นไปได้ Solidigm เป็นผู้นำในโซลูชัน SSD ความจุสูง ช่วยให้องค์กรต่างๆ สามารถจัดเก็บข้อมูลและ Checkpoints ได้มากขึ้นบนไดรฟ์น้อยลง ในขณะเดียวกันก็ช่วยให้โครงสร้างพื้นฐานของตนพร้อมสำหรับคลื่นลูกต่อไปของความซับซ้อนของ AI

บริษัท ปักกิ่ง เฉียนซิง เจียทง เทคโนโลยี จำกัด
แซนดี้ หยาง / ผู้อำนวยการฝ่ายกลยุทธ์ระดับโลก
WhatsApp / WeChat: +86 13426366826
อีเมล: yangyd@qianxingdata.com
เว็บไซต์: www.qianxingdata.com/www.storagesserver.com

จุดเน้นทางธุรกิจ:
การจัดจำหน่ายผลิตภัณฑ์ ICT / การรวมระบบและบริการ / โซลูชันโครงสร้างพื้นฐาน
ด้วยประสบการณ์ด้านการจัดจำหน่ายไอทีมากกว่า 20 ปี เราเป็นพันธมิตรกับแบรนด์ชั้นนำระดับโลกเพื่อส่งมอบผลิตภัณฑ์ที่เชื่อถือได้และบริการระดับมืออาชีพ
"ใช้เทคโนโลยีเพื่อสร้างโลกอัจฉริยะ" ผู้ให้บริการผลิตภัณฑ์ ICT ที่คุณไว้วางใจ!

PREV: Micron 6550 ION SSD: Gen5 Performance, Energy Efficiency, และความจุสูงในเครื่องเดียว

NEXT: ระบบระบายความร้อนด้วยของเหลวจะมาถึงศูนย์ข้อมูลของคุณ: Dell Tech World เน้นทางเลือกต่างๆ

รายละเอียดการติดต่อ

Beijing Qianxing Jietong Technology Co., Ltd.

ผู้ติดต่อ: Ms. Sandy Yang

โทร: 13426366826

การปรับขนาดจุดตรวจสอบ AI: ผลกระทบของ SSD ความจุสูงต่อการฝึกโมเดล

เซิร์ฟเวอร์จัดเก็บข้อมูลแร็ค

Huawei เซิร์ฟเวอร์ฟิวชั่น

เซิร์ฟเวอร์ Dell Poweredge

เซิร์ฟเวอร์ H3C

สวิตช์ ดาต้าคอม

อุปกรณ์ WLAN

เราเตอร์ไร้สายอัจฉริยะ

ฮาร์ดไดรฟ์ HDD

ฮาร์ดไดรฟ์ภายใน SSD

การ์ดจอ Geforce

โปรเซสเซอร์ INTEL CPU

หน่วยความจำเซิร์ฟเวอร์ RAM

เซิร์ฟเวอร์จัดเก็บข้อมูลที่ตกแต่งใหม่

โมดูลตัวรับส่งสัญญาณ SFP

สวิตช์ช่องสัญญาณไฟเบอร์

การปรับขนาดจุดตรวจสอบ AI: ผลกระทบของ SSD ความจุสูงต่อการฝึกโมเดล

แบนด์วิดท์ GPUDirect Storage

GPU Direct Storage ทำงานอย่างไร

เมทริกซ์การกำหนดค่าการทดสอบ

บทสรุป

เซิร์ฟเวอร์จัดเก็บข้อมูลแร็ค

12 Bays 1U ที่วางแร็ค Server Lenovo ThinkSystem SR630 ชั้นวาง Server

Think System SR250 V2 4SFF เซิร์ฟเวอร์จัดเก็บข้อมูลแร็ค Intel Xeon E-2378G Processor

เซิร์ฟเวอร์จัดเก็บข้อมูลแร็ค Intel C621A Inspur NF5180M6 1U ชั้นวาง Mount Server

Huawei เซิร์ฟเวอร์ฟิวชั่น

เซิร์ฟเวอร์ฟิวชั่น 5288 V6 4U แร็คเซิร์ฟเวอร์ 32 DDR4 DIMM 44 ฮาร์ดดิสก์ 3.5 นิ้ว

เซิร์ฟเวอร์จัดเก็บข้อมูลเครือข่าย Huawei Fusion 1U ความหนาแน่นสูงพิเศษ 1288H V5

ใหม่ Gen OceanStor 5310 Huawei ชั้นวาง Server Hybrid Flash Storage