ทำงานบน Oracle Cloud Infrastructure (OCI), WEKA NeuralMesh และซอฟต์แวร์ Augmented Memory Grid มอบทรูพุตโทเค็นที่สูงขึ้น 10 เท่า ผู้ใช้พร้อมกันมากขึ้น 10 เท่า และโทเค็นต่อ GPU เพิ่มขึ้น 7 เท่า เมื่อเปรียบเทียบกับสภาพแวดล้อม OCI มาตรฐานที่ใช้ DRAM ในเครื่องเพียงอย่างเดียว
Augmented Memory Grid ของ WEKA ขยายหน่วยความจำเซิร์ฟเวอร์ GPU สำหรับการอนุมาน AI โดยใช้ประโยชน์จากที่จัดเก็บข้อมูลภายนอกผ่าน NeuralMesh เปลี่ยนทรัพยากรภายนอกให้เป็น KV Cache ที่มีประสิทธิภาพสูง ให้เวลาแฝงระดับไมโครวินาทีและแบนด์วิดท์หลาย GB/s โดยเสนอพื้นที่ที่อยู่หน่วยความจำเพิ่มเติมสูงสุดเพตะไบต์ พร้อมความเข้ากันได้เต็มรูปแบบสำหรับสถาปัตยกรรมแคช SX KV ของ NVIDIA NeuralMesh คือระบบไฟล์ AI ประสิทธิภาพสูงของ WEKA การวัดประสิทธิภาพทั้งหมดได้รับการตรวจสอบบนคลัสเตอร์ H100 OCI แบบ 9 โหนดที่มีหน้าต่างบริบท 100,000 โทเค็น
ปาโบล ซาเลม ผู้อำนวยการอาวุโสฝ่ายพัฒนาซอฟต์แวร์ของ OCI ให้ความเห็นว่า "ปริมาณงาน AI ระดับองค์กรขยายหน้าต่างบริบทและเพิ่มการใช้งาน GPU ไปสู่ขีดจำกัดใหม่ ๆ การวัดประสิทธิภาพเหล่านี้พิสูจน์ให้เห็นว่าโซลูชันของ WEKA ขจัดปัญหาคอขวดของหน่วยความจำ GPU บน OCI ทำให้ปริมาณงานการอนุมานมีขนาดใหญ่ขึ้นและมีความต้องการมากขึ้นโดยไม่ต้องลงทุนฮาร์ดแวร์ GPU เพิ่มเติม"
WEKA ตั้งข้อสังเกตว่าความต้องการการอนุมานที่เพิ่มขึ้นช่วยขยายความไร้ประสิทธิภาพของโครงสร้างพื้นฐาน AI การขับไล่แคช KV บ่อยครั้งจะสร้างค่าใช้จ่ายที่ซ่อนอยู่ซึ่งทำให้วงจรของ GPU สิ้นเปลือง เพิ่มเวลาแฝง ส่งผลเสียต่อประสบการณ์ผู้ใช้ และเพิ่มต้นทุนการดำเนินงานต่อโทเค็น สำหรับปริมาณงาน AI แบบเอเจนต์และบริบทยาวที่มีอินพุตมากกว่า 100,000 โทเค็น ค่าใช้จ่ายดังกล่าวจะสร้างความเสียหายอย่างรุนแรงต่อความประหยัดต่อหน่วยของการปรับใช้ AI การผลิต
เกณฑ์มาตรฐานนี้สร้างขึ้นบน 9 โหนด, 72 H100 GPUs, หน้าต่างบริบท 100,000 โทเค็น และผู้ใช้พร้อมกันหลายพันราย โดยมีช่องว่างด้านประสิทธิภาพที่ชัดเจนดังที่แสดงด้านล่าง:
-
ความจุของผู้ใช้พร้อมกัน: WEKA รองรับผู้ใช้พร้อมกันมากกว่า 5,000 ราย เทียบกับเพียง 600 รายในการตั้งค่า DRAM เท่านั้น ป้องกันความล้มเหลวในการอิ่มตัวของแคชโดยการขยายแคชที่ใช้งานจาก 8.64 TiB DRAM ไปเป็น 287 TiB NVMe flash storage และเพิ่ม ROI สูงสุดบนฮาร์ดแวร์ GPU ที่มีอยู่โดยไม่ต้องซื้อ GPU เพิ่มเติม
-
ปริมาณงานโทเค็น: สแต็ก WEKA เข้าถึงโทเค็นได้ประมาณ 2 ล้านโทเค็นต่อวินาที ซึ่งเร็วกว่าพื้นฐานที่มีโทเค็นต่ำกว่า 200,000 โทเค็นต่อวินาทีของระบบที่ใช้ DRAM เท่านั้นถึง 10 เท่า
-
ปริมาณการประมวลผลโทเค็นทั้งหมด: ในการทดสอบหนึ่งชั่วโมงกับผู้ใช้พร้อมกัน 2,400 ราย WEKA ประมวลผลโทเค็น 5 พันล้านโทเค็น ในขณะที่การตั้งค่า DRAM เท่านั้นจัดการโทเค็นได้เพียง 700 ล้านโทเค็นเท่านั้น
สำหรับเวิร์กโฟลว์ AI แบบเอเจนต์ DRAM ที่ไม่เพียงพอจะกระตุ้นให้เกิดการคำนวณ GPU ใหม่อย่างต่อเนื่องหลังจากแคชอิ่มตัว ทำให้ต้นทุนต่อโทเค็นเพิ่มขึ้น และลด ROI ด้วยโทเค็นที่ประมวลผล 7 เท่าต่อ GPU WEKA จึงลดต้นทุนโทเค็นโดยรวมสำหรับบริการ AI ที่ใช้งานจริงได้อย่างมาก
สำหรับบริการ AI แบบเรียลไทม์ รวมถึงการค้นหา การสรุป ความช่วยเหลือด้านโค้ด และเอเจนต์แบบหลายรอบ การประมวลผลของโทเค็นจะกำหนดขีดจำกัดของบริการสำหรับความจุของผู้ใช้ ความเร็วในการตอบสนอง และศักยภาพในการสร้างรายได้จากโครงสร้างพื้นฐาน การปรับปรุงปริมาณงาน 10x จะปลดล็อกพลังการประมวลผล GPU ภายในคลัสเตอร์ OCI อย่างสมบูรณ์
กล่าวโดยสรุปก็คือ ซอฟต์แวร์ขยายหน่วยความจำของ WEKA ช่วยให้แพลตฟอร์มคลาวด์ให้บริการผู้ใช้ได้มากขึ้น ประมวลผลโทเค็นได้มากขึ้น และลดต้นทุนการดำเนินงานได้อย่างมีประสิทธิภาพ
Liran Zvibel ซีอีโอของ WEKA กล่าวว่า "ประสิทธิภาพการอนุมานมีปัญหาคอขวดเนื่องจากหน่วยความจำที่มีประสิทธิภาพของ GPU ที่มีอยู่ ผลลัพธ์เหล่านี้พิสูจน์ว่าการอัพเกรดฮาร์ดแวร์เพียงอย่างเดียวไม่สามารถแก้ไขปัญหาทางเศรษฐกิจของโทเค็น AI ได้ ข้อจำกัดที่แท้จริงคือผนังหน่วยความจำที่มีมายาวนานซึ่งจำกัดประสิทธิภาพของ GPU โซลูชันของ WEKA บน OCI ช่วยเพิ่มความสามารถในการประมวลผลโทเค็นอย่างมากด้วยต้นทุนรวมในการเป็นเจ้าของที่ปรับให้เหมาะสมที่สุด"
OCI ได้เผยแพร่วิธีการวัดประสิทธิภาพ การกำหนดค่าระบบ และผลการทดสอบฉบับสมบูรณ์ในบล็อก AI & Data Science อย่างเป็นทางการ
ขณะนี้ NeuralMesh พร้อม Augmented Memory Grid พร้อมใช้งานสำหรับลูกค้า WEKA และจดทะเบียนใน Oracle Marketplace โดยมี OCI ทำหน้าที่เป็นพันธมิตรในการเปิดตัวระบบคลาวด์แต่เพียงผู้เดียว องค์กรที่ใช้งานการอนุมานบริบทแบบยาวบน OCI สามารถปรับใช้สถาปัตยกรรมที่พร้อมสำหรับการใช้งานจริงและได้รับการตรวจสอบความถูกต้องครบถ้วนได้ทันที
Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/ผู้อำนวยการฝ่ายกลยุทธ์ระดับโลก
WhatsApp / WeChat: +86 13426366826
อีเมล: yangyd@qianxingdata.com
เว็บไซต์: www.qianxingdata.com/www.storagesserver.com
มุ่งเน้นธุรกิจ:
การจัดจำหน่ายผลิตภัณฑ์ ICT/บูรณาการระบบและบริการ/โซลูชั่นโครงสร้างพื้นฐาน
ด้วยประสบการณ์การจัดจำหน่ายด้านไอทีมากกว่า 20 ปี เราร่วมมือกับแบรนด์ชั้นนำระดับโลกเพื่อนำเสนอผลิตภัณฑ์ที่เชื่อถือได้และบริการระดับมืออาชีพ
“ใช้เทคโนโลยีเพื่อสร้างโลกอัจฉริยะ” ผู้ให้บริการผลิตภัณฑ์ ICT ที่เชื่อถือได้ของคุณ!