logo
บ้าน ข่าว

ข่าว บริษัท เกี่ยวกับ หนังสือแดง Big Blue's เรื่อง การจัดการ KV Cache ขนาดการเก็บข้อมูล

ได้รับการรับรอง
จีน Beijing Qianxing Jietong Technology Co., Ltd. รับรอง
จีน Beijing Qianxing Jietong Technology Co., Ltd. รับรอง
ความคิดเห็นของลูกค้า
พนักงานขายของ Beijing Qianxing Jietong Technology Co. , Ltd เป็นมืออาชีพและอดทนมาก พวกเขาสามารถให้ใบเสนอราคาได้อย่างรวดเร็ว คุณภาพและบรรจุภัณฑ์ของผลิตภัณฑ์ก็ดีมากเช่นกัน ความร่วมมือของเราเป็นไปอย่างราบรื่น

—— 《Festfing DV》 LLC

เมื่อฉันกำลังมองหา Intel CPU และ Toshiba SSD อย่างเร่งด่วน Sandy จาก Beijing Qianxing Jietong Technology Co., Ltd ให้ความช่วยเหลืออย่างมากและได้ผลิตภัณฑ์ที่ฉันต้องการอย่างรวดเร็ว ฉันชื่นชมเธอจริงๆ

—— คิตตี้ เยน

แซนดี้แห่งปักกิ่ง Qianxing Jietong Technology Co. , Ltd เป็นพนักงานขายที่ระมัดระวัง ซึ่งสามารถเตือนฉันถึงข้อผิดพลาดในการกำหนดค่าในเวลาที่ฉันซื้อเซิร์ฟเวอร์ วิศวกรมีความเป็นมืออาชีพมากและสามารถดำเนินการทดสอบให้เสร็จสิ้นได้อย่างรวดเร็ว

—— Strelkin Mikhail Vladimirovich

เรามีความสุขมากกับประสบการณ์การทำงานกับ Beijing Qianxing Jietong คุณภาพของผลิตภัณฑ์ยอดเยี่ยมและการจัดส่งตรงเวลาเสมอ ทีมขายของพวกเขามืออาชีพ อดทน และช่วยเหลือดีมากกับคำถามทั้งหมดของเรา เราขอขอบคุณการสนับสนุนของพวกเขาอย่างแท้จริงและหวังว่าจะได้ร่วมงานกันในระยะยาว แนะนำเป็นอย่างยิ่ง!

—— Ahmad Navid

คุณภาพ: ประสบการณ์ที่ดีกับผู้จําหน่ายของฉัน The MikroTik RB3011 ได้ถูกใช้แล้ว แต่มันอยู่ในสภาพที่ดีมาก และทุกอย่างทํางานอย่างสมบูรณ์แบบ การสื่อสารเร็วและเรียบร้อยและความกังวลทั้งหมดของฉันถูกแก้ไขอย่างรวดเร็วซัพพลายเออร์ที่น่าเชื่อถือมาก แนะนํามาก

—— เจรัน โคเลซิโอ

สนทนาออนไลน์ตอนนี้ฉัน
บริษัท ข่าว
หนังสือแดง Big Blue's เรื่อง การจัดการ KV Cache ขนาดการเก็บข้อมูล

ระบบไฟล์แบบขนาน IBM Storage Scale รองรับการจัดการแคช KV แบบกระจายที่จับคู่กับ NVIDIA Dynamo เพื่อรองรับสถานการณ์การอนุมาน AI ขนาดใหญ่ที่มีปริมาณงานบริบทจำนวนมาก

ข่าว บริษัท ล่าสุดเกี่ยวกับ หนังสือแดง Big Blue's เรื่อง การจัดการ KV Cache ขนาดการเก็บข้อมูล  0

IBM ได้เปิดตัว Redbook อย่างเป็นทางการในชื่อบริบทที่ไร้ขีดจำกัด: แพลตฟอร์มแคช KV ประสิทธิภาพสูงสำหรับการอนุมาน AI ขนาดใหญ่โดยนำเสนอสถาปัตยกรรมอ้างอิงที่ผ่านการตรวจสอบแล้วอย่างสมบูรณ์สำหรับโซลูชันร่วมนี้ สแต็กแบบผสานรวม Supermicro Petascale Storage Servers, เครือข่ายอีเทอร์เน็ต NVIDIA Spectrum-X และ IBM Storage Scale Erasure Coding Edition (ECE) เพื่อสร้างชั้นพื้นที่จัดเก็บข้อมูลที่ใช้ร่วมกันประสิทธิภาพสูงสำหรับการอนุมาน AI เนื่องจากเอกสารทางเทคนิคที่เชื่อถือได้ซึ่งเผยแพร่โดย IBM ITSO (องค์กรสนับสนุนด้านเทคนิคระหว่างประเทศ) IBM Redbooks นำเสนอแนวทางการปรับใช้เชิงลึกเชิงปฏิบัติสำหรับผลิตภัณฑ์โครงสร้างพื้นฐาน IBM ระดับองค์กร

Redbook ร่วมเขียนโดยทีมวิศวกรจาก IBM, Supermicro และ NVIDIA กล่าวถึงปัญหาหลักของเวิร์กโหลด AI บริบทแบบยาว กรณีการใช้งานรวมถึงผู้ช่วยสนทนาแบบหลายรอบ แอปพลิเคชันดึงข้อมูล RAG และไปป์ไลน์ตัวแทนอัตโนมัติจะสร้างข้อมูลแคช KV ขนาดใหญ่ภายใน GPU HBM เมื่อข้อมูลแคชถูกขับออกจากทรัพยากร HBM ที่จำกัด การคำนวณซ้ำซ้ำจะกระตุ้นให้เกิดเวลาแฝงที่รุนแรงขึ้น ทำให้พื้นที่จัดเก็บแคช KV ที่ร้องขอข้ามอย่างต่อเนื่องเป็นสิ่งที่ขาดไม่ได้

โซลูชันนี้ใช้สถาปัตยกรรมแคช KV แบบลำดับชั้นห้าระดับ ซึ่งครอบคลุมความต้องการด้านเวลาแฝงและความจุที่แตกต่างกัน:
  • ชั้น G1: โหนด GPU HBM ภายใน
  • ชั้น G2: DRAM ระบบโหนด CPU
  • ชั้น G3: SSD ภายในที่ต่อพ่วงโดยตรง
  • G3.5 ชั้น: พื้นที่เก็บข้อมูลแฟลชที่ใช้ร่วมกันระดับพ็อด นำหน้าโดย NVIDIA BlueField DPU พร้อมการเชื่อมต่อโดยตรงกับ DPU เซิร์ฟเวอร์ GPU
  • ชั้น G4: พูลพื้นที่จัดเก็บข้อมูลที่ใช้ร่วมกันแบบ cross-Ethernet ภายนอกเชื่อมต่อกับเซิร์ฟเวอร์ประมวลผล GPU ทั้งหมด
การตั้งค่าแบบหลายชั้นนี้ครอบคลุมหน่วยความจำตั้งแต่ต้นทางถึงปลายทางและลำดับชั้นการจัดเก็บข้อมูล ให้เวลาแฝงที่ต่อเนื่องและการไล่ระดับความจุ ช่วยให้ NVIDIA Dynamo ดำเนินการวางแคชอัจฉริยะ การไล่ออกอัตโนมัติ และการโหลดข้อมูลไดนามิกทั่วทั้งสแต็กการจัดเก็บข้อมูลทั้งหมด ปรับให้เข้ากับรูปแบบการเข้าถึงปริมาณงานที่หลากหลายและงบประมาณต้นทุนโครงสร้างพื้นฐานทั้งหมดได้อย่างยืดหยุ่น

Storage Scale ECE ปรับใช้บนเซิร์ฟเวอร์พื้นที่จัดเก็บข้อมูล Supermicro Petascale โดยทำหน้าที่เป็นระดับแคชเย็น G4 ได้รับการปรับให้เหมาะสมสำหรับข้อมูลแคช KV ที่ไม่ไวต่อความหน่วง รวมถึงสถานะการสนทนาหลายรอบที่ไม่ได้ใช้งาน ข้อมูลบริบทของเอเจนต์ที่แชร์ และบันทึกการสืบค้นประวัติที่ไม่ต้องการการตอบสนองในทันที

จากผลการทดสอบที่บันทึกไว้ใน Redbook สถาปัตยกรรมอ้างอิงที่พร้อมใช้งานจริงนี้จะช่วยเร่งบริการการอนุมาน AI แบบเจนเนอเรชันและเอเจนต์ได้อย่างมีประสิทธิภาพ ในการทดสอบ TTFT (Time To First Token) คำขอเดียวเมื่อเปรียบเทียบกับเซิร์ฟเวอร์ GPU แบบสแตนด์อโลนที่ไม่มีแคช Storage Scale KV ภายนอก ระบบที่ผสานรวมจะรักษา TTFT ที่เสถียรโดยไม่คำนึงถึงการเปลี่ยนแปลงความยาวทันที มันบรรลุผลกการเร่งความเร็ว 56xต่ำกว่าลำดับอินพุต 130,000 โทเค็น และกำจัดความผันผวนของเวลาแฝงในการอนุมานที่เกิดจากความยาวพร้อมท์ที่ขยายออกไปโดยสิ้นเชิง

ภายใต้แรงกดดันในการอนุมานผู้ใช้หลายรายพร้อมกัน โซลูชันนี้ได้รับการปรับปรุงประสิทธิภาพอย่างมาก: คำขอปริมาณงานเพิ่มขึ้นจาก 0.19 RPS เป็น 4.26 RPS ซึ่งถือเป็นเพิ่มปริมาณงาน 22x. ในขณะเดียวกัน เวลาประมวลผลทั้งหมดสำหรับคำขอการอนุมาน 200 รายการลดลง 95% ซึ่งช่วยยกระดับประสิทธิภาพการใช้งาน GPU และความสามารถในการปรับขนาดคลัสเตอร์การอนุมานโดยรวมได้อย่างมาก

สแต็กยังรักษาประสิทธิภาพที่แข็งแกร่งภายใต้การทดสอบความเครียดจากเพื่อนบ้านที่มีเสียงดังรุนแรง ด้วยไคลเอนต์สี่เครื่องที่สร้างการรับส่งข้อมูล I/O เครือข่ายที่แข่งขันกันที่ 200 GB/s ระบบที่ผสานรวมยังคงทำงานได้อย่างเสถียรที่ 3.6 RPS และเสร็จสิ้นคำขอการอนุมานทั้งหมด 200 รายการภายใน 55.56 วินาที ปริมาณงานยังคงอยู่สูงกว่า 18 เท่ากว่าสถาปัตยกรรมการคำนวณซ้ำพื้นฐาน GPU เท่านั้น

ทีมวิจัยสรุปใน Redbook: “สำหรับองค์กรที่ต้องการเพิ่ม ROI สูงสุดจากการลงทุนในฮาร์ดแวร์ GPU ที่มีราคาแพง สถาปัตยกรรมบูรณาการที่ได้รับการตรวจสอบนี้ให้แนวทางที่ตรงไปตรงมาและพร้อมสำหรับการผลิตในการเพิ่มปริมาณงานการอนุมาน ลดเวลาแฝงตั้งแต่ต้นทางถึงปลายทาง รองรับการทำงานพร้อมกันของบริการที่สูงขึ้น และสร้างโครงสร้างพื้นฐานการอนุมาน AI ขนาดใหญ่ที่คุ้มต้นทุนมากขึ้น”

คำสำคัญ: SUPERMICRO, IBM Storage Scale, NVIDIA Dynamo

Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/ผู้อำนวยการฝ่ายกลยุทธ์ระดับโลก
WhatsApp / WeChat: +86 13426366826
อีเมล: yangyd@qianxingdata.com
เว็บไซต์: www.qianxingdata.com/www.storagesserver.com
มุ่งเน้นธุรกิจ:
การจัดจำหน่ายผลิตภัณฑ์ ICT/บูรณาการระบบและบริการ/โซลูชั่นโครงสร้างพื้นฐาน
ด้วยประสบการณ์การจัดจำหน่ายด้านไอทีมากกว่า 20 ปี เราร่วมมือกับแบรนด์ชั้นนำระดับโลกเพื่อนำเสนอผลิตภัณฑ์ที่เชื่อถือได้และบริการระดับมืออาชีพ
“ใช้เทคโนโลยีเพื่อสร้างโลกอัจฉริยะ” ผู้ให้บริการผลิตภัณฑ์ ICT ที่เชื่อถือได้ของคุณ!
ผับเวลา : 2026-06-12 11:09:46 >> รายการข่าว
รายละเอียดการติดต่อ
Beijing Qianxing Jietong Technology Co., Ltd.

ผู้ติดต่อ: Ms. Sandy Yang

โทร: 13426366826

ส่งคำถามของคุณกับเราโดยตรง (0 / 3000)