Lightbits Labs และ ScaleFlux ได้สําเร็จเพิ่มผลงาน 100x ถึง 280xสําหรับภาระงาน KV cache โดยใช้โปรแกรม LightInferra cache เพื่ออ่านข้อมูลจาก SSD ของ ScaleFlux
ทั้งสองบริษัทได้จัดส่งข้อมูลแคช KV ให้กับ GPU ที่ใช้ในแวดล้อมศูนย์ข้อมูล FarmGPU และจะนําเสนอความก้าวหน้านี้ในงานสัมมนา GTC ของ Nvidia ที่กําลังจะมาถึงแคช KV เก็บตัวเวกเตอร์ต๊อกเด้งในความจําความถี่สูงของ GPU (HBM)เมื่อความจุของ HBM หมดแล้ว คล็อกข้อมูลแคช KV ต้องคํานวณใหม่ - กระบวนการที่ใช้เวลาและลดความเร็วในการฝึกอบรมและสรุป AIความช้าลงนี้จะชัดเจนยิ่งขึ้น เมื่อภาระการทํางานของ AI เพิ่มขึ้น, ส่งผลให้มีการเพิ่มขึ้นอย่างรวดเร็ว ในจํานวนของต๊อกเกนที่ใช้ในการสร้างเวกเตอร์
ซอฟต์แวร์แคช KV ขยายชั้นแคชไปข้างนอกอย่างมีเหตุผล: ก่อนหน้านี้ไปยัง CPU x86 และ DRAM ของมันบนเซอร์เวอร์ GPU, จากนั้นไปยังไดรฟ์ NVMe ท้องถิ่นในระบบ x86 เดียว และต่อไปยัง SSD NVMe ของภายนอก.การขยายระดับนี้กําจัดความจําเป็นในการคํานวณเทคนิคเวกเตอร์ใหม่ขณะที่ SSD NVMe มีความช้าในการเข้าถึงที่สูงกว่า HBM หรือ DRAM โดยธรรมชาติ การเรียกตัววัคเตอร์ต๊อกเกนที่คํานวณได้ล่วงหน้าเร็วกว่าการคํานวณใหม่หลายหมื่นตัวจากศูนย์Lightbits และ ScaleFlux อ้างว่าวิธีแก้ไขของพวกเขาเร่งรวดเร็วมากในการเรียกข้อมูล KV cache จาก SSD.
อาร์เธอร์ ราสมัสสัน ผู้อํานวยการสถาปัตยกรรม AI ของ Lightbits Labs ระบุว่า: เรากําลังเปลี่ยนความจําการสรุปจากแคชที่ปฏิกิริยาเป็นชั้นข้อมูลที่ฉลาดและสตรีม
แล้วไง?
โดยการลอกข้อมูลที่สําคัญก่อน และส่งมันไปยัง GPUs ผ่าน RDMA ความเร็วสูง ก่อนที่มันจะจําเป็น เรากําจัดการหยุดทํางานที่จํากัดผลงานในแวดล้อมยาวผลคือการใช้เวลาที่ลดลง (TTFT), ความสามารถในการทํางานที่มั่นคงขึ้นภายใต้ภาระของโลกจริง, และการใช้งาน GPU ที่มีประสิทธิภาพสูงขึ้นมาก
คีธ แมคเคย์ ผู้อํานวยการผู้สูงอายุของ Solutions Architecture และ Technical Partnerships ของ ScaleFlux กล่าวถึงสิ่งที่เราจะแสดงใน GTC คือการดูแรกว่าการวางข้อมูลที่ฉลาดและการจัดการสถานการณ์ความสนใจอย่างต่อเนื่องสามารถช่วยระบบสรุปให้ตอบสนองได้อย่างไรนี่คือความร่วมมือที่พวกเราต้องการที่จะสร้างร่วมกับผู้ประกอบการจริง
ทั้ง Lightbits และ ScaleFlux มีเป้าหมายที่จะส่งเสริมให้ผู้ประกอบการระบบคลาวด์และโครงสร้างพื้นฐานใช้โปรแกรมและ SSD ของพวกเขา
ลองดูส่วนร่วมของ ScaleFlux กันก่อน จากนั้นไปดูชั้นโปรแกรม Lightbits ที่ซับซ้อนกว่า
ScaleFlux ให้บริการ NVMe SSD และ Computational Storage Drives (CSD) ที่พร้อมกับเทคโนโลยีลดการเขียน (WRT) ที่ใช้ฮาร์ดแวร์ขับเคลื่อนโดยการบดความเร็วด้วยฮาร์ดแวร์ และการจัดการเมทาข้อมูลโดย SoCหน่วยจอดนี้มีความจุ logical มากถึงสี่เท่าของหน่วยจอดฟิสิกอล โดยยังคงโปร่งใสต่อระบบโฮสต์บริษัทเป็นสมาชิกของสหกรณ์ Open Flash Platform (OFP), ซึ่งกําลังทํางานเพื่อกําหนดใหม่พื้นฐานข้อมูล AI ด้วยความหนาแน่น ความช้าต่ําระบบที่ประหยัดพลังงาน ✓ มีความหนาแน่น 10 เท่าของระบบเก็บข้อมูล AI ที่ใช้ไฟล์ทั่วไป และใช้พลังงานน้อยเพียงหนึ่งในสิบ.
โดยใช้ไดรฟ์ในการเก็บข้อมูลเหล่านี้ Lightbits เพิ่มการนําข้อมูล KV Cache มาใช้ในระบบสมาร์ทก่อนGPUs ต้องการมัน, ป้องกันการหยุดทํางานที่เกิดจากความจุ KV ที่ไม่เพียงพอหรือการคํานวณใหม่ของเวกเตอร์ต๊อกเกนที่แพงโปรแกรม LightInferra ของมันใช้อัลกอริทึมแคชที่ปรับปรุง KV Cache เพื่อดึงข้อมูลที่ต้องการเข้าไปในความจํา GPU ในความเร็ว RDMA ก่อนความต้องการจริง.
อีกครั้งว่ายังไง
ซอฟต์แวร์ทํางานบน x86 โฮสต์ที่ฝังในเซอร์เวอร์ GPU และติดตามรูปแบบการเข้าถึงของบล็อกข้อมูล KV Cacheมันใช้เครื่องยนต์ Sub-Linear Sparse Attention Prefetch (SLSAP) เพื่อระบุบล็อค KV ที่น่าจะเป็นที่จําเป็นที่สุดต่อไป.
เครื่องยนต์นี้รวมการแฮชที่มีความรู้สึกต่อสถานที่ (LSH) กับการจําลองการใช้ใหม่ทางสถิติจากนั้นเลือกตัวที่มีความน่าจะเป็นสูงที่สุดที่จะถูกขอโดย GPUs.
กระบวนการคัดเลือกนี้ใช้ประโยชน์จากความหายากที่เกิดขึ้นในการเข้าถึงข้อมูลของ GPU: ท็อคเกนส่วนใหญ่มีความหมายเกี่ยวกับเพียงกลุ่มย่อยเล็ก ๆ ของท็อคเกนก่อนหน้านี้ โดยการแยกแบล็คความน่าจะเป็นสูงเหล่านี้การแก้ไขจะลดปริมาณของเทคโนโลยีเวกเตอร์ที่ต้องสตรีมกลับไปยัง GPUs.
อัลกอริทึมที่สองเน้นการใช้แบบใหม่: ท็อคเกนล่าสุด, ท็อคเกนที่คล้ายกันในทางความหมาย,และรูปแบบโครงสร้างทั่วไปใน RAG หรือกรณีการคุยหลายรอบ.
ไลท์อินเฟอรร่า จะเอาต๊อกน์บล็อกเหล่านี้ออกมาจาก DRAM ของเซอร์เวอร์ x86 หรือจาก SSD ScaleFlux ของภายนอก หากจําเป็น แล้วนําไปใส่ใน HBM ของ GPU ผ่าน RDMA
Lightbits ได้เปรียบเทียบแนวทางนี้กับการคํานวณใหม่ของเนื้อหาที่แคชจากจุดเริ่มต้นโดยใช้ภาระงานแบบภาษาขนาดใหญ่ โดยวัดการปรับปรุงในเวลา-ถึง-token ครั้งแรก (TTFT)ตัวเลขเร่ง 100x ถึง 280x ที่รายงานมาจากผลการทดสอบเหล่านี้.

แน่นอนเราต้องการที่จะเห็นผลการเปรียบเทียบเทียบ Lightbits-ScaleFlux KV คาชเร่ง
โครงการที่มี KV Cache accelerators จาก DDN, Hammerspace, VAST Data, WEKA และอื่น ๆ แต่พวกเขา
ไม่สามารถใช้ได้
มีแผนภูมิแสดงว่า LightInferra-ScaleFlux ปรับปรุง TTFT การฟื้นฟูแคชเป็นอย่างต่อเนื่องอย่างไร
เมื่อขนาดของโมเดลเพิ่มขึ้น เช่น

ข้อมูล benchmark ที่เกี่ยวข้องทั้งหมดถูกนําเสนอในแผนภูมิ log-scale ที่เหมาะสําหรับนักวิชาการคอมพิวเตอร์ แต่ภาษาที่เรียบง่ายทําให้การเข้าใจผลกระทบจากโลกจริงง่ายขึ้นมาก:ผลลัพธ์คือการดําเนินงานในระยะเวลาถึงท็อคเกนครั้งแรก (TTFT) ที่ยั่งยืน เมื่อปริมาณสภาพแวดล้อมจาก 100k ท็อคเกนไป 1 ล้านและมากกว่า.
อย่างที่จอนไมเคิล แฮนด์ส์ จากฟาร์มจีพีพี (FarmGPU) กล่าว เมื่อการสนทนาที่มีต๊อกเกน 400,000 รายการนั่นหมายถึงเวลาทํางานของ GPU สองนาทีเต็ม โดยไม่มีการผลิตต๊อกเกน. LightInferra เปลี่ยนแปลงรูปแบบเศรษฐกิจโดยสิ้นเชิง ภาระงานเดียวกันสร้างต๊อกอินแรกในเวลาไม่ถึงครึ่งวินาที
Lightbits และ ScaleFlux ได้ออกแบบคําตอบร่วมกันนี้โดยเฉพาะสําหรับฟาร์ม GPU neocloud รุ่นต่อไป โดยที่ GPU pods ใหญ่จะทํางานแบบ AI รุ่นหลายร้อย หรือแม้แต่พันๆ รุ่นเกือบแต่ละหน่วยงานเหล่านี้จะประสบกับขีดจํากัดของความจุ KV ในความจําความกว้างของ GPU (HBM).
ภายใต้การจัดตั้งแบบดั้งเดิม ทีมงานต้องเผชิญหน้ากับสองทางเลือกที่แพง:หรือกระบวนการที่ใช้เวลามากกว่าในการคํานวณเวคเตอร์เหล่านั้นใหม่จากศูนย์เริ่มต้น ซึ่งทั้งคู่จะทําให้ GPU นั่งเฉยๆเป็นเวลาหลายชั่วโมงการผสมผสาน LightInferra และ ScaleFlux ทําให้จุดเจ็บปวดในอุตสาหกรรมนี้หายไปโดยสิ้นเชิง
โจนไมเคิล แฮนด์ส CEO FarmGPU เพิ่มว่า: หน่วยเก็บข้อมูลในเครือข่ายที่รวดเร็วจาก Lightbits เปิดโอกาสการใช้งานใหม่มากมายสําหรับการสรุปข้อความยาวโดยการผสมคู่บริการที่บริหารของเรากับ Lightbits หน่วยเก็บข้อมูลที่มีประสิทธิภาพสูงที่ทํางานบน ScaleFlux NVMe, เราสามารถลดเวลาในการ tokenize ครั้งแรกและเพิ่มการใช้งาน GPU, ลดค่าบริการรวม (TCO) ของภาระงานการสรุปลงอย่างมาก
เน้นธุรกิจ:
การจัดจําหน่ายสินค้า ICT/การบูรณาการระบบและบริการ/การแก้ไขพื้นฐาน
ด้วยประสบการณ์การจําหน่ายไอที 20 ปีขึ้นไป เราร่วมมือกับแบรนด์ชั้นนําระดับโลก เพื่อให้ผลิตภัณฑ์ที่น่าเชื่อถือและบริการมืออาชีพ
การใช้เทคโนโลยีเพื่อสร้างโลกที่ฉลาด ผู้ให้บริการสินค้า ICT ที่คุณไว้วางใจ