logo
บ้าน ข่าว

ข่าว บริษัท เกี่ยวกับ Lightbits และ ScaleFlux สาธิตการเร่งความเร็ว KV Cache 100x ถึง 280x

ได้รับการรับรอง
จีน Beijing Qianxing Jietong Technology Co., Ltd. รับรอง
จีน Beijing Qianxing Jietong Technology Co., Ltd. รับรอง
ความคิดเห็นของลูกค้า
พนักงานขายของ Beijing Qianxing Jietong Technology Co. , Ltd เป็นมืออาชีพและอดทนมาก พวกเขาสามารถให้ใบเสนอราคาได้อย่างรวดเร็ว คุณภาพและบรรจุภัณฑ์ของผลิตภัณฑ์ก็ดีมากเช่นกัน ความร่วมมือของเราเป็นไปอย่างราบรื่น

—— 《Festfing DV》 LLC

เมื่อฉันกำลังมองหา Intel CPU และ Toshiba SSD อย่างเร่งด่วน Sandy จาก Beijing Qianxing Jietong Technology Co., Ltd ให้ความช่วยเหลืออย่างมากและได้ผลิตภัณฑ์ที่ฉันต้องการอย่างรวดเร็ว ฉันชื่นชมเธอจริงๆ

—— คิตตี้ เยน

แซนดี้แห่งปักกิ่ง Qianxing Jietong Technology Co. , Ltd เป็นพนักงานขายที่ระมัดระวัง ซึ่งสามารถเตือนฉันถึงข้อผิดพลาดในการกำหนดค่าในเวลาที่ฉันซื้อเซิร์ฟเวอร์ วิศวกรมีความเป็นมืออาชีพมากและสามารถดำเนินการทดสอบให้เสร็จสิ้นได้อย่างรวดเร็ว

—— Strelkin Mikhail Vladimirovich

เรามีความสุขมากกับประสบการณ์การทำงานกับ Beijing Qianxing Jietong คุณภาพของผลิตภัณฑ์ยอดเยี่ยมและการจัดส่งตรงเวลาเสมอ ทีมขายของพวกเขามืออาชีพ อดทน และช่วยเหลือดีมากกับคำถามทั้งหมดของเรา เราขอขอบคุณการสนับสนุนของพวกเขาอย่างแท้จริงและหวังว่าจะได้ร่วมงานกันในระยะยาว แนะนำเป็นอย่างยิ่ง!

—— Ahmad Navid

คุณภาพ: ประสบการณ์ที่ดีกับผู้จําหน่ายของฉัน The MikroTik RB3011 ได้ถูกใช้แล้ว แต่มันอยู่ในสภาพที่ดีมาก และทุกอย่างทํางานอย่างสมบูรณ์แบบ การสื่อสารเร็วและเรียบร้อยและความกังวลทั้งหมดของฉันถูกแก้ไขอย่างรวดเร็วซัพพลายเออร์ที่น่าเชื่อถือมาก แนะนํามาก

—— เจรัน โคเลซิโอ

สนทนาออนไลน์ตอนนี้ฉัน
บริษัท ข่าว
Lightbits และ ScaleFlux สาธิตการเร่งความเร็ว KV Cache 100x ถึง 280x
Lightbits Labs และ ScaleFlux ได้สําเร็จเพิ่มผลงาน 100x ถึง 280xสําหรับภาระงาน KV cache โดยใช้โปรแกรม LightInferra cache เพื่ออ่านข้อมูลจาก SSD ของ ScaleFlux

ทั้งสองบริษัทได้จัดส่งข้อมูลแคช KV ให้กับ GPU ที่ใช้ในแวดล้อมศูนย์ข้อมูล FarmGPU และจะนําเสนอความก้าวหน้านี้ในงานสัมมนา GTC ของ Nvidia ที่กําลังจะมาถึงแคช KV เก็บตัวเวกเตอร์ต๊อกเด้งในความจําความถี่สูงของ GPU (HBM)เมื่อความจุของ HBM หมดแล้ว คล็อกข้อมูลแคช KV ต้องคํานวณใหม่ - กระบวนการที่ใช้เวลาและลดความเร็วในการฝึกอบรมและสรุป AIความช้าลงนี้จะชัดเจนยิ่งขึ้น เมื่อภาระการทํางานของ AI เพิ่มขึ้น, ส่งผลให้มีการเพิ่มขึ้นอย่างรวดเร็ว ในจํานวนของต๊อกเกนที่ใช้ในการสร้างเวกเตอร์

ซอฟต์แวร์แคช KV ขยายชั้นแคชไปข้างนอกอย่างมีเหตุผล: ก่อนหน้านี้ไปยัง CPU x86 และ DRAM ของมันบนเซอร์เวอร์ GPU, จากนั้นไปยังไดรฟ์ NVMe ท้องถิ่นในระบบ x86 เดียว และต่อไปยัง SSD NVMe ของภายนอก.การขยายระดับนี้กําจัดความจําเป็นในการคํานวณเทคนิคเวกเตอร์ใหม่ขณะที่ SSD NVMe มีความช้าในการเข้าถึงที่สูงกว่า HBM หรือ DRAM โดยธรรมชาติ การเรียกตัววัคเตอร์ต๊อกเกนที่คํานวณได้ล่วงหน้าเร็วกว่าการคํานวณใหม่หลายหมื่นตัวจากศูนย์Lightbits และ ScaleFlux อ้างว่าวิธีแก้ไขของพวกเขาเร่งรวดเร็วมากในการเรียกข้อมูล KV cache จาก SSD.

อาร์เธอร์ ราสมัสสัน ผู้อํานวยการสถาปัตยกรรม AI ของ Lightbits Labs ระบุว่า: เรากําลังเปลี่ยนความจําการสรุปจากแคชที่ปฏิกิริยาเป็นชั้นข้อมูลที่ฉลาดและสตรีม

แล้วไง?


โดยการลอกข้อมูลที่สําคัญก่อน และส่งมันไปยัง GPUs ผ่าน RDMA ความเร็วสูง ก่อนที่มันจะจําเป็น เรากําจัดการหยุดทํางานที่จํากัดผลงานในแวดล้อมยาวผลคือการใช้เวลาที่ลดลง (TTFT), ความสามารถในการทํางานที่มั่นคงขึ้นภายใต้ภาระของโลกจริง, และการใช้งาน GPU ที่มีประสิทธิภาพสูงขึ้นมาก

คีธ แมคเคย์ ผู้อํานวยการผู้สูงอายุของ Solutions Architecture และ Technical Partnerships ของ ScaleFlux กล่าวถึงสิ่งที่เราจะแสดงใน GTC คือการดูแรกว่าการวางข้อมูลที่ฉลาดและการจัดการสถานการณ์ความสนใจอย่างต่อเนื่องสามารถช่วยระบบสรุปให้ตอบสนองได้อย่างไรนี่คือความร่วมมือที่พวกเราต้องการที่จะสร้างร่วมกับผู้ประกอบการจริง

ทั้ง Lightbits และ ScaleFlux มีเป้าหมายที่จะส่งเสริมให้ผู้ประกอบการระบบคลาวด์และโครงสร้างพื้นฐานใช้โปรแกรมและ SSD ของพวกเขา

ลองดูส่วนร่วมของ ScaleFlux กันก่อน จากนั้นไปดูชั้นโปรแกรม Lightbits ที่ซับซ้อนกว่า

ScaleFlux ให้บริการ NVMe SSD และ Computational Storage Drives (CSD) ที่พร้อมกับเทคโนโลยีลดการเขียน (WRT) ที่ใช้ฮาร์ดแวร์ขับเคลื่อนโดยการบดความเร็วด้วยฮาร์ดแวร์ และการจัดการเมทาข้อมูลโดย SoCหน่วยจอดนี้มีความจุ logical มากถึงสี่เท่าของหน่วยจอดฟิสิกอล โดยยังคงโปร่งใสต่อระบบโฮสต์บริษัทเป็นสมาชิกของสหกรณ์ Open Flash Platform (OFP), ซึ่งกําลังทํางานเพื่อกําหนดใหม่พื้นฐานข้อมูล AI ด้วยความหนาแน่น ความช้าต่ําระบบที่ประหยัดพลังงาน ✓ มีความหนาแน่น 10 เท่าของระบบเก็บข้อมูล AI ที่ใช้ไฟล์ทั่วไป และใช้พลังงานน้อยเพียงหนึ่งในสิบ.

โดยใช้ไดรฟ์ในการเก็บข้อมูลเหล่านี้ Lightbits เพิ่มการนําข้อมูล KV Cache มาใช้ในระบบสมาร์ทก่อนGPUs ต้องการมัน, ป้องกันการหยุดทํางานที่เกิดจากความจุ KV ที่ไม่เพียงพอหรือการคํานวณใหม่ของเวกเตอร์ต๊อกเกนที่แพงโปรแกรม LightInferra ของมันใช้อัลกอริทึมแคชที่ปรับปรุง KV Cache เพื่อดึงข้อมูลที่ต้องการเข้าไปในความจํา GPU ในความเร็ว RDMA ก่อนความต้องการจริง.

อีกครั้งว่ายังไง


ซอฟต์แวร์ทํางานบน x86 โฮสต์ที่ฝังในเซอร์เวอร์ GPU และติดตามรูปแบบการเข้าถึงของบล็อกข้อมูล KV Cacheมันใช้เครื่องยนต์ Sub-Linear Sparse Attention Prefetch (SLSAP) เพื่อระบุบล็อค KV ที่น่าจะเป็นที่จําเป็นที่สุดต่อไป.

เครื่องยนต์นี้รวมการแฮชที่มีความรู้สึกต่อสถานที่ (LSH) กับการจําลองการใช้ใหม่ทางสถิติจากนั้นเลือกตัวที่มีความน่าจะเป็นสูงที่สุดที่จะถูกขอโดย GPUs.

กระบวนการคัดเลือกนี้ใช้ประโยชน์จากความหายากที่เกิดขึ้นในการเข้าถึงข้อมูลของ GPU: ท็อคเกนส่วนใหญ่มีความหมายเกี่ยวกับเพียงกลุ่มย่อยเล็ก ๆ ของท็อคเกนก่อนหน้านี้ โดยการแยกแบล็คความน่าจะเป็นสูงเหล่านี้การแก้ไขจะลดปริมาณของเทคโนโลยีเวกเตอร์ที่ต้องสตรีมกลับไปยัง GPUs.

อัลกอริทึมที่สองเน้นการใช้แบบใหม่: ท็อคเกนล่าสุด, ท็อคเกนที่คล้ายกันในทางความหมาย,และรูปแบบโครงสร้างทั่วไปใน RAG หรือกรณีการคุยหลายรอบ.

ไลท์อินเฟอรร่า จะเอาต๊อกน์บล็อกเหล่านี้ออกมาจาก DRAM ของเซอร์เวอร์ x86 หรือจาก SSD ScaleFlux ของภายนอก หากจําเป็น แล้วนําไปใส่ใน HBM ของ GPU ผ่าน RDMA

Lightbits ได้เปรียบเทียบแนวทางนี้กับการคํานวณใหม่ของเนื้อหาที่แคชจากจุดเริ่มต้นโดยใช้ภาระงานแบบภาษาขนาดใหญ่ โดยวัดการปรับปรุงในเวลา-ถึง-token ครั้งแรก (TTFT)ตัวเลขเร่ง 100x ถึง 280x ที่รายงานมาจากผลการทดสอบเหล่านี้.

ข่าว บริษัท ล่าสุดเกี่ยวกับ Lightbits และ ScaleFlux สาธิตการเร่งความเร็ว KV Cache 100x ถึง 280x  0

แน่นอนเราต้องการที่จะเห็นผลการเปรียบเทียบเทียบ Lightbits-ScaleFlux KV คาชเร่ง

โครงการที่มี KV Cache accelerators จาก DDN, Hammerspace, VAST Data, WEKA และอื่น ๆ แต่พวกเขา

ไม่สามารถใช้ได้


มีแผนภูมิแสดงว่า LightInferra-ScaleFlux ปรับปรุง TTFT การฟื้นฟูแคชเป็นอย่างต่อเนื่องอย่างไร

เมื่อขนาดของโมเดลเพิ่มขึ้น เช่น


ข่าว บริษัท ล่าสุดเกี่ยวกับ Lightbits และ ScaleFlux สาธิตการเร่งความเร็ว KV Cache 100x ถึง 280x  1


ข้อมูล benchmark ที่เกี่ยวข้องทั้งหมดถูกนําเสนอในแผนภูมิ log-scale ที่เหมาะสําหรับนักวิชาการคอมพิวเตอร์ แต่ภาษาที่เรียบง่ายทําให้การเข้าใจผลกระทบจากโลกจริงง่ายขึ้นมาก:ผลลัพธ์คือการดําเนินงานในระยะเวลาถึงท็อคเกนครั้งแรก (TTFT) ที่ยั่งยืน เมื่อปริมาณสภาพแวดล้อมจาก 100k ท็อคเกนไป 1 ล้านและมากกว่า.
อย่างที่จอนไมเคิล แฮนด์ส์ จากฟาร์มจีพีพี (FarmGPU) กล่าว เมื่อการสนทนาที่มีต๊อกเกน 400,000 รายการนั่นหมายถึงเวลาทํางานของ GPU สองนาทีเต็ม โดยไม่มีการผลิตต๊อกเกน. LightInferra เปลี่ยนแปลงรูปแบบเศรษฐกิจโดยสิ้นเชิง ภาระงานเดียวกันสร้างต๊อกอินแรกในเวลาไม่ถึงครึ่งวินาที

Lightbits และ ScaleFlux ได้ออกแบบคําตอบร่วมกันนี้โดยเฉพาะสําหรับฟาร์ม GPU neocloud รุ่นต่อไป โดยที่ GPU pods ใหญ่จะทํางานแบบ AI รุ่นหลายร้อย หรือแม้แต่พันๆ รุ่นเกือบแต่ละหน่วยงานเหล่านี้จะประสบกับขีดจํากัดของความจุ KV ในความจําความกว้างของ GPU (HBM).

ภายใต้การจัดตั้งแบบดั้งเดิม ทีมงานต้องเผชิญหน้ากับสองทางเลือกที่แพง:หรือกระบวนการที่ใช้เวลามากกว่าในการคํานวณเวคเตอร์เหล่านั้นใหม่จากศูนย์เริ่มต้น ซึ่งทั้งคู่จะทําให้ GPU นั่งเฉยๆเป็นเวลาหลายชั่วโมงการผสมผสาน LightInferra และ ScaleFlux ทําให้จุดเจ็บปวดในอุตสาหกรรมนี้หายไปโดยสิ้นเชิง

โจนไมเคิล แฮนด์ส CEO FarmGPU เพิ่มว่า: หน่วยเก็บข้อมูลในเครือข่ายที่รวดเร็วจาก Lightbits เปิดโอกาสการใช้งานใหม่มากมายสําหรับการสรุปข้อความยาวโดยการผสมคู่บริการที่บริหารของเรากับ Lightbits หน่วยเก็บข้อมูลที่มีประสิทธิภาพสูงที่ทํางานบน ScaleFlux NVMe, เราสามารถลดเวลาในการ tokenize ครั้งแรกและเพิ่มการใช้งาน GPU, ลดค่าบริการรวม (TCO) ของภาระงานการสรุปลงอย่างมาก

บริษัท เทคโนโลยีจีเทงจี (Beijing Qianxing Jietong Technology Co., Ltd.)
แซนดี้ แยง (Sandy Yang) ผู้อํานวยการยุทธศาสตร์โลก
วอทแอป / เวชแชท: +86 13426366826
อีเมล: yangyd@qianxingdata.com
เว็บไซต์:www.qianxingdata.com/www.storagesserver.com การจัดเก็บของ

เน้นธุรกิจ:
การจัดจําหน่ายสินค้า ICT/การบูรณาการระบบและบริการ/การแก้ไขพื้นฐาน
ด้วยประสบการณ์การจําหน่ายไอที 20 ปีขึ้นไป เราร่วมมือกับแบรนด์ชั้นนําระดับโลก เพื่อให้ผลิตภัณฑ์ที่น่าเชื่อถือและบริการมืออาชีพ
การใช้เทคโนโลยีเพื่อสร้างโลกที่ฉลาด ผู้ให้บริการสินค้า ICT ที่คุณไว้วางใจ
ผับเวลา : 2026-03-18 11:34:46 >> รายการข่าว
รายละเอียดการติดต่อ
Beijing Qianxing Jietong Technology Co., Ltd.

ผู้ติดต่อ: Ms. Sandy Yang

โทร: 13426366826

ส่งคำถามของคุณกับเราโดยตรง (0 / 3000)