logo
บ้าน กรณี

Google เปิดตัว TPU v8t Sunfish และ TPU v8i Zebrafish

ได้รับการรับรอง
จีน Beijing Qianxing Jietong Technology Co., Ltd. รับรอง
จีน Beijing Qianxing Jietong Technology Co., Ltd. รับรอง
ความคิดเห็นของลูกค้า
พนักงานขายของ Beijing Qianxing Jietong Technology Co. , Ltd เป็นมืออาชีพและอดทนมาก พวกเขาสามารถให้ใบเสนอราคาได้อย่างรวดเร็ว คุณภาพและบรรจุภัณฑ์ของผลิตภัณฑ์ก็ดีมากเช่นกัน ความร่วมมือของเราเป็นไปอย่างราบรื่น

—— 《Festfing DV》 LLC

เมื่อฉันกำลังมองหา Intel CPU และ Toshiba SSD อย่างเร่งด่วน Sandy จาก Beijing Qianxing Jietong Technology Co., Ltd ให้ความช่วยเหลืออย่างมากและได้ผลิตภัณฑ์ที่ฉันต้องการอย่างรวดเร็ว ฉันชื่นชมเธอจริงๆ

—— คิตตี้ เยน

แซนดี้แห่งปักกิ่ง Qianxing Jietong Technology Co. , Ltd เป็นพนักงานขายที่ระมัดระวัง ซึ่งสามารถเตือนฉันถึงข้อผิดพลาดในการกำหนดค่าในเวลาที่ฉันซื้อเซิร์ฟเวอร์ วิศวกรมีความเป็นมืออาชีพมากและสามารถดำเนินการทดสอบให้เสร็จสิ้นได้อย่างรวดเร็ว

—— Strelkin Mikhail Vladimirovich

เรามีความสุขมากกับประสบการณ์การทำงานกับ Beijing Qianxing Jietong คุณภาพของผลิตภัณฑ์ยอดเยี่ยมและการจัดส่งตรงเวลาเสมอ ทีมขายของพวกเขามืออาชีพ อดทน และช่วยเหลือดีมากกับคำถามทั้งหมดของเรา เราขอขอบคุณการสนับสนุนของพวกเขาอย่างแท้จริงและหวังว่าจะได้ร่วมงานกันในระยะยาว แนะนำเป็นอย่างยิ่ง!

—— Ahmad Navid

คุณภาพ: ประสบการณ์ที่ดีกับผู้จําหน่ายของฉัน The MikroTik RB3011 ได้ถูกใช้แล้ว แต่มันอยู่ในสภาพที่ดีมาก และทุกอย่างทํางานอย่างสมบูรณ์แบบ การสื่อสารเร็วและเรียบร้อยและความกังวลทั้งหมดของฉันถูกแก้ไขอย่างรวดเร็วซัพพลายเออร์ที่น่าเชื่อถือมาก แนะนํามาก

—— เจรัน โคเลซิโอ

สนทนาออนไลน์ตอนนี้ฉัน

Google เปิดตัว TPU v8t Sunfish และ TPU v8i Zebrafish

May 11, 2026
ที่ Google Cloud Next Google ได้เปิดตัวเครื่องเร่งความเร็ว AI รุ่นที่แปด ได้แก่ TPU v8t “Sunfish” สำหรับการฝึก และ TPU v8i “Zebrafish” สำหรับการอนุมาน ควบคู่ไปกับ Fabric ศูนย์ข้อมูล Virgo ใหม่ ชิปเหล่านี้ได้รับการออกแบบมาโดยเฉพาะสำหรับยุคเอเจนต์ AI โดยได้รับการปรับให้เหมาะสมสำหรับการฝึกโมเดลแบบผสมผสานของผู้เชี่ยวชาญ (MoE) ขนาดใหญ่ และการให้บริการโทเค็นที่มีความหน่วงต่ำด้วยราคาที่คุ้มค่า แม้ว่า v8t และ v8i จะแชร์แพลตฟอร์มโฮสต์และแฟบริคที่เชื่อมต่อถึงกัน แต่มีความแตกต่างในด้านหน่วยความจำ, SRAM, โทโพโลยี และความเชี่ยวชาญด้านฮาร์ดแวร์

กรณี บริษัท ล่าสุดเกี่ยวกับ Google เปิดตัว TPU v8t Sunfish และ TPU v8i Zebrafish  0

ซูเปอร์พอด v8t รองรับชิป 9,600 ตัวพร้อม 2 PB HBM และให้การประมวลผล FP4 121 EFLOPS ซึ่งมีประสิทธิภาพมากกว่า Ironwood รุ่นก่อนหน้าเกือบสามเท่า v8i ปรับขนาดเป็น 1,152 ชิป พร้อมด้วย HBM 288 GB และ SRAM บนชิป 384 MB ซึ่งให้ประสิทธิภาพการอนุมานที่ดีกว่า Ironwood ถึง 80% Virgo Fabric เชื่อมต่อชิป v8t มากกว่า 134,000 ตัว โดยให้แบนด์วิดท์ที่ไม่มีการบล็อก 47 Pb/s พร้อมทรูพุตต่อตัวเร่งที่สูงขึ้น 4 เท่า และความหน่วงที่ลดลง 40%

สถาปัตยกรรม TPU พื้นฐานเทียบกับ GPU


TPU คือ ASIC แบบกำหนดเองที่โดดเด่นด้วยหน่วยคูณเมทริกซ์ขนาดใหญ่ (MXU), SRAM ที่จัดการโดยซอฟต์แวร์ และการคอมไพล์ล่วงหน้า แตกต่างจากการตั้งเวลาคอร์ขนาดเล็กแบบไดนามิกของ GPU TPU มีโฟลว์ข้อมูลที่กำหนดด้วยอาร์เรย์ซิสโตลิก กำจัดการกระวนกระวายใจของแคชและค่าใช้จ่ายในการกำหนดเวลาวาร์ปเพื่อการใช้งาน FLOPS ที่สูงขึ้นบนเวิร์กโหลดเมทริกซ์หนาแน่น อย่างไรก็ตาม TPU ต้องเผชิญกับรูปร่างแบบไดนามิก ความกระจัดกระจายที่ผิดปกติ และเครือข่ายกราฟที่ซับซ้อน ขณะเดียวกันก็ให้การสนับสนุนระบบนิเวศซอฟต์แวร์ที่แคบกว่าซึ่งครอบงำโดย JAX และ XLA

ความแตกต่างทางโครงสร้างในการรองรับความกระจัดกระจายทำให้ TPU และ GPU แตกต่างอย่างชัดเจน NVIDIA Tensor Cores รองรับการกระจายตัวที่มีโครงสร้าง 2:4 ผ่านการบีบอัดระดับคำสั่ง ในทางตรงกันข้าม อาร์เรย์ซิสโตลิก TPU ทำงานในขั้นตอนการล็อคที่เข้มงวด ทำให้การข้ามเป็นศูนย์ไม่มีประสิทธิภาพโดยไม่ต้องแผงไปป์ไลน์หรือฮาร์ดแวร์คลายการบีบอัดเพิ่มเติม AWS Trainium2 ใช้จุดกึ่งกลางที่มีตัวขยายการบีบอัดแบบกระจายโดยเฉพาะเพื่อรักษาปริมาณการประมวลผลของอาร์เรย์

TPU ผสานรวม SparseCores เพื่อจัดการงานกระจายการรวบรวมที่ผิดปกติสำหรับการฝังตารางและการกำหนดเส้นทาง MoE แกนพิเศษเหล่านี้เก่งในการจัดเรียง การเปลี่ยนแปลง และการจัดเรียงข้อมูลใหม่ ครอบคลุมปริมาณงานคำแนะนำและการจัดส่งโทเค็นของผู้เชี่ยวชาญที่ MXU มาตรฐานไม่สามารถประมวลผลได้อย่างมีประสิทธิภาพ

TPU v8t “Sunfish”: ตัวเร่งการฝึก


ชิปการฝึกอบรม v8t มีหน่วยความจำ HBM3e ขนาด 216 GB และ SRAM ขนาด 128 MB ความแม่นยำของ FP4 แบบเนทีฟเพิ่มปริมาณงานต่อรอบเป็นสองเท่า ผลักดันการประมวลผลแบบชิปเดี่ยวเป็น 12.6 PFLOPS โดยยังคงรักษาการเชื่อมต่อระหว่างกันแบบ 3D Torus และแบนด์วิดท์ ICI ที่อัปเกรดแล้ว 19.2 Tb/s ซึ่งเหมาะสำหรับการสื่อสารโดยรวมแบบวงแหวนในการฝึกอบรมขนาดใหญ่

SparseCores ที่สืบทอดมาจะเพิ่มประสิทธิภาพการส่งข้อมูลแบบ all-to-all ที่ผิดปกติของ MoE การอัพเกรดที่สำคัญสองครั้งช่วยขจัดปัญหาคอขวดขนาดใหญ่: TPUDirect RDMA และ TPUDirect Storage ข้ามโฮสต์ CPU เพื่อเปิดใช้งานการเข้าถึงหน่วยความจำ TPU โดยตรง โดยให้ปริมาณงาน I/O ที่เร็วขึ้น 10 เท่า นอกจากนี้ v8t ยังใช้ Axion CPU แบบ Arm ของ Google เป็นตัวประมวลผลโฮสต์ โดยแยกความกระวนกระวายใจของโฮสต์ และเพิ่มเสถียรภาพในการประมวลผลล่วงหน้าสำหรับการฝึกฝนแบบหลายชิปที่ซิงโครไนซ์

กรณี บริษัท ล่าสุดเกี่ยวกับ Google เปิดตัว TPU v8t Sunfish และ TPU v8i Zebrafish  1

TPU v8i “Zebrafish”: ตัวเร่งการอนุมาน


สร้างขึ้นสำหรับเวิร์กโหลดการอนุมานที่มีแบนด์วิธหน่วยความจำ v8i จัดลำดับความสำคัญในการสร้างโทเค็นที่มีความหน่วงต่ำ โดยมี SRAM ขนาด 384 MB ซึ่งเป็นสามเท่าของ Ironwood เพื่อแคชแคช KV บนชิป และลดการอ่าน HBM ซ้ำ ด้วย TensorCore สองตัวและ HBM3e ขนาด 288 GB ทำให้สามารถประมวลผล 10.1 PFLOPS FP4 ได้ โดยทับซ้อนงานการอนุมานชุดสั้นเพื่อการใช้งานที่ยั่งยืนที่สูงขึ้น

การแทนที่ SparseCores นั้น Collectives Acceleration Engine (CAE) เฉพาะจะช่วยลดเวลาแฝงในการซิงโครไนซ์บนชิปได้สูงสุดถึง 5 เท่า เพิ่มประสิทธิภาพการดำเนินงานโดยรวมชุดเล็กบ่อยครั้ง v8i ละทิ้งทอรัส 3 มิติสำหรับโทโพโลยี Boardfly ที่ใช้ Dragonfly โดยลดการกระโดดระหว่างชิปสูงสุดจาก 16 เป็น 7 และลด MoE all-to-all latency ลง 50%

ลำดับชั้นผ้าราศีกันย์และดาวพฤหัสบดี


Virgo ทำหน้าที่เป็นโครงสร้างการขยายขนาดภายในศูนย์ข้อมูล โดยใช้สถาปัตยกรรมสองชั้นที่ไม่ปิดกั้น เพื่อลดการสมัครสมาชิกมากเกินไปสำหรับการรับส่งข้อมูล AI ตะวันออกและตะวันตก ขับเคลื่อนด้วยสวิตช์ออปติคัล MEMS ช่วยให้สามารถกำหนดเส้นทางข้อผิดพลาดระดับมิลลิวินาทีได้ และรักษา goodput ไว้ 97% สำหรับ superpods v8t เมื่อใช้ร่วมกับ Jupiter ซึ่งเป็นแฟบริคข้ามศูนย์ข้อมูลระยะไกลของ Google ระบบเชื่อมต่อแบบเลเยอร์จะรองรับชิป TPU มากกว่าหนึ่งล้านชิปในคลัสเตอร์โลจิคัลเดียวที่มีการประมวลผล FP4 ทั้งหมด 1.7 ZFLOPS

ประสิทธิภาพ TCO และตำแหน่งทางการตลาด


Model FLOPs Utilization (MFU) ที่ให้ผลผลิตสูงและมีเสถียรภาพทำให้ TPU มีความได้เปรียบด้านต้นทุนที่น่าสนใจ ที่ 40% MFU ค่าใช้จ่ายในการฝึกอบรม TPU ต่ำกว่า NVIDIA GB300 ถึง 62% ในการเปรียบเทียบฮาร์ดแวร์ ประสิทธิภาพ v8t FP4 หนาแน่นอยู่ระหว่าง GB200 ถึง GB300 ในขณะที่ Google ครองตำแหน่งคลัสเตอร์ขนาดใหญ่ด้วยพ็อดเดี่ยว 9,600 ชิป ซึ่งเกินกว่าโดเมน 72-GPU NVLink ของ NVIDIA มาก

เมื่อมองไปข้างหน้า Vera Rubin, Rubin Ultra และ Kyber จาก NVIDIA จะทำให้ช่องว่างด้านประสิทธิภาพของ TPU แคบลงตั้งแต่ปี 2026 ถึง 2027 จุดอ่อนของ TPU ได้แก่ HBM ต่อชิปที่เล็กลง ความกระจัดกระจายของฮาร์ดแวร์ขาดหายไป และความเข้ากันได้ของระบบนิเวศที่จำกัด อย่างไรก็ตาม Google ยังคงรักษาจุดแข็งในการทำคลัสเตอร์ขนาดใหญ่ เวลาแฝงที่กำหนดได้ และประสิทธิภาพด้านต้นทุนสำหรับปริมาณงาน MoE

Google กำลังขยายโครงสร้างพื้นฐานทั้ง TPU และ NVIDIA GPU Meta วางแผนข้อตกลงการนำ TPU มูลค่าหลายพันล้านดอลลาร์เริ่มในปี 2570 เนื่องจากรุ่นชิปคู่ที่ได้รับการปรับให้เหมาะกับยุคเอเจนต์ TPU v8 ช่วยให้ Google สามารถแข่งขันกับ NVIDIA Grace-Blackwell สำหรับการปรับใช้ AI ขนาดใหญ่ระดับแนวหน้า

Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/ผู้อำนวยการฝ่ายกลยุทธ์ระดับโลก
WhatsApp / WeChat: +86 13426366826
อีเมล: yangyd@qianxingdata.com
เว็บไซต์: www.qianxingdata.com/www.storagesserver.com
มุ่งเน้นธุรกิจ:
การจัดจำหน่ายผลิตภัณฑ์ ICT/บูรณาการระบบและบริการ/โซลูชั่นโครงสร้างพื้นฐาน
ด้วยประสบการณ์การจัดจำหน่ายด้านไอทีมากกว่า 20 ปี เราร่วมมือกับแบรนด์ชั้นนำระดับโลกเพื่อนำเสนอผลิตภัณฑ์ที่เชื่อถือได้และบริการระดับมืออาชีพ
“ใช้เทคโนโลยีเพื่อสร้างโลกอัจฉริยะ” ผู้ให้บริการผลิตภัณฑ์ ICT ที่เชื่อถือได้ของคุณ!
รายละเอียดการติดต่อ
Beijing Qianxing Jietong Technology Co., Ltd.

ผู้ติดต่อ: Ms. Sandy Yang

โทร: 13426366826

ส่งคำถามของคุณกับเราโดยตรง (0 / 3000)