ที่ Google Cloud Next Google ได้เปิดตัวเครื่องเร่งความเร็ว AI รุ่นที่แปด ได้แก่ TPU v8t “Sunfish” สำหรับการฝึก และ TPU v8i “Zebrafish” สำหรับการอนุมาน ควบคู่ไปกับ Fabric ศูนย์ข้อมูล Virgo ใหม่ ชิปเหล่านี้ได้รับการออกแบบมาโดยเฉพาะสำหรับยุคเอเจนต์ AI โดยได้รับการปรับให้เหมาะสมสำหรับการฝึกโมเดลแบบผสมผสานของผู้เชี่ยวชาญ (MoE) ขนาดใหญ่ และการให้บริการโทเค็นที่มีความหน่วงต่ำด้วยราคาที่คุ้มค่า แม้ว่า v8t และ v8i จะแชร์แพลตฟอร์มโฮสต์และแฟบริคที่เชื่อมต่อถึงกัน แต่มีความแตกต่างในด้านหน่วยความจำ, SRAM, โทโพโลยี และความเชี่ยวชาญด้านฮาร์ดแวร์
ซูเปอร์พอด v8t รองรับชิป 9,600 ตัวพร้อม 2 PB HBM และให้การประมวลผล FP4 121 EFLOPS ซึ่งมีประสิทธิภาพมากกว่า Ironwood รุ่นก่อนหน้าเกือบสามเท่า v8i ปรับขนาดเป็น 1,152 ชิป พร้อมด้วย HBM 288 GB และ SRAM บนชิป 384 MB ซึ่งให้ประสิทธิภาพการอนุมานที่ดีกว่า Ironwood ถึง 80% Virgo Fabric เชื่อมต่อชิป v8t มากกว่า 134,000 ตัว โดยให้แบนด์วิดท์ที่ไม่มีการบล็อก 47 Pb/s พร้อมทรูพุตต่อตัวเร่งที่สูงขึ้น 4 เท่า และความหน่วงที่ลดลง 40%
สถาปัตยกรรม TPU พื้นฐานเทียบกับ GPU
TPU คือ ASIC แบบกำหนดเองที่โดดเด่นด้วยหน่วยคูณเมทริกซ์ขนาดใหญ่ (MXU), SRAM ที่จัดการโดยซอฟต์แวร์ และการคอมไพล์ล่วงหน้า แตกต่างจากการตั้งเวลาคอร์ขนาดเล็กแบบไดนามิกของ GPU TPU มีโฟลว์ข้อมูลที่กำหนดด้วยอาร์เรย์ซิสโตลิก กำจัดการกระวนกระวายใจของแคชและค่าใช้จ่ายในการกำหนดเวลาวาร์ปเพื่อการใช้งาน FLOPS ที่สูงขึ้นบนเวิร์กโหลดเมทริกซ์หนาแน่น อย่างไรก็ตาม TPU ต้องเผชิญกับรูปร่างแบบไดนามิก ความกระจัดกระจายที่ผิดปกติ และเครือข่ายกราฟที่ซับซ้อน ขณะเดียวกันก็ให้การสนับสนุนระบบนิเวศซอฟต์แวร์ที่แคบกว่าซึ่งครอบงำโดย JAX และ XLA
ความแตกต่างทางโครงสร้างในการรองรับความกระจัดกระจายทำให้ TPU และ GPU แตกต่างอย่างชัดเจน NVIDIA Tensor Cores รองรับการกระจายตัวที่มีโครงสร้าง 2:4 ผ่านการบีบอัดระดับคำสั่ง ในทางตรงกันข้าม อาร์เรย์ซิสโตลิก TPU ทำงานในขั้นตอนการล็อคที่เข้มงวด ทำให้การข้ามเป็นศูนย์ไม่มีประสิทธิภาพโดยไม่ต้องแผงไปป์ไลน์หรือฮาร์ดแวร์คลายการบีบอัดเพิ่มเติม AWS Trainium2 ใช้จุดกึ่งกลางที่มีตัวขยายการบีบอัดแบบกระจายโดยเฉพาะเพื่อรักษาปริมาณการประมวลผลของอาร์เรย์
TPU ผสานรวม SparseCores เพื่อจัดการงานกระจายการรวบรวมที่ผิดปกติสำหรับการฝังตารางและการกำหนดเส้นทาง MoE แกนพิเศษเหล่านี้เก่งในการจัดเรียง การเปลี่ยนแปลง และการจัดเรียงข้อมูลใหม่ ครอบคลุมปริมาณงานคำแนะนำและการจัดส่งโทเค็นของผู้เชี่ยวชาญที่ MXU มาตรฐานไม่สามารถประมวลผลได้อย่างมีประสิทธิภาพ
TPU v8t “Sunfish”: ตัวเร่งการฝึก
ชิปการฝึกอบรม v8t มีหน่วยความจำ HBM3e ขนาด 216 GB และ SRAM ขนาด 128 MB ความแม่นยำของ FP4 แบบเนทีฟเพิ่มปริมาณงานต่อรอบเป็นสองเท่า ผลักดันการประมวลผลแบบชิปเดี่ยวเป็น 12.6 PFLOPS โดยยังคงรักษาการเชื่อมต่อระหว่างกันแบบ 3D Torus และแบนด์วิดท์ ICI ที่อัปเกรดแล้ว 19.2 Tb/s ซึ่งเหมาะสำหรับการสื่อสารโดยรวมแบบวงแหวนในการฝึกอบรมขนาดใหญ่
SparseCores ที่สืบทอดมาจะเพิ่มประสิทธิภาพการส่งข้อมูลแบบ all-to-all ที่ผิดปกติของ MoE การอัพเกรดที่สำคัญสองครั้งช่วยขจัดปัญหาคอขวดขนาดใหญ่: TPUDirect RDMA และ TPUDirect Storage ข้ามโฮสต์ CPU เพื่อเปิดใช้งานการเข้าถึงหน่วยความจำ TPU โดยตรง โดยให้ปริมาณงาน I/O ที่เร็วขึ้น 10 เท่า นอกจากนี้ v8t ยังใช้ Axion CPU แบบ Arm ของ Google เป็นตัวประมวลผลโฮสต์ โดยแยกความกระวนกระวายใจของโฮสต์ และเพิ่มเสถียรภาพในการประมวลผลล่วงหน้าสำหรับการฝึกฝนแบบหลายชิปที่ซิงโครไนซ์
TPU v8i “Zebrafish”: ตัวเร่งการอนุมาน
สร้างขึ้นสำหรับเวิร์กโหลดการอนุมานที่มีแบนด์วิธหน่วยความจำ v8i จัดลำดับความสำคัญในการสร้างโทเค็นที่มีความหน่วงต่ำ โดยมี SRAM ขนาด 384 MB ซึ่งเป็นสามเท่าของ Ironwood เพื่อแคชแคช KV บนชิป และลดการอ่าน HBM ซ้ำ ด้วย TensorCore สองตัวและ HBM3e ขนาด 288 GB ทำให้สามารถประมวลผล 10.1 PFLOPS FP4 ได้ โดยทับซ้อนงานการอนุมานชุดสั้นเพื่อการใช้งานที่ยั่งยืนที่สูงขึ้น
การแทนที่ SparseCores นั้น Collectives Acceleration Engine (CAE) เฉพาะจะช่วยลดเวลาแฝงในการซิงโครไนซ์บนชิปได้สูงสุดถึง 5 เท่า เพิ่มประสิทธิภาพการดำเนินงานโดยรวมชุดเล็กบ่อยครั้ง v8i ละทิ้งทอรัส 3 มิติสำหรับโทโพโลยี Boardfly ที่ใช้ Dragonfly โดยลดการกระโดดระหว่างชิปสูงสุดจาก 16 เป็น 7 และลด MoE all-to-all latency ลง 50%
ลำดับชั้นผ้าราศีกันย์และดาวพฤหัสบดี
Virgo ทำหน้าที่เป็นโครงสร้างการขยายขนาดภายในศูนย์ข้อมูล โดยใช้สถาปัตยกรรมสองชั้นที่ไม่ปิดกั้น เพื่อลดการสมัครสมาชิกมากเกินไปสำหรับการรับส่งข้อมูล AI ตะวันออกและตะวันตก ขับเคลื่อนด้วยสวิตช์ออปติคัล MEMS ช่วยให้สามารถกำหนดเส้นทางข้อผิดพลาดระดับมิลลิวินาทีได้ และรักษา goodput ไว้ 97% สำหรับ superpods v8t เมื่อใช้ร่วมกับ Jupiter ซึ่งเป็นแฟบริคข้ามศูนย์ข้อมูลระยะไกลของ Google ระบบเชื่อมต่อแบบเลเยอร์จะรองรับชิป TPU มากกว่าหนึ่งล้านชิปในคลัสเตอร์โลจิคัลเดียวที่มีการประมวลผล FP4 ทั้งหมด 1.7 ZFLOPS
ประสิทธิภาพ TCO และตำแหน่งทางการตลาด
Model FLOPs Utilization (MFU) ที่ให้ผลผลิตสูงและมีเสถียรภาพทำให้ TPU มีความได้เปรียบด้านต้นทุนที่น่าสนใจ ที่ 40% MFU ค่าใช้จ่ายในการฝึกอบรม TPU ต่ำกว่า NVIDIA GB300 ถึง 62% ในการเปรียบเทียบฮาร์ดแวร์ ประสิทธิภาพ v8t FP4 หนาแน่นอยู่ระหว่าง GB200 ถึง GB300 ในขณะที่ Google ครองตำแหน่งคลัสเตอร์ขนาดใหญ่ด้วยพ็อดเดี่ยว 9,600 ชิป ซึ่งเกินกว่าโดเมน 72-GPU NVLink ของ NVIDIA มาก
เมื่อมองไปข้างหน้า Vera Rubin, Rubin Ultra และ Kyber จาก NVIDIA จะทำให้ช่องว่างด้านประสิทธิภาพของ TPU แคบลงตั้งแต่ปี 2026 ถึง 2027 จุดอ่อนของ TPU ได้แก่ HBM ต่อชิปที่เล็กลง ความกระจัดกระจายของฮาร์ดแวร์ขาดหายไป และความเข้ากันได้ของระบบนิเวศที่จำกัด อย่างไรก็ตาม Google ยังคงรักษาจุดแข็งในการทำคลัสเตอร์ขนาดใหญ่ เวลาแฝงที่กำหนดได้ และประสิทธิภาพด้านต้นทุนสำหรับปริมาณงาน MoE
Google กำลังขยายโครงสร้างพื้นฐานทั้ง TPU และ NVIDIA GPU Meta วางแผนข้อตกลงการนำ TPU มูลค่าหลายพันล้านดอลลาร์เริ่มในปี 2570 เนื่องจากรุ่นชิปคู่ที่ได้รับการปรับให้เหมาะกับยุคเอเจนต์ TPU v8 ช่วยให้ Google สามารถแข่งขันกับ NVIDIA Grace-Blackwell สำหรับการปรับใช้ AI ขนาดใหญ่ระดับแนวหน้า
Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/ผู้อำนวยการฝ่ายกลยุทธ์ระดับโลก
WhatsApp / WeChat: +86 13426366826
อีเมล: yangyd@qianxingdata.com
เว็บไซต์: www.qianxingdata.com/www.storagesserver.com
มุ่งเน้นธุรกิจ:
การจัดจำหน่ายผลิตภัณฑ์ ICT/บูรณาการระบบและบริการ/โซลูชั่นโครงสร้างพื้นฐาน
ด้วยประสบการณ์การจัดจำหน่ายด้านไอทีมากกว่า 20 ปี เราร่วมมือกับแบรนด์ชั้นนำระดับโลกเพื่อนำเสนอผลิตภัณฑ์ที่เชื่อถือได้และบริการระดับมืออาชีพ
“ใช้เทคโนโลยีเพื่อสร้างโลกอัจฉริยะ” ผู้ให้บริการผลิตภัณฑ์ ICT ที่เชื่อถือได้ของคุณ!
Sandy Yang/ผู้อำนวยการฝ่ายกลยุทธ์ระดับโลก
WhatsApp / WeChat: +86 13426366826
อีเมล: yangyd@qianxingdata.com
เว็บไซต์: www.qianxingdata.com/www.storagesserver.com
มุ่งเน้นธุรกิจ:
การจัดจำหน่ายผลิตภัณฑ์ ICT/บูรณาการระบบและบริการ/โซลูชั่นโครงสร้างพื้นฐาน
ด้วยประสบการณ์การจัดจำหน่ายด้านไอทีมากกว่า 20 ปี เราร่วมมือกับแบรนด์ชั้นนำระดับโลกเพื่อนำเสนอผลิตภัณฑ์ที่เชื่อถือได้และบริการระดับมืออาชีพ
“ใช้เทคโนโลยีเพื่อสร้างโลกอัจฉริยะ” ผู้ให้บริการผลิตภัณฑ์ ICT ที่เชื่อถือได้ของคุณ!



