GSI Technology โชว์พลัง Gemini-II: ทำ “Time-to-First-Token” 3 วินาทีบน Edge Multimodal LLM ที่กินไฟแค่ราว 30W

GSI Technology โชว์พลัง Gemini-II: ทำ “Time-to-First-Token” 3 วินาทีบน Edge Multimodal LLM ที่กินไฟแค่ราว 30W

โดย ADMIN
หุ้นที่เกี่ยวข้อง:GSIT

GSI Technology รายงานผลทดสอบ Gemini-II ทำ TTFT 3 วินาทีสำหรับ Edge Multimodal LLM Inference บนวิดีโอ+ข้อความ

GSI Technology, Inc. (Nasdaq: GSIT) บริษัทเทคโนโลยีจาก Sunnyvale, California ผู้พัฒนาแนวคิด Associative Processing Unit (APU) และสถาปัตยกรรม compute-in-memory ออกมาเปิดเผยผลทดสอบเบื้องต้นของโปรเซสเซอร์รุ่นใหม่ Gemini-II Compute-in-Memory โดยชูจุดเด่นเรื่องความเร็วตอบสนองของระบบ AI แบบ multimodal (รับข้อมูลได้หลายชนิด เช่น วิดีโอ+ข้อความ) ที่รันบนอุปกรณ์ edge ได้จริง และมีค่าหน่วงต่ำภายใต้ข้อจำกัดด้านพลังงาน/ความร้อน

ไฮไลต์ที่ถูกพูดถึงมากที่สุดคือ GSI ระบุว่าสามารถทำ time-to-first-token (TTFT) ได้ที่ ประมาณ 3 วินาที สำหรับการทำ inference ของ multimodal large language model บน edge โดยใช้ทั้งอินพุต “วิดีโอและข้อความ” ซึ่งถือเป็นตัวชี้วัดสำคัญของ “ความไวในการเริ่มตอบ” ของระบบ LLM เมื่อผู้ใช้/กล้องส่งคำสั่งเข้ามา ระบบเริ่ม generate token แรกได้ไวแค่ไหน

TTFT คืออะไร ทำไมคนทำ Edge AI ถึงโฟกัสหนัก?

TTFT (Time-to-First-Token) คือเวลาตั้งแต่ระบบได้รับคำสั่ง/ข้อมูล จนเริ่มปล่อย “token แรก” ออกมาในการตอบกลับของโมเดลภาษา ถ้าเป็นงานจริงอย่างกล้องวงจรปิดอัจฉริยะ หุ่นยนต์ หรือโดรน การรอให้โมเดลเริ่มตอบนานเกินไปอาจทำให้ “พลาดเหตุการณ์สำคัญ” เช่น วัตถุเคลื่อนไหวเร็ว คนเดินผ่านจุดเสี่ยง หรือรถเลี้ยวตัดหน้า

ในโลก edge ความท้าทายไม่ได้อยู่ที่ “ทำได้ไหม” แต่อยู่ที่ “ทำได้ไวแค่ไหน” ภายใต้เพดานพลังงานและความร้อนที่จำกัดมากกว่าดาต้าเซ็นเตอร์ การได้ TTFT ต่ำลงหมายถึง:

  • ตอบสนองทันเหตุการณ์ โดยเฉพาะงานวิดีโอที่เฟรมเปลี่ยนตลอด
  • ทำงานบนแบตเตอรี่ได้นานขึ้น เพราะไม่ต้องเร่งพลังงานสูงหรือเปิดระบบหนักตลอดเวลา
  • ลดต้นทุนรวมของระบบ (Total System Cost) ทั้งด้านพลังงาน การระบายความร้อน และฟอร์มแฟกเตอร์

ผลทดสอบเด่น: Gemma-3 12B Vision-Language Model + Gemini-II ทำได้ 3 วินาทีที่ ~30W

GSI ระบุว่าใช้โมเดล Gemma-3 12B แบบ vision-language (เข้าใจภาพ/วิดีโอและภาษา) รันบน Gemini-II (production processor) แล้วได้ค่า TTFT ที่ 3 วินาที โดยกินพลังงานรวมที่ระดับ ประมาณ 30 วัตต์ ในส่วนของ AI sub-system (รวมถึงชิป)

ประเด็นสำคัญคือบริษัทชี้ว่า “เท่าที่ทราบ” นี่เป็นหนึ่งในตัวเลขที่ “ต่ำที่สุดในที่สาธารณะรายงาน” สำหรับงาน multimodal 12B ที่รันบน embedded edge processor ที่กำหนดกรอบพลังงานระดับนี้ ซึ่งสะท้อนภาพว่า GSI ต้องการวาง Gemini-II เป็นทางเลือกสำหรับ AI ที่ต้องทำงานนอกคลาวด์แบบจริงจัง

เทียบคู่แข่ง: 3 วินาทีที่ 30W vs 12 วินาทีที่ 30W และ 3 วินาทีที่ >100W

ในประกาศเดียวกัน GSI อ้างอิงผลทดสอบจาก third-party ของ “workload เดียวกัน” บนแพลตฟอร์ม embedded อื่น ๆ โดยรายงานว่า:

  • บน Qualcomm Snapdragon X Elite วัด TTFT ได้ ราว 12 วินาที ที่ 30W
  • บน NVIDIA Jetson Thor วัด TTFT ได้ ราว 3 วินาที แต่ใช้พลังงาน มากกว่า 100W

เมื่อมองเชิงระบบ ข้อความที่ GSI ต้องการสื่อคือ “ถ้าต้องการความไวระดับ 3 วินาทีเหมือนกัน” ทางเลือกบางรายอาจต้องแลกด้วยพลังงาน/ความร้อนสูงกว่าอย่างมีนัยสำคัญ ขณะที่ Gemini-II พยายามทำให้ “ความไว” และ “ความประหยัดพลังงาน” ไปด้วยกันได้ในสภาพแวดล้อมที่จำกัด

นอกจากนี้ บริษัทยังใส่ประโยคเชิงการตลาดว่า benchmark ดังกล่าว “แสดง performance per watt ที่ดีขึ้นได้ถึง ~300% เมื่อเทียบกับโซลูชันที่แข่งขันกัน” ซึ่งถ้าดูจากภาพรวมก็เป็นการชูว่า Gemini-II เหมาะกับงาน edge ที่ต้องคุมวัตต์ คุมอุณหภูมิ และยังต้องตอบไว

ผู้บริหารพูดชัด: Compute-in-Memory ช่วย “Physical AI” ทำงานนอกดาต้าเซ็นเตอร์ได้จริง

Lee-Lean Shu ประธานและ CEO ของ GSI Technology อธิบายทิศทางว่า benchmark นี้สะท้อนศักยภาพของ compute-in-memory ต่อ “physical AI” หรือ AI ที่ไปอยู่กับสิ่งของจริง เช่น หุ่นยนต์ เครื่องจักรอัจฉริยะ ระบบอัตโนมัติ และอุปกรณ์ภาคสนามที่ต้องพึ่งการตัดสินใจแบบ real-time

ใจความสำคัญของมุมมองนี้คือ Edge deployments ต้องการการตอบสนองเร็วภายใต้ข้อจำกัดพลังงานและความร้อน และ TTFT 3 วินาทีช่วยให้ระบบ “เริ่มตอบ” ได้ทันในงานวิดีโอ โดยไม่พลาดเหตุการณ์สำคัญ (meaningful events) มากนัก

ทำไม “Edge Multimodal” ถึงกำลังมาแรงในปีนี้?

ช่วงไม่กี่ปีที่ผ่านมา LLM และ VLM (Vision-Language Model) พัฒนาเร็วมาก จนหลายองค์กรเริ่มอยากย้ายงานบางส่วนจากคลาวด์ลงมาไว้ที่ edge เพราะ:

  • Latency ต่ำกว่า: ไม่ต้องส่งวิดีโอ/ข้อมูลขึ้นคลาวด์ทุกครั้ง
  • Reliability สูงกว่า: เน็ตหลุดก็ยังทำงานได้
  • Privacy/Compliance: ข้อมูลภาพจากพื้นที่อ่อนไหวไม่จำเป็นต้องออกนอกไซต์
  • Operational efficiency: ลดค่า bandwidth และค่าใช้คลาวด์

แต่การรันโมเดลระดับ 12B บน edge ไม่ใช่เรื่องเล่น ๆ เพราะโมเดลใหญ่แปลว่า memory footprint มาก การย้ายข้อมูลระหว่างหน่วยความจำกับหน่วยคำนวณยิ่งเยอะ ยิ่งช้า และยิ่งกินไฟ นี่คือจุดที่ GSI พยายามเข้ามา “แก้เกม” ด้วยสถาปัตยกรรม compute-in-memory

Compute-in-Memory คือแนวคิดอะไร และเกี่ยวอะไรกับความเร็ว+พลังงาน?

โดยภาพรวม compute-in-memory คือการออกแบบให้ “การคำนวณเกิดใกล้กับที่เก็บข้อมูล” มากขึ้น แทนที่จะย้ายข้อมูลไป-กลับระหว่างหน่วยความจำและหน่วยประมวลผลแบบเดิม ๆ เพราะในงาน AI สมัยใหม่ ปัญหาใหญ่ไม่ได้มีแค่จำนวนการคำนวณ แต่คือ data movement ที่เป็นตัวกินพลังงานและเวลาอย่างหนัก

GSI อธิบายว่าการลด data movement ช่วยลดทั้ง latency และ power consumption ซึ่งเป็นปัจจัยหลักของ edge AI ที่มักติดเพดานทั้งการระบายความร้อน (thermal) ขนาดอุปกรณ์ (form factor) และแบตเตอรี่

Gemini-II เหมาะกับงานอะไรบ้าง? โดรน Smart City และระบบที่ทำงานเป็นช่วง ๆ

GSI ระบุว่า performance profile แบบ “TTFT ต่ำ + วัตต์ต่ำ” เหมาะกับตลาด physical AI โดยยกตัวอย่างกลุ่มงานอย่าง:

  • โดรน (drones): ต้องคุมแบตและน้ำหนัก แต่ต้องวิเคราะห์ภาพแบบเร็ว
  • Smart City: กล้อง/เซ็นเซอร์จำนวนมาก ต้องประมวลผลใกล้แหล่งข้อมูล
  • Edge systems แบบ episodic workloads: งานไม่ได้ยิงต่อเนื่องตลอดเวลา แต่ออกเป็นช่วง ๆ เช่น ตรวจจับเหตุการณ์แล้วค่อยสรุป
  • Intelligent machines นอกดาต้าเซ็นเตอร์: เครื่องจักรอัจฉริยะที่ต้องโต้ตอบกับโลกจริง

แนวคิด “episodic” สำคัญมาก เพราะหลายระบบไม่ได้ต้อง generate ยาว ๆ ตลอดเวลา แต่ต้อง “เริ่มตอบให้ไว” เพื่อสั่งงาน/แจ้งเตือน/ตัดสินใจ จากนั้นค่อยทำขั้นต่อไป การได้ TTFT ต่ำจึงตรงโจทย์การใช้งานจริงอย่างมาก

มุมของระบบ: ทำไมวัตต์ถึงสำคัญพอ ๆ กับความเร็ว?

ในดาต้าเซ็นเตอร์ การเพิ่มพลังงานเพื่อรีด performance อาจยังพอทำได้ เพราะมีระบบระบายความร้อนและไฟเลี้ยงพร้อม แต่ใน edge โลกมันคนละเรื่อง:

  • ถ้าใช้ไฟมาก ต้องมีฮีตซิงก์/พัดลมใหญ่ขึ้น ทำให้อุปกรณ์หนาและหนัก
  • ถ้าร้อนมาก ระบบอาจ throttle ลดความเร็ว ทำให้ค่า TTFT แย่ลงในสถานการณ์จริง
  • ถ้าแบตจำกัด อุปกรณ์ทำงานได้ไม่นาน และต้นทุนการดูแลสูงขึ้น

ดังนั้น การบอกว่า “3 วินาทีที่ ~30W” จึงเป็นข้อความที่สื่อถึงความสมดุล: ได้ความไวพอใช้งานกับวิดีโอ และยังอยู่ในกรอบพลังงานที่เหมาะกับอุปกรณ์ embedded จำนวนมาก

การทดสอบยังเป็น “preliminary” และอยู่ในช่วงประเมินผล

แม้ตัวเลขจะดูน่าสนใจ แต่ GSI ระบุชัดว่าเป็น ผลทดสอบเบื้องต้น (preliminary benchmark results) และถูกใช้เพื่อสนับสนุนการประเมิน (evaluation) เท่านั้น ไม่ได้เป็นการการันตีผลเชิงพาณิชย์ในอนาคต

ในโลก benchmark รายละเอียดเล็ก ๆ สามารถทำให้ผลต่างกันมาก เช่น:

  • ความแตกต่างของ workload และการตั้งค่า (configurations)
  • ขอบเขตการวัด (measurement boundaries) วัดเฉพาะชิปหรือรวมทั้งระบบ
  • วิธีการทดสอบ (methodologies) และ toolchain
  • เวอร์ชันของโมเดลและการ optimize

บริษัทจึงใส่กรอบความคาดหวังว่า ตัวเลขเหล่านี้ “ช่วยให้เห็นภาพ” ว่า Gemini-II ไปได้แค่ไหน แต่ผลจริงในการใช้งานเชิงพาณิชย์จะขึ้นกับสภาพระบบและการ integrate กับลูกค้า

เดินเกมร่วมพาร์ทเนอร์: ทำงานกับลูกค้าและ G2 Tech เพื่อ integration และ proof-of-concept

GSI ระบุว่าทีมวิศวกรรมยังคง optimize ความ responsive ของ Gemini-II ต่อเนื่อง พร้อมทำงานร่วมกับลูกค้าและพาร์ทเนอร์ รวมถึง G2 Tech ในด้าน system integration และกิจกรรม proof-of-concept (PoC) เพื่อให้เทคโนโลยีลงสนามจริงได้

สำหรับอุตสาหกรรมชิป/AI การได้ตัวเลข benchmark เป็นเพียง “ก้าวแรก” สิ่งที่ท้าทายไม่แพ้กันคือการทำให้ระบบครบวงจร: ตั้งแต่ไลบรารี ซอฟต์แวร์สแตก การแปลงโมเดล (model porting) การ optimize และการดูแลระยะยาว ซึ่งการมีพาร์ทเนอร์และ PoC ช่วยลดความเสี่ยงให้ลูกค้าที่อยากทดลองของใหม่

รู้จัก GSI Technology แบบเร็ว ๆ: APU, Gemini-I และ Gemini-II

GSI Technology วางตัวเองว่าอยู่ “แนวหน้า” ของการปฏิวัติ AI ด้วยเทคโนโลยี APU ที่ออกแบบมาเพื่อประสิทธิภาพสูง โดยเฉพาะงานค้นหาฐานข้อมูลขนาดใหญ่มาก (เช่น billion-item database searches) และงาน high-performance computing

ในกลุ่มผลิตภัณฑ์ บริษัทพูดถึง Gemini-I และ Gemini-II ว่าเป็นโซลูชันที่ “ขยายได้ (scalable) กินไฟต่ำ (low-power) ความจุสูง (high-capacity)” เพื่อผลักดันความสามารถของ edge computing ให้ไปไกลกว่าเดิม

ข้อมูลเพิ่มเติมเกี่ยวกับบริษัทสามารถดูได้ที่เว็บไซต์ทางการ: https://www.gsitechnology.com

สรุปประเด็นใหญ่: สัญญาณว่า Edge LLM/VLM กำลังเข้าสู่ยุค “ตอบไว กินไฟน้อย”

ข่าวนี้สะท้อนแนวโน้มสำคัญว่า งาน AI แบบ multimodal กำลังไหลออกจากคลาวด์สู่ edge มากขึ้น และการแข่งขันไม่ได้วัดกันแค่ “แรง” แต่ต้อง “แรงแบบประหยัด” โดยเฉพาะในตลาด physical AI ที่ต้องทำงานกับโลกจริง

ถ้าตัวเลข TTFT 3 วินาทีที่ ~30W ทำได้สม่ำเสมอในการใช้งานจริง และสแตกซอฟต์แวร์รองรับการ deploy ง่ายขึ้น Gemini-II อาจกลายเป็นอีกตัวเลือกที่น่าจับตาสำหรับองค์กรที่อยากทำ real-time video understanding บน edge โดยไม่ต้องแบกต้นทุนพลังงานและความร้อนแบบดาต้าเซ็นเตอร์ไปด้วย

หมายเหตุด้านข้อควรระวัง (Forward-Looking)

บริษัทระบุว่ามีข้อความเชิงคาดการณ์อนาคต (forward-looking statements) ซึ่งผลลัพธ์จริงอาจแตกต่างจากที่คาดได้จากหลายปัจจัย เช่น ความไม่แน่นอนของตลาด การแข่งขัน การยอมรับของลูกค้า การพัฒนาโปรดักต์ และความเสี่ยงด้านซัพพลายเชน รวมถึงรายละเอียดเชิงเทคนิคของ benchmark ที่อาจเปลี่ยนตามสภาพแวดล้อมการทดสอบ

#SlimScan #GrowthStocks #CANSLIM #ข่าวหุ้น

แชร์เรื่อง