เมื่อ 20 ปีที่แล้ว การแปลภาษาของ Google เริ่มต้นจากการเป็นหนึ่งในการทดลองแมชชีนเลิร์นนิงในยุคบุกเบิกของเรา เพื่อเปลี่ยนศาสตร์แห่งภาษาให้กลายเป็นความมหัศจรรย์ในการเชื่อมโยงมนุษย์เข้าด้วยกัน จากการทดลองในวันนั้น เราก็ได้พัฒนาบริการแปลภาษามาอย่างต่อเนื่อง โดยตอนนี้มีการแปลคำศัพท์ต่างๆ กว่าล้านล้านคำให้กับผู้ใช้นับพันล้านคนผ่านผลิตภัณฑ์ต่างๆ ของเราในแต่ละเดือน
วันนี้ เรากำลังก้าวไปอีกขั้นด้วยการเปิดตัว Gemini 3.5 Live Translate โมเดลเสียงล่าสุดสำหรับการแปลเสียงพูดเป็นคำพูดแบบสดๆ
โมเดลนี้สามารถตรวจจับภาษาได้โดยอัตโนมัติมากกว่า 70 ภาษา และสร้างเสียงแปลที่เป็นธรรมชาติ โดยยังคงรักษาโทนเสียง จังหวะการพูด และระดับเสียงสูงต่ำของผู้พูดเอาไว้ Gemini 3.5 Live Translate จะสร้างเสียงแปลอย่างต่อเนื่อง
โดยรักษาสมดุลระหว่างการรอฟังบริบทเพื่อคุณภาพการแปลที่ดีที่สุด กับการแปลทันทีเพื่อให้ทันผู้พูด ซึ่งต่างจากระบบแปลแบบสลับกันพูดที่ต้องรอให้ผู้พูดพูดจบก่อนถึงจะแปลให้ การแปลด้วย Gemini 3.5 Live Translate จะให้เสียงที่ไหลลื่น ไม่มีจังหวะหยุดที่น่าอึดอัด และจะดีเลย์ตามหลังผู้พูดเพียงไม่กี่วินาทีตลอดการสนทนา
Gemini 3.5 Live Translate เริ่มทยอยเปิดใช้งานตั้งแต่วันนี้ในผลิตภัณฑ์ต่างๆ ของ Google
- สำหรับนักพัฒนาซอฟต์แวร์: เปิดให้ใช้งานในเวอร์ชัน Public Preview ผ่าน Gemini Live API และ Google AI Studio
- สำหรับองค์กรธุรกิจ: เปิดให้ใช้งานในเวอร์ชัน Private Preview เริ่มตั้งแต่เดือนนี้ใน Google Meet
- สำหรับผู้ใช้ทั่วไป: เปิดให้ใช้งานผ่าน Google Translate ทั้งบน Android และ iOS
พัฒนาสิ่งใหม่ๆ ด้วย Gemini 3.5 Live Translate
Gemini 3.5 Live Translate จะประมวลผลเสียงพูดในขณะที่มีการสตรีมเพื่อช่วยให้การเชื่อมต่อระหว่างภาษาต่างๆ มีความราบรื่นยิ่งขึ้น โมเดลนี้สามารถจัดการกับอินพุตหลายภาษา (multilingual) ได้โดยไม่ต้องตั้งค่าด้วยตนเอง
ในขณะที่ความสามารถในการตัดเสียงรบกวนช่วยให้มั่นใจได้ว่าแอปพลิเคชันจะทำงานได้ดีแม้ในสภาพแวดล้อมที่มีเสียงดังและคาดเดาไม่ได้ คุณสามารถใช้ความสามารถเหล่านี้ของ Gemini 3.5 Live Translate เพื่อช่วยอำนวยความสะดวกในการแปลสดสำหรับการโทร การประชุม การเรียนการสอน การถ่ายทอดสด และอื่นๆ ที่ใช้หลายภาษาได้
รับชมการทำงานของ Gemini Live API ที่ช่วยให้สามารถพากย์เสียงและแปลภาษาพร้อมกันได้หลายภาษาในเวลาเดียวกัน ร่วมเจาะลึกไปกับวิดีโอสาธิตหรือดูตัวอย่างโค้ดเพิ่มเติมได้ใน Gemini Cookbook
แพลตฟอร์มสำหรับนักพัฒนาซอฟต์แวร์อย่าง Agora, Fishjam, Livekit, Pipecat และ VisionAgents ช่วยให้นักพัฒนาซอฟต์แวร์สามารถสร้างและให้บริการแอปพลิเคชันสำหรับการแปลเสียงพูดได้อย่างง่ายดายผ่านทาง Gemini Live API โดยการผสานการทำงานเหล่านี้จะช่วยจัดการกับโครงสร้างพื้นฐานในการสตรีมสื่อแบบเรียลไทม์ที่มีความซับซ้อน เพื่อให้นักพัฒนาซอฟต์แวร์สามารถมุ่งเน้นไปที่ประสบการณ์ของผู้ใช้ได้อย่างเต็มที่
พาร์ทเนอร์ของเราอย่าง Grab กำลังทดสอบโมเดลนี้เพื่อช่วยให้คนขับและผู้โดยสารสามารถสื่อสารกันในภาษาต่างๆ ได้แบบเกือบเรียลไทม์ ซึ่งคนขับและผู้โดยสารมีการโทรติดต่อกันด้วยเสียงผ่าน Grab มากกว่า 10 ล้านครั้งในแต่ละเดือน
วิดีโอแสดงการนำ Gemini 3.5 Live Translate ไปทดสอบใช้งานของ Grab เพื่อพลิกโฉมรูปแบบการสื่อสารระหว่างคนขับและผู้โดยสาร
ฟีดแบ็กจากพาร์ทเนอร์
นอกจาก Grab แล้ว บริษัทต่างๆ เช่น CJ ENM, LiveKit และรายอื่นๆ ก็ได้แชร์ฟีดแบ็กเชิงบวกเกี่ยวกับ Gemini 3.5 Live Translate ด้วย โดยเน้นย้ำถึงคุณภาพการแปลที่น่าประทับใจ ความแม่นยำ และเวลาในการตอบสนองต่ำ (low latency)
| Grab | CJ ENM | LiveKit |
| “ในระหว่างการทดสอบ Gemini 3.5 Live Translate เราประทับใจในความสามารถของโมเดลนี้ที่สามารถตรวจจับหลายภาษาได้โดยอัตโนมัติ และแปลเสียงพูดได้อย่างแม่นยำ โดยใช้เวลาในการตอบสนองที่ต่ำ”– Philipp Kandal ประธานเจ้าหน้าที่ฝ่ายผลิตภัณฑ์ของ Grab | “CJ ENM รู้สึกตื่นเต้นที่ได้ร่วมมือกับ Google DeepMind ในโปรเจกต์ Gemini 3.5 Live Translate การทดสอบในช่วงแรกแสดงให้เห็นถึงคุณภาพที่น่าพึงพอใจ ซึ่งจะมอบประสบการณ์ที่สมจริงยิ่งขึ้นสำหรับผู้ชมทั่วโลกและผู้ชมชาวเกาหลี” – Bella Baek ประธานเจ้าหน้าที่ฝ่าย AI ของ CJ ENM | “Gemini 3.5 Live Translate ทำให้การสื่อสารด้วยเสียงหลายภาษาเป็นเรื่องง่าย ผมได้สร้างตัวเดโมบน LiveKit Agents ที่ทุกคนสามารถพูดภาษาของตัวเองและเข้าใจกันได้แบบเรียลไทม์” – Jesse Hall, Staff Developer Advocate ของ LiveKit |
| VisionAgents | Software Mansion | Agora |
| “เราได้ทำการทดสอบ Gemini 3.5 Live Translate ในหลากหลายภาษา และทีมงานของเราต่างทึ่งในเรื่องของความเร็ว ความแม่นยำ และความมีชีวิตชีวาของโมเดลนี้” – Nash Ramdial ผู้อำนวยการของ VisionAgents | “Gemini 3.5 Live Translate เมื่อจับคู่กับโปรโตคอล MoQ ของ Fishjam ได้สร้างขีดจำกัดใหม่ให้กับการสตรีมมัลติมีเดียแบบเรียลไทม์ ทำให้สามารถแปลเสียงพูดเป็นคำพูดได้มากกว่า 70 ภาษา” – Maciej Rys รองประธานฝ่ายวิศวกรรม ของ Software Mansion | “เราได้ทดสอบโมเดล Gemini 3.5 Live Translate ที่ Agora และได้เห็นผลลัพธ์ที่แสดงถึงประสิทธิภาพในระดับแนวหน้า (SOTA) ด้วยเวลาในการตอบสนองที่ต่ำและความแม่นยำสูง ซึ่งสร้างมาตรฐานใหม่ให้กับการแปลภาษาแบบเรียลไทม์” – Mason Adams, Developer Evangelist ของ Agora |
สัมผัสประสบการณ์การใช้งาน Gemini 3.5 Live Translate ได้ในการประชุมทางวิดีโอของคุณ
ฟีเจอร์การแปลเสียงพูด (Speech Translation) ใน Google Meet กำลังจะเปลี่ยนมาใช้ Gemini 3.5 Live Translate ในเร็วๆ นี้ ซึ่งจะช่วยยกระดับประสบการณ์การใช้งานโดย:
- รองรับมากกว่า 70 ภาษา จากเดิมที่รองรับได้เพียง 5 ภาษา
- ช่วยให้สามารถสนทนาข้ามคู่ภาษาได้มากกว่า 2,000 คู่ภาษาภายในการประชุมเดียว ซึ่งขยายขีดความสามารถจากเดิมที่แปลได้เฉพาะในกรณีที่ภาษาอังกฤษเป็นภาษาต้นทางหรือปลายทางเท่านั้น
- มีการอัปเดตอินเทอร์เฟซใหม่เพื่อให้เข้าถึงฟีเจอร์แปลเสียงพูดได้ทันที
เราจะเปิดตัวการอัปเดตนี้ในเวอร์ชัน Private Preview สำหรับลูกค้า Google Workspace Business บางกลุ่ม โดยจะเริ่มให้บริการตั้งแต่เดือนนี้ และจะขยายการใช้งานในวงกว้างขึ้นในช่วงปลายปีนี้
ผู้เข้าร่วมประชุม Google Meet ใช้ฟีเจอร์การแปลเสียงพูดเพื่อสื่อสารกันระหว่างภาษาอังกฤษ ภาษาจีนกลาง และภาษาสวีเดน
ใช้งาน Gemini 3.5 Live Translate ได้ในแอป Google Translate ทั้งบน Android และ iOS
โมเดลนี้จะเริ่มทยอยเปิดให้ใช้งานในแอป Google Translate ทั่วโลก ทั้งบนระบบปฏิบัติการ Android และ iOS เมื่อใช้ฟีเจอร์แปลสด (Live Translate) เพียงแค่เชื่อมต่อหูฟังคู่ใดก็ได้ คุณก็จะได้สัมผัสกับประสบการณ์การแปลที่ราบรื่นยิ่งขึ้นและเป็นโทนเสียงของผู้พูดได้ในกว่า 70 ภาษา
นอกจากนี้ เรายังจะทยอยเปิดให้บริการ “โหมดการฟัง” (Listening Mode) แบบใหม่ที่มาพร้อม Gemini 3.5 Live Translate สำหรับผู้ใช้ Android ด้วย โดยโหมดนี้จะช่วยให้คุณได้ยินเสียงแปลโดยตรงผ่านหูฟังในโทรศัพท์ เพียงแค่ยกโทรศัพท์ขึ้นมาแนบหูเหมือนการคุยสายปกติ เสียงแปลก็จะสตรีมส่งตรงถึงคุณทันที ประสบการณ์ใหม่นี้จะมีประโยชน์มากในสถานการณ์ที่คุณต้องการฟังคำแปลอย่างรวดเร็วโดยไม่ให้คนอื่นได้ยิน และไม่มีหูฟังอยู่ใกล้ตัว
ด้วยโหมดการฟังแบบใหม่ ผู้ใช้สามารถฟังคำแปลภาษาอังกฤษของทัวร์นำเที่ยวที่เป็นภาษาสเปนได้แบบเกือบเรียลไทม์ผ่านหูฟังในโทรศัพท์โดยตรง
ใส่ลายน้ำด้วย SynthID
เสียงทั้งหมดที่สร้างขึ้นโดยโมเดลของเราจะถูกใส่ลายน้ำดิจิทัลด้วย SynthID โดยลายน้ำที่ไม่สามารถมองเห็นได้ด้วยตาเปล่านี้จะถูกผสานรวมเข้ากับเอาต์พุตเสียงโดยตรง เพื่อให้มั่นใจว่าเนื้อหาที่สร้างโดย AI จะยังคงสามารถตรวจจับได้ ซึ่งจะช่วยป้องกันการให้ข้อมูลที่ไม่ถูกต้อง (Misinofrmation) สามารถตรวจสอบรายละเอียดเกี่ยวกับแนวทางด้านความปลอดภัยและความรับผิดชอบของเราได้ที่ Model Card ของเรา









