Translatotron แปลภาษาจากเสียงเป็นเสียง ไม่ผ่านเท็กซ์ และคงเสียงผู้พูดไว้ได้

Google ประกาศผ่าน blog ว่าบริษัทได้พัฒนารูปแบบการแปลภาษาใหม่ เดิมทีวิธีการแปลภาษาที่ทำกันมาอย่างยาวนานหลายทศวรรษคือการแบ่งการแปลออกเป็น 3 ส่วน คือ 1. การรู้จำภาษาอัตโนมัติ (automatic speech recognition) แล้วเปลี่ยนเสียงพูดให้เป็นข้อความ 2. ใช้ machine translation คือการแปลข้อความที่ได้ให้กลายเป็นภาษาที่ต้องการ และ 3. text-to-speech synthesis หรือ TTS คือการเปลี่ยนภาษาที่แปลมาในรูปแบบข้อความให้กลับเป็นเสียงพูด ซึ่งนี่คือวิธีที่บริการแปลภาษาต่างๆ ใช้กันทุกวันนี้ รวมถึง Google Translate ด้วย

ล่าสุด Google เปิดตัวระบบใหม่ที่กำลังอยู่ในช่วงทดลอง โดยให้ชื่อว่า Translatotron ความแตกต่างก็คือระบบนี้ไม่จำเป็นต้องผ่านกระบวนการที่แปลเสียงให้กลายเป็นข้อความ แต่สามารถแปลเสียงให้กลายเป็นเสียงได้เลย โดยมีข้อดีคือกระบวนการแปลภาษาจะเร็วขึ้น ลดข้อผิดพลาดที่อาจเกิดขึ้นในขั้นตอนการรู้จำภาษาและแปลภาษา คงคำบางคำที่ไม่จำเป็นต้องแปลไว้ เช่น ชื่อคน หรือคำสรรพนาม และที่น่าตื่นเต้นคือ สามารถคงลักษณะเสียงบางประการของผู้พูดเดิมไว้ได้แม้ว่าจะผ่านการแปลออกมาเป็นอีกภาษาแล้วก็ตาม ทำให้ไม่จำเป็นต้องใช้เสียงประดิษฐ์ที่ฟังคล้ายหุ่นยนต์มาช่วยส่งเสียงอีกต่อไป

ทดลองฟังเสียงที่แปลโดย Translatotron

อย่างไรก็ตาม นักวิจัยยอมรับว่าความแม่นยำของการแปลด้วยวิธีนี้ไม่สูงเท่ากับการแปลด้วยวิธีที่ทำอยู่เดิม เนื่องจากวิธีเดิมมีเวลาในการแปลนานกว่า แต่ผลลัพธ์ที่ออกมาก็ถือว่าอยู่ในระดับที่ค่อนข้างดีและน่าจะสามารถพัฒนาให้มีศักยภาพที่สูงขึ้นได้ Google บอกว่า Translatotorn เป็นโมเดล end-to-end แรกที่สามารถแปลเสียงพูดจากภาษาหนึ่งไปเป็นเสียงพูดอีกภาษาหนึ่งได้โดยตรงโดยที่ยังสามารถคงลักษณะเสียงผู้พูดเดิมไว้ได้ด้วย

ที่มา: Google Blog

Comments
The following two tabs change content below.

Sueching Chin

"ซู่ชิง" จิตต์สุภา ฉิน บรรณาธิการ Vantage. คอลัมนิสต์ ผู้ดำเนินรายการไอที นักจัดพอดแคสต์ ผู้ขับเคลื่อนด้วยโกโกเย็นวันละแก้ว