ไมโครซอฟต์พัฒนา “VALL-E” เอไอเลียนเสียงคนได้เหมือนเป๊ะในเวลา 3 วิ!


โดย PPTV Online

เผยแพร่




บริษัทไมโครซอฟต์เปิดตัวปัญญาประดิษฐ์ตัวใหม่ “VALL-E” เลียนเสียงคนได้ในเวลาแค่ 3 วินาที และใส่อารมณ์ลงไปในคำพูดได้ด้วย!

วงการเทคโนโลยีสั่นสะเทือนอีกครั้ง เมื่อสัปดาห์ที่แล้ว บริษัทไมโครซอฟต์ (Microsoft) ยักษ์ใหญ่ด้านเทคโนโลยี ออกมาประกาศเปิดตัวโมเดลปัญญาประดิษฐ์ (เอไอ) ตัวใหม่ที่มีชื่อว่า “VALL-E” (ไม่ใช่การ์ตูน WALL-E นะ!)

ความพิเศษของเอไอตัวนี้คือ มันสามารถจำลองเลียงของคนได้อย่างไร้ที่ติ เพียงป้อนตัวอย่างเสียงความยาวแค่ 3 วินาทีให้มัน มันก็จะสามารถเรียนรู้เสียงนั้นและสังเคราะห์เสียงนั้นออกมา

นี่มันอับดุลชัด ๆ ทำความรู้จัก “ChatGPT” แจ็คที่อาจมาฆ่ายักษ์ “กูเกิล”

ส่องความคิดผู้เชี่ยวชาญ “AI วาดรูป” เข้ามาแทนที่หรือเติมเต็มศิลปิน

เขียนหวัดแค่ไหนก็ไม่กลัว! กูเกิลพัฒนาระบบ “อ่านลายมือหมอ”

จุดเด่นของ VALL-E นอกจากเรื่องความเร็วในการเรียนรู้แล้ว มันยังสามารถใช้เสียงที่จดจำมาพูดอะไรก็ได้ และใส่ “อารมณ์” ไหนลงไปก็ได้ พูดง่าย ๆ มันจะไม่ใช่เสียงโมโนโทนแบบเอไออื่น แต่จะเป็นเสียงที่พูดราวกับเป็นคนจริง ๆ ที่มีอารมณ์ความรู้สึก

ทีมผู้พัฒนาคาดการณ์ว่า VALL-E อาจถูกนำไปใช้สำหรับแอปพลิเคชันแปลงข้อความเป็นคำพูด (Text-to-Speech) คุณภาพสูง หรือโปรแกรมแก้ไขดัดแปลงเสียงที่บันทึกไว้ จากที่พูดประโยคหนึ่ง ก็อาจตัดต่อให้พูดเป็นอีกประโยคหนึ่งโดยที่เสียงยังเป็นของผู้พูดคนเดิม

ไมโครซอฟต์เปิดเผยว่า VALL-E สร้างขึ้นจากเทคโนโลยีที่เรียกว่า EnCodec ซึ่งแตกต่างจากเทคโนโลยีแปลงข้อความเป็นคำพูดอื่น ๆ

โดยทั่วไปเทคโนโลยีแปลงข้อความเป็นคำพูดจะสังเคราะห์เสียงพูดโดยการจัดการรูปแบบคลื่น (Waveform) แต่ VALL-E จะสร้างรหัสตัวแปลงสัญญาณเสียงจากข้อความและเสียงที่ป้อนให้ วิเคราะห์ลักษณะเสียงของบุคคล แบ่งข้อมูลนั้นออกเป็นองค์ประกอบย่อย (เรียกว่า “โทเค็น”) แล้วจึงสังเคราะห์ออกมาเป็นรูปแบบคลื่น

ไมโครซอฟต์ฝึกฝนความสามารถในการสังเคราะห์เสียงพูดของ VALL-E ในฐานข้อมูลเสียงที่รวบรวมโดยเมตา เรียกว่า LibriLight ประกอบด้วยคำพูดภาษาอังกฤษ 60,000 ชั่วโมงจากผู้พูดมากกว่า 7,000 คน เพื่อให้ VALL-E สร้างเสียงออกมาได้อย่างสมจริง

ทั้งนี้ เงื่อนไขที่ VALL-E จะสามารถเลียนเสียงพูดได้ใน 3 วินาทีนั้นคือ เสียงดังกล่าวจะต้องตรงหรือใกล้เคียงกับเสียงในฐานข้อมูลการฝึก

นอกจากรักษาระดับเสียงและน้ำเสียงที่สื่ออารมณ์ของผู้พูดแล้ว VALL-E ยังสามารถเลียนแบบ “สภาพแวดล้อมทางเสียง” ของเสียงตัวอย่างได้อีกด้วย ตัวอย่างเช่น หากตัวอย่างมาจากเสียงที่เหมือนพูดจากโทรศัพท์ VALL-E ก็สามารถจำลองคุณสมบัติเสียงและความถี่ให้เหมือนเสียงที่พูดผ่านการโทรจริง ๆ

แน่นอนว่าเทคดนดลยีที่สุดยอดอย่าง VALL-E นี้มีความอันตรายของมันอยู่ เช่น หากมีคนนำเสียงของคนใกล้ชิดเราไปให้เจ้าเอไอจดจำเสียงไว้ แล้วให้เสียงนั้นพูดขอยืมเงิน เราก็อาจหลงเชื่อและตกเป็นเหยื่อของมิจฉาชีพ

ไมโครซอฟต์ระบุว่า ทราบดีว่า VALL-E มีความอันตรายแค่ไหนหากตกไปอยู่ในมือของคนร้าย จึงไม่ได้เปิดให้มีการทดลองใช้เป็นสาธารณะ

“เนื่องจาก VALL-E สามารถสังเคราะห์เสียงพูดที่เลียนแบบเสียงผู้พูดได้ จึงอาจมีความเสี่ยงที่อาจมีการนำแบบจำลองในทางที่ผิด เช่น การปลอมแปลงเสียงหรือการเลียนแบบผู้พูดบางคน เพื่อลดความเสี่ยงดังกล่าว เราอาจจะสร้างแบบจำลองที่สามารถตรวจจับเสียงสังเคราะห์ที่เกิดจาก VALL-E โดยเฉพาะด้วย” ไมโครซอฟต์กล่าว

 

เรียบเรียงจาก Ars Technica

ภาพจาก AFP / Shutterstock

PR-โปรแกรมผลบอล-2_B PR-โปรแกรมผลบอล-2_B
TOP ไอที
วิดีโอยอดนิยม
เรื่องที่คุณอาจพลาด

วิดีโอยอดนิยม

ข่าวเด่นในรอบสัปดาห์

ขณะนี้ มีรายการกำลังถ่ายทอดสด คุณสนใจหรือไม่?

ถ่ายทอดสด FIM Asia Road Racing Championship 2024

ถ่ายทอดสด FIM Asia Road Racing Championship 2024

เพิ่ม PPTVHD36
ลงในหน้าจอหลักของคุณ