งานวิจัยใหม่จากมหาวิทยาลัยแคลิฟอร์เนีย ซานดิเอโก เปิดเผยหลักฐานเชิงประจักษ์ครั้งแรกว่า ระบบปัญญาประดิษฐ์ (เอไอ) สมัยใหม่ สามารถผ่าน “แบบทดสอบทัวริง” (Turing Test) ได้
แบบทดสอบทัวริง คือ บททดสอบที่คิดค้นขึ้นในปี 1950 โดย อลัน ทัวริง นักคณิตศาสตร์และวิทยาศาสตร์คอมพิวเตอร์ชาวอังกฤษ โดยมีจุดประสงค์เพื่อประเมินว่า “เครื่องจักรหรือปัญญาประดิษฐ์ มีความสามารถในการคิดและแสดงพฤติกรรมที่ชาญฉลาดเทียบเท่ามนุษย์หรือไม่”
การทดสอบนี้มักทำผ่านการสนทนาด้วยข้อความ โดยแบ่งผู้เข้าร่วมออกเป็น 3 ฝ่าย คือ ผู้ทดสอบที่เป็นมนุษย์ ทำหน้าที่พูดคุยและตั้งคำถาม ผู้ถูกทดสอบที่ 1 (มนุษย์) จะต้องตอบคำถามตามธรรมชาติ และผู้ถูกทดสอบที่ 2 (ปัญญาประดิษฐ์) จะพยายามตอบคำถามและเลียนแบบพฤติกรรมมนุษย์
หากผู้ทดสอบไม่สามารถแยกแยะได้อย่างชัดเจนว่า ฝ่ายใดคือ “มนุษย์” และฝ่ายใดคือ “เครื่องจักร” หลังจากผ่านการสนทนาตามเวลาที่กำหนด เช่น 15 นาที จะถือว่าเครื่องจักรนั้น “ผ่านการทดสอบทัวริง” ซึ่งแสดงว่ามันสามารถจำลองสติปัญญาและปฏิสัมพันธ์ได้แนบเนียนเหมือนมนุษย์
และในการทดลองล่าสุดของมหาวิทยาลัยแคลิฟอร์เนีย ซานดิเอโก พบว่า ผู้ทดสอบมักไม่สามารถแยกแยะความแตกต่างระหว่างมนุษย์และแบบจำลองภาษาขนาดใหญ่ขั้นสูง (LLM) ได้
งานวิจัยนี้ตีพิมพ์ในวารสาร Proceedings of the National Academy of Sciences เป็นงานวิจัยแรกที่ทดสอบ LLM อย่างเข้มงวดด้วยวิธีการที่ อลัน ทัวริง สร้างขึ้น นอกจากนี้ยังเป็นครั้งแรกที่มีการค้นพบว่า แบบจำลองถูกตัดสินว่าเป็นมนุษย์บ่อยเท่ากับมนุษย์จริง
คาเมรอน โจนส์ ผู้ช่วยศาสตราจารย์ด้านจิตวิทยาที่มหาวิทยาลัยสโตนีบรูก หนึ่งในทีมวิจัย กล่าวว่า “สิ่งที่เราค้นพบคือ หากได้รับพรอมต์ที่เหมาะสม LLM ขั้นสูงสามารถแสดงออกถึงน้ำเสียง ความตรงไปตรงมา อารมณ์ขัน และความผิดพลาดได้เหมือนกับมนุษย์”
เขาเสริมว่า “แม้ว่าเรารู้ว่า LLM สามารถสร้างความรู้ในเกือบทุกหัวข้อได้อย่างง่ายดาย แต่การทดสอบนี้แสดงให้เห็นว่ามันยังสามารถแสดงลักษณะพฤติกรรมทางสังคมได้อย่างน่าเชื่อถือ ซึ่งมีนัยสำคัญต่อวิธีที่เราคิดเกี่ยวกับเอไอ”
ในการทดลองแบบสุ่มและควบคุม โดยมีกลุ่มผู้เข้าร่วมอิสระสองกลุ่ม ได้แก่ นักศึกษาระดับปริญญาตรีของมหาวิทยาลัยแคลิฟอร์เนีย ซานดิเอโก และผู้เข้าร่วมทางออนไลน์ รวมมีผู้เข้าร่วมในการทดลองเกือบ 500 คน
ฝ่ายผู้ทดสอบได้สนทนาสั้น ๆ ผ่านข้อความกับผู้ถูกทดสอบ 2 คน แล้วทำการตัดสินใจว่าคนไหนเป็นมนุษย์ คนไหนเป็นเอไอ
ในการทดลอง ผู้เข้าร่วมได้สนทนากับระบบ LLM 4 แบบที่แตกต่างกัน ได้แก่ GPT-4.5 และ LLaMa-3.1-405B ซึ่งเป็นรุ่นที่ทันสมัยที่สุด และนักวิจัยยังได้รวมรุ่นพื้นฐานที่เก่ากว่าไว้เพื่อเปรียบเทียบด้วย รุ่นเหล่านั้นได้แก่ GPT-4o และ ELIZA ซึ่งเป็นแชตบอตแบบใช้กฎเกณฑ์คลาสสิกจากยุค 1960
จากระบบ LLM ทั้ง 4 แบบ GPT-4.5 ถูกตัดสินว่าเป็นมนุษย์ถึง 73% ของการทดสอบ หมายความว่า ผู้ทดสอบเลือกตอบว่า GPT-4.5 เป็นมนุษย์บ่อยกว่าการเลือกผู้ถูกทดสอบที่เป็นมนุษย์จริง ๆ อย่างมีนัยสำคัญ
ในขณะที่ LLaMa-3.1-405B เมื่อได้รับคำถามเดียวกัน ถูกตัดสินว่าเป็นมนุษย์ 56% ของการทดสอบ ซึ่งทางสถิติแล้วไม่แตกต่างจากมนุษย์ที่นำมาเปรียบเทียบ
ระบบพื้นฐานทำงานได้แย่กว่ามาก ELIZA และ GPT-4o ถูกตอบว่าเป็นมนุษย์เพียงประมาณ 23% และ 21% ของการทดสอบ ตามลำดับ
เบน เบอร์เกน ศาสตราจารย์ด้านวิทยาศาสตร์การรู้คิดแห่งมหาวิทยาลัยแคลิฟอร์เนีย ซานดิเอโก หนึ่งในทีมวิจัย กล่าวว่า “แบบทดสอบทัวริงเริ่มต้นจากการเป็นวิธีถามว่า เครื่องจักรสามารถเทียบเท่าสติปัญญาของมนุษย์ได้หรือไม่”
เขาเสริมว่า “แต่ตอนนี้เรารู้แล้วว่า เอไอสามารถตอบคำถามได้เร็วกว่าและแม่นยำกว่ามนุษย์ ดังนั้นประเด็นที่แท้จริงจึงไม่ใช่พลังสมองดิบ ๆ การที่เครื่องจักรสามารถผ่านการทดสอบได้ และเห็นว่าพวกมันผ่านได้อย่างไร ทำให้เราต้องคิดใหม่ว่าแบบทดสอบนี้วัดอะไร มันกำลังวัดความคล้ายคลึงกับมนุษย์มากขึ้นเรื่อย ๆ”
LLM แต่ละตัวได้รับคำสั่งให้แสดง “บุคลิก” โดยขอให้มันรับเอาลักษณะนิสัยและรูปแบบการสื่อสารของมนุษย์ที่เฉพาะเจาะจง เบอร์เกนอธิบายว่า LLM ไม่ได้ชนะด้วยการแสดงความรู้ที่เหนือกว่า แต่ชนะเพราะพวกมันทำผิดพลาดเหมือนมนุษย์ “ลักษณะเหล่านี้ไม่ใช่สติปัญญาในการแก้ปัญหาทางคณิตศาสตร์และตรรกะแบบที่ทัวริงจินตนาการไว้”
หากไม่มีพรอมต์ที่ชัดเจน โมเดลเหล่านี้มีโอกาสน้อยลงมากที่จะถูกเข้าใจผิดว่าเป็นมนุษย์ GPT-4.5 มีอัตราการถูกเลือกว่าเป็นมนุษย์ลดลงเหลือ 36% และ LLaMa-3.1 เหลือ 38% ในขณะที่ระบบพื้นฐาน ELIZA และ GPT-4o ถูกเลือกเป็นมนุษย์น้อยลงไปอีก
ระบบเดียวกันนี้ที่สามารถแสดงพฤติกรรมเหมือนมนุษย์ได้เมื่อได้รับพรอมต์อย่างละเอียดเกี่ยวกับลักษณะนิสัยที่ควรแสดง กลับไม่สามารถแสดงลักษณะดังกล่าวได้หากปราศจากพรอมต์นั้น ซึ่งบ่งชี้ว่า แม้โมเดลจะสามารถแสดงพฤติกรรมที่เหมือนมนุษย์ได้อย่างน่าเชื่อถือ แต่พวกมันยังต้องการมนุษย์มาบอกวิธีการ
เบอร์เกนบอกว่า “พวกมันมีความสามารถที่จะดูเหมือนมนุษย์ แต่บางทีอาจไม่มีความสามารถมากนักในการคิดหาวิธีที่จะทำให้ดูเหมือนมนุษย์”
เบอร์เกนเสริมว่า การไม่สามารถแยกแยะได้ว่าคุณกำลังโต้ตอบกับมนุษย์หรือบอตนั้นอาจมีผลร้ายแรงตามมา “มีหลายคนที่ต้องการใช้บอตเพื่อชักจูงให้ผู้คนเปิดเผยหมายเลขประกันสังคม ลงคะแนนให้พรรคของตน หรือซื้อผลิตภัณฑ์ของพวกเขา”
ทีมวิจัยระบุว่า พวกเขาหวังว่างานวิจัยนี้จะช่วยให้สาธารณชนเข้าใจมากขึ้นว่าระบบเหล่านี้สามารถทำอะไรได้บ้าง และสังคมอาจต้องการมาตรการป้องกันแบบใดบ้าง
อ่านงานวิจัยฉบับเต็ม ที่นี่
เรียบเรียงจาก Phys.org