เล่มที่ 25 ฉบับที่ 3,
กรกฎาคม 2554
, หน้า 601-634
ลิงก์ผู้เขียนเปิดแผงซ้อนทับ,
เชิงนามธรรม
เมื่อระบบตอบรับด้วยเสียงแบบโต้ตอบแพร่หลายมากขึ้นและมีฟังก์ชันการทำงานที่ซับซ้อนมากขึ้น จึงเห็นได้ชัดว่าความท้าทายที่ระบบดังกล่าวต้องเผชิญไม่ได้อยู่ที่ความสามารถในการสังเคราะห์และการจดจำเท่านั้น ปัญหาเช่นการประสานงานของการแลกเปลี่ยนระหว่างระบบและผู้ใช้ก็มีบทบาทสำคัญในการใช้งานระบบ โดยเฉพาะอย่างยิ่ง ทั้งระบบและผู้ใช้มีปัญหาในการตัดสินเมื่ออีกฝ่ายรับหรือสละเทิร์น ในบทความนี้ เราพยายามระบุสัญญาณการเลี้ยวที่สัมพันธ์กับการแลกเปลี่ยนการเลี้ยวระหว่างมนุษย์กับมนุษย์ซึ่งสามารถคำนวณได้โดยอัตโนมัติ เราเปรียบเทียบการมีอยู่ของความหมายฉันทลักษณ์ อะคูสติก และเล็กซิโก-วากยสัมพันธ์แบบผลัดกันในวลีฉันทลักษณ์ก่อนการเปลี่ยนเทิร์น (สวิตช์ที่ราบรื่น) เทียบกับการรักษาเทิร์น (ถือ) เทียบกับช่องทางด้านหลังใน Columbia Games Corpus ซึ่งเป็นคลังข้อมูลขนาดใหญ่ของบทสนทนาที่เน้นงาน เพื่อพิจารณาว่าคุณสมบัติใดที่สามารถแยกความแตกต่างระหว่างสามสิ่งนี้ได้อย่างน่าเชื่อถือ เราระบุคิวที่ให้ผลเป็นเทิร์นได้ 7 แบบ ซึ่งทั้งหมดสามารถแยกได้โดยอัตโนมัติ เพื่อใช้ในอนาคตในการสร้างเทิร์นและการจดจำในระบบตอบรับด้วยเสียงแบบโต้ตอบ (IVR) การทดสอบดันแคน (1972)สมมติฐานที่ว่าคิวที่ให้เทิร์นเหล่านี้มีความสัมพันธ์เชิงเส้นตรงกับการพยายามเทิร์นเทิร์น เราแสดงให้เห็นเพิ่มเติมว่า ยิ่งจำนวนคิวที่ให้เทิร์นเทิร์นมีอยู่มากเท่าไหร่ โอกาสที่การเปลี่ยนเทิร์นจะเกิดขึ้นก็จะยิ่งมากขึ้นเท่านั้น นอกจากนี้ เรายังระบุตัวชี้นำหกตัวที่นำหน้าแบ็คแชนเนล ซึ่งจะเป็นประโยชน์สำหรับการสร้างและการรับรู้แบ็คแชนแนลของ IVR สัญญาณเหล่านี้มีความสัมพันธ์กับการเกิด backchannel ในลักษณะกำลังสอง เราพบผลลัพธ์ที่คล้ายกันสำหรับคำพูดที่ทับซ้อนกันและคำพูดที่ไม่ทับซ้อนกัน
จุดเด่นของการวิจัย
▶ เจ็ดคิวที่ให้ผลเป็นเทิร์นจะนำหน้าการเปลี่ยนแปลงของเทิร์นในบทสนทนาที่เน้นงานที่เกิดขึ้นเอง ▶ คิวเป็นเหตุการณ์ฉันทลักษณ์ อะคูสติก และศัพท์-วากยสัมพันธ์ ▶ สัญญาณมีความสัมพันธ์เชิงเส้นตรงกับการพยายามเลี้ยว ▶ สัญญาณเชิญชวนแบ็คแชนเนลหกตัวก่อนหน้าการเกิดขึ้นของแบ็คแชนเนล ▶ ผลลัพธ์จะเป็นประโยชน์สำหรับการจัดการเทิร์นในระบบ IVR ในอนาคต
การแนะนำ
การโต้ตอบกับระบบโต้ตอบด้วยเสียงโต้ตอบ (IVR) ที่ทันสมัยมักถูกอธิบายโดยผู้ใช้ว่า "สร้างความสับสน" และแม้กระทั่ง "ข่มขู่" ในขณะที่เทคโนโลยีเสียงพูดพัฒนาอย่างต่อเนื่อง เป็นที่ชัดเจนว่าการตัดสินเชิงลบดังกล่าวไม่ได้เกิดจากข้อผิดพลาดในส่วนประกอบการรู้จำเสียงและการสังเคราะห์เสียงเพียงอย่างเดียว แต่ปัญหาการประสานงานในการแลกเปลี่ยนผลัดกันพูดระหว่างระบบและผู้ใช้เป็นคำอธิบายที่น่าเชื่อถือสำหรับส่วนหนึ่งของประสบการณ์ผู้ใช้ที่บกพร่อง (Ward et al., 2005, Raux et al., 2006)
ในปัจจุบัน วิธีที่ใช้กันมากที่สุดในการระบุว่าเมื่อใดที่ผู้ใช้เต็มใจที่จะให้พื้นการสนทนาประกอบด้วยการรอให้มีความเงียบนานกว่าเกณฑ์ที่กำหนดไว้ล่วงหน้า โดยทั่วไปจะอยู่ระหว่าง 0.5 ถึง 1 วินาที (Ferrer et al., 2002) อย่างไรก็ตาม กลยุทธ์นี้ไม่ค่อยได้ใช้โดยมนุษย์ ซึ่งอาศัยสัญญาณจากแหล่งต่างๆ เช่น วากยสัมพันธ์ อะคูสติก และฉันทลักษณ์ เพื่อคาดการณ์การเปลี่ยนเทิร์น (Yngve, 1970) หากเป็นเช่นนั้นตัวชี้นำการเลี้ยวสามารถจำลองและรวมเข้ากับระบบ IVR ได้ ควรจะเป็นไปได้ที่จะทำการตัดสินใจในการเลี้ยวที่รวดเร็วและแม่นยำยิ่งขึ้น ซึ่งนำไปสู่การโต้ตอบที่คล่องแคล่วมากขึ้น นอกจากนี้ ความเข้าใจที่ดีขึ้นเกี่ยวกับกลไกการเลี้ยวสามารถใช้เพื่อแจ้งเอาต์พุตของระบบ IVR เพื่อสร้างสัญญาณบอกทิศทางในการเลี้ยวเมื่อสิ้นสุดเทิร์นของระบบ และเพื่อหลีกเลี่ยงการสร้างสัญญาณดังกล่าวเมื่อระบบตั้งใจจะเลี้ยวต่อ
แหล่งที่มาของความยากลำบากอีกประการหนึ่งสำหรับระบบ IVR ที่ล้ำสมัยคือการตอบสนองช่องทางด้านหลังที่ผู้ใช้เปล่งออกมา ขackchannelsเป็นสำนวนสั้นๆ เช่นเอ่อ-ฮะหรือmm-hm, พูดโดยผู้ฟังเพื่อสื่อว่าพวกเขากำลังให้ความสนใจ และเพื่อกระตุ้นให้ผู้พูดพูดต่อไป (Duncan, 1972, Ward and Tsukahara, 2000) โดยเฉพาะอย่างยิ่งเมื่อผู้ใช้คาดว่าจะให้ข้อมูลจำนวนมาก เช่น รายการหรือคำอธิบายแบบยาว ความสามารถของระบบในการสร้างการตอบสนองช่องทางหลังควรปรับปรุงการประสานงานระหว่างสองฝ่าย ทำให้ผู้ใช้ทราบว่าระบบยังคงเข้าร่วมอยู่ เพื่อให้บรรลุเป้าหมายนี้ ก่อนอื่นระบบต้องสามารถตรวจจับจุดต่างๆ ในการป้อนข้อมูลของผู้ใช้ ซึ่งเหมาะสมในการสร้างช่องสัญญาณย้อนกลับ เราตั้งสมมติฐานว่าจุดดังกล่าวอาจระบุโดยการผลิตของผู้ใช้backchannel-ตัวชี้นำที่เชิญชวนซึ่งเราหมายถึงตัวบ่งชี้ง่ายๆ ว่าระบบอาจสร้างช่องทางย้อนกลับขึ้นมาอย่างน่ายินดี ในทางกลับกัน เมื่อผู้ใช้เปล่งเสียงแบ็คแชนเนลระหว่างการเลี้ยวของระบบ ระบบ IVR ในปัจจุบันมักจะตีความอินพุตดังกล่าวว่าเป็นความพยายามในการเลี้ยว หรือเรือเข้าจึงทำให้ระบบหยุดและฟัง ซึ่งตรงกันข้ามกับความตั้งใจของผู้ใช้ ดังนั้น การรู้ว่าเมื่อใดควรตีความอินพุตของผู้ใช้เป็นแบ็คแชนเนลจึงควรเป็นเครื่องมือที่มีค่าสำหรับระบบ IVR
ในบทความนี้ เราให้ข้อมูลใหม่เกี่ยวกับกลไกที่ใช้ในการสนทนาระหว่างมนุษย์กับมนุษย์เพื่อส่งสัญญาณการสิ้นสุดของเทิร์นและเพื่อระบุสถานการณ์ที่แบ็คแชนแนลเหมาะสม เราเชื่อว่าข้อมูลดังกล่าวจะเป็นประโยชน์สำหรับผู้ออกแบบระบบ IVR ทั้งสำหรับการผลิตเอาต์พุตของระบบและการจดจำอินพุตของผู้ใช้ในสถานการณ์ต่อไปนี้:
- ไตรมาสที่ 1
ระบบต้องการรักษาพื้น: ควรกำหนดเอาต์พุตอย่างไรเพื่อหลีกเลี่ยงการขัดจังหวะจากผู้ใช้
- ไตรมาสที่ 2
ระบบต้องการคงพื้นไว้ แต่เพื่อให้แน่ใจว่าผู้ใช้ให้ความสนใจ: ควรสร้างเอาต์พุตที่กระตุ้นให้ผู้ใช้พูด backchannel อย่างไร
- ไตรมาสที่ 3
ระบบพร้อมที่จะยอมจำนนต่อพื้น: ควรถ่ายทอดสิ่งนี้ไปยังผู้ใช้อย่างไร?
- ไตรมาสที่ 4
ผู้ใช้กำลังพูดแต่หยุดชั่วคราว: ระบบจะตัดสินได้อย่างไรว่าผู้ใช้กำลังเลิกเล่น
- Q5.
ผู้ใช้กำลังพูด: ระบบจะตัดสินใจได้อย่างไรว่าควรสร้าง backchannel เป็นข้อเสนอแนะเชิงบวกแก่ผู้ใช้อย่างไรและเมื่อใด
ในบทความนี้ เราตรวจสอบสัญญาณการเลี้ยวที่เป็นไปได้ซึ่งสัมพันธ์กับการแลกเปลี่ยนการเลี้ยวระหว่างมนุษย์กับมนุษย์ซึ่งสามารถคำนวณได้โดยอัตโนมัติ เราเปรียบเทียบคุณสมบัติทางอะคูสติก ฉันทลักษณ์ และวากยสัมพันธ์ของวลีที่คั่นระหว่างการหยุดชั่วคราว ซึ่งนำหน้าการเปลี่ยนแปลง การผลัดเปลี่ยน การกักเก็บ และการย้อนเสียงจากคู่สนทนาในการพูดที่ทับซ้อนกันและไม่ทับซ้อนกัน เพื่อดูว่าคุณลักษณะใดแยกแยะความแตกต่างระหว่างสถานการณ์ต่างๆ เหล่านี้ได้ดีที่สุด นอกจากนี้ เรายังทดสอบสมมติฐานของ Duncan (1972) ที่มักถูกอ้างถึงแต่ยังไม่ได้รับการยืนยันว่าสัญญาณบอกเหตุของการเลี้ยวมีความสัมพันธ์เชิงเส้นตรงกับการเกิดขึ้นของความพยายามในการเลี้ยว กล่าวคือ ยิ่งสัญญาณบอกทิศทางที่ให้เลี้ยวมีอยู่ในวลีมากเท่าใด ก็ยิ่งมีโอกาสมากขึ้นเท่านั้น วลีนั้นจะต้องตามด้วยการเปลี่ยนเทิร์น เราตรวจสอบคำถามเดียวกันสำหรับแบ็คแชนเนล
ในส่วนที่ 2 เราจะพูดถึงงานก่อนหน้านี้เกี่ยวกับการสร้างแบบจำลองการเลี้ยวและการตรวจจับจุดสิ้นสุดของเทิร์น ในส่วนที่ 3 เราอธิบายถึงคลังข้อมูลที่เราใช้สำหรับการศึกษาของเรา ซึ่งก็คือ Columbia Games Corpus ซึ่งเป็นคลังข้อมูลของการสนทนาระหว่างมนุษย์กับมนุษย์ที่เน้นภารกิจ เราอธิบายถึงสัญญาณที่ก่อให้เกิดการเลี้ยวและสัญญาณที่เชิญชวนช่องทางด้านหลังในการพูดที่ไม่ทับซ้อนกัน ซึ่งเราได้ระบุว่าเป็นสัญญาณที่น่าเชื่อถือในส่วนที่ 4 และ 5 ในส่วนที่ 6 เราจะขยายการวิเคราะห์นี้ไปยังคำพูดที่ซ้อนทับกัน เราสรุปในส่วนที่ 7 และหารือเกี่ยวกับการวิจัยในอนาคต
เราทราบว่าในการตรวจสอบคุณลักษณะของวลีที่นำหน้าการเปลี่ยนแปลง การคงอยู่ และช่องทางด้านหลัง เราไม่ได้อ้างสิทธิ์ทางปัญญาที่ชัดเจนเกี่ยวกับการรับรู้ของผู้พูดว่าพวกเขากำลัง 'ส่งสัญญาณ' เมื่อสิ้นสุดเทิร์นหรือการรับรู้ของผู้ฟังว่าพวกเขากำลัง 'ส่งสัญญาณ' เป้าหมายของเราคือการระบุความสัมพันธ์ระหว่างพฤติกรรมการเลี้ยวและคุณสมบัติที่แยกออกมาโดยอัตโนมัติของการสนทนาระหว่างมนุษย์กับมนุษย์ ซึ่งสามารถใช้เพื่อแจ้งการผลิตและการจดจำในระบบ IVR อย่างไรก็ตาม เราหวังว่าการค้นพบของเราจะเป็นประโยชน์ในการทำความเข้าใจกลไกบางอย่างของการสนทนาระหว่างมนุษย์กับมนุษย์
ตัวอย่างข้อมูลของส่วน
การวิจัยก่อนหน้านี้เกี่ยวกับการเลี้ยว
ในการทำงานที่มีอิทธิพลในการวิเคราะห์การสนทนา Sacks และคณะ (1974) นำเสนอลักษณะของการผลัดเปลี่ยนกันในการสนทนาระหว่างบุคคลตั้งแต่สองคนขึ้นไป จากการระบุ "ข้อเท็จจริงที่เห็นได้ชัด" สิบสี่ข้อเกี่ยวกับการสนทนาของมนุษย์ เช่น "การเปลี่ยนผู้พูดซ้ำ" หรือ "ฝ่ายหนึ่งพูดพร้อมกัน" พวกเขาเสนอชุดกฎพื้นฐานที่ใช้ควบคุมการจัดสรรรอบ: ในทุกๆสถานที่ที่เกี่ยวข้องกับการเปลี่ยนแปลง(ทร.),
- (ก)
หากผู้พูดคนปัจจุบัน (CS) เลือกคู่สนทนาเป็นผู้พูดคนถัดไป
คลังข้อมูลเกมโคลัมเบีย
วัสดุสำหรับการทดลองทั้งหมดในการศึกษานี้นำมาจากโคลัมเบียเกมส์คอร์ปัสคอลเลกชันของบทสนทนา dyadic ที่เน้นงานที่เกิดขึ้นเอง 12 รายการที่ดึงออกมาจากเจ้าของภาษาของ Standard American English (SAE) คลังข้อมูลได้รับการรวบรวมและใส่คำอธิบายประกอบร่วมกันโดย Spoken Language Group ที่ Columbia University และ Department of Linguistics ที่ Northwestern University ซึ่งเป็นส่วนหนึ่งของการศึกษาต่อเนื่องเกี่ยวกับรูปแบบฉันทลักษณ์ใน SAE
ในแต่ละเซสชัน 12 วิชา จ่ายให้เล่น 2 วิชา
ตัวชี้นำการเลี้ยว
เราเริ่มต้นการศึกษาเกี่ยวกับการผลัดกันเล่นใน Columbia Games Corpus โดยการตรวจสอบสัญญาณที่ก่อให้เกิดเทิร์น—เหตุการณ์จากแหล่งที่มาของอะคูสติก ฉันทลักษณ์ หรือวากยสัมพันธ์ อนึ่ง สร้างขึ้นโดยผู้พูดเมื่อใกล้ถึงจุดสิ้นสุดของเทิร์นการสนทนาที่อาจถูกนำมาใช้ โดยผู้ฟังจะตรวจจับหรือแม้แต่คาดการณ์โอกาสที่จะได้พื้น เราใช้สมมติฐานที่เสนอโดย Duncan (1972) ที่ว่าสัญลักษณ์บ่งชี้เฉพาะบุคคลอาจรวมเข้าด้วยกันเพื่อสร้างสัญญาณการกลับตัวที่ซับซ้อน
Backchannel-ตัวชี้นำที่เชิญชวน
เรายังคงศึกษาปรากฏการณ์การเลี้ยวต่อโดยมุ่งเน้นไปที่สัญญาณชุดที่สองที่ผู้พูดสร้างขึ้นซึ่งอาจกระตุ้นให้เกิดพฤติกรรมบางอย่างจากผู้ฟัง ซึ่งเราเรียกว่าbackchannel-ตัวชี้นำที่เชิญชวน. Backchannels เป็นสำนวนสั้นๆ เช่นเอ่อ-ฮะหรือmm-hm, พูดโดยผู้ฟังเพื่อแสดงว่าพวกเขากำลังให้ความสนใจและเพื่อกระตุ้นให้ผู้พูดพูดต่อไป. โดยปกติแล้ว สิ่งเหล่านี้จะไม่รบกวนหรือรับรู้โดยผู้พูดที่จัดพื้นที่สนทนา สมมุติ
คำพูดซ้อน
บ่อยครั้งในการสนทนาผู้พูดจะผลัดเปลี่ยนกันก่อนที่จะสิ้นสุดการมีส่วนร่วมของคู่สนทนา โดยไม่ขัดจังหวะการสนทนา (Sacks et al., 1974) มีหลักฐานการเกิดเหตุการณ์เหล่านี้ในหลายภาษา ได้แก่ ภาษาอาหรับ อังกฤษ เยอรมัน ญี่ปุ่น จีนกลาง และสเปน (Yuan et al., 2007) และการศึกษาก่อนหน้านี้ยังรายงานความแตกต่างของสถานการณ์และประเภท ตัวอย่างเช่น การสนทนาแบบไม่เห็นหน้ามีการซ้อนทับของคำพูดน้อยกว่าการเผชิญหน้ากันอย่างมาก
การอภิปราย
ในการศึกษานี้ เราได้ตรวจสอบปรากฏการณ์การเลี้ยวในการสนทนาระหว่างมนุษย์กับมนุษย์ โดยมีเป้าหมายสูงสุดในการปรับปรุงประสิทธิภาพและความเป็นธรรมชาติของการใช้งานจริง เช่น ระบบ IVR เพื่อค้นหาสัญญาณที่เป็นไปได้ของการเปลี่ยนเทิร์นและแบ็คแชนเนลที่กำลังจะมาถึง เราได้ตรวจสอบชุดอะคูสติก ฉันทลักษณ์ และวากยสัมพันธ์ที่ใหญ่และหลากหลายกว่าการศึกษาเชิงพรรณนาก่อนหน้านี้ โดยให้คำจำกัดความวัตถุประสงค์ของคุณสมบัติและข้อมูลโดยละเอียดเกี่ยวกับ
กิตติกรรมประกาศ
งานนี้ได้รับการสนับสนุนบางส่วนจาก NSF IIS-0307905 และ IIS-0803148 เราขอขอบคุณ Štefan Beňuš, Héctor Chávez, Frank Enos, Michel Galley, Enrique Henestroza, Hanae Koiso, Jackson Liscombe, Michael Mulley, Andrew Rosenberg, Elisa Sneed German และ Gregory Ward สำหรับการสนทนาอันมีค่าและสำหรับความช่วยเหลือในการรวบรวม การติดฉลาก และการประมวลผล ข้อมูล. นอกจากนี้ เราขอขอบคุณผู้ตรวจสอบที่ไม่ระบุตัวตนของเราสำหรับคำแนะนำอันมีค่า
อ้างอิง(73)
- ต.บูตะและอื่น ๆ
การรับรู้การประเมินคุณภาพของเสียงและความสัมพันธ์กับการวัดเสียง
วารสารวอยซ์
(2547)
- ง.ทอด
เวลาตอบสนองอย่างง่ายต่อสิ่งเร้าที่เป็นคำพูดและไม่ใช่คำพูด
เยื่อหุ้มสมอง
(2518)
- ก.ร้องเพลง
หน้าที่บางอย่างของการจ้องมองทิศทางในการปฏิสัมพันธ์ทางสังคม
แอคต้า ไซโคโลจิกา
(2510)
- ก.ร้องเพลง
ความสัมพันธ์บางประการระหว่างการเคลื่อนไหวร่างกายและคำพูด
- เจศิลปที่ไร้ค่าและอื่น ๆ
เอฟเฟกต์การแสดงเสียงของนักร้องประสานเสียง 10 คน: การค้นพบทางอะคูสติกและการรับรู้
วารสารวอยซ์
(2539)
- ง.เชฟเฟอร์
บทบาทของน้ำเสียงเป็นสัญญาณในการเปลี่ยนการสนทนา
วารสารสัทศาสตร์
(2526)
- เอ็นวอร์ดและอื่น ๆ
คุณสมบัติฉันทลักษณ์ที่แสดงการตอบสนองช่องทางด้านหลังเป็นภาษาอังกฤษและภาษาญี่ปุ่น
วารสารปริยัติศาสตร์
(2543)
- ส.แอบนีย์
การแยกวิเคราะห์บางส่วนผ่าน finite-state cascades
วารสารวิศวกรรมภาษาธรรมชาติ
(2539)
- ม.อีกครั้งและอื่น ๆ
ไปสู่การตรวจจับการสิ้นสุดของคำพูดที่เพิ่มขึ้นในระบบการสนทนา
- G.W.บีทตี้
ระเบียบการผลัดเปลี่ยนผู้พูดในการสนทนาแบบตัวต่อตัว ความหมายบางประการสำหรับการสนทนาในช่องสื่อสารที่มีแต่เสียง
สัญศาสตร์
(2524)
การผลัดเปลี่ยนและการขัดจังหวะในการสัมภาษณ์ทางการเมือง: Margaret Thatcher และ Jim Callaghan เปรียบเทียบและเปรียบเทียบ
สัญศาสตร์
(2525)
อนุสัญญาคำอธิบายประกอบ ToBI
(2537)
รูปแบบตื้นๆ ของ backchannel ดำเนินต่อไปในบทสนทนาที่พูด
แก้ไขการตรวจจับและการแยกวิเคราะห์สำหรับคำพูดที่ถอดความ
แบบจำลองทางสถิติที่ขับเคลื่อนโดยหัวหน้าสำหรับการแยกวิเคราะห์ภาษาธรรมชาติ
ภาษาศาสตร์เชิงคำนวณ
(2546)
ค่าสัมประสิทธิ์ของข้อตกลงสำหรับสเกลเล็กน้อย
การวัดผลทางการศึกษาและจิตวิทยา
(2503)
การเหนี่ยวนำกฎที่มีประสิทธิภาพอย่างรวดเร็ว
สนับสนุนเครือข่ายเวกเตอร์
การเรียนรู้ของเครื่อง
(2538)
ว่าด้วยการวิเคราะห์ฉันทลักษณ์ผลัดเปลี่ยน
สัญญาณและกฎบางอย่างสำหรับการผลัดกันพูดในการสนทนา
วารสารบุคลิกภาพและจิตวิทยาสังคม
(2515)
ไปสู่ไวยากรณ์สำหรับการสนทนาที่น่าเบื่อ
สัญศาสตร์
(2516)
โครงสร้างปฏิสัมพันธ์ระหว่างผู้พูดและผู้ตรวจสอบระหว่างผลัดการพูด
ภาษาในสังคม
(2517)
หน่วยการโต้ตอบระหว่างผลัดกันพูดในการสนทนาแบบเห็นหน้ากันที่น่าเบื่อ
การจัดพฤติกรรมในการโต้ตอบแบบเห็นหน้ากัน
(2518)
เค้าโครงของการถอดความวาทกรรม
ข้อมูลการพูดคุย: การถอดความและการเข้ารหัสในการวิจัยวาทกรรม
(2536)
การแบ่งส่วนคำพูดและการเลี้ยวในระบบการสนทนาด้วยเสียง
เทคโนโลยีการพูด การสื่อสารเคลื่อนที่และทรัพยากรทางภาษา
(2548)
อะคูสติกสัมพันธ์กับคุณภาพเสียงร้อง
วารสารวิจัยการพูด ภาษา และการได้ยิน
(2533)
การพูดพร้อมกัน การขัดจังหวะ และการครอบงำ
วารสารจิตวิทยาสังคมและคลินิกอังกฤษ
(2520)
วิธีการตามฉันทลักษณ์ในการตรวจจับการสิ้นสุดของคำพูดที่ไม่ต้องการการรู้จำเสียง
ลำโพงเสร็จยัง? การตรวจหาเสียงท้ายคำโดยใช้ฉันทลักษณ์ได้รวดเร็วและแม่นยำยิ่งขึ้น
หน่วยโต้ตอบในการสนทนา: วากยสัมพันธ์เป็นสากลและแหล่งข้อมูลเชิงปฏิบัติสำหรับการจัดการผลัด
สวิตช์บอร์ด: คลังเสียงโทรศัพท์เพื่อการวิจัยและพัฒนา
องค์กรการสนทนา: ปฏิสัมพันธ์ระหว่างผู้พูดและผู้ฟัง
(2524)
การจำแนกหน้าที่วาทกรรมของคำยืนยันในบทสนทนาที่เป็นคำพูด
อ้างโดย (167)
รวมการรู้จำเสียงอัตโนมัติเข้ากับการประมวลผลภาษาธรรมชาติเชิงความหมายในโรคจิตเภท
2566 การวิจัยจิตเวชศาสตร์
เครื่องมือประมวลผลภาษาธรรมชาติ (NLP) ถูกนำมาใช้มากขึ้นเพื่อประเมินความผิดปกติทางความหมายในโรคจิตเภท เทคโนโลยีการรู้จำเสียงอัตโนมัติ (ASR) หากมีประสิทธิภาพเพียงพอ จะช่วยเร่งกระบวนการวิจัย NLP ได้อย่างมาก ในการศึกษานี้ เราประเมินประสิทธิภาพของเครื่องมือ ASR ที่ล้ำสมัยและผลกระทบต่อความแม่นยำในการจำแนกประเภทการวินิจฉัยตามแบบจำลอง NLP เราเปรียบเทียบ ASR กับการถอดเสียงของมนุษย์ในเชิงปริมาณ (Word Error Rate (WER)) และเชิงคุณภาพโดยการวิเคราะห์ประเภทและตำแหน่งข้อผิดพลาด ต่อจากนั้น เราประเมินผลกระทบของ ASR ต่อความแม่นยำในการจำแนกประเภทโดยใช้การวัดความคล้ายคลึงทางความหมาย ตัวแยกประเภทของฟอเรสต์แบบสุ่มสองตัวได้รับการฝึกอบรมด้วยการวัดความคล้ายคลึงกันที่ได้มาจากการถอดความแบบอัตโนมัติและแบบแมนนวล และเปรียบเทียบประสิทธิภาพของพวกเขา เครื่องมือ ASR มีค่าเฉลี่ย WER 30.4% คำสรรพนามและคำที่อยู่ในตำแหน่งท้ายประโยคมีค่า WER สูงสุด ความแม่นยำในการจำแนกประเภทคือ 76.7% (ความไว 70% ความจำเพาะ 86%) โดยใช้การถอดความอัตโนมัติ และ 79.8% (ความไว 75% ความจำเพาะ 86%) สำหรับการถอดความด้วยตนเอง ความแตกต่างของประสิทธิภาพระหว่างรุ่นนั้นไม่มีนัยสำคัญ การค้นพบนี้แสดงให้เห็นว่าการใช้ ASR สำหรับการวิเคราะห์ความหมายนั้นสัมพันธ์กับความแม่นยำในการจำแนกประเภทของโรคจิตเภทที่ลดลงเพียงเล็กน้อย เมื่อเทียบกับการถอดเสียงด้วยตนเอง ดังนั้น การรวมเทคโนโลยี ASR เข้ากับแบบจำลอง NLP เชิงความหมายจึงมีคุณสมบัติเป็นวิธีการที่แข็งแกร่งและมีประสิทธิภาพในการวินิจฉัยโรคจิตเภท
คำอธิบายประกอบแบบออฟไลน์อัตโนมัติของการเปลี่ยนการเลี้ยวในบทสนทนาที่เน้นงาน
2566 คำพูดและภาษาคอมพิวเตอร์
เมื่อปริมาณการสนทนาที่บันทึกไว้เพิ่มขึ้นอย่างต่อเนื่อง ความต้องการการประมวลผลอัตโนมัติก็เช่นกัน ข้อมูลมากมายที่เกินคำบรรยายอาจถูกดึงออกมาจากสัญญาณเสียงพูดซึ่งอาจเป็นประโยชน์ในโดเมนต่างๆ เช่น การรับประกันคุณภาพศูนย์บริการทางโทรศัพท์ โดยเฉพาะอย่างยิ่ง การอธิบายพลวัตของการแลกเปลี่ยนผลัดกันช่วยให้เข้าใจการพัฒนาและผลลัพธ์ของการสนทนาอย่างลึกซึ้งยิ่งขึ้น ในบทความนี้ เราจะตรวจสอบการสร้างเครื่องมือบันทึกการเลี้ยวอัตโนมัติโดยอิงจากการบันทึกการสนทนาทั้งหมด (ในโหมดออฟไลน์) ซึ่งเป็นหัวข้อที่เรายังไม่ได้สำรวจ เราทดลองด้วยวิธีการเรียนรู้ภายใต้การดูแล 2 วิธี โดยใช้โครงข่ายประสาทเทียมที่เกิดซ้ำและฟอเรสต์แบบสุ่ม ในคลังข้อมูลของบทสนทนาที่เน้นงานในภาษาสเปนของอาร์เจนตินาซึ่งมีคำอธิบายประกอบด้วยหมวดหมู่การผลัดเปลี่ยน 12 หมวดตามหลักเกณฑ์มาตรฐาน แบบจำลองของเราบรรลุผลลัพธ์ที่น่าพึงพอใจ โดยมีคะแนน F1 อยู่ระหว่าง 0.7–0.9 สำหรับป้ายกำกับที่พบบ่อยที่สุด (เช่น สวิตช์ที่ราบรื่น แบ็คแชนเนล) แต่ต่ำกว่ามากสำหรับป้ายกำกับที่พบบ่อยน้อยที่สุด (การขัดจังหวะประเภทต่างๆ) ซึ่งจำเป็นต้องมีการวิจัยเพิ่มเติม นอกจากนี้ เรายังประเมินโมเดลที่มีประสิทธิภาพดีที่สุดโดยพิจารณาจากความสามารถทั่วไปในสถานการณ์ที่ความยากเพิ่มขึ้น ซึ่งรวมถึงบทสนทนาในสองภาษาที่แตกต่างกัน (อังกฤษและสโลวัก) สุดท้าย เพื่อแก้ไขปัญหาการขาดแคลนข้อมูลโดยทั่วไป เราจะวิเคราะห์ผลกระทบของการรวมข้อมูลการฝึกอบรมจากองค์กรต่างๆ รวมถึงข้อมูลข้ามภาษาอีกครั้ง
เวลาปฏิกิริยาของเสียงพูดต่อการชดเชยคำพูด: ผลกระทบสำหรับรูปแบบการประมวลผลของการเปลี่ยนบทสนทนา
2565 วารสารสัทศาสตร์
การสนทนาในชีวิตประจำวันมีลักษณะเป็นการสลับผลัดกันของผู้พูดที่ต่อเนื่องกันอย่างรวดเร็ว เราตรวจสอบเวลาปฏิกิริยาของเสียงต่อการหยุดพูดเพื่อให้เข้าใจถึงขีดจำกัดของพฤติกรรมโต้ตอบในการเปลี่ยนบทสนทนา ผู้พูดภาษาดัตช์ 23 คนเตรียมคำตอบ ([ja], 'ใช่') ให้เร็วที่สุดเท่าที่จะเป็นไปได้ในการตอบสนองต่อ (a) การเริ่มต้นของน้ำเสียงที่บริสุทธิ์ซึ่งนำหน้าด้วยจำนวนความเงียบที่แปรผัน และ (b) การชดเชยของ สิ่งเร้าที่คล้ายเสียงพูดหลายชนิดแตกต่างกันตามระยะเวลา ลักษณะฉันทลักษณ์ และอัตราการพูด ปฏิกิริยาต่อการชดเชยสิ่งเร้าที่ไม่มีฉันทลักษณ์สุดท้ายนั้นยาวนานกว่าปฏิกิริยาต่อการกระตุ้นที่เริ่มมีอาการ (โดยเฉลี่ย 283 เทียบกับ 215 มิลลิวินาที) และพบได้ยากต่ำกว่า 200 มิลลิวินาที (3%) เวลาแฝงในการพูดลดลงเนื่องจากสัญญาณฉันทลักษณ์ปรากฏห่างจากจุดสิ้นสุดของการกระตุ้น การลดอัตราการพูดทำให้เกิดผลกระทบ (เช่น การตอบสนองช้าลง) สำหรับสิ่งเร้าที่ไม่มีฉันทลักษณ์ เทียบกับผลอำนวยความสะดวก (เช่น การตอบสนองเร็วขึ้น) เมื่อมีฉันทลักษณ์ชี้นำ การค้นพบนี้ชี้ให้เห็นว่าการเปลี่ยนเทิร์นอย่างราบรื่นที่ใช้เวลาน้อยกว่า 200 มิลลิวินาทีไม่น่าจะเกี่ยวข้องกับปฏิกิริยาต่อความเงียบเมื่อสิ้นสุดเทิร์น แต่สามารถทำได้เมื่อมีตัวชี้นำฉันทลักษณ์ของเทิร์นสุดท้าย
การสื่อสารแบบอวัจนภาษาในความเป็นจริงเสมือน: การพยักหน้าเป็นสัญญาณทางสังคมในการโต้ตอบเสมือนจริง
2022 วารสารนานาชาติด้านคอมพิวเตอร์ศึกษาของมนุษย์
การสื่อสารด้วยอวัจนภาษาเป็นส่วนสำคัญของการสื่อสารของมนุษย์ รวมถึงการผงกหัว การจ้องมอง การมองใกล้ และการวางตัว การวิจัยเมื่อเร็วๆ นี้ระบุรูปแบบเฉพาะของการผงกศีรษะที่เชื่อมโยงกับการสนทนา ได้แก่ การเลียนแบบการเคลื่อนไหวของศีรษะที่ความล่าช้า 600 มิลลิวินาที และการผงกหัวอย่างรวดเร็วเมื่อฟัง ในบทความนี้ เราได้ใช้กฎพฤติกรรมการผงกศีรษะเหล่านี้ในมนุษย์เสมือน และเราได้ทดสอบผลกระทบของพฤติกรรมเหล่านี้ และดูว่าสิ่งเหล่านี้นำไปสู่การเพิ่มความไว้วางใจและความชอบที่มีต่อมนุษย์เสมือนหรือไม่ เราใช้เทคโนโลยี Virtual Reality เพื่อจำลองการสนทนาแบบเห็นหน้ากัน เนื่องจาก VR มอบความดื่มด่ำและการแสดงตนทางสังคมในระดับสูง ซึ่งคล้ายกับการโต้ตอบแบบเห็นหน้ากัน จากนั้นเราได้ทำการศึกษากับผู้เข้าร่วมที่เป็นมนุษย์ โดยที่ผู้เข้าร่วมได้มีส่วนร่วมในการสนทนากับมนุษย์เสมือนสองคน จากนั้นจึงให้คะแนนลักษณะทางสังคมของตัวละครเสมือนจริง และเสร็จสิ้นการประเมินความไว้วางใจโดยนัยของพวกเขาที่มีต่อมนุษย์เสมือน ผลลัพธ์แสดงให้เห็นถึงความชอบและความไว้วางใจในมนุษย์เสมือนจริงมากขึ้น ซึ่งพฤติกรรมการพยักหน้าถูกขับเคลื่อนโดยกฎพฤติกรรมที่เหมือนจริง สิ่งนี้สนับสนุนแบบจำลองทางจิตวิทยาของการพยักหน้าและพัฒนาความสามารถของเราในการสร้างมนุษย์เสมือนที่เหมือนจริง
การเลี้ยวในการโต้ตอบแบบตัวต่อตัวของมนุษย์เป็นแบบหลายรูปแบบ: ทิศทางการจ้องมองและท่าทางแบบแมนนวลช่วยในการประสานงานของการเปลี่ยนเลี้ยว
2023 ธุรกรรมทางปรัชญาของ Royal Society B: วิทยาศาสตร์ชีวภาพ
SpeakFaster Observer: เครื่องมือระยะยาวสำหรับการพิมพ์ด้วยสายตาเพื่อวัดการสื่อสาร AAC
2023 การประชุมเรื่องปัจจัยมนุษย์ในระบบคอมพิวเตอร์ - การดำเนินการ
บทความแนะนำ (6)
บทความวิจัย
การเปลี่ยนแปลงในประสิทธิภาพการทำงานสองอย่างเผยให้เห็นถึงการเริ่มต้นการวางแผนการพูดช้าในการรับเทิร์น
ความรู้ความเข้าใจ เล่มที่ 136, 2015, หน้า 304-324
การเปลี่ยนผ่านที่ราบรื่นระหว่างผลัดกันในการสนทนาที่เป็นธรรมชาตินั้นบ่งบอกว่าผู้พูดมักจะเริ่มวางแผนการเปล่งเสียงในขณะที่ฟังคู่สนทนาของตน การศึกษาที่นำเสนอนี้ตรวจสอบว่าเป็นกรณีนี้จริงหรือไม่ และถ้าเป็นเช่นนั้น การวางแผนการเปล่งเสียงจะเริ่มขึ้นเมื่อใด มีการเปรียบเทียบสมมติฐานสองข้อ: ผู้พูดเริ่มวางแผนรอบของตนให้เร็วที่สุดเท่าที่จะเป็นไปได้ (ในการทดลองของเราน้อยกว่า 1 วินาทีหลังจากเริ่มถึงตาของคู่สนทนา) หรือว่าพวกเขาทำเมื่อใกล้ถึงจุดสิ้นสุดของตาของคู่สนทนา การเลี้ยวถูกรวมเข้ากับงานแตะนิ้วเพื่อวัดความผันแปรของภาระทางปัญญา เราสันนิษฐานว่าการเริ่มต้นของการวางแผนการพูดนอกเหนือจากการฟังจะมาพร้อมกับประสิทธิภาพการเคาะที่ลดลง ทำการทดลองคำอธิบายภาพสองครั้ง ในการทดลองทั้งสองมีสามเงื่อนไข: (1) การแตะและการพูด ซึ่งผู้เข้าร่วมเคาะรูปแบบที่ซับซ้อนในขณะที่รับช่วงต่อจากผู้พูดที่บันทึกไว้ล่วงหน้า (2) การแตะและการฟัง - ลำโพงที่บันทึกไว้ และ (3) การพูดเท่านั้น ซึ่งผู้เข้าร่วมผลัดกันอยู่ในเงื่อนไขการแตะและการพูด แต่ไม่มีการแตะ การทดลองแตกต่างกันในจำนวนการฝึกกรีดที่ผู้เข้าร่วมได้รับเมื่อเริ่มต้นเซสชัน ในการทดลองที่ 2 การเคลื่อนไหวของดวงตาของผู้เข้าร่วมถูกบันทึกนอกเหนือจากคำพูดและการแตะ การวิเคราะห์ประสิทธิภาพการเคาะของผู้เข้าร่วมและการเคลื่อนไหวของดวงตาแสดงให้เห็นว่าพวกเขาเริ่มต้นการวางแผนการพูดในแง่มุมที่ต้องใช้ความรู้ความเข้าใจเพียงไม่นานก่อนสิ้นสุดรอบของผู้พูดคนก่อนหน้า เรายืนยันว่านี่เป็นกลยุทธ์การวางแผนที่ชาญฉลาด ซึ่งอาจเป็นค่าเริ่มต้นของผู้พูดในสถานการณ์ต่างๆ ในชีวิตประจำวัน
บทความวิจัย
การเลี้ยวและการเข้าโค้งในการโต้ตอบด้วยภาษามือ: การศึกษาการพักผลัดสุดท้าย
Journal of Pragmatics เล่มที่ 65, 2014, หน้า 121-136
บทความนี้จะตรวจสอบปรากฏการณ์ที่เกิดซ้ำในการโต้ตอบด้วยภาษามือ: การค้างของป้ายที่เรียกว่า 'พัก' ในตำแหน่งเทิร์นสุดท้าย ปรากฏการณ์นี้ได้รับการอธิบายตามประเพณีว่าเป็นลักษณะฉันทลักษณ์ที่ก่อให้เกิดจังหวะของการพูดคุยที่ลงนามและเพื่อกำหนดขอบเขตของวากยสัมพันธ์ ดังนั้นจึงไม่ได้เพิ่มเนื้อหาเชิงประพจน์ใดๆ ด้วยตัวเอง อย่างไรก็ตาม การสังเกตโดยละเอียดของการระงับเหล่านี้ในข้อมูลการสนทนาที่เกิดขึ้นตามธรรมชาติ ทำให้เกิดคำถามต่อไปนี้: อะไรคือความเกี่ยวข้องของการระงับดังกล่าวในการจัดการการรับเทิร์น พวกเขาบรรลุผลสำเร็จในกิจกรรมทางสังคมที่มีความหมายอะไร จากการบันทึกวิดีโอ 90 นาทีของการโต้ตอบภาษามือสวิสเยอรมัน (DSGS) ภายในการตั้งค่าสถาบัน เราทำการวิเคราะห์ลำดับย่อยและหลายรูปแบบซึ่งให้ผลลัพธ์ดังต่อไปนี้ (1) การพักในเทิร์นสุดท้ายเกิดขึ้นซ้ำๆ ในเทิร์นที่กำหนดการดำเนินการที่ชัดเจน (เช่น คำถาม), (2) เป็นการรวมเอาความคาดหวังของผู้พูดปัจจุบันเกี่ยวกับการกระทำครั้งต่อไป; และด้วยเหตุนี้ (3) การเปิดตัวจึงได้รับการปรับอย่างละเอียดเพื่อให้เป็นที่จดจำของการดำเนินการถัดไปที่เกี่ยวข้องและคาดว่าจะดำเนินอยู่
บทความวิจัย
Backchannel ของผู้รับชี้นำพัฒนาการเล่าเรื่อง
Journal of Pragmatics เล่มที่ 70, 2014, หน้า 152-164
คำตอบสั้น ๆ ของผู้รับเช่นเอ่อฮะ,โอ้, และว้าวซึ่งเรียกว่าช่องทางด้านหลังโดยทั่วไปถือว่าเป็นปรากฏการณ์เชิงโต้ตอบ ซึ่งเป็นอุปกรณ์ที่ตอบสนองต่อสิ่งที่เพิ่งพูดไปในรูปแบบต่างๆ ผู้รับสาร ในการจัดหา backchannel ให้กำหนดรูปแบบการเล่าเรื่องอย่างแข็งขันในบทสนทนาที่เกิดขึ้นเอง (บาเวลา และคณะ, 2543). เราเปรียบเทียบแบ็คแชนเนลทั่วไปกับแบ็คแชนเนลเฉพาะที่คำนึงถึงบริบทภายในกลุ่มของการสนทนาแบบเห็นหน้ากันและในการทดลองการเล่าเรื่องให้สมบูรณ์ การวิเคราะห์แสดงให้เห็นว่านักเล่าเรื่องตอบสนองในรูปแบบที่แตกต่างกันสำหรับช่องทางสนับสนุนสองประเภท หลังจาก backchannels ทั่วไป พวกเขาให้เหตุการณ์ใหม่เกี่ยวกับวาทกรรม หลังจาก backchannels เฉพาะ พวกเขาให้ข้อมูลโดยละเอียดเกี่ยวกับเหตุการณ์ที่นำเสนอก่อนหน้านี้ ผลลัพธ์จากการทดลองสนับสนุนการวิเคราะห์นี้ ซึ่งบ่งชี้ว่าผู้คนที่อ่านข้อความถอดเสียงของการสนทนาทำนายรูปแบบความต่อเนื่องของเรื่องราวที่คล้ายคลึงกันตามช่องทางเบื้องหลังทั่วไปและเฉพาะเจาะจง เราสรุปได้ว่าการตอบสนองของผู้รับไม่ได้เป็นเพียงการตอบสนองเท่านั้น แต่ยังเป็นเชิงรุกและร่วมมือกันในการสร้างเรื่องราว
บทความวิจัย
ความหนาแน่นของข้อมูลและการทับซ้อนกันในบทสนทนา
Computer Speech & Language, Volume 37, 2016, หน้า 82-97
ระบบการสนทนาส่วนเพิ่มมักถูกมองว่ามีการตอบสนองและเป็นธรรมชาติมากกว่า เนื่องจากสามารถจัดการกับปรากฏการณ์ของการเลี้ยวและคำพูดที่ทับซ้อนกัน เช่น ช่องทางด้านหลังหรือส่วนต่อท้าย งานก่อนหน้านี้ในพื้นที่นี้มักระบุลักษณะทางฉันทลักษณ์ที่โดดเด่น หรือคุณลักษณะเกี่ยวกับความสมบูรณ์ทางวากยสัมพันธ์หรือความหมาย เพื่อทำเครื่องหมายตำแหน่งที่เหมาะสมในการผลัดเปลี่ยน ในสายงานที่แยกจากกัน การศึกษาทางภาษาศาสตร์จิตวิทยาได้สร้างความเชื่อมโยงระหว่างความหนาแน่นของข้อมูลและความโดดเด่นในภาษา—ยิ่งคาดหวังหน่วยภาษาศาสตร์น้อยในบริบทใดบริบทหนึ่ง ยิ่งมีแนวโน้มที่จะถูกทำเครื่องหมายทางภาษาศาสตร์มากขึ้นเท่านั้น สิ่งนี้ได้รับการสังเกตในระดับภาษารวมถึงฉันทลักษณ์ซึ่งมีบทบาทสำคัญในการทำนายคำพูดที่ทับซ้อนกัน
ในบทความนี้ เราจะสำรวจสมมติฐานที่ว่าความหนาแน่นของข้อมูล (ID) ก็มีบทบาทในการผลัดเปลี่ยนเช่นกัน โดยเฉพาะอย่างยิ่ง เรามุ่งหมายที่จะแสดงให้เห็นว่ามนุษย์มีความอ่อนไหวต่อจุดสูงสุดและต่ำสุดของความหนาแน่นของข้อมูลในการพูด และคำพูดที่ทับซ้อนกันที่ร่อง ID นั้นเป็นที่ยอมรับได้มากกว่าการซ้อนทับที่จุดสูงสุดของ ID เพื่อทดสอบสมมติฐานของเรา เรารวบรวมการให้คะแนนโดยมนุษย์สำหรับแบบจำลองสามแบบในการสร้างคำพูดที่ทับซ้อนกันตามคุณลักษณะของ: (1) ฉันทลักษณ์และความหมายหรือวากยสัมพันธ์ที่สมบูรณ์ (2) ความหนาแน่นของข้อมูล และ (3) ข้อมูลทั้งสองประเภท ผลลัพธ์แสดงว่าผู้ใช้มากกว่า 50% ชอบเวอร์ชันที่ใช้ฟีเจอร์ทั้งสองประเภท รองลงมาคือชอบฟีเจอร์ความหนาแน่นของข้อมูลเพียงอย่างเดียว สิ่งนี้บ่งบอกถึงความอ่อนไหวของมนุษย์อย่างชัดเจนต่อผลกระทบของความหนาแน่นของข้อมูลในภาษาพูด และเป็นแรงจูงใจที่แข็งแกร่งในการนำเมตริกนี้มาใช้ในการออกแบบ การพัฒนา และการประเมินโมดูลการผลัดเปลี่ยนในระบบการพูดและระบบการสนทนาส่วนเพิ่ม
บทความวิจัย
พฤติกรรมการจ้องมองของผู้เข้าร่วมที่ไม่ได้ระบุที่อยู่ในการโต้ตอบด้วยภาษามือเฟลมิช: การวางแผนการจ้องมองเปลี่ยนไปหลังจากรับรู้ถึงการเลี้ยวที่กำลังจะเกิดขึ้น (เป็นไปได้)
Journal of Pragmatics เล่มที่ 162, 2020, หน้า 62-83
ลักษณะพื้นฐานประการหนึ่งของปฏิสัมพันธ์ของมนุษย์อยู่ที่การประสานสัมพันธ์ทางโลกที่แน่นแฟ้น กล่าวคือ คู่สนทนาจัดการเพื่อให้เกิดการเปลี่ยนเลี้ยวที่ราบรื่น และทำให้ช่องว่างและการเหลื่อมกันลดน้อยลง เพื่อให้การแลกเปลี่ยนผลัดกันพูดอย่างรวดเร็วนี้บรรลุผลสำเร็จ คู่สนทนาไม่เพียงต้องรับรู้ แต่ยังคาดการณ์ถึงการสิ้นสุดของเทิร์นของผู้พูดคนปัจจุบันด้วย การศึกษานี้มีวัตถุประสงค์เพื่อสนับสนุนทฤษฎีของเครื่องจักรการเลี้ยวโดยการวิเคราะห์พฤติกรรมการจ้องมองของผู้เข้าร่วมที่ไม่ได้ระบุที่อยู่ในระหว่างลำดับการตอบคำถามในการโต้ตอบภาษามือเฟลมิช เราจำลองงานของ Holler และ Kendrick (2015) เกี่ยวกับการสนทนาภาษาอังกฤษโดยมีวัตถุประสงค์เพื่อตรวจสอบผลกระทบที่อาจเกิดขึ้นในการประมวลผลเทิร์นออนไลน์ ผลลัพธ์แสดงให้เห็นว่าผู้เข้าร่วมที่ไม่ได้ระบุที่อยู่ในการโต้ตอบด้วยภาษามือเฟลมิชมีแนวโน้มที่จะติดตามผู้พูดคนปัจจุบันได้อย่างน่าเชื่อถือมากกว่าผู้เข้าร่วมที่ไม่ได้ระบุที่อยู่ในการโต้ตอบด้วยภาษามือแบบเฟลมิช อย่างไรก็ตาม การวิเคราะห์ช่วงเวลาของการจ้องมองเปลี่ยนไป แสดงให้เห็นความคล้ายคลึงกันอย่างน่าทึ่งกับ Holler and Kendrick (2015) ดังนั้น ดูเหมือนว่าผู้เข้าร่วมที่ไม่ได้พูดโต้ตอบทั้งภาษาอังกฤษและภาษามือเฟลมิชจะมุ่งสู่การทำให้สำเร็จโดยวางแผนการจ้องมองของพวกเขาเพื่อตอบสนองต่อสัญญาณสุดท้าย เนื่องจากทั้งจุดสิ้นสุดของเทิร์นและความสำเร็จในครั้งแรกที่เป็นไปได้ถูกกำหนดโดยจังหวะของสัญญาณสุดท้าย การค้นพบของเราจึงสนับสนุนแนวคิดของขอบเขตจังหวะต่อจังหวะในการโต้ตอบที่ลงนาม
บทความวิจัย
การผลัดเปลี่ยน การป้อนกลับ และการให้ความสนใจร่วมกันในการโต้ตอบระหว่างมนุษย์กับหุ่นยนต์
การสื่อสารด้วยคำพูด เล่มที่ 65, 2014, หน้า 50-66
ในบทความนี้ เรานำเสนอการศึกษาที่หุ่นยนต์สอนมนุษย์เกี่ยวกับวิธีการวาดเส้นทางบนแผนที่ มนุษย์และหุ่นยนต์จะนั่งหันหน้าเข้าหากันโดยมีแผนที่วางอยู่บนโต๊ะระหว่างกัน การจ้องมองของผู้ใช้และหุ่นยนต์สามารถทำหน้าที่หลายอย่างพร้อมกันได้: เป็นตัวชี้นำความสนใจร่วมกัน การผลัดเปลี่ยน ระดับความเข้าใจ และความก้าวหน้าของงาน เราได้เปรียบเทียบการตั้งค่าแบบเห็นหน้ากันนี้กับการตั้งค่าที่หุ่นยนต์ใช้พฤติกรรมการจ้องมองแบบสุ่ม เช่นเดียวกับการตั้งค่าเสียงอย่างเดียวที่หุ่นยนต์ซ่อนอยู่หลังกระดานกระดาษ นอกจากนี้ เรายังได้ปรับเปลี่ยนสัญญาณการเลี้ยว เช่น ความสมบูรณ์และการหยุดชั่วคราวในการพูดของหุ่นยนต์ โดยการวิเคราะห์การให้คะแนนตามอัตวิสัยของผู้เข้าร่วม การทำงานให้เสร็จ การตอบสนองด้วยวาจา พฤติกรรมการจ้องมอง และกิจกรรมการวาดภาพ เราแสดงให้เห็นว่าผู้ใช้ได้รับประโยชน์จากการจ้องมองของหุ่นยนต์เมื่อพูดถึงจุดสังเกต และพฤติกรรมการใช้คำพูดและการจ้องมองของหุ่นยนต์มีผลอย่างมากต่อ พฤติกรรมการเลี้ยวของผู้ใช้ นอกจากนี้ เรายังนำเสนอการวิเคราะห์การจ้องมองของผู้ใช้และการรับรู้ความคิดเห็นตามคำศัพท์และฉันทลักษณ์หลังจากคำสั่งของหุ่นยนต์ และแสดงให้เห็นว่าสัญญาณเหล่านี้เปิดเผยว่าผู้ใช้ยังไม่ได้ดำเนินการตามคำสั่งก่อนหน้าหรือไม่ ตลอดจนระดับความไม่แน่นอนของผู้ใช้
- ☆
บทความนี้ได้รับการแนะนำให้ยอมรับโดย Koichi Shinoda
ลิขสิทธิ์ © 2010 Elsevier Ltd. สงวนลิขสิทธิ์