ผมเจอโจทย์ที่น่าสนใจจากเพื่อนร่วมงาน ว่าเขามีความจำเป็นต้องทำซับไตเติ้ลภาษาอังกฤษจากคลิปวิดีโอสัมภาษณ์ที่เป็นภาษาไทย ซึ่งเอาจริงๆ ค่าถอดเทปมันก็ไม่ได้ถึงกับแพงมากหรอกนะ ราคาขึ้นอยู่กับความเร่งด่วน มันอยู่ระหว่าง 500 บาท ต่อ 60 นาที (ไม่ด่วน) ไปจนถึง พันต้นๆ ต่อ 60 นาที (ด่วน ภายใน 1 วัน) ใครใช้บริการน้อยกว่านั้น ก็จะตกอยู่ราวๆ นาทีละ 9 บาท (ข้อมูลราคาจากเว็บ fastwork.co) แต่ในยุคที่เทคโนโลยีการสั่งพิมพ์งานด้วยเสียงมันค่อนข้างแม่นยำขนาดนี้แล้ว มันจะไม่มีวิธีประหยัดเงินบ้างเลยเหรอ? คำตอบคือ “มีครับ” ถ้าเราใช้ฟีเจอร์ Voice typing ของ Google Docs ครับ ซึ่งจริงๆ ก็สามารถนำไปใช้ร่วมกับฟีเจอร์ Voice typing ของ Windows ได้ด้วยนะ เดี๋ยวผมจะอธิบายให้ในตอนท้ายบล็อกอีกที
หลักการทำงานของเทคนิคการใช้ Google Docs ช่วยถอดเทปฟรีๆ
ฟีเจอร์การสั่งพิมพ์ด้วยเสียงนี่เรียกว่าเป็นเรื่องปกติแล้วสำหรับคนยุคนี้ ใครที่ใช้สมาร์ทโฟนทั้ง iOS และ Android ก็จะเห็นว่าคีย์บอร์ดมันมีปุ่มสั่งงานด้วยเสียงด้วยนะ และเดี๋ยวนี้ก็ต้องเรียกว่ามันสามารถพิมพ์ได้ค่อนข้างแม่นยำขึ้นมาก ในระดับ 85% – 90% เลยทีเดียว ถ้าไม่ไปเจอคำแปลกๆ หรือ ชื่อเฉพาะ ที่ไม่ค่อยมีคนใช้ หรือไปเจอคนพูดไทยคำอังกฤษคำ ผสมภาษาไปเนี่ย ก็ต้องเรียกว่าพิมพ์แทบไม่พลาดเลยแหละ และในอนาคต เมื่อมีคนใช้งานกันเยอะขึ้นเรื่อยๆ มันก็จะได้เรียนรู้และพัฒนาขึ้นไปอีก

หลายคน รวมถึงผมด้วย ก็พยายามจะถอดเทปแบบง่ายๆ ด้วยการเปิดคลิปออกลำโพง แล้วเอาสมาร์ทโฟนไปจ่ออยู่ใกล้ๆ แต่ปัญหาก็คือ ความผิดพลาดมันสูงมากทีเดียว เพราะเสียงที่ออกจากลำโพงมันก็คือข้อมูลดิจิทัลที่ถูกแปลงออกมาเป็นสัญญาแอนะล็อกแล้ว ต้องมารับผ่านไมโครโฟน เพื่อเปลี่ยนกลับเป็นข้อมูลดิจิทัลอีกรอบ ระหว่างทางก็มีพวกสัญญาณรบกวนอีก ไม่ค่อยสะดวกเท่าไหร่ ความแม่นยำก็ต่ำมากๆ
แต่ถ้าเราสามารถเอาเสียงจากคลิปวิดีโอ ที่ปกติมันจะเป็นสัญญาณเอาต์พุตไปออกที่ลำโพง มาทำเป็นสัญญาณอินพุตตรงเข้าไปที่ไมโครโฟนได้เลย มันก็น่าจะทำให้ความแม่นยำของการพิมพ์ด้วยเสียงเพิ่มขึ้นสิ ถูกไหม แต่ปกติแล้วการทำแบบนี้ มันต้องอุปกรณ์มาช่วยแปลงสัญญาณครับ เช่นพวก Mixer ต่างๆ แต่นี่เรากำลังทำงานอยู่กับคอมพิวเตอร์นะ มันก็ควรจะมีซอฟต์แวร์ที่ช่วยแปลงให้คอมพิวเตอร์กลายเป็น Mixer ได้ไหม?
พบกับ VB-AUDIO VoiceMeeter
ข่าวดีก็คือ มีคนพัฒนาซอฟต์แวร์ที่ช่วยแปลงเครื่องคอมพิวเตอร์ให้เป็น Mixer แบบที่ผมว่าครับ มันเป็นซอฟต์แวร์ชื่อ VoiceMeeter และเป็น Donationware คือ สามารถนำไปใช้งานได้ฟรีสำหรับการใช้งานแบบส่วนตัว และหากคิดว่าเป็นประโยชน์ อยากสนับสนุนนักพัฒนา ก็สามารถบริจาคเงินให้ได้ตามสมัครใจ ส่วนใครอยากใช้งานในเชิงพาณิชย์ เขาก็มีเวอร์ชันสำหรับการใช้งานในเชิงพาณิชย์ ที่จะมีฟีเจอร์เยอะกว่าครับ
ส่วนการใช้งานแค่จะถอดเทปออกจากคลิปวิดีโอนั้น ไม่ต้องใช้เวอร์ชันสำหรับเชิงพาณิชย์หรอกครับ ใช้เวอร์ชันฟรีก็พอแล้ว และจริงๆ เคยมีคนแนะนำให้ใช้ซอฟต์แวร์ VB-CABLE ของผู้พัฒนารายเดียวกันนี่แหละ แต่เป็นแค่การสร้างเอาต์พุตเสมือนเอาไว้ เพื่อแปลงสัญญาณไปเป็นอินพุตของไมโครโฟนด้วย แต่ผมพบว่ามันไม่สะดวกเท่าไหร่ เพราะเราจะอดมอนิเตอร์ไปด้วยว่าที่กำลังถอดเทปอยู่นั้น มันแม่นยำมากน้อยแค่ไหน ผมเลยแนะนำให้ใช้ VoiceMeeter แทนครับ

การติดตั้ง VB-AUDIO VoiceMeeter
ดาวน์โหลดโปรแกรม VoiceMeeter ได้จากเว็บไซต์เลยครับ โปรแกรมมันจะมี 3 เวอร์ชัน เท่าที่ผมเห็น เรียงตามลำดับฟีเจอร์ที่มีให้ คือ VoiceMeeter เฉยๆ VoiceMeeter Banana และ VoiceMeeter Potato โดยตัว Potato นี่จะมีฟีเจอร์เยอะสุด และเป็นเวอร์ชันสำหรับการใช้งานในเชิงพาณิชย์ ต้องซื้อไลเซ่นส์มา Activate ด้วย แต่สำหรับเรา เราใช้แค่ VoiceMeeter เฉยๆ ก็พอครับ
ดาวน์โหลดไฟล์เสร็จเรียบร้อยแล้ว จะเป็นไฟล์ .zip นะครับ สามารถใช้ Windows Explorer แตกเอาไฟล์ .exe ซึ่งเป็นตัวติดตั้งโปรแกรมที่อยู่ข้างในออกมาได้ ตอนจะติดตั้งโปรแกรม ต้องรันไฟล์ .exe นั้นแบบ Run as administrator นะครับ ไม่อย่างนั้นจะใช้โปรแกรมไม่ได้ (เพราะโปรแกรมจะต้องเข้าไปยุ่งกับเรื่องอินพุตและเอาต์พุตของระบบเสียงของ Windows) ใครที่ลืม Run as administrator แต่ติดตั้งโปรแกรมไปแล้ว ให้ Uninstall แล้วติดตั้งใหม่ครับ การ Install และ Uninstall ทุกครั้ง ถ้าอยากให้สมบูรณ์ ให้รีสตาร์ทด้วยนะ

พอรันไฟล์ .exe เพื่อติดตั้งแต่ ก็คลิก Install เลยครับ แป๊บเดียวเสร็จ มันจะเด้งหน้าตาข้อความมาบอกให้รีสตาร์ทรอบนึง เพื่อให้การติดตั้งสมบูรณ์ เราก็รีสตาร์ทเครื่องคอมพิวเตอร์ครับ

คอมพิวเตอร์ของผมจะเป็น Windows 11 เวลาผมคลิกที่ไอคอนรูปพัดกับรูปลำโพงบน System tray และคลิกตรงไอคอนรูปลำโพงอีกแบบตรงแถบปรับระดับเสียง ซึ่งก็คือไอคอนสำหรับ Select a sound output มันก็จะแสดงรายชื่อของเอาต์พุตที่ผมเลือกได้ ตรงนี้ให้เราเลือกเป็น VoiceMeeter Input (VB-Audio VoiceMeeter VAIO) นะครับ

สำหรับคนที่ใช้ระบบปฏิบัติการ Windows 10 หรือเก่ากว่า ก็ไปที่ Control Panel > Hardware and Sound > Sound แล้ว Scroll หา VoiceMeeter Input จากนั้นก็คลิกขวาเปิด Context menu ขึ้นมา แล้วเลือก Set as Default Device เพื่อให้ VoiceMeeter เป็นอุปกรณ์ Default สำหรับ Sound output

จากนั้นเปิดโปรแกรม VoiceMeeter ขึ้นมาครับ ดูตรงที่เขียนว่า VIRTUAL INPUT เราจะเห็นว่าตัวเลือกถูกตั้งเป็น VB-Audio Voicemeeter VAIO แล้ว นั่นคือ เอาต์พุตของระบบเสียงของคอมพิวเตอร์ของเรา จะกลายมาเป็นอินพุตนึงของ Mixer ตัวนี้แล้ว (ซึ่งก็มีค่าเท่ากับไมโครโฟน) จากนั้นถ้าเราอยากให้เสียงออกไปที่ลำโพงตามปกติ เราก็ไปตั้งค่าตรง HARDWARE OUT แล้วเลือกเป็นชื่อของลำโพงที่เสียบกับเครื่องคอมพิวเตอร์ของเราครับ กรณีของผมคือ ZQE-CAA ที่เป็นลำโพง Soundbar ที่มากับจอแสดงผล HUAWEI MateView GT ของผม

แค่นี้ก็คือเตรียมการเสร็จเรียบร้อย ลองเปิดคลิปวิดีโออะไรซักอย่างดูครับ ตรง VIRTUAL INPUT และ HARDWARE OUTPUT ตรงที่เป็น Audio visualizer จะมีไฟกระพริบที่แสดงให้เห็นว่ามีสัญญาณเสียงเข้ามาที่อินพุตและเอาต์พุตแล้ว
ถอดเทปด้วยการใช้ Google Docs + VoiceMeeter
จากนั้น ถ้าเราจะถอดเทปอะไร เราก็แค่เปิดไฟล์วิดีโอหรือไฟล์เสียงนั้นขึ้นมา หรือจะเล่นเป็นสตรีมมิ่งผ่านอินเทอร์เน็ตหรือ LAN ก็ได้นะ ไม่ใช่ปัญหา แล้วค่อยเปิดโปรแกรม Google Docs ขึ้นมา จากนั้นไปที่ Tools > Voice typing หรือกด Ctrl + Shift + S

เราจะเห็นหน้าต่าง Voice typing เพิ่มเข้ามา ให้เราเลือกตรง Drop-down menu เปลี่ยนภาษาที่จะใช้เป็นภาษาไทย เพราะ Voice typing มันจะพิมพ์ได้ทีละภาษา และมันจะไม่มีฟีเจอร์ตรวจจับได้ว่าเรากำลังพูดภาษาอะไรอยู่ ก็คล้ายๆ กับ Voice typing บนสมาร์ทโฟนนั่นแหละครับ

เท่านี้ ใดๆ ที่คลิปพูดออกมา มันก็จะถูกถอดเทปออกมาเป็นข้อความอยู่ใน Google Docs เรียบร้อยครับ และเพราะว่าเราเลือกใช้โปรแกรม VoiceMeeter ซึ่งเป็นโปรแกรมจำพวก Mixer แทนที่จะใช้ VB-CABLE ที่เป็นโปรแกรมจำลองการเชื่อมต่อจากเอาต์พุต (ลำโพง) ไปเป็นอินพุต (ไมโครโฟน) ก็จะทำให้เราสามารถมอนิเตอร์เสียงได้ด้วย
ซึ่งในการใช้งานจริงมันจะสะดวกกว่า เช่น เราสามารถสังเกตได้แบบ Real-time เลยว่า Voice typing มันพิมพ์ผิดไหม หรือ จังหวะที่เสียงมันเงียบไปนาน หรือ วิดีโอมันมีช่วงที่เราไม่ได้ต้องการถอดเทป เราก็จะสามารถหยุดเล่นชั่วคราว แล้วกระโดดข้ามได้ อะไรแบบนี้
ด้วยหลักการเดียวกันนี้ ใครที่ใช้ Windows 10 หรือ Windows 11 ที่มีฟีเจอร์ Voice typing ใส่เข้ามาในตัวระบบปฏิบัติการอยู่แล้ว ก็สามารถเปลี่ยนไปใช้ Voice typing ของ Windows 10 หรือ Windows 11 แทนได้นะครับ ข้อดีของการใช้แบบนี้คือ มันจะพิมพ์ใส่อะไรก็ได้ จะใส่ Notepad หรือโปรแกรมจดโน้ตใดๆ ก็ได้เลย
ข้อจำกัดของการถอดเทปด้วยวิธีนี้
ข้อดีของการถอดเทปด้วยวิธีนี้ก็คือ มันฟรีครับ ก็โปรแกรมทุกตัวที่เกี่ยวข้องมันฟรีหมดเลย แถมทำงานได้ค่อนข้างเร็วด้วย เพราะ Voice typing มันแทบจะพิมพ์ตามสิ่งที่พูดออกมาได้ทุกเม็ดทุกดอกจริงๆ แต่ข้อจำกัดมันก็มีนะครับ นั่นคือ
⚠️ ความแม่นยำของ Voice typing มันยังไม่ใช่ 100% และไปถึง 100% ยากด้วย เพราะข้อจำกัดในเรื่องของสำเนียง น้ำเสียง ความคมชัดของเทปต้นฉบับ ซึ่งถ้าให้คนฟังเนี่ยดูจะแม่นยำกว่า
⚠️ ฟีเจอร์ Voice typing มันทำงานได้แค่ทีละภาษา และถ้าจะให้ผลลัพธ์ออกมาดี เราต้องกำหนดเอาไว้แต่แรกเลยว่าเทปที่เราจะถอดมันพูดกันในภาษาอะไร ถ้าไปเจอเทปประเภทไทยคำ อังกฤษคำ มีภาษาอื่นปะปนมาด้วย โอกาสที่ถอดเทปผิดก็จะมีสูง หรือถึงจะถอดเทปออกมาได้ก็อาจจะเป็นทับศัพท์
⚠️ หลายคนอาจจะสังเกตเช่นกันว่า การสะกดของคำศัพท์จาก Voice typing เนี่ย ถ้าเป็นภาษาไทยจะไม่ค่อยมีปัญหา เพราะข้อมูลที่ถูกเอาไปใช้สอนมันโอเคอยู่แล้ว แต่ถ้าเป็นการสะกดคำจำพวกทับศัพท์เนี่ยอาจจะไม่ตรงตามราชบัณฑิตยสภา เช่น Facebook จะถูกสะกดเป็น เฟซบุ๊ค แทนที่จะเป็น เฟซบุ๊ก เป็นต้น
⚠️ การพิมพ์ด้วย Voice typing เนี่ย ถ้าเป็นภาษาอังกฤษยังไม่เท่าไหร่ เพราะทุกคำจะถูกเว้นวรรคไว้ด้วยช่องไฟ มันก็อาจจะติดเรื่องการใส่พวกเครื่องหมายวรรคตอน เช่น Colon ( : ) Semi-colon ( ; ) หรือ Full stop ( . ) เป็นต้น แต่ถ้าเป็นภาษาไทยที่ไม่ได้มีกฎเรื่องการเว้นช่องไฟไว้ทุกคำ สิ่งที่เราจะได้คือการพิมพ์ติดๆ กันเรียงเป็นพรืดเลยครับ ยิ่งถ้าเทปมันมีการพูดหลายคน มันก็จะไม่รู้ด้วยว่าใครเป็นคนพูดอะไร เราต้องมาไล่ใส่เครื่องหมายวรรคตอน และจัดเรียงเนื้อหาเองนะครับ ซึ่งตรงนี้ การที่ผมแนะนำให้ใช้โปรแกรม VoiceMeeter ที่เราสามารถจะมอนิเตอร์เสียงระหว่างถอดเทปได้ มันจะทำให้เราใส่พวกเครื่องหมายวรรคตอน หรือจัดเรียงเนื้อหาได้ง่ายขึ้น ยังไงซะ ถ้าเราไม่ต้องมาฟังและไล่พิมพ์ตาม ยังไงมันก็ยังสะดวกกว่านะ ผมว่า
มีตัวเลือกอื่นอีกไหม?
จริงๆ ก็มีนะครับ Microsoft Word มันมีฟีเจอร์ชื่อ Dictate ที่ให้เราสามารถถอดเทปได้ด้วย เดี๋ยวตอนหน้าผมจะมาเขียนถึงให้ได้อ่านกันครับ
สนับสนุนบล็อกของผมกันได้นะครับ
ใครชอบใจบล็อกนี้อยากจะสนับสนุน สามารถทำได้ง่ายๆ แค่ไปที่ https://www.facebook.com/kafaakBlog/support/ นะครับ
เดือนละ 35 บาทเอง คิดซะว่าเลี้ยงกาแฟผม
ภาพประกอบบล็อกโดย Midjourney AI v5.1
Prompt: a cartoon of a female office worker wearing a headset sitting in front of a computer laptop, japanese manga style, office environment, daytime –ar 16:9 –v 5.1