เคยสังเกตไหมครับว่าหูฟังบางรุ่นบางยี่ห้อ หรือเครื่องเล่นเพลงดิจิทัลบางรุ่นบางยี่ห้อ มันมีแปะโลโก้เอาไว้ว่าเป็น Hi-Res Audio แล้วก็บอกว่ามันเป็นอุปกรณ์ที่รองรับไฟล์เสียงความละเอียดสูง ฟังแล้วก็รู้สึกว่า อืมมมม มันต้องเป็นไฟล์เสียงที่ชัดแจ่มแจ๋ว เสียงดีแน่นอน จริงไหม? แต่รู้ไหมอ่ะ ว่ามันดียังไง? แล้วไฟล์เสียงแบบไหน มันถึงเรียกได้ว่าเป็นไฟล์เสียงความละเอียดสูง?
อยากเข้าใจเรื่องพวกนี้ ต้องเข้าใจพื้นฐานของระบบเสียงดิจิทัล (Digital audio) กันก่อนครับ
ระบบเสียงแบบแอนะล็อก (Analog) กับระบบเสียงแบบดิจิทัล (Digital)
ในโลกของนักฟังระดับหูทองทั้งหลาย ยังคงเป็นที่ถกเถียงกันไม่จบไม่สิ้นว่าระบบเสียงแบบแอนะล็อกหรือดิจิทัลนั้นให้คุณภาพเสียงดีกว่ากัน แต่ผมเชื่อว่าหลายคนน่าจะเคยได้ยินได้ฟังโฆษณาที่พวกผู้ผลิตเครื่องเล่นมักจะชอบโม้กันว่า ระบบเสียงแบบดิจิทัลดีกว่า แต่จริงๆ แล้ว ว่ากันตามทฤษฎีนะครับ
- คลื่นเสียงแต่ดั้งแต่เดิมมันคือแอนะล็อกครับ มันคือต้นฉบับ จะมีอะไรที่คุณภาพดีไปกว่าต้นฉบับจริงไหมล่ะ? แต่ปัญหามันอยู่ที่ข้อมูลแบบแอนะล็อกมันมีจุดอ่อนตรงที่สูญหายไประหว่างทางได้ง่าย ไม่ว่าจะเกิดจากตัวสัญญาณมันอ่อนแรงจนจับไม่ได้ (ไอ้ครั้นจะใช้ตัวขยายสัญญาณช่วย มันก็ไปมีผลต่อคุณภาพอีก) หรือโดนคลื่นรบกวน ไหนจะมีปัญหาเรื่องข้อมูลสูญหายอันเกิดขึ้นระหว่างการทำซ้ำอีก ฉะนั้น การที่เราจะบอกว่าระบบเสียงแบบอะแนล็อกมันแย่กว่า ก็น่าจะมาจากสาเหตุนี้แหละ คือ เราไม่ได้ฟังสิ่งที่เป็น “ต้นฉบับ” จริงๆ ไง
- และด้วยข้อจำกัดของระบบแอนะล็อก ระบบดิจิทัลมันก็เลยเกิดขึ้นมา เมื่อแปลงสัญญาณแอนะล็อกเป็นดิจิทัล ให้เหลือแค่ 0 กับ 1 พร้อมกับเทคโนโลยีในการตรวจสอบข้อมูล เพื่อให้แน่ใจว่าสัญญาณดิจิทัลที่ได้รับมานั้นถูกต้องสมบูรณ์ คุณภาพของเสียงที่ได้ ก็เลย “ใกล้เคียง” ต้นฉบับที่สุดแล้ว นอกจากนี้ ระบบดิจิทัลมันยังไม่มีจุดอ่อนเรื่องสัญญาณอ่อนแรง เพราะใช้ตัวขยายสัญญาณช่วย มันก็ไม่กระทบต่อข้อมูล 0 กับ 1 และแน่นอนว่าพวกคลื่นรบกวนก็ไม่มีผลกระทบเช่นกัน การทำซ้ำก็ไม่ส่งผลต่อคุณภาพอีก
การแปลงสัญญาณแอนะล็อกเป็นดิจิทัล ดีไม่ดีอยู่ที่ Sampling rate กับ Bit depth
อย่างที่บอกไปเมื่อกี้ ข้อมูลเสียงที่เป็นดิจิทัล มันจะไม่ได้ดีเท่ากับต้นฉบับ แต่มันจะ “ใกล้เคียง” กับต้นฉบับ แล้วทีนี้มันจะใกล้เคียงมากหรือน้อยแค่ไหน ก็อยู่ที่สองปัจจัยหลักคือ Sampling rate กับ Bit depth ครับ สองตัวเนี้ยมันความสำคัญอย่างมากต่อการทำให้คุณภาพเสียงของสัญญาณดิจิทัลมีความใกล้เคียงกับต้นฉบับครับ
Sampling rate

คืองี้ ข้อมูลแบบแอนะล็อกมันเป็นข้อมูลที่มีความต่อเนื่องไปเรื่อยๆ เหมือนการลากเส้นโค้งเป็นคลื่นไปแบบรูปด้านบนนั่นแหละ แต่พอจะแปลงเป็นดิจิทัล มันต้องแทนที่ข้อมูลเหล่านั้นด้วยเลข 0 กับ 1 มันจะเหมือนกับการเอาแท่งสี่เหลี่ยมความสูงต่างๆ กัน ไปวางต่อๆ กัน เพื่อทำให้ออกมาเป็นคลื่นคล้ายๆ กับเส้นโค้งยึกยือ โดยคิดง่ายๆ แบบนี้ ให้จุดกึ่งกลางของแท่งอ่ะ มันไปแตะกับเส้นสัญญาณที่เป็นแอนะล็อกแบบในภาพ สมมติว่าผมให้ Sampling rate เป็น 5 การแปลงสัญญาณแอนะล็อกตอนแรกเป็นดิจิทัล ก็จะได้หน้าตาแบบด้านล่าง

จะเห็นว่ามันมีส่วนที่สัญญาณดิจิทัลมันเกินมา (ส่วนที่เส้นสีน้ำเงินอยู่ในแท่งสี่เหลี่ยม) กับส่วนที่สัญญาณดิจิทัลมันขาดหายไป (ส่วนที่เส้นสีน้ำเงินอยู่นอกแท่งสี่เหลี่ยม) นั่นคือ “ความผิดพลาด” ที่เกิดขึ้นในระหว่างการแปลงสัญญาณครับ ซึ่งมันจะลดน้อยลงไปได้ ถ้าเราเพิ่ม Sampling rate
ลองดูง่ายๆ ผมเพิ่ม Sampling rate จาก 5 มาเป็น 9 แบบในรูปด้านล่าง จะเห็นว่าแท่งสี่เหลี่ยมมันเริ่มมีความคล้ายคลึงกับเส้นโค้งที่เป็นแอนะล็อกมากขึ้นใช่ไหมล่ะ

ทฤษฎีบทที่ชื่อว่า Nyquist-Shannon sampling theorem เขาบอกว่าความถี่ในการทำ Sampling จะต้องมีค่าเป็นสองเท่า (หรือมากกว่าสองเท่า) ความถี่สูงสุดที่เราต้องการจะแปลงค่า ทีนี้หูคนเราเนี่ย ได้ยินความถี่ระหว่าง 20Hz ถึง 20,000Hz ดังนั้น Sampling rate ที่จะต้องใช้ ก็เลยควรจะเป็น 40kHz ขึ้นไปนั่นเอง ซึ่งตรงนี้ Sampling rate มาตรฐานของแผ่นเพลง CD อยู่ที่ 44.1kHz ครับ
Bit depth
จริงอยู่ว่าข้อมูลดิจิทัลมันมีแค่ 0 กับ 1 แต่มันไม่ได้หมายความว่าจะต้องเป็น 0 กับ 1 เฉยๆ เสมอไป การมีแค่ 0 กับ 1 แสดงว่าข้อมูลมันมีแค่บิตเดียวครับ มันเหมาะกับการเอาไว้ใช้แทนที่ “มี” กับ “ไม่มี” มากกว่า ซึ่งในการแปลงข้อมูลเสียงที่เป็นแอนะล็อกไปเป็นดิจิทัลด้วยการแทนที่แค่ “มี(เสียง)” กับ “ไม่มี(เสียง)” มันย่อมไม่สามารถทำได้ จึงจำเป็นต้องใช้จำนวนบิตให้มากกว่านั้นครับ
ให้นึกถึงกราฟเมื่อกี้ ตอนพูดถึง Sampling rate ครับ เอากราฟล่าสุดมาใช้ ที่ Sampling rate = 9 ซึ่งมันดูเหมือนกับว่าสามารถจำลองกราฟได้ใกล้เคียงต้นฉบับแอนะล็อกมาก แต่จริงๆ แล้วนั่นเพราะผมพยายามกำหนดความสูงให้แปรผันตามความสูงของกราฟเส้น แต่ในความเป็นจริง แต่ละบิตของข้อมูลดิจิทัลมันจะเท่ากัน ฉะนั้น ถ้าจะจำลองการแปลงข้อมูลจากแอนะล็อกเป็นดิทัล โดยให้ Sampling rate = 9 และ Bit depth = 3 จะได้กราฟออกมาแบบด้านล่างนี่ครับ

จะเห็นว่า Bit depth แค่ 3 เนี่ย มันแยกแยะความละเอียดของเสียงที่แตกต่างกันเพียงเล็กน้อยไม่ได้จริงๆ กราฟแท่งที่ 3-9 นี่มีขนาดเท่ากันเลย ทั้งๆ ที่สัญญาณในช่วงแท่ง 3 กับ 4 และ 7-9 มันแตกต่างกันอยู่ และนั่นแหละ คือสิ่งที่ทำให้ข้อมูลแอนะล็อกมันสูญหายไปตอนถูกแปลงมาเป็นดิจิทัลครับ ดังนั้น หากเราไม่ต้องการให้ข้อมูลมันจะสูญหายไปมาก เราก็ต้องเพิ่ม Bit depth เข้าไปให้มากครับ อย่างเช่นรูปด้านล่างนี่ ผมเพิ่ม Bit depth ให้เป็น 15 ผลที่ได้ก็คือ มันแยกแยะระดับความแตกต่างได้ดีขึ้น ความแตกต่างของสัญญาณในช่วงกราฟแท่ง 3 กับ 4 และ 7-9 ถูกแยกแยะออกมาได้แล้วในที่สุด

ซึ่งตรงเนี้ย ถ้าไฟล์เสียงใดมี Sampling rate สูง และ Bit depth มาก ก็จะยิ่งมีความละเอียดสูง และมีคุณภาพเสียงใกล้เคียงกับต้นฉบับจริงๆ มากที่สุด โอเคแมะ? ในยุคที่เรายังฟังเพลง CD กันอยู่ ตอนนั้นมาตรฐานคือ Sampling rate = 44.1kHz และ Bit depth = 16-bit ครับ
ไฟล์เสียงที่มีการบีบอัดข้อมูล และไม่มีการบีบอัดข้อมูล
ในยุคแรกๆ ไฟล์เสียงมีนามสกุลเป็น .wav ครับ (ก็ย่อมาจาก wave ที่แปลว่า คลื่น นั่นแหละ มันมาจาก Waveform audio file format) มันไม่มีการบีบอัดข้อมูลเลย ส่งผลให้ไฟล์มีขนาดใหญ่โคตรๆ (ในยุคนั้น) ซึ่งในยุคที่ฮาร์ดดิสก์ยังนับหน่วยกันเป็นเมกะไบต์ และยังคงใช้แผ่นฟล็อบปี้ดิสก์ 3.5 นิ้วความจุ 1.44MB กันอยู่ แฟลชไดร์ฟขนาด 8MB นี่ตัวนึงเกือบสองพันบาท แผ่น CD แผ่นนึง 780MB จุเพลงได้แค่ 14 เพลงโดยประมาณ ไฟล์นามสกุล .wav และ .aiff (Audio Interchange File Format) เป็นแบบไม่บีบอัดครับ ทั้ง .wav และ .aiff นี่สามารถเป็นไฟล์เสียงความละเอียดสูงได้ ถ้า Sampling rate กับ Bit depth สูงมากพอ
Lossy vs Lossless compression
แนวคิดในการบีบอัดข้อมูลก็เลยเกิดขึ้นมา เพื่อทำให้ขนาดของไฟล์เสียงลดลง ซึ่งตอนนั้นไฟล์ MP3 เป็นที่นิยมที่สุด เพราะสามารถบีบขนาดไฟล์ให้เล็กลงไปได้เป็นสิบเท่าเลยทีเดียว เพลง MP3 เพลงนึงนี่แบบว่า ขนาดแค่ 3-4MB เท่านั้น ส่งผลให้แผ่น CD แผ่นนึงจุเพลงได้เกือบ 200 เพลง แต่เพราะมันบีบอัดไปเยอะนี่แหละ เขาเลยเรียกมันว่า Lossy compression ครับ คือ บีบอัดแล้ว คุณภาพเสียงก็หายไปพอสมควร เพียงแต่ในยุคนั้นมันคืออะไรที่พอจะยอมรับได้ เพื่อแลกกับจำนวนเพลงที่จุได้มากขึ้น ไฟล์ .mp3 เราก็รู้จักกันอยู่แล้ว ส่วน .aac นี่ก็เจอกันบนค่าย Apple ที่ใช้กับเพลงจาก iTunes หรือ YouTube ครับ พวกนี้ไม่นับเป็นไฟล์เสียงความละเอียดสูงครับ
แต่เทคโนโลยีมันก็มีการพัฒนาต่อยอดไปเรื่อยๆ แล้วก็มีคนคิดอัลกอริทึ่มในการบีบอัดข้อมูล ที่เน้นการคงรักษาไว้ซึ่งคุณภาพของเสียงต้นฉบับ หรือเรียกว่าเป็น Lossless compression นั่นเอง ไฟล์นามสกุล .flac (มาจาก Free Lossless Audio Codec) หรือ .alac (Apple Lossless Audio Codec) คือตัวอย่างของไฟล์เสียงที่เป็น Lossless compression ครับ พวกนี้สามารถเป็นไฟล์เสียงความละเอียดสูงได้ หาก Sampling rate และ Bit depth สูงมากพอ
อะไรเป็นตัววัดว่าเป็นไฟล์เสียงความละเอียดสูงหรือไม่?
สมาคมอุตสาหกรรมบันทึกเสียงแห่งอเมริกา (Recording Industry Association of America หรือ RIAA), สมาคมสินค้าอิเล็กทรอนิกส์ (Consumer Electronics Association หรือ CEA), DEG: The Digital Entertainment Group, และ The Recording Academy Producers & Engineers Wing ได้ร่วมกันนิยามความหมายของ ไฟล์เสียงความละเอียดสูง ขึ้นมาในปี พ.ศ. 2557 ว่ามันคือ
ไฟล์เสียงแบบที่ปราศจากการสูญเสีย (Lossless) ที่สามารถสร้างสเปกตรัมของเสียงกลับคืนมาจากข้อมูลที่บันทึกต้นฉบับจากแหล่งเพลงเอาไว้ด้วยคุณภาพที่ดีกว่าแผ่น CD (48kHz/20-bit หรือดีกว่านั้น) ซึ่งเป็นสิ่งที่ศิลปิน ผู้ผลิต หรือวิศวกร ตั้งใจให้เป็นแบบนั้นเอาไว้ในตอนแรก
หรือถ้าจะเอาแบบเช็กง่ายๆ ก็คือ มันต้องประกอบไปด้วยสององค์ประกอบ คือ
- Sampling rate ตั้งแต่ 48kHz ขึ้นไป และมี Bit depth มากกว่า 20-bit ขึ้นไป
- คุณภาพเสียงที่ออกมา จะต้องได้เท่ากับที่ตัวศิลปิน ผู้ผลิต หรือ วิศวกรที่เป็นคนสร้างเสียงต้นฉบับ เขาตั้งใจเอาไว้ให้เป็น
จะฟังเพลงแบบความละเอียดสูง ก็ต้องมีเครื่องเล่น และหูฟังที่เหมาะสมด้วย
ไฟล์เสียงความละเอียดสูงเป็นแค่หนึ่งในสิ่งที่จำเป็นสำหรับการฟังเพลงความละเอียดสูงครับ ซึ่งเราก็ต้องรู้แหล่งที่เราจะไปซื้อเพลงพวกนั้นด้วยนะ … อย่างที่เห็นในตอนต้นเพลงที่ขายกันใน iTunes ยังไม่ใช่ไฟล์เพลงความละเอียดสูงครับ

จากนั้น ที่คุณต้องการเพิ่มก็คือ เครื่องเล่นเพลงที่รองรับการเล่นไฟล์เสียงความละเอียดสูงด้วย เช่น เครื่องเล่นเพลงพกพาโดยเฉพาะของ Sony อย่ารุ่น NW-A35 หรือถ้าใครต้องการสมาร์ทโฟน ก็อาจจะต้องไปดู LG V30/V30+ หรือ Samsung Galaxy Note 9 ไรงี้ (พวกเรือธงหลายๆ รุ่นก็จะสามารถเล่นไฟล์เพลงความละเอียดสูงได้) และสุดท้ายก็คือ หูฟัง ที่รองรับไฟล์เสียงความละเอียดสูงด้วยนั่นเอง ซึ่งทั้งเพลง เครื่องเล่น และหูฟังเนี่ย แต่ละตัวราคาก็ไม่ได้ถูกๆ นะครับ (ยังดีที่หูฟังอาจจะไม่ถูก แต่ก็ไม่ได้แพงมาก)
จำเป็นไหมที่จะต้องฟังเพลงแบบความละเอียดสูง?
ผมฟันธงให้ไม่ได้จริงๆ เพราะของแบบนี้ตัวใครตัวมัน แล้วแต่คนชอบ คนทั่วไปที่ไม่ได้หูเทพ อาจจะไม่ได้สังเกตถึงความแตกต่างระหว่างเพลงแบบทั่วไปกับเพลงแบบความละเอียดสูงด้วยซ้ำ ฉะนั้นคนกลุ่มนี้ก็ไม่ได้จำเป็นที่จะต้องฟังเพลงความละเอียดสูง แต่อาจจะเลือกที่จะฟังเพราะมันดูเท่ละมั้ง (ฮา) ในขณะที่พวกนักดนตรี หรือคนที่ชื่นชอบในการฟังเพลงแบบจริงจังอาจจะสังเกตความแตกต่างนั้นได้ สำหรับคนกลุ่มนี้ เขาได้ประโยชน์จากการฟังเพลงแบบความละเอียดสูงจริงๆ