스마트폰 MEMS 마이크 (노이즈 캔슬링, AI 음성 인식, 수음 성능 분석)

스마트폰 음질 차이가 전부 스피커 때문이라고 생각했습니다. 그런데 공연장에서 영상을 찍다가 소리가 뭉개지는 경험을 반복하면서, 문제가 마이크 쪽에 있다는 걸 뒤늦게 깨달았습니다. 스마트폰 마이크 구조는 통화 품질뿐 아니라 영상 음질, 음성 인식 정확도까지 모두 영향을 줍니다.

같은 장소에서 촬영했는데도 어떤 스마트폰은 목소리가 또렷하게 들리고, 어떤 기기는 주변 소음에 묻혀버리는 경우가 있습니다. 처음에는 단순한 앱 차이인 줄 알았는데, 실제로는 마이크 배치 구조와 소음 처리 방식 차이가 더 큰 원인이었습니다.

다중 마이크 구조가 만드는 소리의 차이

처음 이 차이를 크게 느낀 건 카페에서 통화를 하던 날이었습니다. 상대방이 계속 주변 소음 때문에 목소리가 잘 안 들린다고 했는데, 당시 사용하던 기기는 오래된 보급형 모델이었습니다. 그런데 기기를 바꾼 뒤 같은 환경에서 통화해보니 반응이 완전히 달랐습니다.

최근 스마트폰 대부분은 MEMS(Micro-Electro-Mechanical Systems) 마이크를 사용합니다. MEMS는 초소형 기계 구조를 반도체 공정으로 제작한 부품으로, 내부 공간이 좁은 스마트폰에 적합한 방식입니다.

이 구조 덕분에 스마트폰에는 여러 개의 마이크를 동시에 배치할 수 있게 됐습니다. 현재 플래그십 스마트폰은 보통 상단, 하단, 후면 근처까지 포함해 3개 이상의 마이크를 탑재하는 경우가 많습니다.

여러 위치에서 소리를 동시에 수집하면 빔포밍(Beamforming) 기술을 사용할 수 있습니다. 빔포밍은 여러 마이크 입력을 비교해 특정 방향의 음성을 강조하고 주변 잡음을 줄이는 방식입니다. 쉽게 말해 사용자의 목소리는 더 선명하게 만들고, 주변 소음은 상대적으로 억제하는 구조입니다.

실제로 차이가 꽤 큽니다. 제가 직접 비교해봤을 때는 통화보다 영상 촬영에서 체감이 더 크게 느껴졌습니다.

다만 한 가지 놓치기 쉬운 부분도 있습니다. 게임을 하거나 영상을 찍을 때 손가락이 마이크 위치를 가리는 경우입니다. 저도 가로로 폰을 잡고 촬영하다가 소리가 갑자기 먹먹하게 녹음된 적이 있었는데, 확인해보니 손이 하단 마이크를 막고 있었습니다. 마이크 위치를 한 번쯤 알아두는 게 생각보다 중요합니다.

노이즈 캔슬링 성능이 체감 품질을 좌우한다

브이로그를 찍기 시작하면서 노이즈 캔슬링 차이를 더 민감하게 느끼게 됐습니다. 야외에서 걸어가며 촬영한 영상을 들어보면 어떤 기기는 목소리가 또렷한데, 어떤 기기는 바람 소리가 지나치게 크게 녹음됐습니다.

다중 마이크 기반 노이즈 캔슬링은 각 마이크가 수집한 신호를 비교해 공통으로 들어오는 소음을 줄이는 방식입니다. 주변 환경 소음을 분석한 뒤 음성 영역만 상대적으로 강조하는 구조입니다.

마이크 개수가 적거나 배치 간격이 좁으면 이런 비교 작업 자체가 부정확해질 수 있습니다. 결국 같은 환경에서도 통화 품질이나 영상 음질 차이가 생깁니다.

공연장처럼 저음이 강한 공간에서는 차이가 더 크게 드러납니다. MEMS 마이크 내부 진동판(Diaphragm)이 강한 저음 압력을 계속 받으면 소리가 뭉개지거나 찢어지는 느낌이 생기기도 합니다.

생각보다 소프트웨어 영향도 큽니다. 같은 기기인데도 업데이트 이후 통화 품질이나 영상 음질 느낌이 달라지는 경우가 실제로 존재합니다.

방수 설계 역시 음질에 영향을 줄 수 있습니다. 방수 스마트폰은 마이크 입구에 방수 메시(Mesh)나 멤브레인 구조가 추가되는데, 이 과정에서 일부 고음 영역 전달 특성이 달라질 수 있습니다. 제가 직접 사용했을 때도 방수 성능이 강한 기기들은 목소리가 약간 먹먹하게 들리는 느낌이 있었습니다.

통화 품질 평가는 국제전기통신연합의 ITU-T P.800 기준이 자주 활용됩니다. 제조사들도 통화 음질 테스트 과정에서 이 기준을 참고합니다.

AI 음성 인식 정확도까지 마이크가 결정한다

음성 인식 기능에서도 마이크 성능 차이는 꽤 크게 체감됩니다. 예전에는 같은 말을 여러 번 반복해야 인식되는 경우가 많았는데, 기기를 바꾼 뒤에는 한 번에 인식되는 비율이 눈에 띄게 올라갔습니다.

최근 스마트폰은 AI 기반 음성 처리 기능을 함께 사용합니다. 여기서 중요한 개념이 신호 대 잡음비(SNR, Signal-to-Noise Ratio)입니다. 쉽게 말하면 목소리 신호와 주변 잡음의 비율을 의미합니다.

SNR이 높을수록 음성 인식 엔진은 사용자의 목소리를 더 정확하게 구분할 수 있습니다. 반대로 마이크 자체 성능이 낮으면 AI 처리 성능이 좋아도 인식 오류가 늘어날 가능성이 있습니다.

실제 음성 인식 오류가 자주 발생하는 상황은 아래와 같습니다.

  1. 카페나 거리처럼 주변 소음이 큰 환경
  2. 손으로 마이크 부분을 가린 상태
  3. 저가형 기기의 연속 음성 인식 환경
  4. 실내 반향음(Echo)이 심한 공간

제가 써봤을 때는 저가형 기기에서 음성 메모 기능 차이가 특히 크게 느껴졌습니다. 중요한 단어가 통째로 누락되는 경우도 있었는데, 상위 기기에서는 같은 앱을 사용해도 훨씬 안정적으로 인식됐습니다.

[ETSI TS 126 131] 규격 역시 스마트폰 음성 처리와 통화 품질 기준을 다루고 있습니다. 실제 체감은 기기마다 다를 수 있지만, 마이크 성능 차이가 단순 느낌만은 아니라는 점을 보여주는 자료입니다.

결국 스마트폰 마이크는 단순 부품 하나가 아니라 마이크 배치, 노이즈 캔슬링, AI 음성 처리까지 함께 연결된 구조입니다. 통화 품질이나 영상 촬영 음질을 중요하게 생각한다면 스피커뿐 아니라 마이크 구조와 소음 처리 성능도 함께 확인해보는 것이 좋습니다. 다음 스마트폰을 고를 때 의외로 만족도 차이를 크게 만드는 부분이 될 수 있습니다.

(ETSI TS 126 131: 유럽 통신 표준 기관인 ETSI(European Telecommunications Standards Institute)가 만든 스마트폰 통화 음질 관련 기술 표준 문서)

스마트폰 관련 글 더보기

이 블로그의 인기 게시물

스마트폰 햅틱 기술 (진동 모터, 촉각 피드백, LRA 방식)

스마트폰 자동 앱 실행되는 이유와 끄는 방법 (백그라운드 관리와 성능 유지 기준)