Speex: 표현의 자유를 위한 무료 코덱
November 17 , 2021개요
Speex는 음성용으로 설계된 특허가 없는 오픈 소스/자유 소프트웨어 오디오 압축 형식입니다. Speex 프로젝트는 값비싼 독점 음성 코덱에 대한 무료 대안을 제공하여 음성 응용 프로그램의 진입 장벽을 낮추는 것을 목표로 합니다. 또한 Speex는 인터넷 응용 프로그램에 잘 적응하고 대부분의 다른 코덱에는 없는 유용한 기능을 제공합니다. 마지막으로, Speex는 GNU 프로젝트의 일부이며 수정된 BSD 라이선스에 따라 사용할 수 있습니다.
Speex는 VoIP(Voice over IP) 및 파일 기반 압축을 대상으로 합니다. 설계 목표는 고품질 음성 및 낮은 비트 전송률에 최적화된 코덱을 만드는 것이었습니다. 이를 달성하기 위해 코덱은 다중 비트 전송률을 사용하고 초광대역, 광대역 및 협대역을 지원합니다.. 코덱은 손실된 패킷에는 강력하지만 손상된 패킷에는 약한 것으로 결정됩니다. 이 모든 것이 Speex에 사용할 인코딩 기술로 CELP(코드 여기 선형 예측)를 선택하게 했습니다.
특징
샘플링 속도
Speex는 주로 8kHz(전화 통화 전송을 위한 동일한 샘플링 속도), 16kHz 및 32kHz의 세 가지 샘플링 속도를 위해 설계되었습니다. 이들은 각각 협대역, 광대역 및 초광대역이라고 합니다.
품질
Speex 인코딩은 대부분 0에서 10 사이의 품질 매개변수에 의해 제어됩니다. 고정 비트 전송률(CBR) 작업에서 품질 매개변수는 정수이고 가변 비트 전송률(VBR)의 경우 매개변수는 실수(부동 소수점) 숫자.
복잡성(변수)
Speex를 사용하면 인코더에 허용되는 복잡성을 변경할 수 있습니다. 이것은 gzip 압축 유틸리티의 -1 ~ -9 옵션과 유사한 방식으로 1 ~ 10 범위의 정수로 검색을 수행하는 방법을 제어하여 수행됩니다. 일반적인 사용의 경우 복잡도 1의 잡음 수준은 복잡도 10보다 1~2dB 높지만 복잡도 10에 대한 CPU 요구 사항은 복잡도 1보다 약 5배 높습니다. 2와 4,[13] DTMF 톤과 같은 비음성 사운드를 인코딩하거나 인코딩이 실시간이 아닌 경우 더 높은 설정이 종종 유용합니다.
가변 비트 전송률(VBR)
가변 비트 전송률(VBR)을 사용하면 코덱이 인코딩되는 오디오의 "난이도"에 맞게 비트 전송률을 동적으로 변경할 수 있습니다. Speex의 예에서 모음 및 고에너지 과도음과 같은 소리는 좋은 품질을 얻기 위해 더 높은 비트 전송률이 필요하지만 마찰음(예: s 및 f 소리)은 더 적은 비트로 적절하게 코딩할 수 있습니다. 이러한 이유로 VBR은 동일한 품질에 대해 더 낮은 비트 전송률을 달성하거나 특정 비트 전송률에 대해 더 나은 품질을 얻을 수 있습니다. 장점에도 불구하고 VBR에는 세 가지 주요 단점이 있습니다. 첫째, 품질만 지정하면 최종 평균 비트 전송률에 대해 보장할 수 없습니다. 둘째, VoIP(Voice over IP)와 같은 일부 실시간 응용 프로그램의 경우 중요한 것은 통신 채널에 대해 충분히 낮아야 하는 최대 비트 전송률입니다. 셋째, VBR로 인코딩된 음성의 암호화는 비트 전송률의 변화 패턴을 분석하여[14] 최소한 작은 구문 사전이 있는 통제된 설정에서 구문을 식별할 수 있으므로 완전한 개인 정보 보호를 보장하지 않을 수 있습니다.
평균 비트 전송률(ABR)
평균 비트 전송률은 특정 목표 비트 전송률을 충족하기 위해 VBR 품질을 동적으로 조정하므로 VBR의 문제 중 하나를 해결합니다. 품질/비트 전송률이 실시간(개방형 루프)으로 조정되기 때문에 전체 품질은 목표 평균 비트 전송률을 충족하기 위해 정확히 올바른 품질 설정으로 VBR로 인코딩하여 얻은 것보다 약간 낮습니다.
음성 활동 감지(VAD)
활성화되면 음성 활동 감지는 인코딩되는 오디오가 음성인지 무음/배경 소음인지 감지합니다. VAD는 VBR로 인코딩할 때 항상 암시적으로 활성화되므로 이 옵션은 VBR이 아닌 작업에서만 유용합니다. 이 경우 Speex는 비음성 기간을 감지하고 배경 잡음을 재현하기에 충분한 비트로 인코딩합니다. 이것을 "편안한 소음 발생"(CNG)이라고 합니다. VAD가 제대로 작동했던 마지막 버전은 1.1.12입니다. v 1.2 이후에는 간단한 모든 활동 감지로 대체되었습니다.
불연속 전송(DTX)
불연속 전송은 배경 잡음이 정지할 때 전송을 완전히 중단할 수 있는 VAD/VBR 작동에 추가됩니다. 파일에서 누락된 각 프레임에 대해 5비트가 사용됩니다(250비트/초에 해당).
지각 향상
지각 향상은 켜졌을 때 코딩/디코딩 프로세스에 의해 생성된 노이즈를 줄이려고(인지) 시도하는 디코더의 일부입니다. 대부분의 경우 지각 향상은 객관적으로 원래의 소리를 더 멀리 만들지만(신호 대 잡음비), 결국에는 여전히 더 좋게 들립니다(주관적 개선).
알고리즘 지연
모든 코덱은 전송 지연을 초래합니다. Speex의 경우 이 지연은 프레임 크기에 각 프레임을 처리하는 데 필요한 "미리보기"를 더한 것과 같습니다. 협대역 작동(8kHz)에서는 지연이 30ms이고 광대역(16kHz)에서는 지연이 34ms입니다. 이 값은 프레임을 인코딩하거나 디코딩하는 데 걸리는 CPU 시간을 고려하지 않습니다.
TONMIND, 디자이너 및 제조업체IPS 피커 2014년부터. SIP 스피커 Speex 오디오 처리를 적용하여 음질을 향상시켰습니다.
우리의 IP 페이징 스피커 코덱 포함 OPUS, G711U, G711A, G722, GSM, MP1, MP2, MP3, WAV, LPCM s16le. 다양한 코덱도 뛰어난 음질을 보장합니다.
마음에 SIP 스피커 학교, 상업용 캔터, 고객 서비스 센터, 호텔, 병원, 대형 공연장 등 다양한 적용 사례에 적용할 수 있습니다. 사용자는 SIP 스피커를 IPPBX 또는 R&D 팀에서 개발한 PA 시스템 소프트웨어와 연결할 수 있습니다. . 또한 RTP 멀티캐스팅을 통해 Axis 소프트웨어와 함께 작동할 수도 있습니다.
Tonmind 핵심 강점에는 다음이 포함됩니다.
• 10년 이상의 VoIP 오디오 및 비디오 경험
• 독점적인 기술 지원 .
• 잘 훈련된 고객 팀.
• 고객 지향.
• 빠른 시장 대응.
태그 :