Python/음성처리
-
[Bark] 딥러닝 TTS 모델 🐶Bark를 이용해 파이썬으로 말하는 AI 만들어보기Python/음성처리 2025. 3. 5. 09:15
딥러닝 TTS 모델 🐶Bark를 이용해 말하는 AI 만들어보기이 글은 깃허브의 suno-ai/bark 문서를 번역 및 재구성해 작성했습니다. 생성된 결과물 또한 해당 URL에서 들어볼 수 있습니다.흔히들 TTS라고 말하는 Text-to-Speech 모델이 있습니다. 이 모델은 글자로 적혀 있는 말은 사람이 말하는 것과 같이 음성 합성을 해 주는 모델인데요, 옛날에는 청각장애인을 위한 보조 기능에 머물러 있었지만 지금은 사용 범위가 확장되었습니다. 예를 들어, 화면이 없는 IoT 기기에서 음성 피드백을 주거나 AI 비서 서비스들의 상호작용에 이용되곤 하지요. 이번에는 파이썬(Python)을 이용해서, Suno AI에서 제공하는 오픈소스 딥러닝 TTS 모델인 🐶Bark를 이용해 보는 방법을 알아보겠습니다..
-
[gTTS] 파이썬을 이용한 음성 합성 프로그램 만들기Python/음성처리 2024. 8. 1. 17:31
gTTS를 이용한 음성 합성 프로그램 만들기음성 합성을 위해서는 TTS(Text to Speech) 프로그램을 사용하는 것이 일반적입니다. 최근에는 딥러닝 기반의 음성 합성 프로그램도 많이 출시되었지만, 자연스러움이 조금 덜해도 단순히 글을 읽어주는 정도면 괜찮다면 요구사항이 낮고 빠르게 생성할 수 있는 TTS만한 선택지가 없지요. 이번에는 gTTS(Google Text-to-Speech)와 파이썬(Python) 및 CLI 명령어를 이용해서 간단한 TTS 프로그램 구현을 해 보겠습니다. gTTS 설치gTTS의 이용을 위해서는, pip를 이용해 해당 패키지 설치를 해 줘야 합니다. 설치 명령어는 pip install gtts 입니다. CLI를 이용한 gTTS 실행패키지 설치 후에는, 파이썬 또는 CLI..
-
[Transformers] 음성 텍스트 변환 모델 whisper 알아보기 (Automatic Speech Recognition)Python/음성처리 2024. 5. 9. 14:26
음성 텍스트 변환 모델 알아보기 (Automatic Speech Recognition)딥러닝 기술 중 상업적으로 자주 사용되는 모델은 대표적으로 음성 인식 모델을 꼽을 수 있습니다. 음성 인식 모델, 혹은 음성 텍스트 변환 모델이라고 부르는 Automatic Speech Recognition(ASR)은 옛날에는 Speech to Text라는 이름으로 알려졌던 모델입니다. 이 모델은 우리가 일상생활에서 말하는 ARS, 홈쇼핑 전화의 주소 인식 모델, 장애인을 위한 자동 자막 생성 기술 등 여러 분야에서 이미 활용되고 있지요. 이번에는 OpenAI에서 제작한 whisper 모델을 활용해 파이썬으로 음성 텍스트 변환 프로그램을 구현해 보도록 하겠습니다. OpenAI whisperwhisper 모델은 대표적인..