chatgpt識別語音 python語音識別whisper
一、背景
最近想提取一些視頻的字幕,語音文案chatgpt識別語音,研究了一波
二、語音識別
是一種通用的語音識別模型。它在不同音頻的大型數據集上進行訓練,也是一個多任務模型,可以執行多語言語音識別以及語音翻譯和語言識別。
-ts在 的 之上修改并添加了更大的破解代碼發布,生成更準確的階段時間切換,并在無須額外推介的情況下獲得申領
三、示例
模型越大,越精確chatgpt識別語音,相應話費的時間越長
自帶語言識別功能,最好加上chatgpt識別語音,下面歌曲識別為英語,加后為中文
是 進化版
import whisper
import stable_whisper as whisperclass WhisperTranscriber(object):def __init__(self, model_name):self.model = whisper.load_model(model_name)def whisper_transcribe(self, audio_path):audio = self.model.transcribe(audio_path, fp16=False, language='Chinese')return audio['text']if __name__ == '__main__':transcriber = WhisperTranscriber("base")text = transcriber.whisper_transcribe("257853511.mp3")print(text)
可能是伴奏聲音過大,你才出來這是什么歌了嗎?
別的用法、生成字幕
import stable_whisper
model = stable_whisper.load_model('base')
results = model.transcribe('257853511.mp3', fp16=False, language='Chinese')
stable_whisper.results_to_sentence_srt(results, 'audio')
stable_whisper.results_to_sentence_word_ass(results, 'audio.ass')
四、封裝工具
buzz
如果遇到簡繁轉換可以石下面
pip install zhconvzh-cn 大陸簡體
zh-hant 繁體from zhconv import convert
convert('Python是一種動態的、面向對象的腳本語言', 'zh-hant')
'Python是一種動態的、面向對象的腳本語言'
免責聲明:本文系轉載,版權歸原作者所有;旨在傳遞信息,不代表本站的觀點和立場和對其真實性負責。如需轉載,請聯系原作者。如果來源標注有誤或侵犯了您的合法權益或者其他問題不想在本站發布,來信即刪。
聲明:本站所有文章資源內容,如無特殊說明或標注,均為采集網絡資源。如若本站內容侵犯了原著者的合法權益,可聯系本站刪除。