一、背景

最近想提取一些視頻的字幕,語音文案chatgpt識別語音,研究了一波

二、語音識別

是一種通用的語音識別模型。它在不同音頻的大型數(shù)據(jù)集上進行訓(xùn)練,也是一個多任務(wù)模型,可以執(zhí)行多語言語音識別以及語音翻譯和語言識別。

-ts在 的 之上修改并添加了更大的破解代碼發(fā)布,生成更準確的階段時間切換,并在無須額外推介的情況下獲得申領(lǐng)

三、示例

模型越大,越精確chatgpt識別語音,相應(yīng)話費的時間越長

自帶語言識別功能,最好加上chatgpt識別語音,下面歌曲識別為英語,加后為中文

是 進化版

import whisper
import stable_whisper as whisperclass WhisperTranscriber(object):def __init__(self, model_name):self.model = whisper.load_model(model_name)def whisper_transcribe(self, audio_path):audio = self.model.transcribe(audio_path, fp16=False, language='Chinese')return audio['text']if __name__ == '__main__':transcriber = WhisperTranscriber("base")text = transcriber.whisper_transcribe("257853511.mp3")print(text)

可能是伴奏聲音過大,你才出來這是什么歌了嗎?

別的用法、生成字幕

import stable_whisper
model = stable_whisper.load_model('base')
results = model.transcribe('257853511.mp3', fp16=False, language='Chinese')
stable_whisper.results_to_sentence_srt(results, 'audio')
stable_whisper.results_to_sentence_word_ass(results, 'audio.ass')

四、封裝工具

buzz

如果遇到簡繁轉(zhuǎn)換可以石下面
pip install zhconvzh-cn 大陸簡體
zh-hant 繁體from zhconv import convert     
convert('Python是一種動態(tài)的、面向?qū)ο蟮哪_本語言', 'zh-hant')
'Python是一種動態(tài)的、面向?qū)ο蟮哪_本語言'

免責(zé)聲明:本文系轉(zhuǎn)載,版權(quán)歸原作者所有;旨在傳遞信息,不代表本站的觀點和立場和對其真實性負責(zé)。如需轉(zhuǎn)載,請聯(lián)系原作者。如果來源標注有誤或侵犯了您的合法權(quán)益或者其他問題不想在本站發(fā)布,來信即刪。