隨著在 上提交的大量新視頻,很容易感到挑戰(zhàn)并努力跟上我想看的一切。我可以與我每天將視頻添加到“稍后觀看”列表中的經(jīng)歷聯(lián)系起來(lái)chatgpt生成視頻文本,只是為了讓列表變得越來(lái)越長(zhǎng),實(shí)際上并沒(méi)有稍后再看。現(xiàn)在,像 或 這樣的大型語(yǔ)言模型為這個(gè)長(zhǎng)期問(wèn)題提供了一個(gè)潛在的解決方案。

通過(guò)將數(shù)小時(shí)的視頻內(nèi)容轉(zhuǎn)換為幾行準(zhǔn)確的摘要文本,視頻摘要器可以快速為我們提供視頻的要點(diǎn),這樣我們就不必花費(fèi)大量時(shí)間來(lái)完整觀看它。在我創(chuàng)建這個(gè)網(wǎng)絡(luò)應(yīng)用程序之后,我最常使用的場(chǎng)景是參考它的摘要來(lái)決定某個(gè)視頻是否值得觀看,尤其是那些輔導(dǎo)、脫口秀或演示視頻。

你可以通過(guò)多種方式使用強(qiáng)大的語(yǔ)言模型來(lái)完成此視頻摘要。

一種選擇是使用或設(shè)計(jì) 插件,它可以將令人難以置信的 AI 連接到實(shí)時(shí) 網(wǎng)站。但是,只有少數(shù)商業(yè)開(kāi)發(fā)人員可以訪問(wèn) 插件,因此這對(duì)包括我在內(nèi)的所有人來(lái)說(shuō)可能不是最可行的途徑。

另一種選擇是下載視頻的抄本(字幕)并將其附加到提示中,然后要求語(yǔ)言模型通過(guò)發(fā)送提示來(lái)總結(jié)抄本文本。然而,這種方法有一個(gè)很大的缺點(diǎn)——你不能總結(jié)一個(gè)包含超過(guò) 4096 個(gè)標(biāo)記的視頻,這對(duì)于一個(gè)普通的談話節(jié)目來(lái)說(shuō)通常是 7 分鐘左右。

一個(gè)更有前途的選擇是使用上下文學(xué)習(xí)技術(shù)對(duì)轉(zhuǎn)錄本進(jìn)行向量化,并使用向量向語(yǔ)言模型提示“摘要”查詢。這種方法可以生成準(zhǔn)確的答案,指示轉(zhuǎn)錄文本的摘要,并且不限制視頻長(zhǎng)度。

如果你有興趣開(kāi)發(fā)自己的上下文學(xué)習(xí)應(yīng)用程序,我之前關(guān)于構(gòu)建聊天機(jī)器人以學(xué)習(xí)和聊天文檔的文章提供了一個(gè)很好的起點(diǎn)。通過(guò)一些細(xì)微的修改,我們可以應(yīng)用相同的方法來(lái)創(chuàng)建我們自己的視頻摘要器。在本文中,我將逐步指導(dǎo)你完成開(kāi)發(fā)過(guò)程,以便你了解并復(fù)制自己的視頻摘要器。

1、功能框圖

在這個(gè) 應(yīng)用程序中,我們以-為基礎(chǔ),開(kāi)發(fā)了一個(gè) web應(yīng)用程序,為用戶提供視頻URL的輸入以及屏幕截圖、文字記錄和摘要內(nèi)容的顯示。使用 工具包,我們不必?fù)?dān)心 中的 API 調(diào)用,因?yàn)閷?duì)嵌入使用的復(fù)雜性或提示大小限制的擔(dān)憂很容易被其內(nèi)部數(shù)據(jù)結(jié)構(gòu)和 LLM 任務(wù)管理所覆蓋。

你有沒(méi)有想過(guò)為什么我在讓 LLM 生成摘要時(shí)設(shè)計(jì)了幾個(gè)查詢而不是一個(gè)用于轉(zhuǎn)錄文本處理的查詢?答案在于情境學(xué)習(xí)過(guò)程。當(dāng)文檔被送入 LLM 時(shí),它會(huì)根據(jù)其大小分成塊或節(jié)點(diǎn)。然后將這些塊轉(zhuǎn)換為嵌入并存儲(chǔ)為向量。

當(dāng)提示用戶查詢時(shí),模型將搜索向量存儲(chǔ)以找到最相關(guān)的塊并根據(jù)這些特定塊生成答案。例如chatgpt生成視頻文本,如果你在大型文檔(如 20 分鐘的視頻轉(zhuǎn)錄本)上查詢“文章摘要”,模型可能只會(huì)生成最后 5 分鐘的摘要,因?yàn)樽詈笠粔K與上下文最相關(guān) 的“總結(jié)”。

為了說(shuō)明這個(gè)概念,請(qǐng)看下面的圖表:

chatgpt生成視頻文本_chatgpt生成視頻文本_chatgpt生成視頻文本

通過(guò)設(shè)計(jì)多個(gè)查詢,我們可以促使 LLM 生成更全面的摘要,涵蓋整個(gè)文檔。我將在本文后面更深入地組織多個(gè)查詢。

從第2章到第5章,我將重點(diǎn)介紹本項(xiàng)目中使用到的所有模塊的基礎(chǔ)知識(shí)和典型用法介紹。如果你愿意在沒(méi)有這些技術(shù)背景的情況下立即開(kāi)始編寫(xiě)整個(gè) 應(yīng)用程序,建議你轉(zhuǎn)到第 6 章。

2、 視頻轉(zhuǎn)錄文本

總結(jié) 視頻的第一步是下載轉(zhuǎn)錄文本。有一個(gè)名為 -tran-api 的開(kāi)源 庫(kù)可以完美滿足我們的要求。

使用如下命令安裝模塊后,

chatgpt生成視頻文本_chatgpt生成視頻文本_chatgpt生成視頻文本

當(dāng)視頻提供英語(yǔ)以外的其他語(yǔ)言時(shí),可以將它們添加到參數(shù)語(yǔ)言中,該參數(shù)語(yǔ)言作為包含不同語(yǔ)言的列表。

該庫(kù)還提供“”方法來(lái)生成具有定義格式的轉(zhuǎn)錄數(shù)據(jù)。在這種情況下,我們只需要 JSON 格式即可進(jìn)行進(jìn)一步的步驟。

通過(guò)運(yùn)行上面的代碼,你會(huì)看到像這樣的一個(gè)像樣的轉(zhuǎn)錄文本:

chatgpt生成視頻文本_chatgpt生成視頻文本_chatgpt生成視頻文本

4、

是一個(gè) 庫(kù),充當(dāng)用戶私有數(shù)據(jù)和大型語(yǔ)言模型 (LLM) 之間的接口。它有幾個(gè)對(duì)開(kāi)發(fā)人員有用的功能,包括連接到各種數(shù)據(jù)源、處理提示限制、創(chuàng)建語(yǔ)言數(shù)據(jù)索引、將提示插入數(shù)據(jù)、將文本拆分為更小的塊以及提供查詢索引的接口的能力 . 借助 ,開(kāi)發(fā)人員無(wú)需實(shí)施數(shù)據(jù)轉(zhuǎn)換即可將現(xiàn)有數(shù)據(jù)用于 LLM,管理 LLM 與數(shù)據(jù)的交互方式,并提高 LLM 的性能。

可以在此處查看完整的文檔。

以下是使用 的一般步驟:

安裝包:

r 是 工具集中的文件加載器之一。它支持在用戶提供的文件夾下加載多個(gè)文件,在本例中,它是子文件夾“./data/”。這個(gè)神奇的加載器功能可以支持解析各種文件類(lèi)型,如.pdf、.jpg、.png、.docx等,讓您不必自己將文件轉(zhuǎn)換為文本。在我們的應(yīng)用程序中,我們只加載一個(gè)文本文件 (.json) 來(lái)包含視頻轉(zhuǎn)錄數(shù)據(jù)

— 構(gòu)建索引

5、Web開(kāi)發(fā)

與我文章中之前的項(xiàng)目一樣,我們將繼續(xù)使用方便的 工具集來(lái)構(gòu)建 應(yīng)用程序。

是一個(gè)開(kāi)源的 庫(kù),有助于創(chuàng)建交互式 Web 應(yīng)用程序。它的主要目的是供數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)工程師用來(lái)與他人分享他們的工作。借助 ,開(kāi)發(fā)人員可以使用最少的代碼創(chuàng)建應(yīng)用程序,并且可以使用單個(gè)命令輕松地將它們部署到 Web。

它提供了多種可用于創(chuàng)建交互式應(yīng)用程序的小部件。這些小部件包括按鈕、文本框、滑塊和圖表。可以從其官方文檔中找到所有小部件的用法。

Web 應(yīng)用程序的典型 代碼可以像下面這樣簡(jiǎn)單:

chatgpt生成視頻文本_chatgpt生成視頻文本_chatgpt生成視頻文本

chatgpt生成視頻文本_chatgpt生成視頻文本_chatgpt生成視頻文本

chatgpt生成視頻文本_chatgpt生成視頻文本_chatgpt生成視頻文本

chatgpt生成視頻文本_chatgpt生成視頻文本_chatgpt生成視頻文本

chatgpt生成視頻文本_chatgpt生成視頻文本_chatgpt生成視頻文本

chatgpt生成視頻文本_chatgpt生成視頻文本_chatgpt生成視頻文本

將代碼保存到 文件“demo.py”,創(chuàng)建一個(gè) ./data/ 文件夾,然后運(yùn)行命令:

! -m run demo.py

現(xiàn)已準(zhǔn)備就緒,能夠簡(jiǎn)單而有效地執(zhí)行其任務(wù)。

注意——請(qǐng)從一段短視頻開(kāi)始測(cè)試,因?yàn)殚L(zhǎng)視頻會(huì)花費(fèi)你大量的 API 使用費(fèi)。在繼續(xù)之前,還請(qǐng)檢查視頻是否啟用文本轉(zhuǎn)錄。

機(jī)器學(xué)習(xí)算法AI大數(shù)據(jù)技術(shù)

搜索公眾號(hào)添加:

閱讀過(guò)本文的人還看了以下文章:

2.0深度學(xué)習(xí)案例實(shí)戰(zhàn)

基于40萬(wàn)表格數(shù)據(jù)集,用做表格檢測(cè)

《基于深度學(xué)習(xí)的自然語(yǔ)言處理》中/英PDF

Deep 中文版初版-周志華團(tuán)隊(duì)

【全套視頻課】最全的目標(biāo)檢測(cè)算法系列講解,通俗易懂!

《美團(tuán)機(jī)器學(xué)習(xí)實(shí)踐》_美團(tuán)算法團(tuán)隊(duì).pdf

《深度學(xué)習(xí)入門(mén):基于的理論與實(shí)現(xiàn)》高清中文PDF+源碼

《深度學(xué)習(xí):基于的實(shí)踐》PDF和代碼

特征提取與圖像處理(第二版).pdf

就業(yè)班學(xué)習(xí)視頻,從入門(mén)到實(shí)戰(zhàn)項(xiàng)目

2019最新《自然語(yǔ)言處理》英、中文版PDF+源碼

《21個(gè)項(xiàng)目玩轉(zhuǎn)深度學(xué)習(xí):基于的實(shí)踐詳解》完整版PDF+附書(shū)代碼

《深度學(xué)習(xí)之》pdf+附書(shū)源碼

深度學(xué)習(xí)快速實(shí)戰(zhàn)入門(mén)《-》

【下載】豆瓣評(píng)分8.1,《機(jī)器學(xué)習(xí)實(shí)戰(zhàn):基于-和》

《數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》PDF+完整源碼

汽車(chē)行業(yè)完整知識(shí)圖譜項(xiàng)目實(shí)戰(zhàn)視頻(全23課)

李沐大神開(kāi)源《動(dòng)手學(xué)深度學(xué)習(xí)》,加州伯克利深度學(xué)習(xí)(2019春)教材

筆記、代碼清晰易懂!李航《統(tǒng)計(jì)學(xué)習(xí)方法》最新資源全套!

《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》最新2018版中英PDF+源碼

將機(jī)器學(xué)習(xí)模型部署為REST API

檢測(cè)出圖像中的不規(guī)則漢字

同樣是機(jī)器學(xué)習(xí)算法工程師chatgpt生成視頻文本,你的面試為什么過(guò)不了?

前海征信大數(shù)據(jù)算法:風(fēng)險(xiǎn)概率預(yù)測(cè)

【】完整實(shí)現(xiàn)‘交通標(biāo)志’分類(lèi)、‘票據(jù)’分類(lèi)兩個(gè)項(xiàng)目,讓你掌握深度學(xué)習(xí)圖像分類(lèi)

特征工程(一)

特征工程(二) :文本數(shù)據(jù)的展開(kāi)、過(guò)濾和分塊

特征工程(三):特征縮放,從詞袋到 TF-IDF

特征工程(四): 類(lèi)別特征

特征工程(五): PCA 降維

特征工程(六): 非線性特征提取和模型堆疊

特征工程(七):圖像特征提取和深度學(xué)習(xí)

如何利用全新的決策樹(shù)集成級(jí)聯(lián)結(jié)構(gòu)做特征工程并打分?

中文翻譯稿

螞蟻金服2018秋招-算法工程師(共四面)通過(guò)

全球AI挑戰(zhàn)-場(chǎng)景分類(lèi)的比賽源碼(多模型融合)

斯坦福官方指南:CNN、RNN及使用技巧速查(打印收藏)

中科院全球文本匹配競(jìng)賽華人第1名團(tuán)隊(duì)-深度學(xué)習(xí)與特征工程

不斷更新資源

深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、數(shù)據(jù)分析、

搜索公眾號(hào)添加: