基于ChatGPT的視頻智能摘要實(shí)戰(zhàn)
隨著在 上提交的大量新視頻,很容易感到挑戰(zhàn)并努力跟上我想看的一切。我可以與我每天將視頻添加到“稍后觀看”列表中的經(jīng)歷聯(lián)系起來(lái)chatgpt生成視頻文本,只是為了讓列表變得越來(lái)越長(zhǎng),實(shí)際上并沒(méi)有稍后再看。現(xiàn)在,像 或 這樣的大型語(yǔ)言模型為這個(gè)長(zhǎng)期問(wèn)題提供了一個(gè)潛在的解決方案。
通過(guò)將數(shù)小時(shí)的視頻內(nèi)容轉(zhuǎn)換為幾行準(zhǔn)確的摘要文本,視頻摘要器可以快速為我們提供視頻的要點(diǎn),這樣我們就不必花費(fèi)大量時(shí)間來(lái)完整觀看它。在我創(chuàng)建這個(gè)網(wǎng)絡(luò)應(yīng)用程序之后,我最常使用的場(chǎng)景是參考它的摘要來(lái)決定某個(gè)視頻是否值得觀看,尤其是那些輔導(dǎo)、脫口秀或演示視頻。
你可以通過(guò)多種方式使用強(qiáng)大的語(yǔ)言模型來(lái)完成此視頻摘要。
一種選擇是使用或設(shè)計(jì) 插件,它可以將令人難以置信的 AI 連接到實(shí)時(shí) 網(wǎng)站。但是,只有少數(shù)商業(yè)開(kāi)發(fā)人員可以訪問(wèn) 插件,因此這對(duì)包括我在內(nèi)的所有人來(lái)說(shuō)可能不是最可行的途徑。
另一種選擇是下載視頻的抄本(字幕)并將其附加到提示中,然后要求語(yǔ)言模型通過(guò)發(fā)送提示來(lái)總結(jié)抄本文本。然而,這種方法有一個(gè)很大的缺點(diǎn)——你不能總結(jié)一個(gè)包含超過(guò) 4096 個(gè)標(biāo)記的視頻,這對(duì)于一個(gè)普通的談話節(jié)目來(lái)說(shuō)通常是 7 分鐘左右。
一個(gè)更有前途的選擇是使用上下文學(xué)習(xí)技術(shù)對(duì)轉(zhuǎn)錄本進(jìn)行向量化,并使用向量向語(yǔ)言模型提示“摘要”查詢。這種方法可以生成準(zhǔn)確的答案,指示轉(zhuǎn)錄文本的摘要,并且不限制視頻長(zhǎng)度。
如果你有興趣開(kāi)發(fā)自己的上下文學(xué)習(xí)應(yīng)用程序,我之前關(guān)于構(gòu)建聊天機(jī)器人以學(xué)習(xí)和聊天文檔的文章提供了一個(gè)很好的起點(diǎn)。通過(guò)一些細(xì)微的修改,我們可以應(yīng)用相同的方法來(lái)創(chuàng)建我們自己的視頻摘要器。在本文中,我將逐步指導(dǎo)你完成開(kāi)發(fā)過(guò)程,以便你了解并復(fù)制自己的視頻摘要器。
1、功能框圖
在這個(gè) 應(yīng)用程序中,我們以-為基礎(chǔ),開(kāi)發(fā)了一個(gè) web應(yīng)用程序,為用戶提供視頻URL的輸入以及屏幕截圖、文字記錄和摘要內(nèi)容的顯示。使用 工具包,我們不必?fù)?dān)心 中的 API 調(diào)用,因?yàn)閷?duì)嵌入使用的復(fù)雜性或提示大小限制的擔(dān)憂很容易被其內(nèi)部數(shù)據(jù)結(jié)構(gòu)和 LLM 任務(wù)管理所覆蓋。
你有沒(méi)有想過(guò)為什么我在讓 LLM 生成摘要時(shí)設(shè)計(jì)了幾個(gè)查詢而不是一個(gè)用于轉(zhuǎn)錄文本處理的查詢?答案在于情境學(xué)習(xí)過(guò)程。當(dāng)文檔被送入 LLM 時(shí),它會(huì)根據(jù)其大小分成塊或節(jié)點(diǎn)。然后將這些塊轉(zhuǎn)換為嵌入并存儲(chǔ)為向量。
當(dāng)提示用戶查詢時(shí),模型將搜索向量存儲(chǔ)以找到最相關(guān)的塊并根據(jù)這些特定塊生成答案。例如chatgpt生成視頻文本,如果你在大型文檔(如 20 分鐘的視頻轉(zhuǎn)錄本)上查詢“文章摘要”,模型可能只會(huì)生成最后 5 分鐘的摘要,因?yàn)樽詈笠粔K與上下文最相關(guān) 的“總結(jié)”。
為了說(shuō)明這個(gè)概念,請(qǐng)看下面的圖表:
通過(guò)設(shè)計(jì)多個(gè)查詢,我們可以促使 LLM 生成更全面的摘要,涵蓋整個(gè)文檔。我將在本文后面更深入地組織多個(gè)查詢。
從第2章到第5章,我將重點(diǎn)介紹本項(xiàng)目中使用到的所有模塊的基礎(chǔ)知識(shí)和典型用法介紹。如果你愿意在沒(méi)有這些技術(shù)背景的情況下立即開(kāi)始編寫(xiě)整個(gè) 應(yīng)用程序,建議你轉(zhuǎn)到第 6 章。
2、 視頻轉(zhuǎn)錄文本
總結(jié) 視頻的第一步是下載轉(zhuǎn)錄文本。有一個(gè)名為 -tran-api 的開(kāi)源 庫(kù)可以完美滿足我們的要求。
使用如下命令安裝模塊后,
當(dāng)視頻提供英語(yǔ)以外的其他語(yǔ)言時(shí),可以將它們添加到參數(shù)語(yǔ)言中,該參數(shù)語(yǔ)言作為包含不同語(yǔ)言的列表。
該庫(kù)還提供“”方法來(lái)生成具有定義格式的轉(zhuǎn)錄數(shù)據(jù)。在這種情況下,我們只需要 JSON 格式即可進(jìn)行進(jìn)一步的步驟。
通過(guò)運(yùn)行上面的代碼,你會(huì)看到像這樣的一個(gè)像樣的轉(zhuǎn)錄文本:
4、
是一個(gè) 庫(kù),充當(dāng)用戶私有數(shù)據(jù)和大型語(yǔ)言模型 (LLM) 之間的接口。它有幾個(gè)對(duì)開(kāi)發(fā)人員有用的功能,包括連接到各種數(shù)據(jù)源、處理提示限制、創(chuàng)建語(yǔ)言數(shù)據(jù)索引、將提示插入數(shù)據(jù)、將文本拆分為更小的塊以及提供查詢索引的接口的能力 . 借助 ,開(kāi)發(fā)人員無(wú)需實(shí)施數(shù)據(jù)轉(zhuǎn)換即可將現(xiàn)有數(shù)據(jù)用于 LLM,管理 LLM 與數(shù)據(jù)的交互方式,并提高 LLM 的性能。
可以在此處查看完整的文檔。
以下是使用 的一般步驟:
安裝包:
r 是 工具集中的文件加載器之一。它支持在用戶提供的文件夾下加載多個(gè)文件,在本例中,它是子文件夾“./data/”。這個(gè)神奇的加載器功能可以支持解析各種文件類(lèi)型,如.pdf、.jpg、.png、.docx等,讓您不必自己將文件轉(zhuǎn)換為文本。在我們的應(yīng)用程序中,我們只加載一個(gè)文本文件 (.json) 來(lái)包含視頻轉(zhuǎn)錄數(shù)據(jù)
— 構(gòu)建索引
5、Web開(kāi)發(fā)
與我文章中之前的項(xiàng)目一樣,我們將繼續(xù)使用方便的 工具集來(lái)構(gòu)建 應(yīng)用程序。
是一個(gè)開(kāi)源的 庫(kù),有助于創(chuàng)建交互式 Web 應(yīng)用程序。它的主要目的是供數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)工程師用來(lái)與他人分享他們的工作。借助 ,開(kāi)發(fā)人員可以使用最少的代碼創(chuàng)建應(yīng)用程序,并且可以使用單個(gè)命令輕松地將它們部署到 Web。
它提供了多種可用于創(chuàng)建交互式應(yīng)用程序的小部件。這些小部件包括按鈕、文本框、滑塊和圖表。可以從其官方文檔中找到所有小部件的用法。
Web 應(yīng)用程序的典型 代碼可以像下面這樣簡(jiǎn)單:
將代碼保存到 文件“demo.py”,創(chuàng)建一個(gè) ./data/ 文件夾,然后運(yùn)行命令:
! -m run demo.py
現(xiàn)已準(zhǔn)備就緒,能夠簡(jiǎn)單而有效地執(zhí)行其任務(wù)。
注意——請(qǐng)從一段短視頻開(kāi)始測(cè)試,因?yàn)殚L(zhǎng)視頻會(huì)花費(fèi)你大量的 API 使用費(fèi)。在繼續(xù)之前,還請(qǐng)檢查視頻是否啟用文本轉(zhuǎn)錄。
機(jī)器學(xué)習(xí)算法AI大數(shù)據(jù)技術(shù)
搜索公眾號(hào)添加:
閱讀過(guò)本文的人還看了以下文章:
2.0深度學(xué)習(xí)案例實(shí)戰(zhàn)
基于40萬(wàn)表格數(shù)據(jù)集,用做表格檢測(cè)
《基于深度學(xué)習(xí)的自然語(yǔ)言處理》中/英PDF
Deep 中文版初版-周志華團(tuán)隊(duì)
【全套視頻課】最全的目標(biāo)檢測(cè)算法系列講解,通俗易懂!
《美團(tuán)機(jī)器學(xué)習(xí)實(shí)踐》_美團(tuán)算法團(tuán)隊(duì).pdf
《深度學(xué)習(xí)入門(mén):基于的理論與實(shí)現(xiàn)》高清中文PDF+源碼
《深度學(xué)習(xí):基于的實(shí)踐》PDF和代碼
特征提取與圖像處理(第二版).pdf
就業(yè)班學(xué)習(xí)視頻,從入門(mén)到實(shí)戰(zhàn)項(xiàng)目
2019最新《自然語(yǔ)言處理》英、中文版PDF+源碼
《21個(gè)項(xiàng)目玩轉(zhuǎn)深度學(xué)習(xí):基于的實(shí)踐詳解》完整版PDF+附書(shū)代碼
《深度學(xué)習(xí)之》pdf+附書(shū)源碼
深度學(xué)習(xí)快速實(shí)戰(zhàn)入門(mén)《-》
【下載】豆瓣評(píng)分8.1,《機(jī)器學(xué)習(xí)實(shí)戰(zhàn):基于-和》
《數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》PDF+完整源碼
汽車(chē)行業(yè)完整知識(shí)圖譜項(xiàng)目實(shí)戰(zhàn)視頻(全23課)
李沐大神開(kāi)源《動(dòng)手學(xué)深度學(xué)習(xí)》,加州伯克利深度學(xué)習(xí)(2019春)教材
筆記、代碼清晰易懂!李航《統(tǒng)計(jì)學(xué)習(xí)方法》最新資源全套!
《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》最新2018版中英PDF+源碼
將機(jī)器學(xué)習(xí)模型部署為REST API
檢測(cè)出圖像中的不規(guī)則漢字
同樣是機(jī)器學(xué)習(xí)算法工程師chatgpt生成視頻文本,你的面試為什么過(guò)不了?
前海征信大數(shù)據(jù)算法:風(fēng)險(xiǎn)概率預(yù)測(cè)
【】完整實(shí)現(xiàn)‘交通標(biāo)志’分類(lèi)、‘票據(jù)’分類(lèi)兩個(gè)項(xiàng)目,讓你掌握深度學(xué)習(xí)圖像分類(lèi)
特征工程(一)
特征工程(二) :文本數(shù)據(jù)的展開(kāi)、過(guò)濾和分塊
特征工程(三):特征縮放,從詞袋到 TF-IDF
特征工程(四): 類(lèi)別特征
特征工程(五): PCA 降維
特征工程(六): 非線性特征提取和模型堆疊
特征工程(七):圖像特征提取和深度學(xué)習(xí)
如何利用全新的決策樹(shù)集成級(jí)聯(lián)結(jié)構(gòu)做特征工程并打分?
中文翻譯稿
螞蟻金服2018秋招-算法工程師(共四面)通過(guò)
全球AI挑戰(zhàn)-場(chǎng)景分類(lèi)的比賽源碼(多模型融合)
斯坦福官方指南:CNN、RNN及使用技巧速查(打印收藏)
中科院全球文本匹配競(jìng)賽華人第1名團(tuán)隊(duì)-深度學(xué)習(xí)與特征工程
不斷更新資源
深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、數(shù)據(jù)分析、
搜索公眾號(hào)添加:
聲明:本站所有文章資源內(nèi)容,如無(wú)特殊說(shuō)明或標(biāo)注,均為采集網(wǎng)絡(luò)資源。如若本站內(nèi)容侵犯了原著者的合法權(quán)益,可聯(lián)系本站刪除。