[實做] 筆電 5090 快速處理大量影片轉文字需求

最近的上班人生,被分配到一個難題要想辦法處理:

公司內部有規劃資源,累積很多教育訓練資料,教育訓練平常由PM或RD主持,其中有些訓練內容很基礎重要、有些會隨時間變化,訓練內容都有錄影下來,但PM / RD主管常抱怨訓練太多用到他單位人力,成本太高,希望之後只提供簡報內容,請User自己看。簡單來說就是PM / RD主管希望可以盡量不要動到他們的人。上網查一查之後,想到的解決方式是:
  • 把教育訓練影片上傳到雲端,基礎重要的部份讓AI處理文字之後歸檔
  • 用AI方式做語音模型,配上RD/PM文字內容,直接文字轉語音,讓PM / RD可以不用額外派人力來錄音做檔案。
不過,提出這些想法的時候,內部就有意見了:
  • 老闆不希望技術資料上傳雲端,怕外流。
  • 租用雲端AI服務,資訊部很抗拒,因為廠商報價都是長期、且用量不知道如何評估等等。
  • 公司可以接受自己弄機器跑,但前提是要好管理。
老闆的需求我大致理解,經過多次跨單位協調之後,大家可接受方案是:
  • 用利潤中心的方式分配,大家出錢買一台帶中高階GPU的筆電。
  • 試試看用免費的資源,在本機端跑AI服務,不行的話筆電也可以挪作他用。
  • 搞不定,再叫資訊的人出去外面問私有雲的服務報價。
這問題落到我頭上,真的有夠燒腦的,花了兩三天找資料,計畫的處理方式如下:
  1. 筆電是ROG G835LX,有RTX 5090顯卡,用GPU資源去算。
  2. 用OpenAI的Whisper服務,分析以往教育訓練影片,把影片轉成文字歸檔。
  3. 再用Open TTS服務,找真人建立語音模型,把RD/PM的文字簡報變成聲音,配教學影片用。
筆電到位之後,馬上開始作業:


[實做] 筆電 5090 快速處理大量影片轉文字需求
ROG的G835LX筆電,資訊的人說老闆看到雲端的報價,馬上簽了這台需求(哈哈哈到底雲端報多貴)
[實做] 筆電 5090 快速處理大量影片轉文字需求
275HX + RTX 5090 + 64GB記憶體,應該夠用。[實做] 筆電 5090 快速處理大量影片轉文字需求
確認一下是275HX + RTX5090沒錯。[實做] 筆電 5090 快速處理大量影片轉文字需求
測試用的影片檔案大約是25-30分鐘長,我只需要聲音,所以壓縮到差不多100-150MB單檔,方便移動檔案跟作業。[實做] 筆電 5090 快速處理大量影片轉文字需求
Whisper是OpenAI的「語音轉文字」模型,特別專精語音方面的辨識,而且支援中文。利用GPU跟搭配的模型,可以達到最好的辨識效果,而且支援各種影音檔案,下載網址在此:
https://github.com/Const-me/Whisper[實做] 筆電 5090 快速處理大量影片轉文字需求
其中有人開發出可以在本機端使用、不需要雲端的Whisper Desktop,只要自己下載語音模型,就可以在本地處理語音轉文字的部份。點右下Release的部份進入下載。[實做] 筆電 5090 快速處理大量影片轉文字需求
看到WhisperDesktop.zip,直接點選下載。[實做] 筆電 5090 快速處理大量影片轉文字需求
解壓縮之後可以看到一個大向日葵的圖案,執行就可以了。[實做] 筆電 5090 快速處理大量影片轉文字需求
不過在使用之前,要先下載模型檔案,可以到hugging face下載:
https://huggingface.co/ggerganov/whisper.cpp/tree/main[實做] 筆電 5090 快速處理大量影片轉文字需求
Whisper Desktop的作者推薦用ggml-medium.bin這一個模型即可,體積稍微大,1.53GB。[實做] 筆電 5090 快速處理大量影片轉文字需求
打開Whisper Desktop的界面,一開始就需要載入模型,選擇剛下載好的檔案。[實做] 筆電 5090 快速處理大量影片轉文字需求
底下模型計算的部份,可以選擇GPU或是其他裝置,5090當然是要直接指定使用。[實做] 筆電 5090 快速處理大量影片轉文字需求
接著在語言部份選擇中文、選擇要轉換的影片檔案,然後選擇要輸出的文字格式(支援純文字、帶時間戳記文字、還有SRT字幕格式等等),我先選帶時間戳記的試試看。[實做] 筆電 5090 快速處理大量影片轉文字需求
按下「Transcribe」之後,影片轉文字模型馬上開始運作,GPU的負載也一下全滿,開始計算。[實做] 筆電 5090 快速處理大量影片轉文字需求
最後33分鐘的影片,花了4分鐘左右把影片內的文字處理完畢。[實做] 筆電 5090 快速處理大量影片轉文字需求
效果非常非常的好,PM咬字不清楚的地方也可以完整翻譯,
幾乎不需要修改,時間戳記也都幫忙標示好了。[實做] 筆電 5090 快速處理大量影片轉文字需求
再測試一個25分鐘的影片,一樣是4分鐘內轉換完畢。[實做] 筆電 5090 快速處理大量影片轉文字需求
這轉換的精準度極高,原本以為中文可能不會那麼順利,沒想到效果超好!

研究過一遍各種語音轉文字的服務,我發現大部分免費網站的方案,都有時間長度、上傳格式、還有用量的限制,如果要解開限制,一樣是需要列一筆預算來採買算力方案。因為準備處理的檔案有上千個,如果慢慢上傳慢慢處理,效率很差之外,人力工時方面也算是另外的支出。經過摸索之後,我發現Whisper Desktop加上訓練過的免費模型,判斷影片內語音轉文字的功能已經非常精準,而且可以完全在本機執行,完全符合老闆「不想上傳雲端」的需求。

不過研究到這邊,實際工時大概有超過12小時…真的很不容易(淚)

以上也有用一般文書筆電來測試辨識效率,不過很顯然速度沒高階GPU來的那麼快,根據Whisper Desktop作者說,他覺得效率在於顯卡記憶體的大小,但因為他手邊顯卡不多,而且AMD顯卡開發上遇到困難(?),只建議在Windows x64 + NVIDIA顯卡環境使用,這點可能要特別注意。

另外,處理過去累積下來的影片、整理好重點之後,下一個階段是計畫訓練文字轉真人語音,希望最後可以做出一個不需真人到場,也可以用文字轉語音的模型,然後輸出語音來配簡報。聽起來感覺一樣要花時間研究,等後續實做出來再來分享。
很棒的分享
清楚明白大方向
用AI當成工具來加速簡化
化繁為簡!
很利害了!
Whisper是蠻好用的,用手機錄音,就可以整理成文字檔,並且利用AI把重點整理摘要,以前開個會還要人做記錄,很麻煩,沒人想幹這件事。

三星手機
內鍵錄音功能
就可以直接把音檔直接轉文字了
不過沒有用過同一個音檔 分別測試轉文字的效果
那種比較強就是了

不過我想應該不是本機服務,應該是走雲端吧!
有公司重大機密的就不適合
另外樓主的方法是本機端使用
不過轉好的文字檔檔案非常小
是否能確保不會程式背後被傳出去?
語音分析也就幾百年前的工具了
就算是不完美,也沒非需要用到大算力的AI吧
nick667
以前的語音辨識工具 中文很慘.. 現在AI這套 算完美.
可以很厲害 非常的強
可以好好來看
太強大了 真好用
五分奉上,

感謝分享

也可以去試試看另一個 Whisper with GUI 的軟體, Vibe Whisper,可以像三星手機一樣區分發言人聲,Github可以找到這個軟體。
如果是內部會議,用teams 會不會也是種方式
結合copilot還能自動整理好會議記錄
文章分享
評分
評分
複製連結

今日熱門文章 網友點擊推薦!