[實做] 筆電 5090 快速處理大量影片轉文字需求

最近的上班人生，被分配到一個難題要想辦法處理：

公司內部有規劃資源，累積很多教育訓練資料，教育訓練平常由PM或RD主持，其中有些訓練內容很基礎重要、有些會隨時間變化，訓練內容都有錄影下來，但PM / RD主管常抱怨訓練太多用到他單位人力，成本太高，希望之後只提供簡報內容，請User自己看。簡單來說就是PM / RD主管希望可以盡量不要動到他們的人。上網查一查之後，想到的解決方式是：

把教育訓練影片上傳到雲端，基礎重要的部份讓AI處理文字之後歸檔
用AI方式做語音模型，配上RD/PM文字內容，直接文字轉語音，讓PM / RD可以不用額外派人力來錄音做檔案。

不過，提出這些想法的時候，內部就有意見了：

老闆不希望技術資料上傳雲端，怕外流。
租用雲端AI服務，資訊部很抗拒，因為廠商報價都是長期、且用量不知道如何評估等等。
公司可以接受自己弄機器跑，但前提是要好管理。

老闆的需求我大致理解，經過多次跨單位協調之後，大家可接受方案是：

用利潤中心的方式分配，大家出錢買一台帶中高階GPU的筆電。
試試看用免費的資源，在本機端跑AI服務，不行的話筆電也可以挪作他用。
搞不定，再叫資訊的人出去外面問私有雲的服務報價。

這問題落到我頭上，真的有夠燒腦的，花了兩三天找資料，計畫的處理方式如下：

筆電是ROG G835LX，有RTX 5090顯卡，用GPU資源去算。
用OpenAI的Whisper服務，分析以往教育訓練影片，把影片轉成文字歸檔。
再用Open TTS服務，找真人建立語音模型，把RD/PM的文字簡報變成聲音，配教學影片用。

筆電到位之後，馬上開始作業：

[實做] 筆電 5090 快速處理大量影片轉文字需求

ROG的G835LX筆電，資訊的人說老闆看到雲端的報價，馬上簽了這台需求（哈哈哈到底雲端報多貴）
[實做] 筆電 5090 快速處理大量影片轉文字需求

275HX + RTX 5090 + 64GB記憶體，應該夠用。 [實做] 筆電 5090 快速處理大量影片轉文字需求

確認一下是275HX + RTX5090沒錯。 [實做] 筆電 5090 快速處理大量影片轉文字需求

測試用的影片檔案大約是25-30分鐘長，我只需要聲音，所以壓縮到差不多100-150MB單檔，方便移動檔案跟作業。 [實做] 筆電 5090 快速處理大量影片轉文字需求

Whisper是OpenAI的「語音轉文字」模型，特別專精語音方面的辨識，而且支援中文。利用GPU跟搭配的模型，可以達到最好的辨識效果，而且支援各種影音檔案，下載網址在此：
https://github.com/Const-me/Whisper [實做] 筆電 5090 快速處理大量影片轉文字需求

其中有人開發出可以在本機端使用、不需要雲端的Whisper Desktop，只要自己下載語音模型，就可以在本地處理語音轉文字的部份。點右下Release的部份進入下載。 [實做] 筆電 5090 快速處理大量影片轉文字需求

看到WhisperDesktop.zip，直接點選下載。 [實做] 筆電 5090 快速處理大量影片轉文字需求

解壓縮之後可以看到一個大向日葵的圖案，執行就可以了。 [實做] 筆電 5090 快速處理大量影片轉文字需求

不過在使用之前，要先下載模型檔案，可以到hugging face下載：
https://huggingface.co/ggerganov/whisper.cpp/tree/main [實做] 筆電 5090 快速處理大量影片轉文字需求

Whisper Desktop的作者推薦用ggml-medium.bin這一個模型即可，體積稍微大，1.53GB。 [實做] 筆電 5090 快速處理大量影片轉文字需求

打開Whisper Desktop的界面，一開始就需要載入模型，選擇剛下載好的檔案。 [實做] 筆電 5090 快速處理大量影片轉文字需求

底下模型計算的部份，可以選擇GPU或是其他裝置，5090當然是要直接指定使用。 [實做] 筆電 5090 快速處理大量影片轉文字需求

接著在語言部份選擇中文、選擇要轉換的影片檔案，然後選擇要輸出的文字格式（支援純文字、帶時間戳記文字、還有SRT字幕格式等等），我先選帶時間戳記的試試看。 [實做] 筆電 5090 快速處理大量影片轉文字需求

按下「Transcribe」之後，影片轉文字模型馬上開始運作，GPU的負載也一下全滿，開始計算。 [實做] 筆電 5090 快速處理大量影片轉文字需求

最後33分鐘的影片，花了4分鐘左右把影片內的文字處理完畢。 [實做] 筆電 5090 快速處理大量影片轉文字需求

效果非常非常的好，PM咬字不清楚的地方也可以完整翻譯，
幾乎不需要修改，時間戳記也都幫忙標示好了。 [實做] 筆電 5090 快速處理大量影片轉文字需求

再測試一個25分鐘的影片，一樣是4分鐘內轉換完畢。 [實做] 筆電 5090 快速處理大量影片轉文字需求

這轉換的精準度極高，原本以為中文可能不會那麼順利，沒想到效果超好！

研究過一遍各種語音轉文字的服務，我發現大部分免費網站的方案，都有時間長度、上傳格式、還有用量的限制，如果要解開限制，一樣是需要列一筆預算來採買算力方案。因為準備處理的檔案有上千個，如果慢慢上傳慢慢處理，效率很差之外，人力工時方面也算是另外的支出。經過摸索之後，我發現Whisper Desktop加上訓練過的免費模型，判斷影片內語音轉文字的功能已經非常精準，而且可以完全在本機執行，完全符合老闆「不想上傳雲端」的需求。

不過研究到這邊，實際工時大概有超過12小時…真的很不容易（淚）

以上也有用一般文書筆電來測試辨識效率，不過很顯然速度沒高階GPU來的那麼快，根據Whisper Desktop作者說，他覺得效率在於顯卡記憶體的大小，但因為他手邊顯卡不多，而且AMD顯卡開發上遇到困難（？），只建議在Windows x64 + NVIDIA顯卡環境使用，這點可能要特別注意。

另外，處理過去累積下來的影片、整理好重點之後，下一個階段是計畫訓練文字轉真人語音，希望最後可以做出一個不需真人到場，也可以用文字轉語音的模型，然後輸出語音來配簡報。聽起來感覺一樣要花時間研究，等後續實做出來再來分享。

2025-11-12 20:05 #1