当前位置:首页 > PotPlayer教程

PotPlayer 史诗级更新!实时字幕生成+实时翻译,看片真的无敌了!

PotPlayer7个月前 (09-19)PotPlayer教程22

但最近我无意刷到一篇文章才知道,我很早之前推荐过的视频播放器 Potplayer 现在竟然已经更新了无字幕视频实时翻译功能

图片

那这可就很值得更新一下了!

图片

只是回过头来说实话,想要「舒服」的用上这个功能可谓一点儿不简单

花了几天时间写篇文章给大家分享一下,也顺便记录下自己的折腾过程!

文末有一键免配置整合包!不想折腾的粉丝可以直接去文末获取!

另外 PotpPlayer 仅支持 Windows 端,Mac 电脑想玩请考虑装 Windows 虚拟机,我之前出过教程👇

图片


1


   

PotPlayer 下载

首先 PotPlayer 的版本问题上,阿虚就差点搞昏

一开始我就是简单换上了 PotPlayer 最新版,然后边测试边写教程,结果教程都写一半了,才发现好像不对劲

因为看到不少网上已有的教程里面推荐使用 Faster-Whisper-XXL 引擎,据悉是语音识别速度会比 whisper.cpp 更快。但很奇怪在我下载的版本里面却没有这个引擎

图片

我尝试从绿色版换成官方版,又尝试了自己手动下载安装引擎……

折腾半天,最后才搞清楚了问题所在——原因出在功能细节上

网上已有的教程,普遍都是基于 2025 年 6 月 25 日这个 PotPlayer 版本,这个版本里面仅有生成有声字幕功能,而 2025 年 9 月9 日的最新版 PotPlayer 多出了一个生成有声字幕(实时)功能

图片

看似雷同,但这两个功能其实是有本质上区别的!

1.1


  

生成有声字幕

仔细看,生成有声字幕有一个「播放开始时自动生成」的选项

图片

所以这个功能并不是真正意义上的实时转写,而是你打开某个视频之后,在后台从视频开头进行转写

如果你的每次视频是从头看到尾,那这个功能用起来,也的确和实时生成无异

毕竟合理选择引擎+模型的话,可能 1 个小时的视频,几分钟就能完成语音转字幕

图片

但是如果你想拉动进度条,从中间某个位置开始播放,那就需要等待几分钟转写进度到这里了,才会开始显示字幕,体验就相当差了……

1.2


  

生成有声字幕(实时)

而最新版 PotPlayer 的实时字幕生成功能,就没有了上述缺点,你可以随意拖动进度,软件都会从当前播放位置开始进行字幕转写

但目前最大的缺点就是,实时字幕生成功能并不支持 Faster-Whisper-XXL、Whisper-Faster 等「转录速度更快」的引擎

具体为啥不支持,目前未知,可能是这些引擎与实时生成功能冲突或者说官方暂时没完成适配吧……

图片

但实时生成这个功能还属于 Beta 测试版,或许今后官方是能加上支持的,大家可以先期待一下

2


   

配置语音识别

这里的话,阿虚先以实时字幕生成为核心来介绍下新版 PotPlayer

安装好播放器之后,打开任意视频,在播放界面右键 ⇨ 字幕 ⇨ 生成有声字幕(实时) ⇨ 生成有声字幕(实时)

图片

默认是不使用,后续你想用的时候,自行选择「始终使用」或者「如果没有字幕则使用」等等

2.1


  

转换引擎与模型的选择

然后这一步我们需要选择转换引擎以及语音识别模型,并进行下载!

图片

转换引擎这里:

  • 如果你的显卡驱动程序支持 Vulkan API,那就最好是选 whisper.cpp Vulkan(可以到这里下载软件检测是否支持 Vulkan:https://www.iogl.cn/guide/concept/check_vulkan/

  • 如果你是 NVIDIA 显卡,则可以考虑选择 whisper.cpp CUDA(不过需要确保你已安装 cuda:https://developer.nvidia.com/cuda-downloads

  • 否则的话就只有选择 whisper.cpp BLAS 了,这个是通过 OpenBLAS 实现在 CPU 上加速编码器处理

  • 实在不行就只有选择 whisper.cpp CPU 了,可能是处理起来最慢的

模型型号这里:

一共有 6 大类模型尺寸可以选择,其中 4 种有仅支持英语版本(其在仅英语语境下表现更佳,尤其是 tiny.en 和 base.en 模型。对于 small.en 和 medium.en 模型,这种差异不太明显)

下面有一个官方在 A100 显卡测试环境下转录英语语音测得的一个表格数据,仅供参考,实际速度会因为语言、语速和硬件等产生很大差异

模型
文件大小
仅支持英文模型
多语言模型
所需显存
相对 large 识别速度
tiny
39 M
tiny.en
tiny
约 1 GB
约 10 倍
base
74 M
base.en
base
约 1 GB
约 7 倍
small
244 M
small.en
small
约 2 GB
约 4 倍
medium
769 M
medium.en
medium
约 5 GB
约 2 倍
large
1550 M
large
约 10 GB
1 倍
turbo
809 M
turbo
约 6 GB
约 8 倍

<<左右滑动查看表格>>

此外,turbo 模型是 large-v3 的优化版本,它能提供更快的转录速度,同时准确性的下降微乎其微。电脑显存足够的话肯定优先考虑这个而不是 medium 模型

因为实时语音转录,必然是存在识别延时的,所以你并不能无脑选择越大的模型

可以看到下图,阿虚电脑上如果选择 large-v3 这个「识别效果更好的模型」,识别延时会高达 20~30 秒,对于实时翻译这个场景来说几乎属于不能用的地步

图片

但如果舍弃精准度,把模型改为 small,可以看到识别延时一下就降低到了 2~3秒,这就完全堪用了(换用 base、tiny 还会更快),个人觉得 Small 模型的识别效果就挺哇塞的了

图片

不过这里也是因为阿虚电脑没有显卡,是以 CPU 转换做演示,本身就要慢一些。如果你用着 5090,那转换速度肯定会快得多

图片

所以具体选择哪个模型,只能大家根据自己的电脑去实测一下

2.2


  

模型下载

配置方法说完,紧接着问题就来了……

因为「转换引擎」和「模型文件」都位于国外服务器,不富强上网的话,国内大多数用户都会遇到下载失败

所以阿虚这里帮大家把「转换引擎」和「模型文件」都搬运到国内网盘了,最后阿虚这里还搞了一个所有功能配置完毕的绿色整合版(包含所有转换引擎和模型,整体有20GB),网速支持又想省事的粉丝可以直接下载这个

具体资源下载地址的话请看文末👈

3


   

配置字幕翻译

语音识别问题搞定了,但目前识别出来的还是源语言字幕(日文、英文等),所以我们还需要解决翻译问题

还是打开任意视频,在播放界面右键 ⇨ 字幕 ⇨ 实时字幕翻译 ⇨ 实时字幕翻译设置

默认是不使用,后续你想用的时候,自行选择「总是使用」或者「仅用于所选语言」等等

图片

PotPlayer 内置了 Bing、DeepL、Google、Libre、Naver papago 以及 Yandex 翻译

如果你会富强上网,可以直接选择 Google 翻译,这是目前唯一可以免配置直接使用的免费在线翻译服务了

其他的翻译服务「收费不一」且均需要自行去申请 API Key 并通过「账户设置」功能配置后才能使用

图片

不过总体而言,阿虚不太推荐去折腾内置的这些翻译服务:

  • DeepL、Naver Papago、Yandex 翻译就算申请到了 API,国内依然无法免富强直接使用——但你都能富强上网了,还不如直接用免费的 Google 翻译

  • Libre 翻译则是收费贼贵,高达 $29 每月

  • 唯一国内还能直连使用的 Bing 翻译,API 需要通过 Microsoft Azure 申请,而普通用户需要绑定国际信用卡才行,有教育邮箱通过 Azure for Students 才能免信用卡及获得 200 万字符每月的免费翻译额度

对于没有富强上网能力的同学,比较推荐的是以下 3 种方案

3.1


  

百度翻译

百度如今给个人开发者也提供了每月免费 100 万字符的翻译额度,对于几个视频翻译这种需求还是完全够用的

图片

申请百度翻译 API 的方法也不难,这里引一下阿虚之前的教程,打开百度通用翻译 API 的申请地址后点击立即使用https://fanyi-api.baidu.com/product/11

登录你的百度账号后,选择个人开发者,填入你的姓名、邮箱、手机号

图片

然后会提示你进行实名认证来获取高级版服务,阿虚是推荐大家进行实名认证的(反正大家基本上在百度的其他产品早进行过实名认证了),填写完实名之后,点击网页顶部的百度翻译LOGO返回之前的界面,

图片

再点击顶部的管理控制台,点击立即开通服务

图片

在新打开的窗口,选择「通用翻译」点击下一步,然后点击「开通高级版」,然后因为前面就认证了,就直接点击下一步

最后申请服务这里只需要填一个「应用名称」,其他都可以不填,点击提交申请就能开通服务了

图片

最后回到翻译开放平台的首页,在开发者信息这一栏就能看到你的 APP ID 和密钥

图片

有了 API 之后,我们需要去给 PotPlayer 安装百度翻译插件

打开此 Github 项目,将整个项目文件都下载下来:https://github.com/fjqingyou/PotPlayer_Subtitle_Translate_Baidu

如果你访问Github困难,请使用Watt Toolkit加速器(目前支持WIN/Mac/Linux/安卓):https://steampp.net/

图片

然后将项目解压出来的 SubtitleTranslate - baidu.as、SubtitleTranslate - baidu.ico 这 2 个文件复制到 PotPlayer 软件安装目录中的Extention\Subtitle\Translate 文件夹里面即可

图片

后续就只需要到 PotPlayer 播放界面右键 ⇨ 字幕 ⇨ 实时字幕翻译 ⇨ 实时字幕翻译设置 ⇨ 选中百度翻译 ⇨ 点击账户设置 ⇨ 填入 APP ID 和密钥就行了

图片


3.2


  

在线 AI 大模型翻译

第二种选择,阿虚推荐白嫖此前就介绍过的硅基流动 API 来使用 AI 大模型翻译,比起百度的机器翻译,效果会更好!

目前新用户手机注册即可得 2000 万 Tokens,通过阿虚的邀请链接注册还能再额外得 2000 万 Tokens,就算赠送额度用完了也可以选择免费模型继续白嫖:https://cloud.siliconflow.cn/i/snHnLED8

图片

注册好之后先暂停,我们先把第三方翻译插件装好,才方便大家看懂后续教程

还是和百度翻译一样,打开此 Github 项目,将整个项目文件都下载下来:https://github.com/Felix3322/PotPlayer_Chatgpt_Translate

如果你访问Github困难,请使用Watt Toolkit加速器(目前支持WIN/Mac/Linux/安卓):https://steampp.net/

图片

然后还是一样的,将项目解压出来的 SubtitleTranslate - ChatGPT - Without Context.as、SubtitleTranslate - ChatGPT - Without Context.ico、SubtitleTranslate - ChatGPT.as、SubtitleTranslate - ChatGPT.ico这 4 个文件都复制到 PotPlayer 软件安装目录中的Extention\Subtitle\Translate 文件夹里面即可

图片

OK,现在我们打开硅基流动的「模型广场」,如果你是新注册会有2000万 token 额度,所以我们可以优先选择「可用增费」的模型

图片

就算后期你的额度用完了也没事,我们可以换成免费模型,对于翻译场景来说,小参数的免费模型其实也是完全够用的

图片

硅基流动目前提供,并且插件支持的模型有以下可以选择:Deepseek

  • Deepseek

  • 通义千问 Qwen

  • 硅基流动 Siliconflow

  • 百度文心一言 Ernie

  • 月之暗面 KIMI

  • 零一万物

插件也支持调用国外的 AI 大模型(Chatgpt、Claude等),具体可见插件 Github 官网,阿虚这里未全部列出

这里我们选个百万调用便宜一点的 Deepseek V2.5(注意选择对话模型,但不要选择推理模型)

图片

点击模型之后,在上方点击按钮,复制模型名称

图片

接着打开 PotPlayer 播放界面右键 ⇨ 字幕 ⇨ 实时字幕翻译 ⇨ 实时字幕翻译设置 ⇨ 选中ChatGPT翻译 ⇨ 点击账户设置 ⇨ 先填入刚刚复制模型名称 ⇨ 然后输入一个|

图片

这里专门说明一下竖杠 | 符号的输入方法,很简单,同时按住 Shift+回车上面那个键就行了

图片

接着我们点击模型的 API 文档

图片

在弹出的 API 文档网页里面

图片

然后把这个链接粘贴到刚刚 PotPlayer 的 API 配置处就行了

图片

上面的 API 密钥则是在硅基流动平台左侧点击 API 密钥即可新建生成,生成后填进去即可

图片


3.3


  

Ollama 本地 AI 大模型翻译

最后,如果你觉得在线翻译存在内容审核,亦或者是不想将视频数据上传到云端处理,更关注数据隐私的话,这里还有一招

图片

方案就是借助 Ollama 搭建本地 AI 大模型服务,然后再使用 PotPlayer 来调用

不过这个方案又需要下载一系列软件+模型+插件,需要 WIN10 以上系统,对网络环境也有要求,使用起来颇为麻烦,大家可以酌情考虑是否折腾

图片

首先打开 Ollama 的 Github 地址找到 OllamaSetup.exe 并下载(可能被隐藏了,需自己点击展开):https://github.com/ollama/ollama/releases

如果你访问Github困难,请使用Watt Toolkit加速器(目前支持WIN/Mac/Linux/安卓):https://steampp.net/

然后一来 Ollama 的安装就存在一个问题,因为这个软件默认只能装到 C 盘,软件本体就有 4.5 GB,加上后续 AI 模型文件,可能会占用 C 盘 10GB 以上空间

如果你的 C 盘空间足够,那从官网下载后直接安装即可,如果不够,请参考以下安装方法

首先在你想安装的路径下创建好一个新文件夹(比如Ollama),并把 Ollama 的安装包放在里面。比如如图:E:\MySoftware\Ollama

图片

然后在资源管理器的文件路径上输入 CMD,然后回车,接下来将会自动打开命令窗口

图片

然后在 CMD 窗口输入:OllamaSetup.exe /DIR=E:\MySoftware\Ollama

具体语法为:软件安装包名称 /DIR=这里放你上面创建好的Ollama指定目录

图片

输好命令之后回车,Ollama 就会进入安装流程,接下来点击 Install 等待安装即可——这样就能把 Ollama 安装到你指定的路径了

接着我们打开 Ollama 官网,点击左上角的 Models 选择模型进行下载:https://ollama.com/search

阿虚这里以 Qwen2.5 进行演示(阿虚测试了几个模型,感觉最好的话也是用这个,因为其他模型可能提示词不太适配,生成效果反而不好),总之你会发现 Qwen2.5 包含的模型版本非常多

图片

这里的话,因为阿虚电脑暂时只有核显,就只装一个比较小的 1.5B 模型进行演示(如果电脑性能足够,使用7B模型效果会好很多)。我们点击右上方的复制按钮,复制主要的安装命令

图片

然后按下键盘上的WIN+R键打开运行窗口,接着输入 CMD 打开命令提示符,然后单击鼠标右键即可粘贴我们刚刚复制的安装命令,最后英文输入法下补上冒号和你想要安装的模型大小即可

图片

然后我们还是需要安装 PotPlayer翻译插件,一样的打开此 Github 项目,将整个项目文件都下载下来:https://github.com/yxyxyz6/PotPlayer_ollama_Translate

如果你访问Github困难,请使用Watt Toolkit加速器(目前支持WIN/Mac/Linux/安卓):https://steampp.net/

图片

然后将项目解压出来的 SubtitleTranslate - baidu.as、SubtitleTranslate - baidu.ico 这 2 个文件复制到 PotPlayer 软件安装目录中的Extention\Subtitle\Translate 文件夹里面即可

图片

后续就只需要到 PotPlayer 播放界面右键 ⇨ 字幕 ⇨ 实时字幕翻译 ⇨ 实时字幕翻译设置 ⇨ 选中百度翻译 ⇨ 点击账户设置 ⇨ 填入 APP ID 和密钥就行了

图片

找到全局变量这里,选中 wangshenzhi/gemma2-9b-chinese-chat:latest 然后按下 Ctrl+H 进行替换,将其全部替换为我们下载的模型 qwen2.5:1.5b 即可

图片

后续就 PotPlayer 翻译引擎中选择 Ollama 就行了,不再需要其他额外设置

唯一就是使用 Ollama 本地模型翻译的话,需要 Ollama 一直在后台保持启动哈

图片


4


   

资源打包下载

最后,PotPlayer 全引擎+全模型绿色整合包+文章上述提到的各种引擎、模型、插件文件单独下载地址阿虚这边都已经替大家整理好了,整合包提供了不限速下载方法

地址就不放公众号后台了,大家可以自行到储物间(地址发布页:axutongxue.cccpan.com)获取,网站顶部就是搜索功能

图片

图片

写这篇文章前前后后还是折腾了很久,可能还有许多不足,有问题的话欢迎在评论区留言

总得来说,PotPlayer 实时生成字幕+翻译其实还是比较吃电脑性能的,电脑配置较低的情况下,字幕生成的速度还有质量都会大打折扣——并且只支持本地视频