当前位置：首页 > PotPlayer教程

PotPlayer 史诗级更新！实时字幕生成+实时翻译，看片真的无敌了！

PotPlayer9个月前 (09-19)PotPlayer教程56

但最近我无意刷到一篇文章才知道，我很早之前推荐过的视频播放器 Potplayer 现在竟然已经更新了无字幕视频实时翻译功能

那这可就很值得更新一下了！

只是回过头来说实话，想要「舒服」的用上这个功能可谓一点儿不简单

花了几天时间写篇文章给大家分享一下，也顺便记录下自己的折腾过程！

文末有一键免配置整合包！不想折腾的粉丝可以直接去文末获取！

另外 PotpPlayer 仅支持 Windows 端，Mac 电脑想玩请考虑装 Windows 虚拟机，我之前出过教程👇

PotPlayer 下载

首先 PotPlayer 的版本问题上，阿虚就差点搞昏

一开始我就是简单换上了 PotPlayer 最新版，然后边测试边写教程，结果教程都写一半了，才发现好像不对劲

因为看到不少网上已有的教程里面推荐使用 Faster-Whisper-XXL 引擎，据悉是语音识别速度会比 whisper.cpp 更快。但很奇怪在我下载的版本里面却没有这个引擎

我尝试从绿色版换成官方版，又尝试了自己手动下载安装引擎……

折腾半天，最后才搞清楚了问题所在——原因出在功能细节上

网上已有的教程，普遍都是基于 2025 年 6 月 25 日这个 PotPlayer 版本，这个版本里面仅有生成有声字幕功能，而 2025 年 9 月9 日的最新版 PotPlayer 多出了一个生成有声字幕（实时）功能

看似雷同，但这两个功能其实是有本质上区别的！

1.1

生成有声字幕

仔细看，生成有声字幕有一个「播放开始时自动生成」的选项

所以这个功能并不是真正意义上的实时转写，而是你打开某个视频之后，在后台从视频开头进行转写

如果你的每次视频是从头看到尾，那这个功能用起来，也的确和实时生成无异

毕竟合理选择引擎＋模型的话，可能 1 个小时的视频，几分钟就能完成语音转字幕

但是如果你想拉动进度条，从中间某个位置开始播放，那就需要等待几分钟转写进度到这里了，才会开始显示字幕，体验就相当差了……

1.2

生成有声字幕（实时）

而最新版 PotPlayer 的实时字幕生成功能，就没有了上述缺点，你可以随意拖动进度，软件都会从当前播放位置开始进行字幕转写

但目前最大的缺点就是，实时字幕生成功能并不支持 Faster-Whisper-XXL、Whisper-Faster 等「转录速度更快」的引擎

具体为啥不支持，目前未知，可能是这些引擎与实时生成功能冲突或者说官方暂时没完成适配吧……

但实时生成这个功能还属于 Beta 测试版，或许今后官方是能加上支持的，大家可以先期待一下

配置语音识别

这里的话，阿虚先以实时字幕生成为核心来介绍下新版 PotPlayer

安装好播放器之后，打开任意视频，在播放界面右键 ⇨ 字幕 ⇨ 生成有声字幕（实时） ⇨ 生成有声字幕（实时）

默认是不使用，后续你想用的时候，自行选择「始终使用」或者「如果没有字幕则使用」等等

2.1

转换引擎与模型的选择

然后这一步我们需要选择转换引擎以及语音识别模型，并进行下载！

转换引擎这里：

如果你的显卡驱动程序支持 Vulkan API，那就最好是选 whisper.cpp Vulkan（可以到这里下载软件检测是否支持 Vulkan：https://www.iogl.cn/guide/concept/check_vulkan/）
如果你是 NVIDIA 显卡，则可以考虑选择 whisper.cpp CUDA（不过需要确保你已安装 cuda：https://developer.nvidia.com/cuda-downloads）
否则的话就只有选择 whisper.cpp BLAS 了，这个是通过 OpenBLAS 实现在 CPU 上加速编码器处理
实在不行就只有选择 whisper.cpp CPU 了，可能是处理起来最慢的

模型型号这里：

一共有 6 大类模型尺寸可以选择，其中 4 种有仅支持英语版本（其在仅英语语境下表现更佳，尤其是 tiny.en 和 base.en 模型。对于 small.en 和 medium.en 模型，这种差异不太明显）

下面有一个官方在 A100 显卡测试环境下转录英语语音测得的一个表格数据，仅供参考，实际速度会因为语言、语速和硬件等产生很大差异

模型	文件大小	仅支持英文模型	多语言模型	所需显存	相对 large 识别速度
tiny	39 M	tiny.en	tiny	约 1 GB	约 10 倍
base	74 M	base.en	base	约 1 GB	约 7 倍
small	244 M	small.en	small	约 2 GB	约 4 倍
medium	769 M	medium.en	medium	约 5 GB	约 2 倍
large	1550 M	无	large	约 10 GB	1 倍
turbo	809 M	无	turbo	约 6 GB	约 8 倍

<<左右滑动查看表格>>

此外，turbo 模型是 large-v3 的优化版本，它能提供更快的转录速度，同时准确性的下降微乎其微。电脑显存足够的话肯定优先考虑这个而不是 medium 模型

“
因为实时语音转录，必然是存在识别延时的，所以你并不能无脑选择越大的模型
”

可以看到下图，阿虚电脑上如果选择 large-v3 这个「识别效果更好的模型」，识别延时会高达 20～30 秒，对于实时翻译这个场景来说几乎属于不能用的地步

但如果舍弃精准度，把模型改为 small，可以看到识别延时一下就降低到了 2～3秒，这就完全堪用了（换用 base、tiny 还会更快），个人觉得 Small 模型的识别效果就挺哇塞的了

不过这里也是因为阿虚电脑没有显卡，是以 CPU 转换做演示，本身就要慢一些。如果你用着 5090，那转换速度肯定会快得多

所以具体选择哪个模型，只能大家根据自己的电脑去实测一下

2.2

模型下载

配置方法说完，紧接着问题就来了……

因为「转换引擎」和「模型文件」都位于国外服务器，不富强上网的话，国内大多数用户都会遇到下载失败

所以阿虚这里帮大家把「转换引擎」和「模型文件」都搬运到国内网盘了，最后阿虚这里还搞了一个所有功能配置完毕的绿色整合版（包含所有转换引擎和模型，整体有20GB），网速支持又想省事的粉丝可以直接下载这个

具体资源下载地址的话请看文末👈

配置字幕翻译

语音识别问题搞定了，但目前识别出来的还是源语言字幕（日文、英文等），所以我们还需要解决翻译问题

还是打开任意视频，在播放界面右键 ⇨ 字幕 ⇨ 实时字幕翻译 ⇨ 实时字幕翻译设置

默认是不使用，后续你想用的时候，自行选择「总是使用」或者「仅用于所选语言」等等

PotPlayer 内置了 Bing、DeepL、Google、Libre、Naver papago 以及 Yandex 翻译

如果你会富强上网，可以直接选择 Google 翻译，这是目前唯一可以免配置直接使用的免费在线翻译服务了

其他的翻译服务「收费不一」且均需要自行去申请 API Key 并通过「账户设置」功能配置后才能使用

不过总体而言，阿虚不太推荐去折腾内置的这些翻译服务：

DeepL、Naver Papago、Yandex 翻译就算申请到了 API，国内依然无法免富强直接使用——但你都能富强上网了，还不如直接用免费的 Google 翻译
Libre 翻译则是收费贼贵，高达 $29 每月
唯一国内还能直连使用的 Bing 翻译，API 需要通过 Microsoft Azure 申请，而普通用户需要绑定国际信用卡才行，有教育邮箱通过 Azure for Students 才能免信用卡及获得 200 万字符每月的免费翻译额度

对于没有富强上网能力的同学，比较推荐的是以下 3 种方案

3.1

百度翻译

百度如今给个人开发者也提供了每月免费 100 万字符的翻译额度，对于几个视频翻译这种需求还是完全够用的

申请百度翻译 API 的方法也不难，这里引一下阿虚之前的教程，打开百度通用翻译 API 的申请地址后点击立即使用：https://fanyi-api.baidu.com/product/11

登录你的百度账号后，选择个人开发者，填入你的姓名、邮箱、手机号

然后会提示你进行实名认证来获取高级版服务，阿虚是推荐大家进行实名认证的（反正大家基本上在百度的其他产品早进行过实名认证了），填写完实名之后，点击网页顶部的百度翻译LOGO返回之前的界面，

再点击顶部的管理控制台，点击立即开通服务

在新打开的窗口，选择「通用翻译」点击下一步，然后点击「开通高级版」，然后因为前面就认证了，就直接点击下一步

最后申请服务这里只需要填一个「应用名称」，其他都可以不填，点击提交申请就能开通服务了

最后回到翻译开放平台的首页，在开发者信息这一栏就能看到你的 APP ID 和密钥了

有了 API 之后，我们需要去给 PotPlayer 安装百度翻译插件

打开此 Github 项目，将整个项目文件都下载下来：https://github.com/fjqingyou/PotPlayer_Subtitle_Translate_Baidu

如果你访问Github困难，请使用Watt Toolkit加速器（目前支持WIN／Mac／Linux／安卓）：https://steampp.net/

然后将项目解压出来的 SubtitleTranslate - baidu.as、SubtitleTranslate - baidu.ico 这 2 个文件复制到 PotPlayer 软件安装目录中的Extention\Subtitle\Translate 文件夹里面即可

后续就只需要到 PotPlayer 播放界面右键 ⇨ 字幕 ⇨ 实时字幕翻译 ⇨ 实时字幕翻译设置 ⇨ 选中百度翻译 ⇨ 点击账户设置 ⇨ 填入 APP ID 和密钥就行了

3.2

在线 AI 大模型翻译

第二种选择，阿虚推荐白嫖此前就介绍过的硅基流动 API 来使用 AI 大模型翻译，比起百度的机器翻译，效果会更好！

目前新用户手机注册即可得 2000 万 Tokens，通过阿虚的邀请链接注册还能再额外得 2000 万 Tokens，就算赠送额度用完了也可以选择免费模型继续白嫖：https://cloud.siliconflow.cn/i/snHnLED8

注册好之后先暂停，我们先把第三方翻译插件装好，才方便大家看懂后续教程

还是和百度翻译一样，打开此 Github 项目，将整个项目文件都下载下来：https://github.com/Felix3322/PotPlayer_Chatgpt_Translate

如果你访问Github困难，请使用Watt Toolkit加速器（目前支持WIN／Mac／Linux／安卓）：https://steampp.net/

然后还是一样的，将项目解压出来的 SubtitleTranslate - ChatGPT - Without Context.as、SubtitleTranslate - ChatGPT - Without Context.ico、SubtitleTranslate - ChatGPT.as、SubtitleTranslate - ChatGPT.ico这 4 个文件都复制到 PotPlayer 软件安装目录中的Extention\Subtitle\Translate 文件夹里面即可

OK，现在我们打开硅基流动的「模型广场」，如果你是新注册会有2000万 token 额度，所以我们可以优先选择「可用增费」的模型

就算后期你的额度用完了也没事，我们可以换成免费模型，对于翻译场景来说，小参数的免费模型其实也是完全够用的

硅基流动目前提供，并且插件支持的模型有以下可以选择：Deepseek

Deepseek
通义千问 Qwen
硅基流动 Siliconflow
百度文心一言 Ernie
月之暗面 KIMI
零一万物

插件也支持调用国外的 AI 大模型（Chatgpt、Claude等），具体可见插件 Github 官网，阿虚这里未全部列出

这里我们选个百万调用便宜一点的 Deepseek V2.5（注意选择对话模型，但不要选择推理模型）

点击模型之后，在上方点击按钮，复制模型名称

接着打开 PotPlayer 播放界面右键 ⇨ 字幕 ⇨ 实时字幕翻译 ⇨ 实时字幕翻译设置 ⇨ 选中ChatGPT翻译 ⇨ 点击账户设置 ⇨ 先填入刚刚复制模型名称 ⇨ 然后输入一个|

这里专门说明一下竖杠 | 符号的输入方法，很简单，同时按住 Shift＋回车上面那个键就行了

接着我们点击模型的 API 文档

在弹出的 API 文档网页里面

然后把这个链接粘贴到刚刚 PotPlayer 的 API 配置处就行了

上面的 API 密钥则是在硅基流动平台左侧点击 API 密钥即可新建生成，生成后填进去即可

3.3

Ollama 本地 AI 大模型翻译

最后，如果你觉得在线翻译存在内容审核，亦或者是不想将视频数据上传到云端处理，更关注数据隐私的话，这里还有一招

方案就是借助 Ollama 搭建本地 AI 大模型服务，然后再使用 PotPlayer 来调用

不过这个方案又需要下载一系列软件＋模型＋插件，需要 WIN10 以上系统，对网络环境也有要求，使用起来颇为麻烦，大家可以酌情考虑是否折腾

首先打开 Ollama 的 Github 地址找到 OllamaSetup.exe 并下载（可能被隐藏了，需自己点击展开）：https://github.com/ollama/ollama/releases

如果你访问Github困难，请使用Watt Toolkit加速器（目前支持WIN／Mac／Linux／安卓）：https://steampp.net/

然后一来 Ollama 的安装就存在一个问题，因为这个软件默认只能装到 C 盘，软件本体就有 4.5 GB，加上后续 AI 模型文件，可能会占用 C 盘 10GB 以上空间

如果你的 C 盘空间足够，那从官网下载后直接安装即可，如果不够，请参考以下安装方法

首先在你想安装的路径下创建好一个新文件夹（比如Ollama），并把 Ollama 的安装包放在里面。比如如图：E:\MySoftware\Ollama

然后在资源管理器的文件路径上输入 CMD，然后回车，接下来将会自动打开命令窗口

然后在 CMD 窗口输入：OllamaSetup.exe /DIR=E:\MySoftware\Ollama

具体语法为：软件安装包名称 /DIR=这里放你上面创建好的Ollama指定目录

输好命令之后回车，Ollama 就会进入安装流程，接下来点击 Install 等待安装即可——这样就能把 Ollama 安装到你指定的路径了

接着我们打开 Ollama 官网，点击左上角的 Models 选择模型进行下载：https://ollama.com/search

阿虚这里以 Qwen2.5 进行演示（阿虚测试了几个模型，感觉最好的话也是用这个，因为其他模型可能提示词不太适配，生成效果反而不好），总之你会发现 Qwen2.5 包含的模型版本非常多

这里的话，因为阿虚电脑暂时只有核显，就只装一个比较小的 1.5B 模型进行演示（如果电脑性能足够，使用7B模型效果会好很多）。我们点击右上方的复制按钮，复制主要的安装命令

然后按下键盘上的WIN＋R键打开运行窗口，接着输入 CMD 打开命令提示符，然后单击鼠标右键即可粘贴我们刚刚复制的安装命令，最后英文输入法下补上冒号和你想要安装的模型大小即可

然后我们还是需要安装 PotPlayer翻译插件，一样的打开此 Github 项目，将整个项目文件都下载下来：https://github.com/yxyxyz6/PotPlayer_ollama_Translate

如果你访问Github困难，请使用Watt Toolkit加速器（目前支持WIN／Mac／Linux／安卓）：https://steampp.net/

后续就只需要到 PotPlayer 播放界面右键 ⇨ 字幕 ⇨ 实时字幕翻译 ⇨ 实时字幕翻译设置 ⇨ 选中百度翻译 ⇨ 点击账户设置 ⇨ 填入 APP ID 和密钥就行了

找到全局变量这里，选中 wangshenzhi/gemma2-9b-chinese-chat:latest 然后按下 Ctrl＋H 进行替换，将其全部替换为我们下载的模型 qwen2.5:1.5b 即可

后续就 PotPlayer 翻译引擎中选择 Ollama 就行了，不再需要其他额外设置

唯一就是使用 Ollama 本地模型翻译的话，需要 Ollama 一直在后台保持启动哈

资源打包下载

最后，PotPlayer 全引擎＋全模型绿色整合包＋文章上述提到的各种引擎、模型、插件文件单独下载地址阿虚这边都已经替大家整理好了，整合包提供了不限速下载方法

地址就不放公众号后台了，大家可以自行到储物间（地址发布页：axutongxue.cccpan.com）获取，网站顶部就是搜索功能

写这篇文章前前后后还是折腾了很久，可能还有许多不足，有问题的话欢迎在评论区留言

总得来说，PotPlayer 实时生成字幕＋翻译其实还是比较吃电脑性能的，电脑配置较低的情况下，字幕生成的速度还有质量都会大打折扣——并且只支持本地视频

PotPlayer 史诗级更新！实时字幕生成+实时翻译，看片真的无敌了！

Copyright PotPlayer.vip.Some Rights Reserved.

Powered By Z-BlogPHP. Theme by TOYEAN.