voxly——一款专为视障者打造的一站式音视频字幕处理工具

voxly 简介
voxly  是一款面向创作者的综合性音视频字幕处理工具,专注于提升音视频转录、字幕编辑与成片输出的整体效率。
软件整体分为两个核心模块:
•  第一部分:音视频转录与字幕编辑
•  第二部分:字幕与音视频合并输出
下面将氛围三个部分逐一说明:

第一部分:音视频转录与字幕编辑

  1. 音视频转录能力
    voxly 的核心能力基于  Whisper + FFmpeg + LibVLC 构建,兼顾准确性、稳定性与可扩展性。
    支持以下功能:
    •  支持直接导入音频文件
    •  支持视频文件自动转码后导入
    •  可自由选择推理模型
    •  提供完整的转录参数设置,包括但不限于:
    •  识别语言
    •  输出格式
    •  CPU 线程数
    •  温度(Temperature)
    •  长字幕自动拆分策略
  2. 配置与任务管理
    •  支持  转录配置的保存与加载
    •  支持配置文件的  导入、导出、新增、修改与删除
    •  内置任务存储系统,可自动保存历史转录任务
    •  支持在任务管理界面中:
    •  快速打开历史任务
    •  删除不再需要的任务
    软件在关闭后,会在下次启动时  自动加载最近一次任务状态,实现:
    即开即用 · 即时恢复 · 无缝继续编辑
    无需重复配置,也无需重新导入素材。
  3. 字幕编辑系统
    在字幕编辑界面中,你可以高效完成以下操作:
    •  字幕的新增、编辑与删除
    •  字幕内容翻译
    •  长字幕拆分与合并
    时间轴精细控制
    •  支持使用快捷键实时调整字幕时间轴
    •  可分别调整字幕的  起始时间与结束时间
    •  调整精度覆盖  10ms 到 1 秒,满足精细对齐需求
    在时间轴调整过程中:
    •  软件会自动检测字幕时间边界
    •  若发生重叠或冲突,将自动进行修复与重新排版
    •  有效避免字幕覆盖、错位等常见问题
    随调随听设计(核心特色)
    voxly 采用独创的  「随调随听」设计理念:
    •  在调整字幕时间轴的同时
    •  软件会实时播放当前字幕对应的音频片段
    这一设计让字幕编辑过程更接近  DAW 音频工作站  的操作体验,使你可以在“听见”的状态下进行精确调整,而非依赖反复预览。
  4. 二次编辑与多格式导出
    •  支持导入外部音频、视频与字幕文件进行二次编辑
    •  支持多种字幕导出格式:
    •  SRT
    •  VTT
    •  TXT
    •  LRC
    •  同时支持导出  JSON 数据,用于查看和分析更完整、更底层的转录信息
  5. 快捷键体系
    voxly 内置一整套完善且一致的快捷键逻辑:
    •  覆盖转录、播放、编辑、时间轴调整等核心操作
    •  在实际使用中可实现:
    几乎不离开键盘的高效率处理体验
    真正做到“所见即所得,指哪儿打哪儿”。
    第二部分:音视频与字幕合并
    在完成字幕编辑后,voxly 提供完整的音视频与字幕合并能力:
    音视频与字幕合并的能力由voxly附带的视频合成器提供。
    支持的合成模式
  6. 视频 + 字幕合成
    •  支持常见视频格式(mp4 / mkv / mov 等)
    •  原视频画面保持不变
    •  字幕以硬字幕形式渲染进视频画面
    •  默认音频流直拷,避免不必要的音质损耗
    适用于已有视频,仅需添加字幕的场景。
  7. 音频 + 字幕合成(音频转视频)
    针对纯音频素材,工具提供完整的视频化方案:
    •  支持纯音频文件(mp3 / wav / flac 等)
    •  可选择:
    •  纯黑背景自动生成视频
    •  或手动指定背景图片(支持添加多张图片,并设置起始时间)
    •  字幕按时间轴精确叠加
    该模式适用于播客、访谈、朗读、音乐歌词视频等场景。
    画幅与分辨率控制
    工具内置明确的画幅逻辑:
    •  横屏模式(16:9)
    •  默认输出:1920 × 1080
    •  竖屏模式(9:16)
    •  默认输出:1080 × 1920
    原画:
    按照原视频属性输出。
    字幕样式系统
    字幕样式通过 A 样式参数统一控制,支持以下维度:
  8. 字体系统
    •  支持系统字体直接选择
    •  支持加载外部字体文件(TTF / OTF)
  9. 字幕样式参数
    可调节项包括:
    •  字号
    •  是否加粗
    •  字幕位置(顶部 / 底部 / 居中)
    •  垂直边距自动适配
    •  字体颜色
    •  背景 / 描边颜色
  10. 边框渲染模式
    •  描边模式(Outline)
    •  常见影视字幕样式
    •  适合绝大多数场景
    •  背景框模式(Box)
    •  黑底白字等可读性优先方案
    •  常见于 CC 字幕、教学视频
    预设样式系统
    工具内置多套字幕样式预设,用于快速匹配不同平台风格:
    •  抖音 / 快手(短视频通用)
    •  视频号(沉浸式)
    •  YouTube Vlog(黄字描边)
    •  YouTube CC(黑框字幕)
    •  电影感字幕(偏克制风格)
    预设的作用是 快速接近目标风格,你仍可在此基础上进行细节微调。
    注意:字幕字号不会随分辨率自动缩放,而是 严格遵循你设定的值,保证最终画面风格可控、可复现。
    调节过程中可实时预览。
    voxly和视频合成器采用分离式更新,支持自动更新,可从网站随时下载并回退到旧版本。
    第三部分 .:Voxly 主程序快捷键 
    3.1 主界面与字幕列表 
    快捷键               说明                   
    基本设置:
    在基本设置页面浏览文件时:
    •    Ctrl + V:直接粘贴文件(从资源管理器复制后粘贴)
    页面快速跳转快捷键:
    Alt + 1    基本设置
    Alt + 2    输出格式
    Alt + 3    高级设置
    Alt + 4    字幕编辑
    Alt + 5    任务管理
    Alt + 6    模型管理
    Alt + 7    配置管理
    Alt + 8    查看日志
    字幕编辑页面:
    Enter             播放选中字幕对应的音频片段        
    ctrl+p在列表内开关自动播放
    Delete            将选中字幕移入回收站           
    左方向键 / 右方向键             音频快退 / 快进 500ms 并自动回放
    F2                进入编辑模式(修改选中的文本或时间轴)  
    ctrl+f按关键词查找字幕
    f3查找下一个匹配项
    shift+f3向上查找匹配项
    ctrl+h替换字幕
    F7                新增一行字幕
    F8                翻译当前选中的字幕
    f9拆分所选字幕
    Ctrl + shift+ T          开启全文自动翻译             
    Ctrl + Shift + R  恢复翻译前的原始文本             
    ctrl+s手动保存字幕
    ctrl+e手动按所选格式导出
    3.2 字幕编辑窗口 
    快捷键            说明                                      
    Shift + Space  播放 / 停止音频预览                             
    Ctrl + P       切换"自动播放"模式                              
    Ctrl + 左方向键 / 右方向键   根据选择的调整位置按当前设定的步长缩短或延长选定时间点                         
    Ctrl + 上方向键 / 下方向键   切换调整步长(10ms / 50ms / 100ms / 500ms / 1s)
    Enter 或 esc         保存修改并关闭编辑窗口                             
    3.3 配置管理 
    快捷键     说明          
    F2      重命名当前选中的任务配置
    Delete  删除当前选中的任务配置   
    3.4 视频合成工具快捷键 
    核心操作 
    快捷键       说明           
    Ctrl + P  开启 / 关闭自动播放模式
    Space     预览当前选中行的字幕片段   
    调整精度设置(毫秒) 
    数字键  步长         
  11.    1000ms(1 秒)
  12.    500ms      
  13.    100ms(默认)  
  14.    50ms       
  15.    10ms         
    字幕时间轴微调(需选中表格行) 
    快捷键              说明    
    Alt + ←          开始时间提前
    Alt + →          开始时间延后
    Alt + Shift + ←  结束时间提前
    Alt + Shift + →  结束时间延后  
    在图片表格内右键图片可编辑起始时间。

写在最后:
来说说为什么要做他:
原因很简单,因为其他软件不好用,不耐用,收费不合理。
我和你一样,都是盲人,全忙,所以,你在制作过程中遇到的问题,我都遇到过,你没遇到过的问题,可能我也遇到过。因此我不希望让设计和操作成为我们往前再走一步的拦路虎与绊脚石。
谢谢大家,希望我们都能好好睡觉吃的饱饱。
悲伤和希望都是一缕光,让我们一起加油!

暂无评论

发表评论