Input 0:开源 macOS 本地语音输入工具,支持本地转录与自定义 LLM 润色

 

macOS 自带语音听写能用,但不够用。

它会原样保留“嗯”“然后”“那个”这些口头禅;碰到技术术语、英文缩写或品牌名,识别结果也可能不太理想。更关键的是,很多用户对系统级语音输入的顾虑,不是能不能用,而是数据处理路径不够可控。

Input 0 是一个面向 Mac 用户的开源 macOS 本地语音输入工具。它把语音转文字这一步尽量留在本机完成,再按需接入你自己的 LLM API 润色文本,最后直接粘贴进任意输入框。

真正让这款 macOS 本地语音输入工具和普通听写工具拉开差距的,不是“能不能转文字”,而是它把本地转录、自定义模型和 LLM 润色拆成了可选组合。

Input 0:开源 macOS 本地语音输入工具,支持本地转录与自定义 LLM 润色

 

Input 0 的核心优势在于它的“分层处理机制”:支持下载离线语音模型,让语音到文字的转录阶段在本地完成;同时支持接入自定义的 LLM(大语言模型)API 来润色文本。它的限制在于目前仅限 macOS 平台,且本地运行模型对电脑性能(尤其是 Apple Silicon)有一定要求,比较适合对数据流向敏感、有一定动手能力的轻度折腾用户。

Input 0:开源 macOS 本地语音输入工具,支持本地转录与自定义 LLM 润色

这款 macOS 本地语音输入工具和普通听写有什么区别?

很多常见的语音输入工具,会把识别过程放在云端完成。网络不稳时容易拖慢体验,数据处理路径也不够直观。

Input 0 的工作流是拆开的。按住快捷键开始录音,松手后,本地引擎会优先调用设备本地算力完成转录,不依赖联网识别。如果配置了 API,它会紧接着调用大模型帮你去掉口水话、修正专有名词,最后输出干净的文本。

Input 0 的工作流程

整个流程分三步,按住快捷键(默认 Option+Space)开始,松手结束:

Input 0:开源 macOS 本地语音输入工具,支持本地转录与自定义 LLM 润色

  1. 按住快捷键 → 开始录音,界面以半透明浮层出现,不打断当前工作。
  2. 松手 → 本地引擎优先调用本地算力完成转录;在 Apple Silicon 机器上体验通常更好。是否联网,取决于你后续是否启用 LLM 润色。
  3. LLM 润色 → 调用你配置的 API,去掉口头禅、修语法、纠正专业术语,然后自动粘贴进当前输入框。

如果中途想取消,任意阶段按 ESC 都能中止。历史记录里能看到原始转录和 LLM 润色后的对比,方便复查。

本地语音引擎怎么选?

Input 0 支持多种本地 STT(语音转文本)引擎和按需下载的模型,你不需要全部安装,你可以这样选:

Input 0:开源 macOS 本地语音输入工具,支持本地转录与自定义 LLM 润色

引擎名称 推荐场景 体积参考
SenseVoice Small 更适合中文为主的多语场景 ~228 MB
Paraformer Chinese 纯中文,极速推理 ~217 MB
Whisper Large v3 Turbo 英文或多语言混杂,精度高 ~1.5 GB
Moonshine Base 仅英文,速度极快 ~274 MB

对于大部分中文用户,直接选 SenseVoice Small 或 Paraformer 就行,体积小、启动快。

LLM API 怎么配置?

这是 Input 0 和其他语音输入工具的主要差异点之一:你可以接任何兼容 OpenAI 格式的 LLM,不绑定特定服务商。

Input 0:开源 macOS 本地语音输入工具,支持本地转录与自定义 LLM 润色

设置路径: 打开 Input 0 → 侧边栏 ⚙️ 设置 → LLM API 区域

  • API Key:填入你的 OpenAI 或兼容服务商密钥
  • API Base URL:默认 OpenAI,改成第三方接口地址也可以(Groq、Azure、本地 Ollama 均支持)
  • Model:默认 gpt-4o-mini,可以换成任意模型名

填完可以点「Test Connection」验证连通性。

如果只想要语音转文字、不需要 LLM 润色,不填 API Key 也能用——只是输出的是原始转录,口头禅和错别字需要自己处理。

使用前最容易忽略的 3 个门槛

这东西看着思路很好,但并不是点开就能用的傻瓜式软件,它挑人也挑环境:

客观避坑:

  1. 网络门槛: 本地模型是从 Hugging Face 下载的,如果你所在的网络环境无法顺畅访问该平台,模型下载这一步就会卡住。
  2. 设备门槛: 官方推荐使用搭载 Apple Silicon(M 系列芯片)的 Mac。Intel 芯片的 Mac 理论上能跑,但转录速度和发热表现可能会打折扣。
  3. 数据流向边界: 虽然“语音转文字”这一步在本地不出电脑,但如果你启用了 LLM 润色功能,转录后的文本依然会发送给你配置的大模型接口。

这款 macOS 本地语音输入工具适合哪些人?

如果你是 M 系列 Mac 用户,平时需要大量口述草稿、整理会议内容,或者经常输入技术术语、品牌名和中英混合内容,Input 0 会比系统自带听写更值得折腾。反过来,如果你只想偶尔说两句消息,不想自己下载模型、配置 API,那系统自带方案反而更省事。

Input 0:开源 macOS 本地语音输入工具,支持本地转录与自定义 LLM 润色

还有一点容易被忽略:Input 0 采用 CC BY-NC 4.0 许可证,个人学习和非商业使用更直接;如果你打算放进商业环境里长期使用,最好先核对授权边界。

💡 延伸阅读:如果你用的不是 Mac,或者想对比一下市面上其他免费好用的语音转文字方案,可以点击查看本站整理的 👉 更多语音输入工具推荐

项目主页与源码入口

免责声明:本文基于 2026 年 4 月该开源项目公开页面与文档整理。Input 0 采用 CC BY-NC 4.0 许可证,涉及商业使用请自行核对授权边界。本地模型性能受具体硬件环境影响,接入第三方 API 润色时请注意遵守对应的服务条款及数据传输合规要求。

  1. 转载或引用本文内容,请保留原文链接并注明来源。
  2. 本站内容主要用于信息整理、技术研究与经验分享,不对第三方产品或服务的可用性、完整性作出任何明示或暗示的保证。
  3. 部分内容可能来源于公开网络或开源社区,如涉及版权或其他合法权益问题,请通过下方联系方式与我们联系,我们将在核实后及时处理。
  4. 本文所提及的工具、项目或解决方案仅供学习与研究参考。如涉及商业使用,请自行确认并遵守相关软件、平台或服务的授权条款。
  5. 反馈与联系(# 替换为 @):feedback#abskoop.com