PodGist v0.2.2 测试版发布!

Github 链接:https://github.com/TobyKSKGD/PodGist

AI 音频提炼工具 · 以时间轴为核心 | 让音频内容可搜索、可定位、可复用

License: MIT
React
TypeScript
FastAPI

简介

PodGist 是一个基于云端 AI 的音频内容结构化工具。它通过语音转录(阿里云 DashScope ASR)和大语言模型(通义千问)分析,将各类音频(播客、讲座、会议录音等)转化为带精确时间轴的结构化摘要。

设计理念:在所有音频总结工具都在卷”总结得多详细”的时候,我们选择回到音频内容最独特的价值——时间。每一期播客、每一段录音,其核心价值不仅在于说了什么,更在于什么时候说的。时间轴让你可以直接跳转到感兴趣的部分,而不用在漫长的音频里猜测”这部分大概在几分几秒”。

核心特性:以时间轴为中心

PodGist 所有功能都围绕时间轴展开:

功能说明
精确时间戳逐字稿带 [MM:SS] 时间戳,每个字都能在音频中找到对应位置
高光时间轴AI 从全部内容中提炼最值得关注的时刻,直接跳转无需猜测
语义定位向 AI 提问”这段话在第几分钟”,AI 告诉你具体时间戳
归档溯源每条引用自动标注来源归档和时间,回复中所有观点都有据可查

安装与使用

macOS 版本

系统要求

  • macOS 12.0 (Monterey) 或更高版本
  • Apple Silicon (M1/M2/M3/M4)
  • 推荐 8GB 以上内存

安装步骤

1. 下载安装包

点击 PodGist Releases 下载 PodGist-X.Y.Z-mac-arm64.dmg 文件。

2. 安装应用

打开下载的 .dmg 文件
将 PodGist.app 拖入 Applications(应用程序)文件夹

3. 启动应用

双击 PodGist
首次启动若提示"无法打开",
前往 系统设置 → 隐私与安全性
滚动到底部,点击"仍要打开"

4. 配置 API Key

应用启动后,右侧边栏底部点击偏好设置,输入你的阿里云 DashScope API Key 并保存。

没有 API Key?访问 阿里云百炼控制台 注册获取,新用户有免费额度。

5. 开始使用

  • 本地文件:拖拽 MP3、WAV、M4A 等音频文件
  • 播客链接:粘贴小宇宙、喜马拉雅、Apple Podcasts、网易云等平台链接
  • B站视频:粘贴 Bilibili 视频链接
  • 智能对话:向全部历史归档提问,基于 RAG 精准定位相关内容

Windows 版本

系统要求

  • Windows 10 或 Windows 11
  • 推荐 8GB 以上内存

安装步骤

1. 下载安装包

点击 PodGist Releases 下载 PodGist-X.Y.Z-win-x64.exe 安装包。

2. 安装应用

运行下载的 .exe 安装程序,按提示完成安装。

3. 启动应用

从开始菜单或桌面快捷方式启动 PodGist。

4. 配置 API Key

应用启动后,右侧边栏底部点击偏好设置,输入你的阿里云 DashScope API Key 并保存。

没有 API Key?访问 阿里云百炼控制台 注册获取,新用户有免费额度。

5. 开始使用

  • 本地文件:拖拽 MP3、WAV、M4A 等音频文件
  • 播客链接:粘贴小宇宙、喜马拉雅、Apple Podcasts、网易云等平台链接
  • B站视频:粘贴 Bilibili 视频链接
  • 智能对话:向全部历史归档提问,基于 RAG 精准定位相关内容

功能概览

  • 本地音频文件转录摘要
  • 播客链接解析(小宇宙/Apple/喜马拉雅/网易云)
  • B站视频音频提取
  • 阿里云 DashScope ASR 转录
  • 通义千问 LLM 摘要生成
  • 精确时间轴逐字稿
  • 高光时间轴提炼
  • 智能对话与 RAG 语义搜索
  • 标签管理与归档整理
  • 批量处理

快速开始(开发者)

前置要求

  • Python 3.10+
  • Node.js 18+(含 npm)
  • FFmpeg

安装步骤

# 克隆项目
git clone https://github.com/TobyKSKGD/PodGist.git
cd PodGist

# 安装 Python 依赖
pip install -r requirements.txt

# 安装前端依赖
cd frontend && npm install && cd ..

# 启动
npm run dev

访问 http://localhost:5173,在偏好设置中配置 DashScope API Key。


技术架构

┌─────────────────────────────────────────────────────┐
│                 React Frontend                     │
│             (http://localhost:5173)               │
│         Tabler Icons · Tailwind CSS v4             │
└──────────────────────┬──────────────────────────────┘
                      │ HTTP / REST
                      ▼
┌─────────────────────────────────────────────────────┐
│                 FastAPI Backend                     │
│               (http://localhost:8000)               │
│   DashScope ASR · 通义千问 · yt-dlp · FFmpeg       │
└─────────────────────────────────────────────────────┘

技术选型

  • DashScope ASR:阿里云 qwen3-asr-flash / paraformer 云端转录,中文识别准确率领先
  • 通义千问(qwen-plus):LLM 摘要生成,质量稳定
  • ChromaDB + Sentence Transformers:本地向量数据库,RAG 语义搜索
  • yt-dlp:多平台音视频下载

后端模块

模块功能
api.pyFastAPI 主服务,RESTful 接口
backend/transcriber.pyDashScope ASR 云端转录
backend/llm_agent.py通义千问 LLM 摘要生成
backend/rag_db.pySQLite + ChromaDB(RAG 存储)
backend/rag_retriever.pyRAG 检索与流式生成
backend/downloader.py多平台音频下载
backend/worker.py后台任务队列
backend/task_queue.pySQLite 任务状态管理

支持的平台

播客平台

平台说明
小宇宙自动解析 MP3 直链
喜马拉雅自动解析并下载音频
Apple Podcasts自动提取音频
网易云音乐支持播客单集链接

视频平台

平台说明
Bilibili提取视频音频

为什么放弃本地大模型

PodGist 最初设计时,目标是利用本地算力(Whisper + 开源模型)完成全部处理——这样用户不需要付任何 API 费用。

但在开发过程中,我们深刻体会到了这条路线的根本问题:

硬件门槛太高。苹果 M 系列芯片能跑,但 8GB 内存捉襟见肘;NVIDIA 显卡是最佳选择,但大多数用户没有配备中高端 GPU。”最低要求”和”流畅使用”之间的差距,让本地方案始终是少数人的专利。

环境配置复杂到令人窒息。PyTorch 版本、CUDA 版本、modelscope、funasr、whisper,每一层都有各自的依赖地狱。开发团队自己都难以在不同机器上复现问题,用户就更不用说了。”为什么安装失败”成了 GitHub Issues 里最难回答的问题。

更新维护成本巨大。模型版本、依赖兼容性、硬件驱动……每次升级都可能引入新的问题,而这些与产品核心价值无关。

最终,我们选择了云端 API

  • 用户只需要一个 API Key,5 秒开始使用
  • 阿里云 DashScope 同时提供 ASR 转录和 LLM 摘要,同一密钥打通全流程
  • 代码库大幅简化,维护成本降到最低
  • 开发者可以把精力放在真正重要的功能上——时间轴

📋 完整更新日志见 CHANGELOG.md

未来重心:时间轴生态

时间轴是 PodGist 的核心。我们计划围绕时间轴构建更多能力:

  • 时间轴协作:在时间轴上添加个人笔记和标注
  • 多语言时间轴:同一时间轴支持中英文字幕对照
  • 时间轴分享:生成带有时间链接的分享卡片

依赖

前端

后端


许可证

MIT License

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇