AI 截图解读 — Chrome 浏览器框选截图秒解读

做这个扩展是因为我自己烦。看 Dribbble、翻外文文档、读论文截图时，遇到一段不认识的英文或一张陌生的图表，得做 6 步：截图 → 保存 → 打开 ChatGPT → 上传图片 → 输入提示 → 等回答。一个周末后，我把这 6 步压成了 1 步：按 Alt+S，鼠标框一下，结果出现在右上角浮动面板。后来产品化、上架审核、迭代了七个小版本，现在它有 6 个内置 Prompt 模板、3 套皮肤切换、PDF 兼容，仍然只有 28 KB。

📦 项目状态：扩展已在 Chrome Web Store 上线，点此一键安装（当前商店版本 v1.2.0）。v1.3.7 已提交更新审核，通过后会自动推送给已安装用户。等不及的可以走开发者模式安装最新版。

它能干什么

按 Alt+S 在网页上拖拽框选任意区域 — 按 Alt+S 在任意网页拖拽框选，半透明遮罩让选区一目了然

AI 解读结果出现在右上角浮动面板 — 松开鼠标 2-3 秒后，AI 解读出现在右上角浮动面板，不打断浏览

核心特性

⌨

双快捷键 + 自定义

主键 Alt+S、备用键 Alt+Shift+S，都可在 chrome://extensions/shortcuts 自定义。极端冲突场景也有出路。

✦

9 个 Prompt 模板

6 个内置模板药丸切换（含读论文、视觉解析、代码解释），3 个自定义槽存自己的 Prompt。

◐

3 套皮肤

Aurora / Dark / Sakura，popup + 浮动面板 + PDF 窗口全局同步换肤，已开着的面板实时跟随。

📄

PDF / 受限页面兼容

chrome:// 或 PDF 等无法注入的页面，自动切换"全屏模式"——整页捕获给 AI，照样能用。

📌

多任务浮动面板

可拖动、可折叠，同页面连续框选会累积多张卡片，方便对比。

🔒

纯本地存储

API Key / 模型 / Endpoint / Prompt 都在 chrome.storage.local，截图直接 POST 到你配置的端点，不经过任何中转。

同一页面可以连续框选多次，结果累积成卡片 — 同一页面可以连续框选多次，每次结果作为一张卡片留存

Prompt 预设系统（v1.3 新增）

v1.2 时代只有一个全局 Prompt——再想转录、翻译、问代码，得手动改一长串文字。 v1.3 把这个变成了一排药丸标签，一秒切换。每个预设根据浏览器语言自动用对应 Prompt（中文环境出中文答案，英文环境出英文答案）。

通用转录文字翻译视觉解析读论文代码解释自定义 1 自定义 2 自定义 3

通用解读：默认，啥都能问，先转录后解释
转录文字：纯 OCR，按原版式提取，不解释
翻译：外文 → 简体中文，保留段落 / 列表 / 代码结构
视觉解析：拆解图片构图 / 光照 / 配色（带 HEX）/ 风格，给一段通用提示词（MJ / SD / 即梦 / DALL·E 都能用）
读论文：按论文领域自动判断（CS / 生医 / 物理化学 / 经济 / 心理 / 人文社科），按该学科审稿习惯输出（核心 claim / 关键方法 / 显著性 / 可疑点）
代码解释：按段讲逻辑、标 bug / 性能问题 / 安全隐患，保留标识符不翻译
3 个自定义槽：写自己的 Prompt 存进去，跟内置模板平起平坐

3 套皮肤

皮肤切换不是 popup 化妆——而是 popup、浮动解读面板、PDF 全屏窗口的全局换肤。已经开着的浮动面板会通过 chrome.storage.onChanged 监听实时跟随，不需要关掉重开。

Aurora

默认 · 蓝紫渐变

Dark

深色 · 护眼

Sakura

粉系 · 暖色

设置弹窗，含 3 套皮肤切换 + Prompt 模板 — popup 同时展示 3 套皮肤效果（左 Aurora 主图、右上 Dark + Sakura 缩略）

技术实现

Chrome Manifest V3 项目，无依赖，原生 JS / CSS / HTML 实现，整包 28 KB（含 i18n、3 套皮肤变量、3 张图标、6 个 Prompt 模板的中英文）。

权限模型：用 activeTab + 按需注入（chrome.scripting.executeScript），而不是静态 <all_urls> content_scripts，符合 CWS 最小权限推荐
截图：chrome.tabs.captureVisibleTab 抓可视区，再用 canvas 裁剪框选区域
AI 接口：默认接火山方舟的 doubao-seed-2-0-mini 多模态模型，Endpoint / 模型 / Prompt 全部可在 popup 改
浮动面板：原生 JS 注入，CSS 变量驱动 3 套皮肤，chrome.storage.onChanged 监听让已开面板实时跟随主题
PDF / 受限页面回退：注入失败时自动 captureVisibleTab + chrome.windows.create 弹出 result.html，整页发给 AI
双快捷键：manifest 注册两个 commands 路由到同一处理函数，Chrome 任意一个能自动绑定就工作
i18n：_locales/{zh_CN,en} 双语，扩展名 / 描述 / Prompt 内容跟随浏览器语言自动切换

调用示例

POST https://ark.cn-beijing.volces.com/api/v3/responses
Authorization: Bearer <API_KEY>

{
  "model": "doubao-seed-2-0-mini-260428",
  "input": [
    { "role": "user", "content": [
        { "type": "input_image", "image_url": "data:image/png;base64,..." },
        { "type": "input_text",  "text": "..." }  // 取决于当前选中的预设
    ]}
  ]
}

隐私 & 安全

设计原则：开发者不应该看到用户的任何数据。所以这个扩展没有任何服务器，截图直接从你的浏览器 POST 到你配置的 API 端点。

API Key 仅存储在 chrome.storage.local，受 Chrome 沙箱保护，其他网页或扩展无法访问
截图数据不经过开发者任何中转服务器，直接从你的浏览器 POST 到火山方舟（或你配置的其他 endpoint）
不收集浏览历史、不使用 Cookie、不做任何分析或广告定向
不加载任何远程代码，所有 JS / CSS 都打包在扩展内（CWS 审核时已声明"不使用远程代码"）
完整隐私政策：privacy.html

版本历史

版本	更新内容
`v1.3.7`	正常网页框选恢复秒开（v1.3.6 误把正常路径也卡 1s）；Dark 主题浮动面板顶栏改深色
`v1.3.6`	注入 / 截图失败时强制弹错误窗口避免静默；Alt+S 去抖防 Chrome 截图频率上限
`v1.3.5`	浮动面板 / PDF 全屏窗口跟随 popup 主题；移除 Mono 皮肤保留 3 套
`v1.3.4`	"自定义"链接一键跳转 chrome://extensions/shortcuts
`v1.3.3`	备用快捷键 Alt+Shift+S 显式标注在 popup 提示区
`v1.3.2`	双快捷键共存：Alt+S 主键 + Alt+Shift+S 备用键
`v1.3.1`	PDF / chrome:// 全屏回退模式；3+1 套皮肤；6 内置 + 3 自定义 Prompt 模板；"视觉解析"替换"反推提示词"
`v1.2.0`	i18n 中英自动切换；移除 <all_urls> 改为 activeTab 按需注入 · 上架 CWS
`v1.1.x`	产品化（图标、移除硬编码 Key、收窄 host 权限、隐私政策页）
`v1.0`	初版，Doubao Seed 2.0 Responses API + Alt+S 框选

下一步计划

划词模式：选中文本（无需框选）直接送给 AI，比框选更轻
结果卡片导出 Markdown / 一键复制
多模型并排对比（豆包 vs GPT vs Gemini，同一张截图三路解读）
预设可绑定不同模型（如"OCR"用便宜 mini，"读论文"用更强模型）

试用 & 反馈

扩展已上架 Chrome Web Store，点下面的按钮即可一键安装。v1.3 通过审核后，已安装用户会自动收到推送；想立刻用上最新版也可以走开发者模式安装。

从 Chrome Web Store 安装 GitHub 源码提 Issue