DreamCatch AI¶
约 3248 个字 预计阅读时间 16 分钟
掬梦
基于多模态AI的梦境捕捉与重建系统¶
Product Proposal v1.0
2026.04.19
一款专为梦境记录者设计的AI工具,通过语音捕捉、智能结构化、交互式补全与场景可视化,将转瞬即逝的梦境转化为可回溯的多模态记忆。
目录¶
1 问题定义与痛点分析
2 产品愿景与核心理念
3 系统架构概览
4 核心模块设计
5 技术选型
6 用户体验流程
7 差异化与竞争优势
8 开发路线图
9 风险与缓解策略
10 总结
1. 问题定义与痛点分析¶
梦境是人类认知体验中最独特的现象之一。然而,梦境的记录面临一个根本性矛盾:梦境的信息带宽远远超过任何单一记录方式的表达带宽。基于用户调研与个人实践,我们识别出以下核心痛点:
| 痛点 | 现有方案 | 核心缺陷 |
| 记忆快速衰减 | 醒后手写/打字 | 耗时过长,记忆在记录过程中持续流失 |
| 场景难以文字化 | 画草图辅助 | 需要清醒状态下的绘画能力,且无法捕捉动态场景 |
| 语音表达不完整 | 录音 | 刚醒时口齿不清,描述碎片化,事后难以回听整理 |
| AI生图与梦境差异大 | 文字prompt生图 | 瓶颈在描述而非生成;生成结果与主观体验严重偏离 |
| 梦境要素过多 | 无 | 一晚多梦,每个梦包含多维度信息,无法完整覆盖 |
核心洞察:梦境记录的关键不在于完美复刻,而在于捕捉足够的 retrieval cues(提取线索)
——即能在事后触发回忆重建的锚点信息。这一认知科学原理是本产品设计的理论基础。
2. 产品愿景与核心理念¶
DreamCatch AI 的目标不是替代用户的记忆,而是在记忆消散的临界窗口内,以最低摩擦的方式捕捉最高密度的梦境信息,并将其转化为可长期回溯的多模态记忆档案。
设计原则¶
• 零摩擦优先:刚醒的30秒是黄金窗口。唯一的入口动作应该是:拿起手机,按一个按钮,开始说话。
• 辅助提取而非替代记忆:AI的角色是帮助用户从模糊的口述中提取结构化信息,并通过追问补全细节。
• 锚点而非复刻:生成的图像不追求精确还原梦境,而是作为视觉锚点,在未来浏览时触发用户对原始梦境的回忆。
• 渐进式丰富:允许用户在不同清醒程度下逐步补充信息:刚醒时语音 稍后文字补充 空闲时细调可视化。
3. 系统架构概览¶
系统采用五层流水线架构,每层解决一个特定瓶颈,且各层可独立运行——用户可在任意阶段停止,已捕捉的信息不会丢失。
| 层级 | 模块名称 | 输入 | 输出 | 核心技术 |
| L1 | Voice Capture | 用户语音流 | 带时间戳的文本 | Qwen3-ASR/Whisper |
| L2 | Dream Parser | 原始文本 | 结构化梦境JSON | LLM (Qwen) |
| L3 | Memory Probe | JSON+用户交互 | 补全后的梦境档案 | LLM对话+TTS |
| L4 | Dream Renderer | 梦境档案 | 场景参考图集 | FLUX.2Dev/GLM-Image |
| L5 | Dream Journal | 全部输出 | 可检索的梦境库 | 向量数据库+RAG |
4. 核心模块设计¶
4.1 模块一:语音捕捉层(Voice Capture)¶
这是整个系统最关键的入口。用户刚醒时处于半清醒状态,认知资源极度有限。该模块的设计目标是:在用户做出最少动作的前提下,捕捉最多的原始信息。
技术方案¶
主力ASR引擎选用 Qwen3-ASR。理由:它在中文口语和方言(包括粤语)上表现最佳,对噪声环境有极强鲁棒性,支持52种语言和方言,能处理刚醒时含糊不清的发音。备选方案为 Whisper Largev3,生态成熟, \(1 0 0 +\) 语言覆盖。
关键设计¶
• 一键启动:锁屏快捷方式或床头NFC标签触发录音,无需解锁手机
• 流式识别:边说边转文字,用户可以看到实时文字反馈
• 自动分段:基于语音停顿和语义边界自动切分不同梦境片段
• 情绪标注:通过语音的语调、语速、音量变化自动标注情绪强度
• 环境音保留:录音同时保留原始音频,供后续回听触发记忆
4.2 模块二:结构化抽取引擎(Dream Parser)¶
将ASR输出的碎片化、口语化文本转化为结构化的梦境数据。这一步解决了录了音但事后无法整理的痛点。
输出的梦境JSON Schema包含以下维度:
• scenes[] — 场景列表,包含地点描述、光线/天气/色调、空间布局
• characters[] — 出场人物,包含身份、外观特征、与用户的关系
• narrative — 叙事主线,包含事件序列、因果关系、转折点
• emotions[] — 情绪轨迹,带时间标记的情绪变化曲线
• sensory — 感官细节:听觉、触觉、喗觉、温度、运动感
• anomalies[] — 异常/超现实元素:违反物理规律的事件、空间跳跃
• meta — 元信息:是否为清醒梦、梦中梦、重复梦
LLM在此阶段还会识别用户口述中的不确定表达,将其标记为低置信度信息,供下一步交互式补全时优先追问。
4.3 模块三:交互式补全(Memory Probe)¶
这是本产品最核心的差异化模块。传统方案都是单向记录,而 Memory Probe 是一个对话式的记忆提取过程——AI通过精心设计的追问,帮助用户在记忆完全消散之前抢救更多细节。
追问策略(基于线索依赖提取原理)¶
• 空间锚定:空间信息是梦境回忆最有效的线索
• 人物识别:利用人脸识别记忆通路激活更多细节
• 感官补全:多感官交叉激活可唤醒更多细节
• 情绪追踪:情绪是梦境记忆中最持久的成分
• 低置信度验证:对Parser标记为不确定的内容进行确认或纠正
支持语音和文字双模态输入。系统会根据用户的回答实时更新梦境JSON,并在追问3-5轮后自动判断信息饱和度,避免过度打扰。
4.4 模块四:场景可视化(Dream Renderer)¶
基于结构化梦境数据生成场景参考图。这些图不追求精确还原梦境,而是作为视觉锚点,在未来浏览时触发用户的原始记忆。
技术方案¶
主力模型选用 FLUX.1
[dev](12B参数),其在光照、纹理、人体解剖方面的理解远超同级别模型。迭代编辑使用 FLUX.1Kontext 系列,支持基于参考图的上下文编辑。中文文字场景则调用 GLM-Image。
Prompt工程¶
不直接把用户口述送给生图模型。系统从结构化JSON中提取关键视觉要素,由LLM转写为优化过的英文prompt,包含场景构图、光照描述、色彩基调、镜头角度等专业术语。每个梦境场景生成3-5张不同构图的候选图,用户选择最接近记忆的那张。
画草图模式¶
用户可以在手机上快速画一张粗略草图,系统通过image-to-image将草图作为构图参考,结合文字prompt生成精细图。这解决了有些场景文字描述不出来但可以画出来的痛点。
4.5 模块五:梦境日志与检索(Dream Journal)¶
• 时间线视图:按日期浏览梦境,配合锚点图的缩略图画廊
• 语义检索:基于向量检索的自然语言查询
• 标签聚类:自动识别重复出现的主题、人物、场景,生成个人梦境图谱
• 情绪分析看板:长期情绪趋势可视化,可与日历事件关联
• 梦境回放:系统自动播放原始录音+锚点图+结构化文本,多模态触发回忆
• 导出功能:支持导出为Markdown日记、PDF画册、或分享卡片
5. 技术选型¶
| 组件 | 首选方案 | 备选方案 | 选型理由 |
| ASR引擎 | Qwen3-ASR | Whisper Large v3 | 中文口语最优,方言支持,噪声鲁棒 |
| 结构化LLM | Qwen API | GPT API | JSON结构化输出稳定,中英文理解强 |
| 生图(写实) | FLUX.2 [dev] | FLUX.2 Max | 光照/纹理理解最佳,12B可本地部署 |
| 生图(编辑) | FLUX.2 Kontext Pro | GLM-Image | 上下文编辑能力强,支持参考图迭代 |
| 向量数据库 | Milvus / Qdrant | ChromaDB | 语义检索,支持多模态向量 |
| 端侧ASR(暂时不需要) | Moonshine v2 | Whisper Tiny | 27MB极轻量,离线可用,隐私友好 |
| 前端框架 | React Native | Flutter | 跨平台,生态成熟,快速迭代 |
| TTS(暂时不需要) | CosyVoice2 | Fish-Speech 1.5 | 150ms低延迟流式输出,支持中文方言 |
6. 用户体验流程¶
以下是一个典型的使用场景:
06:47 醒来¶
用户从一个生动的梦中醒来,脑海中还有模糊的画面。
06:47 一键录音¶
伸手拿起手机,点击锁屏上的DreamCatch快捷按钮。屏幕显示柔和的录音波形。
06:48 口述梦境¶
用户迷迷糊糊地说出梦的内容,文字实时浮现在屏幕上。
06:50 自动结构化¶
系统在后台将口述转为结构化数据:场景、人物、异常事件。
06:51 交互补全¶
系统轻声追问场景细节,用户语音回答,系统实时更新梦境档案。
06:53 完成捕捉¶
系统判断信息饱和度足够,展示梦境摘要卡片。用户确认。
07:30 场景生成¶
刷牙时收到通知:梦境场景图已生成。用户选择最接近记忆的那张。
晚间 回顾¶
睡前浏览今天的梦境日志,看到锚点图时,白天已经遗忘的细节突然涌回记忆。
7. 差异化与竞争优势¶
目前市场上的梦境记录类应用基本上是带标签和搜索功能的笔记本,没有任何AI辅助。DreamCatchAI的核心差异化在于:
• 交互式记忆提取:不是被动记录,而是主动帮助用户想起来更多
• 认知科学驱动的设计:追问策略基于线索依赖提取理论,按最有效的记忆激活路径设计
• 多模态信息融合:语音 \(^ +\) 文字 \(^ +\) 草图 \(^ +\) 生成图 \(^ +\) 情绪标注,五种模态协同覆盖
• 视觉锚点而非精确复刻:绕开了AI生图与梦境不匹配的痛点,定位清晰
• 渐进式补全:允许用户在不同时间点逐步丰富梦境记录
• 个人梦境知识图谱:长期使用后识别梦境模式、重复主题、情绪周期
8. 开发路线图¶
| 阶段 | 时间 | 目标 | 交付物 |
| MVP | Month 1-2 | 验证核心流程可行性 | 语音→ASR→LLM结构化→文本日志的端到端原型 |
| Alpha | Month 3-4 | 加入交互补全和基础生图 | MemoryProbe对话流,FLUX生图集成,基础移动端UI |
| Beta | Month 5-7 | 完整产品体验 | DreamJournal检索系统,草图模式,情绪分析,跨平台App |
| V1.0 | Month 8-10 | 产品打磨与用户增长 | 梦境图谱,端侧ASR离线模式,社区功能,公开发布 |
9. 风险与缓解策略¶
| 风险 | 程度 | 缓解策略 |
| ASR对半清醒语音识别率低 | 高 | 在半清醒语音数据上fine-tune;保留原始音频;通过Memory Probe补全 |
| 生成图与用户记忆偏差大 | 中 | 明确定位为视觉锚点;提供多候选图+迭代编辑;支持草图引导 |
| 用户隐私(梦境是极秘密的数据) | 高 | 端侧ASR实现离线识别;数据默认本地存储;云端端到端加密 |
| MemoryProbe追问打扰用户 | 中 | 严格限制3-5轮;提供跳过和稍后补充选项;学习最佳追问时机 |
| GPU算力需求(生图) | 中 | 生图异步处理,不阻塞核心记录流程;支持云端API调用 |
10. 总结¶
DreamCatch AI 的核心创新不在于任何单一技术,而在于对梦境记录这个问题的重新定义:从如何完美记录梦,转变为如何在记忆消散的临界窗口内,以最低摩擦捕捉最有效的记忆锚点。
这个重新定义直接来源于你自身的实践经验——你发现笔记本上几个关键词和一幅草图就能在日后触发完整的梦境回忆。DreamCatch AI本质上是将这个自然过程工程化、自动化、并用AI增强。
作为一个做embodied
AI和VLA系统的研究者,你对这个项目有独特的视角:梦境在某种意义上就是大脑的离线
rollout——在没有真实感官输入的情况下,用内部世界模型生成经验。而DreamCatch
AI要做的,就是在这些rollout消散之前,把它们捕捉下来。
DreamCatch AI — Capture dreams before they fade.