Skip to content

[黑客松10th·文心伙伴] 周报 #13 bob798 2026.06.05#617

Open
bob798 wants to merge 1 commit into
PFCCLab:mainfrom
bob798:weekly-report/13_bob798_2026.05.23-06.05
Open

[黑客松10th·文心伙伴] 周报 #13 bob798 2026.06.05#617
bob798 wants to merge 1 commit into
PFCCLab:mainfrom
bob798:weekly-report/13_bob798_2026.05.23-06.05

Conversation

@bob798
Copy link
Copy Markdown

@bob798 bob798 commented May 21, 2026

双周报,覆盖周期:2026-05-23 ~ 2026-06-05

认领者 GitHub ID

bob798

赛题信息

  • 进阶任务序号Update README.md #13
  • 赛题名称:基于 OpenVINO 的多模态文档理解与智能应用开发
  • 关联厂商:Intel

本期摘要

  • Phase 3 RAG 端到端最小闭环跑通
    PDF → PaddleOCR-VL 解析 → 表格感知切片 → Qwen3-Embedding-0.6B-int8 编码 → ChromaDB 持久化 → Qwen3-1.7B-int4 生成带 [doc_name p.页码] 引用的回答
    新增 4 模块(embedding/vector_store/llm/rag)+ 2 脚本(build_index/run_qa)
  • 实测 5 条业务问题 CPU 端跑通:3 条事实回答正确 + 2 条防幻觉拒答,平均 ~3.3 s/题(embed 69ms / retrieve 1.7ms / LLM 3270ms / ~10.7 tok/s)
  • Embedding 模型选型决策:BGE-small-zh → Qwen3-Embedding-0.6B-int8-ov(官方预转 + 多语言含中文 + 全程官方 IR 复现性原则)
  • P1-1 业务问题精选(5 题 eval 集对比):暴露 small-embedder + last-token-pool 在表格行 chunk 上的系统性偏差
  • P1-2 Tesseract vs PaddleOCR-VL 3 页对比:表格页 char 相似度仅 9.55%(Tesseract 完全丢失 rowspan/colspan 结构),公式页 Tesseract 0 个 LaTeX 标记 vs Paddle 12 个
  • 三处 OV+Qwen3+Windows 部署坑实战修复:cp1252 编码 / symlink 权限 / enable_thinking 不生效

关键链接

Phase 3 RAG 端到端最小闭环跑通 + Tesseract vs PaddleOCR-VL 选型对比
bob798 added a commit to bob798/doc-qna-openvino that referenced this pull request May 21, 2026
- PFCCLab/Camp#617 W3 双周报 PR 已创建
- openvino/README.md: 补充 OCR/Embedding/LLM 三模型下载量 + 8GB 磁盘需求
- README.md: 进度表 Phase 1~4 ✅ + 周报表补 W2 #609 / W3 #617
- TODO.md: 勾选 W3 PR + README 终稿

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

1 participant