OCR题库清洗质检表:题本、答案、解析三件套
当前资料风险
题本和解析来自 OCR,存在页眉页脚、公众号水印、题号断行、选项错位和答案识别错误。入站前必须先质检。
质检表
| 环节 | 检查项 | 处理方式 |
|---|---|---|
| 题本 | 题号、来源、选项是否完整。 | 缺一项就不发布为题目,只作为待清洗素材。 |
| 答案 | 答案字母、正确率、易错项是否匹配。 | 和解析或原题交叉核对。 |
| 解析 | 是否能看出排除理由。 | 只摘结构化要点,不复制长段 OCR。 |
| 排版 | A/B/C/D 是否独立成行。 | 统一用代码块或表格展示。 |
| 标签 | 题型、来源、错因是否齐全。 | 控制在 3 到 5 个标签。 |
发布前最后一问
- 这篇文章是否能单独帮助我复盘一个考点?
- 题源、答案、解析是否都能被搜索到?
- 有没有把 OCR 噪声当成正文发布?
- 有没有把整本资料一次性堆到一篇文章里?
作者: 公考智囊团
OCR题库清洗质检表:题本、答案、解析三件套: //sswhan.art/ocr-cleaning-quality-checklist