「中国古典文献全文检索引擎」是一个专门用于检索中华传统典籍的现代化搜索平台。我们致力于让古代智慧在数字时代焕发新的光彩,为研究者、学者和传统文化爱好者提供便捷、精准的文献检索服务。
本站收录的文本均为简体中文。
- 原始项目及其说明 by @garychowcmu 项目已停止维护
- 中国古典文献全文检索工具 - daizhige.org
本项目已将原始 TXT 文件全部转换为 Markdown 格式,并确保其渲染结果与原版保持一致。在此基础上,作为简单扩展,在文件头部增加了 YAML 格式的元数据。 这一改进为后续的自动化处理、内容索引与多平台展示提供了更大的灵活性与可拓展性。
原「殆知阁」数据集已被大量研究机构用于 AI 训练。然而,我们发现该数据集中存在相当数量的错误,并且可能已经污染了中文古文语料。为避免以讹传讹,本站致力于系统性解决数据错误的问题:
- 繁简转换错误:在古文献中发现了相当数量的「记忆体」(实际应为「内存」)、「香港脚」(实际应为「脚气」)、「利瓦伊」(实际应为「李维」)等,这些是某些繁简转换工具造成的错误。
- 非文献内容:原始文本部分来自现已关闭的论坛;在复制过程中,部分文本被贴上了论坛的内容及链接。
- HTML及脚本:某些文本中存在 HTML 及脚本代码,数据清洗不够精确。
- 持续改进:我们正在努力查找和修正数据集中的错误内容。如果您发现任何新的错误或有改进建议,欢迎通过 GitHub Issues 提交反馈,或者直接提交 pull requests,帮助我们提升数据质量。
- 使用 AI 技术:有时修复不能通过简单的全文替换实现。我们会尝试使用 AI 技术查找一些 out of place 的内容,并将其更正。
- 与维基文库比对:我们会与「维基文库」中收录的同样文本及古籍影印本进行比对,确保修改均有依据。
本 fork 建立了一个基于 Elasticsearch 的可检索版本,包括导入脚本。 部署方法详见DEPLOYMENT.md。
如需获取完整的文本文件,可通过以下方式:
- 若仅需获取数据文件,可使用以下命令克隆仓库
data分支的最新版本:这将仅下载 data 分支的最新快照,不包含完整提交历史。git clone --branch data --depth 1 https://github.com/frankslin/daizhigev20.git
- 若要进行开发(例如代码修改或生成数据),应改为克隆
tools分支。data分支在此情境下作为一个 Git 子模块(submodule)管理,保持与主仓库同步。 - GitHub Pages 打包下载:访问 GitHub repo Actions 页面找到最新的 deployment,下载 artifacts 的压缩包。截至 2025 年 11 月,此压缩文件的总体积约为 2.14GB。