「殆知阁」中国古典文献 TXT 大全集（修正版）

项目简介

「中国古典文献全文检索引擎」是一个专门用于检索中华传统典籍的现代化搜索平台。我们致力于让古代智慧在数字时代焕发新的光彩，为研究者、学者和传统文化爱好者提供便捷、精准的文献检索服务。

本站收录的文本均为简体中文。

原始项目及其说明 by @garychowcmu 项目已停止维护
中国古典文献全文检索工具 - daizhige.org

格式转换

本项目已将原始 TXT 文件全部转换为 Markdown 格式，并确保其渲染结果与原版保持一致。在此基础上，作为简单扩展，在文件头部增加了 YAML 格式的元数据。这一改进为后续的自动化处理、内容索引与多平台展示提供了更大的灵活性与可拓展性。

错误修正

原「殆知阁」数据集已被大量研究机构用于 AI 训练。然而，我们发现该数据集中存在相当数量的错误，并且可能已经污染了中文古文语料。为避免以讹传讹，本站致力于系统性解决数据错误的问题：

主要修正内容

繁简转换错误：在古文献中发现了相当数量的「记忆体」(实际应为「内存」)、「香港脚」（实际应为「脚气」）、「利瓦伊」（实际应为「李维」）等，这些是某些繁简转换工具造成的错误。
非文献内容：原始文本部分来自现已关闭的论坛；在复制过程中，部分文本被贴上了论坛的内容及链接。
HTML及脚本：某些文本中存在 HTML 及脚本代码，数据清洗不够精确。

修正进展

持续改进：我们正在努力查找和修正数据集中的错误内容。如果您发现任何新的错误或有改进建议，欢迎通过 GitHub Issues 提交反馈，或者直接提交 pull requests，帮助我们提升数据质量。
使用 AI 技术：有时修复不能通过简单的全文替换实现。我们会尝试使用 AI 技术查找一些 out of place 的内容，并将其更正。
与维基文库比对：我们会与「维基文库」中收录的同样文本及古籍影印本进行比对，确保修改均有依据。

检索工具部署方法

本 fork 建立了一个基于 Elasticsearch 的可检索版本，包括导入脚本。部署方法详见DEPLOYMENT.md。

下载说明

如需获取完整的文本文件，可通过以下方式：

若仅需获取数据文件，可使用以下命令克隆仓库 data 分支的最新版本：
```
git clone --branch data --depth 1 https://github.com/frankslin/daizhigev20.git
```
这将仅下载 data 分支的最新快照，不包含完整提交历史。
若要进行开发（例如代码修改或生成数据），应改为克隆 tools 分支。data 分支在此情境下作为一个 Git 子模块（submodule）管理，保持与主仓库同步。
GitHub Pages 打包下载：访问 GitHub repo Actions 页面找到最新的 deployment，下载 artifacts 的压缩包。截至 2025 年 11 月，此压缩文件的总体积约为 2.14GB。

Name		Name	Last commit message	Last commit date
Latest commit History 115 Commits
佛藏		佛藏
儒藏		儒藏
医藏		医藏
史藏		史藏
子藏		子藏
易藏		易藏
艺藏		艺藏
诗藏		诗藏
道藏		道藏
集藏		集藏
.gitignore		.gitignore
.nojekyll		.nojekyll
FONTS.md		FONTS.md
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

「殆知阁」中国古典文献 TXT 大全集（修正版）

项目简介

格式转换

错误修正

主要修正内容

修正进展

检索工具部署方法

下载说明

About

Uh oh!

Contributors

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

「殆知阁」中国古典文献 TXT 大全集（修正版）

项目简介

格式转换

错误修正

主要修正内容

修正进展

检索工具部署方法

下载说明

About

Resources

Uh oh!

Stars

Watchers

Forks

Contributors

Uh oh!