Skip to content

frankslin/daizhigev20

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

115 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

「殆知阁」中国古典文献 TXT 大全集(修正版)

项目简介

「中国古典文献全文检索引擎」是一个专门用于检索中华传统典籍的现代化搜索平台。我们致力于让古代智慧在数字时代焕发新的光彩,为研究者、学者和传统文化爱好者提供便捷、精准的文献检索服务。

本站收录的文本均为简体中文。

格式转换

本项目已将原始 TXT 文件全部转换为 Markdown 格式,并确保其渲染结果与原版保持一致。在此基础上,作为简单扩展,在文件头部增加了 YAML 格式的元数据。 这一改进为后续的自动化处理、内容索引与多平台展示提供了更大的灵活性与可拓展性。

错误修正

原「殆知阁」数据集已被大量研究机构用于 AI 训练。然而,我们发现该数据集中存在相当数量的错误,并且可能已经污染了中文古文语料。为避免以讹传讹,本站致力于系统性解决数据错误的问题:

主要修正内容

  • 繁简转换错误:在古文献中发现了相当数量的「记忆体」(实际应为「内存」)、「香港脚」(实际应为「脚气」)、「利瓦伊」(实际应为「李维」)等,这些是某些繁简转换工具造成的错误。
  • 非文献内容:原始文本部分来自现已关闭的论坛;在复制过程中,部分文本被贴上了论坛的内容及链接。
  • HTML及脚本:某些文本中存在 HTML 及脚本代码,数据清洗不够精确。

修正进展

  • 持续改进:我们正在努力查找和修正数据集中的错误内容。如果您发现任何新的错误或有改进建议,欢迎通过 GitHub Issues 提交反馈,或者直接提交 pull requests,帮助我们提升数据质量。
  • 使用 AI 技术:有时修复不能通过简单的全文替换实现。我们会尝试使用 AI 技术查找一些 out of place 的内容,并将其更正。
  • 与维基文库比对:我们会与「维基文库」中收录的同样文本及古籍影印本进行比对,确保修改均有依据。

检索工具部署方法

本 fork 建立了一个基于 Elasticsearch 的可检索版本,包括导入脚本。 部署方法详见DEPLOYMENT.md

下载说明

如需获取完整的文本文件,可通过以下方式:

  • 若仅需获取数据文件,可使用以下命令克隆仓库 data 分支的最新版本:
    git clone --branch data --depth 1 https://github.com/frankslin/daizhigev20.git
    这将仅下载 data 分支的最新快照,不包含完整提交历史。
  • 若要进行开发(例如代码修改或生成数据),应改为克隆 tools 分支。data 分支在此情境下作为一个 Git 子模块(submodule)管理,保持与主仓库同步。
  • GitHub Pages 打包下载:访问 GitHub repo Actions 页面找到最新的 deployment,下载 artifacts 的压缩包。截至 2025 年 11 月,此压缩文件的总体积约为 2.14GB。

About

「殆知阁」中国古代文献原始数据(2026-01-20 更新)

Resources

Stars

Watchers

Forks

Contributors