49K Star爆了！最全中文诗词数据库开源，5.5万首唐诗免费用，告别付费API焦虑！

今年找素材又踩了坑，花300买的某诗词API用了半年就跑路了。偶然发现了个宝藏项目，直接解决了我的所有问题！chinese-poetry项目居然收录了全唐诗、全宋词等超15万首古诗词，而且是结构化的JSON格式，拿来就能用。

项目介绍

chinese-poetry可能是目前互联网上最全的中文诗词数据库，完全开源免费，无任何使用限制。这个项目收录了从先秦到清代的诗词，不仅有常见的唐诗宋词，还包括了楚辞、论语、诗经等经典。所有数据都以JSON格式存储，对开发者极其友好。

49K Star爆了！最全中文诗词数据库开源，5.5万首唐诗免费用，告别付费API焦虑！

看了下它的数据量，真的很惊人：

• 5.5万首唐诗
• 2.2万首宋词
• 近1.4万首宋诗
• 全部的《诗经》305首
• 楚辞19篇
• 《论语》20篇
• 《四书五经》等古籍

这玩意跟市面上那些收费API比起来，简直就是降维打击。我之前用的那个付费API才收录了1万首诗词，还动不动就限流，真是交智商税。

数据格式

整个项目的数据组织非常清晰，全部采用JSON格式。比如唐诗的数据结构是这样的：

[
  {
    "title":"春望",
    "author":"杜甫",
    "paragraphs":[
      "国破山河在，城春草木深。",
      "感时花溅泪，恨别鸟惊心。",
      "烽火连三月，家书抵万金。",
      "白头搔更短，浑欲不胜簪。"
    ],
    "strains":[
      "平仄仄平仄，平平仄仄平。",
      "仄平平仄仄，仄仄仄平平。",
      "平仄平平仄，平平仄仄平。",
      "仄平平仄仄，平仄仄平平。"
    ]
}
]

看起来简单，但这种结构设计特别巧妙。不仅包含了基本的标题、作者、内容，还标注了平仄信息！对于想做古诗词应用的开发者来说，简直是天赐的礼物，省去了自己处理分词、断句的麻烦。

宋词的数据格式也差不多，还额外标注了词牌名：

[
  {
    "author":"苏轼",
    "paragraphs":[
      "十年生死两茫茫，不思量，自难忘。",
      "千里孤坟，无处话凄凉。",
      "纵使相逢应不识，尘满面，鬓如霜。",
      "夜来幽梦忽还乡，小轩窗，正梳妆。",
      "相顾无言，惟有泪千行。",
      "料得年年肠断处，明月夜，短松冈。"
    ],
    "rhythmic":"江城子",
    "title":"江城子·乙卯正月二十日夜记梦"
}
]

与其他数据源对比

说实话，中文诗词数据库项目不少，但chinese-poetry 把别人甩出十条街的地方在于：

1. 数据量最全（15万诗词，其他项目基本都在5万以下）

2. 数据质量高（有专人校对，错误率低）

3. 结构化存储（全部是标准JSON，拿来就能用）

4. 完全开源（MIT许可，想怎么用就怎么用）

市面上常见的诗词API基本都是收费的，而且质量参差不齐。有些还限制调用次数，稍微流量大点就要你加钱。更别提那些只提供网页爬虫的方案，既不稳定又容易违规。

这个项目直接把数据给你，想怎么用完全看你，不用担心API挂了、限流或者突然改收费策略。而且本地部署后，响应速度能快10倍以上。

快速上手

想用这些数据超级简单，我试了几种方法，分享给大家：

方法1：直接克隆仓库

git clone https://github.com/chinese-poetry/chinese-poetry.git
cd chinese-poetr

# 然后就可以访问json文件了

方法2：使用官方API

项目维护者提供了一个开源的API服务，叫做chinese-poetry-server：

# 安装
npm install chinese-poetry-server -g
# 运行
cp-server
启动后可以通过HTTP接口查询：

http://localhost:8080/poem/random # 随机一首诗
http://localhost:8080/poem/author/李白 # 搜索李白的诗

方法3：使用python包

pip install chinese-poetry
#然后在代码中：

from chinese_poetry import ChinesePoetry

cp = ChinesePoetry()
poem = cp.random_poem()  # 随机一首诗
print(poem['author'], poem['title'])
print('\n'.join(poem['paragraphs']))

不管哪种方式，都比调用那些随时可能跑路的API靠谱多了。我现在的小程序后台就直接用git clone下载整个仓库，然后用Node.js提供API服务，一个月流量几百万都没问题，响应速度稳定在20ms以内。