Easy Dataset:一个让数据集制作不再痛苦的开源工具


项目地址: https://github.com/ConardLi/easy-dataset

最近在折腾 LLM 微调,最大的感受就是:写代码不累,整理数据才累。
尤其是需要把一堆文档、说明书、知识库、内部 PDF,转成一条条干净、有逻辑的问答数据时,那种枯燥程度堪比手工搬砖。

直到我遇到了一个项目 —— Easy Dataset
简单讲,它是一个把“文档 → 数据集”这个痛苦流程彻底自动化的开源工具。

如果你也在做 LLM 应用、企业知识库助手、行业模型,或者你正在准备构建自己的微调数据集,那这篇文章能帮你快速判断:Easy Dataset 到底是不是你需要的东西。


Easy Dataset 是什么?

把它理解成一个“数据集自动生成器”可能最准确:

你把 PDF、Markdown、DOCX 之类的文档丢进去,它帮你:

  1. 把文档内容提取出来
  2. 做合理的文本切分
  3. 根据内容生成问题
  4. 自动生成答案(支持 COT)
  5. 给每条样本打标签
  6. 最终导出成各类训练格式

整个过程通过一个可交互的界面完成,生成的结果你随时能调整、增删、重写。完全不需要一行代码。

一句话总结就是:

你提供内容,它帮你做成训练集。


为什么我会对它眼前一亮?

说真的,现在做数据集工具的项目很多,但大部分都停留在“把内容拆成段落”这个程度。很少有像 Easy Dataset 这样,把整个工作流做得这么顺滑。

我最喜欢的点有几个:

1)文档格式特别友好

我手上很多资料都是 PDF 或者 docx,之前这种文件最麻烦,因为不能直接复制。

Easy Dataset 直接支持常见格式上传,结构化解析也够稳。对想基于企业内部资料训练模型的人来说太实用。

2)切分逻辑很聪明

模型训练数据如果切得不对,要么一段内容太长,要么“碎片化”到模型不知道上下文。

它提供了智能切分,也允许你手动调。可视化切分界面用起来比自己写脚本爽太多。

3)自动问答生成是真的好用

这是它最能节省时间的功能。

你不需要全靠自己去构造问题,而是基于文档自动生成,同时答案也可以用模型生成,还能开启“思维链(COT)”模式。

如果你训练的目标是“领域推理能力”,这一点非常关键。

4)数据导出格式很齐全

Alpaca、ShareGPT、JSON、JSONL 等格式都支持。

你导出后直接送进训练脚本、平台、API,几乎不需要额外转换。

5)编辑体验适合团队协作

特别适合你这种情况:
你既熟悉技术,又懂业务(会计、咨询、系统开发等),但你不想一个人把所有问答手写完。

你可以:

  • 让业务专家检查问题是否专业
  • 让内容同事润色答案
  • 自己专注训练和部署

它其实隐含解决了一个实际问题:数据集制作不是一个人的活。


什么时候你会真的需要 Easy Dataset?

如果只是做一个小 Demo、玩具项目,其实不一定要用这么完整的工具。

但在下面这些场景,你会感受到它的价值非常高。


场景 1:企业内部知识库 → 专有 LLM 助手

你正在做 71AI 或类似的 SaaS 系统?

企业内部通常会有各种文档:

  • 产品说明
  • 客服 FAQ
  • 流程制度
  • 培训资料

如果你想让“企业专属模型”掌握这些内容,用 Easy Dataset 会非常顺手:
把文档上传、切分、生成 QA、标注分类、导出微调数据集,然后交给训练流程就好。

企业定制模型的第一步就是:把公司资料变成训练数据


场景 2:做行业模型(会计、税务、法律等)

你本身就是会计师,同时也在做 AI 产品,这种“业务知识深、场景明确”的行业模型是最需要高质量数据集的。

比如你要训练一个:

  • 会计问答模型
  • 财税法规理解模型
  • 审计流程助手
  • 考研会计专硕辅导模型

有大量教材、法规、真题、案例分析,这些都可以通过 Easy Dataset 转成训练数据。

它的自动问题生成能帮你快速出大量结构化的问答,再由你来审核。


场景 3:把教材、课程内容变成训练数据

如果你准备开发学习助手、培训助手、课程问答机器人,Easy Dataset 很适合做“内容 → 数据集”的转化。

尤其适合:

  • 学习类 SaaS
  • 企业内训平台
  • 客服学习机器人
  • 教育类 AI 应用

这种场景里,内容本身质量很高,但人工转 QA 太费时间。用它可以压缩几十小时的工作量。


场景 4:团队里有非技术成员参与数据制作

如果你是唯一的工程师,你不想做所有的问答内容,你希望:

  • 让业务角色负责“问题是否专业”
  • 让内容角色负责“答案是否严谨”
  • 自己专注训练和部署

它的界面化操作非常适合多人协作。


使用前的几个建议

在正式使用之前,我有几个经验分享:

  • 文档清晰度越高,生成效果越好
  • 切分粒度要自己掌控
    太粗会让问题太泛,太细又重复
  • 自动生成只是第一步,人工审核很关键
  • 提前设计好分类体系(标签)
    大项目必备
  • 做含隐私的内容要注意脱敏

写在最后:它解决的是“最痛的痛点”

微调可以让模型真正具有“行业能力”或“企业能力”,但“数据集制作”一直是最繁琐的一环。

Easy Dataset 把:

  • 技术复杂度
  • 重复劳作
  • 人工 QA 构造
  • 格式处理

这些最烦人的事情全部解决了。

它对我来说不是“可有可无的小工具”,而是“整个 LLM 工作流里的重要一环”。