Easy Dataset:一个让数据集制作不再痛苦的开源工具
项目地址: https://github.com/ConardLi/easy-dataset
最近在折腾 LLM 微调,最大的感受就是:写代码不累,整理数据才累。
尤其是需要把一堆文档、说明书、知识库、内部 PDF,转成一条条干净、有逻辑的问答数据时,那种枯燥程度堪比手工搬砖。
直到我遇到了一个项目 —— Easy Dataset。
简单讲,它是一个把“文档 → 数据集”这个痛苦流程彻底自动化的开源工具。
如果你也在做 LLM 应用、企业知识库助手、行业模型,或者你正在准备构建自己的微调数据集,那这篇文章能帮你快速判断:Easy Dataset 到底是不是你需要的东西。
Easy Dataset 是什么?
把它理解成一个“数据集自动生成器”可能最准确:
你把 PDF、Markdown、DOCX 之类的文档丢进去,它帮你:
- 把文档内容提取出来
- 做合理的文本切分
- 根据内容生成问题
- 自动生成答案(支持 COT)
- 给每条样本打标签
- 最终导出成各类训练格式
整个过程通过一个可交互的界面完成,生成的结果你随时能调整、增删、重写。完全不需要一行代码。
一句话总结就是:
你提供内容,它帮你做成训练集。
为什么我会对它眼前一亮?
说真的,现在做数据集工具的项目很多,但大部分都停留在“把内容拆成段落”这个程度。很少有像 Easy Dataset 这样,把整个工作流做得这么顺滑。
我最喜欢的点有几个:
1)文档格式特别友好
我手上很多资料都是 PDF 或者 docx,之前这种文件最麻烦,因为不能直接复制。
Easy Dataset 直接支持常见格式上传,结构化解析也够稳。对想基于企业内部资料训练模型的人来说太实用。
2)切分逻辑很聪明
模型训练数据如果切得不对,要么一段内容太长,要么“碎片化”到模型不知道上下文。
它提供了智能切分,也允许你手动调。可视化切分界面用起来比自己写脚本爽太多。
3)自动问答生成是真的好用
这是它最能节省时间的功能。
你不需要全靠自己去构造问题,而是基于文档自动生成,同时答案也可以用模型生成,还能开启“思维链(COT)”模式。
如果你训练的目标是“领域推理能力”,这一点非常关键。
4)数据导出格式很齐全
Alpaca、ShareGPT、JSON、JSONL 等格式都支持。
你导出后直接送进训练脚本、平台、API,几乎不需要额外转换。
5)编辑体验适合团队协作
特别适合你这种情况:
你既熟悉技术,又懂业务(会计、咨询、系统开发等),但你不想一个人把所有问答手写完。
你可以:
- 让业务专家检查问题是否专业
- 让内容同事润色答案
- 自己专注训练和部署
它其实隐含解决了一个实际问题:数据集制作不是一个人的活。
什么时候你会真的需要 Easy Dataset?
如果只是做一个小 Demo、玩具项目,其实不一定要用这么完整的工具。
但在下面这些场景,你会感受到它的价值非常高。
场景 1:企业内部知识库 → 专有 LLM 助手
你正在做 71AI 或类似的 SaaS 系统?
企业内部通常会有各种文档:
- 产品说明
- 客服 FAQ
- 流程制度
- 培训资料
如果你想让“企业专属模型”掌握这些内容,用 Easy Dataset 会非常顺手:
把文档上传、切分、生成 QA、标注分类、导出微调数据集,然后交给训练流程就好。
企业定制模型的第一步就是:把公司资料变成训练数据。
场景 2:做行业模型(会计、税务、法律等)
你本身就是会计师,同时也在做 AI 产品,这种“业务知识深、场景明确”的行业模型是最需要高质量数据集的。
比如你要训练一个:
- 会计问答模型
- 财税法规理解模型
- 审计流程助手
- 考研会计专硕辅导模型
有大量教材、法规、真题、案例分析,这些都可以通过 Easy Dataset 转成训练数据。
它的自动问题生成能帮你快速出大量结构化的问答,再由你来审核。
场景 3:把教材、课程内容变成训练数据
如果你准备开发学习助手、培训助手、课程问答机器人,Easy Dataset 很适合做“内容 → 数据集”的转化。
尤其适合:
- 学习类 SaaS
- 企业内训平台
- 客服学习机器人
- 教育类 AI 应用
这种场景里,内容本身质量很高,但人工转 QA 太费时间。用它可以压缩几十小时的工作量。
场景 4:团队里有非技术成员参与数据制作
如果你是唯一的工程师,你不想做所有的问答内容,你希望:
- 让业务角色负责“问题是否专业”
- 让内容角色负责“答案是否严谨”
- 自己专注训练和部署
它的界面化操作非常适合多人协作。
使用前的几个建议
在正式使用之前,我有几个经验分享:
- 文档清晰度越高,生成效果越好
- 切分粒度要自己掌控
太粗会让问题太泛,太细又重复 - 自动生成只是第一步,人工审核很关键
- 提前设计好分类体系(标签)
大项目必备 - 做含隐私的内容要注意脱敏
写在最后:它解决的是“最痛的痛点”
微调可以让模型真正具有“行业能力”或“企业能力”,但“数据集制作”一直是最繁琐的一环。
Easy Dataset 把:
- 技术复杂度
- 重复劳作
- 人工 QA 构造
- 格式处理
这些最烦人的事情全部解决了。
它对我来说不是“可有可无的小工具”,而是“整个 LLM 工作流里的重要一环”。