KB-Builder

KB-Builder

Knowledge Base Builder,是一款基于LLM大语言模型的开源知识库生成管理优化构建系统,是「滨电智言」的一款开源工具,旨在成为企业的知识库构建中枢。

Stars: 114

Visit
 screenshot

KB Builder is an open-source knowledge base generation system based on the LLM large language model. It utilizes the RAG (Retrieval-Augmented Generation) data generation enhancement method to provide users with the ability to enhance knowledge generation and quickly build knowledge bases based on RAG. It aims to be the central hub for knowledge construction in enterprises, offering platform-based intelligent dialogue services and document knowledge base management functionality. Users can upload docx, pdf, txt, and md format documents and generate high-quality knowledge base question-answer pairs by invoking large models through the 'Parse Document' feature.

README:

image

基于 LLM 大语言模型的知识库生成系统

KB Builder = Knowledge Base Builder,是一款基于 LLM 大语言模型的开源知识库生成系统。 基于RAG(Retrieval-Augmented Generation)数据生成增强方法,为用户提供基于RAG的知识增强生成和知识库快速构建能力,致力于成为企业的知识构建中枢。 提供平台化智能对话服务能力,提供文档知识库管理功能,支持用户上传docx、pdf、txt、md格式的文档;用户点击“解析文档”可调用大模型生成问答对数据,筛选生成高质量的知识库问答对数据。

特色功能

  • 文件类型支持广泛:支持直接上传docx、txt、markdown、pdf格式文档、后续将支持更多文本格式文件;
  • 灵活的文档处理方式:提供多种文档切片(智能分段 / 递归拆分 / 自定义标识拆分等)和多种文本清洗等RAG文档预处理方式;
  • 大语言模型中立:支持对接各种大语言模型来生成QA,包括本地私有大模型(Llama 3 / Qwen 2 等)、国内公共大模型(通义千问 / 智谱 AI 等)和国外公共大模型(OpenAI / Gemini 等);
  • 知识生成与管理:提供多个预置场景Prompt库,支持生成高质量的QA问答对,支持基于QA的知识库生成功能,后续将提供更多的重写增强结构化处理等知识库管理能力。
  • 基于知识工程的文档改写:将RAG不能高效处理的结构化数据,通过文档改写修改为RAG友好的非结构化数据。
  • PDF文件OCR提取文字:基于Paddle开源深度学习平台,可以OCR识别PDF文件中无法直接提取解析的文字,方便用户处理印刷件、加密无法直接复制文本的PDF。

快速开始

阿里云镜像一键部署

docker run -d --name kb-builder -p 8080:8088 -v ~/.KB-builder:/var/lib/postgresql/data registry.cn-beijing.aliyuncs.com/hduchat/bindian.hdu.edu.cn:latest
用户名: admin
密码: admin123.

DockerHub镜像一键部署

docker run -d --name kb_builder -p 8080:8088 -v ~/.kb-builder:/var/lib/postgresql/data hduchat/bindian.hdu.edu.cn
用户名: admin
密码: admin123.

💡 可以通过源码进行安装部署

如你有更多问题,可以查看使用手册,或者通过issue,也欢迎加入微信群和我们交流。

UI 展示

 Demo1 PDF文件OCR提取文字  Demo2 多种文档清洗切片
 Demo3 文档内容改写  Demo4 文档QA生成
 Demo5 生成内容下载  Demo6 对接各种大语言模型

技术栈

微信加入KB-Builder交流群

image

滨电智言

本项目是由杭州电子科技大学滨江研究院开发完成。

滨电智言是由杭州电子科技大学滨江研究院自主开发完成的面向行业细分领域的大模型产品。滨电智言强化了领域知识提取与知识构建、领域模型训练与微调、知识检索与语义匹配等能力。目前滨电智言初步构建了面向能源工业、科技教育、医疗健康垂直领域的底层模型能力,支持包括智能问答、领域内容生成、文本摘要、报告生成、数据分析等多项大模型应用能力。

滨电智言自2023年8月31日正式发布以来,得到腾讯网、搜狐网、杭州网和潮新闻等多家新闻媒体报道,正在和多个客户合作构建垂直行业领域大模型,力争建成高质量产学研结合垂直行业行业领域大模型,为客户打造您企业专属的行业领域大模型智能综合解决方案。

特别鸣谢

感谢飞致云MaxKB项目提供的技术支持!

License

Copyright (c) 2014-2024 滨电智言 , All rights reserved.

Licensed under The GNU General Public License version 3 (GPLv3) (the "License"); you may not use this file except in compliance with the License. You may obtain a copy of the License at

https://www.gnu.org/licenses/gpl-3.0.html

Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the specific language governing permissions and limitations under the License.

For Tasks:

Click tags to check more tools for each tasks

For Jobs:

Alternative AI tools for KB-Builder

Similar Open Source Tools

For similar tasks

For similar jobs