
AI-Sphere-Butler
终极愿景:目标是创造一个全方位服务于用户全场景的 AI 全能管家—“小粒”。除了不具备物理形态外,“小粒”将提供与远程视频通话中的真人几乎无异的体验,具备思考、情感交流、视觉、听觉以及模拟触觉反馈等能力,并能够游走在任何家庭、车辆等场景显示设备上自由与人交互。功能覆盖智能家居控制、情感陪伴、学习交流、健康管理、安全防护、个人购物、外出导航及酒店预订等多个方面,还可以代理主人进入AI世界与AI网络互联,和其他用户的虚拟管家或者虚拟个体交互。为了实现 "小粒" 的终极愿景,我们决定将这个项目以开源的方式向全球开发者、研究者和技术爱好者开放,共同打造一个高度智能、情感化和人性化的全能管家。通过全球技术社区的力量和智慧,"小粒" 将成为用户生活中不可或缺的伙伴,为每个人提供更加贴近人性的陪伴与服务。
Stars: 68

README:
AI Sphere Butler 打造全方位服务用户生活的 AI 全能管家——代号 “小粒” (管家名称可以随意自定义)。
项目名称:AI Sphere Butler(创意和设计全球首创)
终极愿景:目标是创造一个全方位服务于用户全场景的 AI 全能管家—“小粒”。除了不具备物理形态外,“小粒”将提供与远程视频通话中的真人几乎无异的体验,具备思考、情感交流、视觉、听觉以及模拟触觉反馈等能力,并能够游走在任何家庭、车辆等场景显示设备上自由与人交互。功能覆盖智能家居控制、情感陪伴、学习交流、健康管理、安全防护、个人购物、外出导航及酒店预订等多个方面,还可以做主人代理分身,代理主人进入AI世界与AI网络互联,和其他用户的虚拟管家或者虚拟个体交互。为了实现 "小粒" 的终极愿景,我们决定将这个项目以开源的方式向全球开发者、研究者和技术爱好者开放,共同打造一个高度智能、情感化和人性化的全能管家。通过全球技术社区的力量和智慧,"小粒" 将成为用户生活中不可或缺的伙伴,为每个人提供更加贴近人性的陪伴与服务。
现在实现的功能都在metahuman-stream 分支上,主分支还没改造完成。
metahuman-stream是lipku 大佬开源的数字人框架,具体部署教程移步到这https://github.com/lipku/LiveTalking
慢慢推出使用教程(讨论请联系我们vx或进群,合集教程关注公众号):
-
1.普通笔记本集显如何部署DeepSeek-r1_7b大模型并进行推理? 教程见:https://mp.weixin.qq.com/s/ZhycwCGkPyaW_Y5loBJejg
-
2.Ubuntu如何部署AI-Sphere-Butler 教程见:https://mp.weixin.qq.com/s/-M0Y2YCfsi98aTkTOTA87g
-
3.AI数字人+HA开源项目AI Sphere Butler如何自定义训练全能管家形象 教程见:https://mp.weixin.qq.com/s/fT61Hpz0vRsmgxOblxQ2vQ 效果视频:https://www.bilibili.com/video/BV1c9wQe1EoE/?spm_id_from=333.1387.homepage.video_card.click&vd_source=886ba95d2a89cdc08080f76e5023b688
最新分析
AI-Sphere-Butler项目结合当下技术如manus和mcp,未来潜力巨大。
- 其一,任务规划与执行能力将得到显著提升。通过集成manus的任务规划和执行能力,AI-Sphere-Butler不仅能回答用户问题,还能主动帮助用户完成复杂任务,如撰写报告、规划旅行等,极大地提高用户的工作效率和生活便利性。
- 其二,多模态交互体验将更加丰富。结合manus和mcp的多模态交互能力,AI-Sphere-Butler可以处理图像、视频等多种数据类型,为用户提供更丰富的交互体验,如通过图像识别帮助用户识别物体或场景,增强用户与虚拟管家的互动性。
- 其三,学习与适应能力将显著增强。引入manus的学习机制,AI-Sphere-Butler能够根据用户的使用习惯和偏好,不断优化服务内容和方式,提供更加个性化的服务,如自动调整智能家居设备的设置或提供个性化的健康建议。
- 其四,情感识别与响应将更加精准。结合manus的情感分析能力,AI-Sphere-Butler可以更准确地判断用户的情绪状态,并根据情绪提供更贴心的服务,增强情感陪伴功能。
- 最后,跨平台与设备协同能力将更加出色。结合manus的跨平台操作能力和mcp的实时数据处理能力,AI-Sphere-Butler可以实现更广泛的设备协同,为用户提供无缝的跨设备服务体验,无论用户在何种设备上使用,都能享受到一致的高质量服务。
AI-Sphere-Butler项目与数字人tango结合后,未来潜力巨大。
- 其一,交互体验将更加自然逼真。tango能够根据音频生成自然、流畅且同步的人物手势和动作,使AI-Sphere-Butler的交互不再局限于语音和文字,能为用户提供更加真实、生动的交互体验,仿佛与真人管家交流一般。
- 其二,应用场景将得到极大拓展。结合tango的全身动作生成能力,AI-Sphere-Butler可应用于虚拟主持人、虚拟客服、虚拟教师等多个领域,为不同行业提供高质量的数字人服务。
- 其三,个性化服务将更加深入。tango可以根据用户提供的参考视频和音频,生成符合用户习惯和风格的数字人动作,使AI-Sphere-Butler能够更好地满足用户的个性化需求。
- 最后,技术融合将推动创新。两者结合将促进AI技术、计算机视觉技术以及视频生成技术的融合与发展,为数字人技术的进一步创新提供动力,创造出更加智能、更加人性化的数字人服务。
随着AI技术的持续发展,AI-Sphere-Butler项目展现出巨大的未来潜力。
- 其一,交互体验将更加自然流畅。AI技术的进步将使AI-Sphere-Butler具备多模态交互能力,能结合语音、文字、图像甚至视频等多种方式与用户交流,提供更加丰富、真实的交互体验。
- 其二,个性化服务将更加深入。通过强大的学习和数据分析能力,AI-Sphere-Butler能够更好地理解用户的习惯、偏好和需求,提供高度定制化的服务,如自动调整智能家居设备的设置、推荐符合用户口味的音乐或电影等。
- 其三,应用场景将得到极大拓展。随着技术的成熟,AI-Sphere-Butler不仅能在家庭中作为智能管家使用,还能在教育、医疗、办公等多个领域发挥重要作用,如作为虚拟教师辅助教学、作为医疗助手提供健康咨询等。
- 其四,技术融合将推动创新。AI-Sphere-Butler项目可以与物联网、区块链等技术结合,实现更智能的设备协同和数据安全共享,为用户创造更多价值。 最后,跨语言与文化适应性将显著增强。AI技术的发展将使AI-Sphere-Butler能够更好地理解和生成多种语言,适应不同文化背景的用户需求,从而在全球范围内得到更广泛的应用。
AI-Sphere-Butler项目在控制设备和控制机器人方向展现出广阔的未来潜力。
- 其一,在控制设备方面,它能够实现对多种智能设备的集中管理和自动化控制。通过集成先进的物联网技术,AI-Sphere-Butler可以作为智能家居、智能办公等场景下的核心控制中心,用户只需通过语音或文字指令,就能轻松控制家中的灯光、温度、电器等设备,或者办公室里的会议系统、安防设备等,极大地提升了生活的便利性和工作效率。此外,它还可以结合边缘计算和云计算技术,对大规模设备进行高效管理和实时监控,为工业自动化、智能工厂等领域提供强大的支持。
- 其二,在控制机器人方面,AI-Sphere-Butler具备远程操控、状态监控与反馈以及自动化任务调度等能力。用户可以通过它直接控制实体机器人完成清洁、搬运物品等任务,并实时获取机器人的工作状态和环境视频反馈。同时,它能根据用户的日常需求和偏好,自动安排机器人的工作日程,提高机器人服务的效率和质量。随着机器人技术的不断发展,AI-Sphere-Butler还可以与更加智能、灵活的机器人结合,实现更复杂的任务执行和协作,例如在医疗、救援、教育等领域发挥重要作用。 AI-Sphere-Butler项目在控制设备和机器人方面具有巨大的发展潜力,有望为人们的生活和工作带来更加智能化、自动化的体验。
要成功部署和运行目前的 AI Sphere Butler 项目需要了解多种技术
要成功部署和运行 AI Sphere Butler 项目,需要了解多种技术,涵盖前端、后端、机器学习、物联网等多个领域。以下是目前metahuman-stream分支部署和运行所需了解的知识:
-
编程语言:Python(后端)、JavaScript(前端)。
- 后端: FastAPI(API接口制作和调用)、Nginx。
- 数据库:SQLite、Redis。
- 容器化:Docker 用于模块的部署和扩展。
分支目前采用模块化设计,每个模块独立开发并协同工作。以下是关键模块及其技术栈:
- 技术栈: wav2lip(形象制作)、LiveTalking 。
- 技术栈:OpenCV、OCR。
- 技术栈:FunASR、腾讯云ASR、火山 TTS、gpt-sovitsTTS(声音克隆)、cosyvoiceTTS、Hugging Face、 Transformers。
- 技术栈:Langchain框架、Ollama框架、大模型(多模态)LoRA微调训练、Embedding 模型、提示词工程。
- 技术栈:MQTT、Home Assistant。
- 技术栈:WebRTC。
- 容器化部署:使用 Docker 部署和扩展。
- 云服务支持:支持 AWS、Azure 或阿里云。
- 本地部署:需了解GPU服务器配置、本地环境Pytorch 、CUDA等安装、本地网络转发映射等。
- 隐私保护:确保用户数据在采集、处理和存储环节的安全性,符合隐私保护法规。
- 单元测试:对每个模块进行单元测试,确保代码按预期工作。
- 集成测试:测试不同模块之间的交互,模拟真实使用场景。
部署和运行 AI Sphere Butler 项目需要掌握多领域的技术,包括前端开发、后端服务、机器学习、物联网、容器化部署等。建议开发者根据项目模块化设计,逐步学习和实践相关技术,以确保项目的成功实施。
以下是关于开源计划的详细说明,以及为什么它值得您加入共建。
-
集思广益,快速迭代:
- 开源带来了社区协作的力量,全球开发者可以一起贡献代码、算法、设计和想法,推动项目以更快的速度迭代和发展。
- 通过吸纳来自不同行业的经验和智慧,"小粒" 能够更好地适应复杂多样的用户需求和场景。
-
透明与信任:
- 开源让项目的开发过程完全透明,用户能够清晰了解 "小粒" 是如何构建和运行的。这种透明性不仅增强了用户的信任,还为项目的安全性和隐私保护提供了更高的保障。
-
技术普惠:
- 我们希望通过开源技术,降低准入门槛,让更多的人能够利用 "小粒" 的能力服务于更多场景,如教育、医疗、社会公益等。
-
全球影响力:
- 一项开源的项目,不仅仅是技术的合作,更是全球开发者共同追求创新目标的过程。共同打造 "小粒",不仅是技术的突破,更是一种人类对智能化生活愿景的探索。
为了吸引更多的人参与,我们需要对项目架构进行清晰的描述,帮助开发者快速理解项目的核心模块,并找到适合他们贡献的切入点。
"小粒" 的功能丰富,因此我们将其分为几个核心模块,每个模块独立开发并可协同工作:
-
视觉交互模块(视觉与表情):
- 任务:打造高度逼真的“虚拟形象”,实现面部表情动态、自然动作模拟及多设备适配。
- 技术栈:Unity、Unreal Engine、三维建模(Blender)、OpenCV、MediaPipe。
-
语音交互模块(听觉与语音合成):
- 任务:搭建高精度语音识别、自然语言理解(NLU)和人类语音合成(TTS)系统。
- 技术栈:Whisper、Coqui TTS、Vosk、Hugging Face Transformers。
-
情感计算与心理支持模块:
- 任务:通过情感分析理解用户情绪,并提供适当的心理互动或安慰。
- 技术栈:情感分析模型(BERT、RoBERTa)、对话情感识别框架(OpenAI GPT,Rasa)。
-
智能家居与物联网模块:
- 任务:支持主流的智能家居协议(如 Zigbee、Z-Wave、Matter)和设备对接,实时控制和建议。
- 技术栈:MQTT、OpenHAB、Home Assistant。
-
学习与知识模块:
- 任务:提供知识共享和学习支持服务,包括个性化推荐、语言学习助手等。
- 技术栈:推荐算法、NLP工具(spaCy、fastText)、多语言模型(Google Translate API、DeepL)。
-
健康与安全模块:
- 任务:结合健康监测设备,提供健康建议、紧急响应服务。
- 技术栈:可穿戴设备API(Apple HealthKit、Fitbit)、边缘计算、时序数据分析(InfluxDB)。
-
跨平台兼容性模块:
- 任务:确保 "小粒" 可在电视、平板、手机、车载设备等多种终端上呈现。
- 技术栈:React Native、Flutter、WebRTC。
-
ASR/TTS/LLM使用云上服务,硬件最低配置要求,CPU: i5 12代以上 内存:32G以上 硬盘:500G SSD以上 显卡:8G以上
-
ASR/TTS/LLM全部署在本地服务,最低配置要求,CPU: i7 12代以上 内存:64G以上 硬盘:1T SSD以上 显卡:16G以上
一、虚拟管家模块
-
流式对话数字人(目前选用metahuman-stream)
- 支持自然流畅的人机对话体验。
- 提供虚拟形象和声音克隆功能,方言对话,使数字人更具个性化。
-
虚拟大脑LLM/MM-Model 或 Multimodal Model(目前选用微调Qwen2.5LLM)
- 基于微调后的Qwen2.5大型语言模型,赋予数字人更深层次的理解和响应能力。
- 支持自定义本地LLM以满足特定需求。
-
唤醒模式
- 通过特定关键词或短语激活系统,实现便捷的启动方式。
-
身份识别(声纹识别、人脸识别)
- 结合声纹识别与人脸识别技术确保用户的安全性和个性化服务。
-
支持打断/追问
- 允许用户在对话中随时提问或打断,提升交互灵活性和自然度。
-
一键切换声音和形象
- 提供简便的操作界面,让用户能够快速更换数字人管家的声音和外观。
-
一键自定义换装
-
提供简便的操作界面,让用户能够快速更换数字人管家的服装。
二、声纹识别模块
- 实现高效的身份验证机制,增强系统的安全性和用户体验。
三、人脸识别模块
- 提供额外的安全层,并支持个性化的用户服务。
四、物联网联动模块(选用Home Assistant)
- 使用Home Assistant平台管理并控制家中的所有智能设备,实现智能家居的无缝连接。
五、联网新闻播报模块
- 实时获取最新资讯,并以语音形式为用户播报重要新闻。
六、互动反馈模块
- 触觉反馈:模拟真实世界的触觉感受,提升用户交互的真实感。
- 嗅觉反馈:通过气味传感器模拟真实世界的闻气味,提升用户交互的真实感。
- 距离反馈:通过超声波传感器模拟真实世界的距离远近和室内位置距离,提升用户交互的真实感。
七、视觉模块(图像识别和OCR)
- 利用先进的图像处理技术进行物体识别和文字提取,支持多种应用场景。
八、实时时间模块
- 提供准确的时间显示,帮助用户掌握当前时刻。
九、实时日历模块
- 详细的日程安排,便于用户规划日常活动。
十、事件提醒模块
- 及时的事件提醒功能,确保用户不会错过任何重要事项。
十一、天气播报模块
- 根据地理位置提供详细的天气预报信息。
十二、定位导航模块
- 支持地图浏览、路径规划等功能,方便用户的出行安排。
十三、娱乐模块
- 整合音乐播放功能,让用户享受个性化的音乐体验。
- 可以让管家唱歌跳舞表演。
- 可以让管家陪你看电视电影互动
- 可以让管家一起玩游戏互动。
十四、网店购物模块
- 提供便捷的商品搜索、比价、下单等一站式购物服务。
- 提供点外卖等服务。
十五、健康监管模块
- 监测用户的健康数据,如心率、睡眠质量等,并给出相应的健康建议。
十六、安防模块
- 通过摄像头实时监控家庭安全状况,异常情况即时报警。
十七、管家记忆模块
- 能够记住用户的偏好、历史交互和情感状态,提供更加个性化和贴心的服务,如同与一位熟悉的老朋友互动般自然。
十八、视频通话模块
- 支持高清视频通话,保持与家人朋友的紧密联系。
十九、主人代理行为模块
- 可代表用户执行一些日常任务,如接听电话、社交互动等,极大提高生活效率。
- 代理主人进入AI世界与AI网络互联,和其他用户的虚拟管家或者虚拟个体交互。
二十、情感识别模块
-
声音语调分析
- 语调变化检测:通过分析用户的语音输入中的音高、节奏、强度等特征来判断其情绪状态,如快乐、悲伤、愤怒或平静。
- 语境推理:不仅仅依赖于单个词语或句子的意义,而是考虑整个对话上下文,以便更准确地捕捉用户的情感倾向。
-
脸部表情识别
- 实时面部追踪:利用摄像头捕捉用户的脸部动作,并通过深度学习算法实时分析面部表情,包括微笑、皱眉、眼神移动等细节。
- 情感分类:根据面部肌肉的变化模式,自动识别出诸如高兴、惊讶、困惑、生气等多种情感类别。
-
综合情感评估
- 多模态融合:结合声音语调和脸部表情的数据进行综合分析,提供一个更为全面和准确的情感评估结果。
- 个性化调整:随着时间的推移,“小粒”会逐渐学习并适应每个用户的独特表达方式,从而提高情感识别的准确性。
未来开发计划
实体机器人管控模块
目标:实现对实体机器人的远程控制与管理,使“小粒”不仅能作为虚拟助手存在,还能通过实体机器人执行物理世界中的任务。
-
远程操控功能 允许用户通过“小粒”直接控制实体机器人进行各种操作,如清洁、搬运物品等。
状态监控与反馈 提供实时的状态更新和视频反馈,让用户可以随时了解机器人当前的工作状态和环境情况。
自动化任务调度 根据用户的日常需求和偏好设置,自动安排实体机器人的工作日程,例如定时打扫房间或巡逻检查家庭安全状况。
集成智能分析 利用内置传感器收集的数据,“小粒”能够分析并优化机器人的行为模式,提高效率和服务质量。
无线脑机交互模块
目标:探索和发展无线脑机接口(BCI)技术,旨在为用户提供一种全新的交互方式,突破传统输入方法的限制。
-
基本思想传输 开发基础级别的脑电信号识别技术,允许用户通过思考来发送简单的指令给“小粒”,比如打开灯、播放音乐等。
情感识别与响应 进一步深化情感计算能力,不仅基于语音和面部表情,还能通过脑电波变化来感知用户的情绪,并作出相应的反应。
增强用户体验 随着技术的进步,逐步增加复杂度更高的交互方式,如思维导航(通过想象目的地来指导导航系统)、意念书写等,极大地丰富用户的互动体验。
隐私保护与伦理考量 在推进技术创新的同时,严格遵守数据隐私法规,确保所有收集到的信息得到妥善处理。同时,积极探讨并解决相关伦理问题,保证技术发展符合社会价值观。
📌 2023年10月 项目萌芽 "既然ChatGPT这么聪明,数字人也能动了,做个数字人虚拟管家应该可行!"
- 核心灵感:让AI管家像《钢铁侠》里的贾维斯
📌 2023年12月 画设计图
- 定下三件套:对话大脑(GPT) + 数字人身体 + 智能家居控制
- 技术路线:先做电脑版,再考虑手机APP
📌 2024年1月 正式开工
- 程序员老汪搞定第一个能聊天的管家原型
- 设计师小汪做出2D真人版虚拟数字人形象
📌 2024年7月 选数字人框架
- 测试3种方案后选中MetaHuman-Stream
- 训练管家模型(qwen2.5)
📌 2024年9月 连智能家居
- 接入HomeAssistant系统
- 教会管家开灯/调空调:"小粒,我回家了!" → 自动开客厅灯
- 踩坑:不同品牌设备兼容问题折腾2周
📌 2024年12月 功能爆发月
- 12日 升级TTS语音合成:让管家能模仿台湾腔
- 19日 开发网页版:手机在外面也能远程唤醒管家
- 26日 添加天气预报:"今天杭州降温,记得穿秋裤!"
📌 2025年1月 进阶功能
- 2日 语音播热搜:每天早8点自动念头条新闻
- 4日 触觉反馈:摸屏幕数字人管家身体会有反馈说话
- 7日 视觉识别:摄像头认出画面内容和文字
- 12日 备忘提醒:设置吃药提醒被老妈点赞
- 13日 门锁联动:开门时管家会有几十种不同不带重复的"欢迎回家"欢迎语
- 18日 记忆升级:记得主人前几天喝咖啡不加糖
- 24日 导航功能:说"导航到苏州"→路程播报和规划路程
更多功能还在进行中,等你们一起来创造。。。。。
2023.10 💡 → 2023.12 🎨 → 2024.01 👩💻
2024.07 🤖 → 2024.09 🏠 → 2024.12 🌧️
2025.01 🔔 → 2025.01 👀 → 2025.01 🧭
一、虚拟管家模块
- 流式对话数字人(目前选用metahuman-stream)
- 虚拟大脑LLM/MM-Model 或 Multimodal Model(目前选用微调Qwen2.5LLM)
- 方言对话(未开发)
- 唤醒模式 (未开发)
- 身份识别(声纹识别、人脸识别)(未开发)
- 支持打断/追问(未开发)
- 一键切换声音和形象(未开发)
- 一键自定义换装(未开发)
二、声纹识别模块
- (未开发)
三、人脸识别模块
- (未开发)
四、物联网联动模块(选用Home Assistant)
- 已开发实现基础功能 https://www.bilibili.com/video/BV1n9CpY7E1o/?spm_id_from=333.1387.homepage.video_card.click
五、联网新闻播报模块
- 已开发实现基础功能 https://www.bilibili.com/video/BV1R26qYqEvo/?spm_id_from=333.1387.homepage.video_card.click
六、互动反馈模块
- 触觉反馈,已开发实现基础功能 https://www.bilibili.com/video/BV1jNrpYPEvG/?spm_id_from=333.1387.homepage.video_card.click
- 嗅觉反馈:(未开发)
- 距离反馈:(未开发)
七、视觉模块(图像识别和OCR)
- 已开发实现基础功能 https://www.bilibili.com/video/BV1Rgc2e1EJu/?spm_id_from=333.1387.homepage.video_card.click
八、实时时间模块
- 已开发实现基础功能 https://www.bilibili.com/video/BV1h4CrYUEsc/?spm_id_from=333.1387.homepage.video_card.click
九、实时日历模块
- 已开发实现基础功能
十、事件提醒模块
- 已开发实现基础功能
十一、天气播报模块
- 已开发实现基础功能
十二、定位导航模块
- 已开发实现基础功能 https://www.bilibili.com/video/BV1TpfnYREwy/?spm_id_from=333.1387.homepage.video_card.click https://www.bilibili.com/video/BV1sVAteUEcM/?spm_id_from=333.1387.homepage.video_card.click&vd_source=886ba95d2a89cdc08080f76e5023b688
十三、娱乐模块
- (未开发)
十四、网店购物模块
- (未开发)
十五、健康监管模块
- (未开发)
十六、安防模块
- (未开发)
十七、管家记忆模块
- 已开发实现基础功能
十八、视频通话模块
- (未开发)
十九、主人代理行为模块
- (未开发)
二十、情感识别模块
- (未开发)
- 模块化架构:每个功能模块独立开发,通过标准化接口与核心系统集成,支持后期扩展和维护。
- 统一管理系统:提供一个集中式的界面,让用户可以直观地管理和操作所有功能模块。
- 高扩展性与灵活性:支持未来功能扩展,如实体机器人管控模块和无线脑机交互模块。
- 用户友好性:提供便捷的交互方式,简化复杂功能的使用。
- 数据隐私与安全:确保用户数据在采集、处理和存储环节的安全性,符合隐私保护法规。
系统采用微服务架构,每个模块作为独立的服务运行,核心管理系统负责调度和管理:
- 框架:React.js 或 Vue.js
- UI组件库:Ant Design、Material UI
-
功能:
- 仪表盘界面展示所有模块状态和入口。
- 交互式模块管理页面,支持用户个性化设置。
- 实时数据展示(如健康监测数据、情感分析结果)。
- 主框架:Python(Django 或 FastAPI) / Node.js
- 数据库:PostgreSQL(结构化数据) + MongoDB(非结构化数据)
- 消息队列:Kafka 或 RabbitMQ,用于模块间的异步通信。
- 接口协议:REST API 或 GraphQL,提供统一的模块接口。
- 消息传递:通过 MQTT 或 WebSocket 实现模块间的实时通信。
- 模块注册:每个模块启动时动态注册到核心系统,便于状态监控和调用。
- 容器化:通过 Docker 和 Kubernetes 管理模块的部署和扩展。
- 云服务:支持 AWS、Azure 或阿里云,也可以本地部署(尤其是涉及隐私的功能)。
-
主要功能:
- 模块注册与状态管理:动态监测模块的运行状态(在线/离线、性能数据)。
- 任务调度:根据用户请求调用相应模块(如语音指令触发智能家居控制)。
- 用户管理:支持多用户身份识别和个性化偏好设置。
- 日志与审计:记录模块运行日志和用户操作,方便排查问题。
-
请求与响应:
- 用户交互通过核心管理系统发送请求。
- 模块返回结果后,核心管理系统整合并展示给用户。
-
异步任务处理:
- 复杂任务(如图像识别、情感分析)通过异步消息队列处理,避免阻塞用户操作。
以下是主要模块的设计和实现方案:
-
技术:
- 对话:基于微调的 Qwen2.5 LLM 提供多轮对话能力。
- 虚拟形象:使用 metahuman-stream 或 Unity3D 实现虚拟人物形象。
- 声音克隆:整合 Coqui TTS 或类似技术实现个性化语音。
-
功能:
- 流式对话:支持实时语音/文本交互。
- 唤醒模式:通过关键词激活(如“你好,小粒”)。
- 一键切换形象:提供自定义界面快速更换虚拟人物外观和声音。
-
技术:
- 声纹识别:使用 Speaker Verification 模型(如 ResNet)。
- 人脸识别:基于 Dlib 或 FaceNet 实现。
-
功能:
- 身份验证:确保用户安全登录和个性化服务。
- 多用户支持:不同用户登录后加载其专属设置。
-
技术:
- 基于 Home Assistant,通过其 API 接入智能家居设备。
-
功能:
- 设备管理:支持灯光、空调等设备的控制。
- 自动化规则:用户可设置触发条件(如“晚上自动关灯”)。
-
技术:
- 语音分析:基于 Transformer 模型(如 Wav2Vec)。
- 表情识别:使用 OpenCV 或深度学习框架分析面部表情。
- 多模态融合:通过 TensorFlow 或 PyTorch 整合语音和图像数据。
-
功能:
- 实时情感监测:捕捉用户情绪变化并调整服务内容。
- 用户学习:根据历史交互提升情感识别的准确性。
-
技术:
- 数据采集:通过 wearable API(如 Fitbit、Apple HealthKit)。
- 数据分析:时序数据存储与趋势分析(如 InfluxDB)。
-
功能:
- 实时健康监测:提供心率、睡眠等数据。
- 健康建议:基于监测数据生成个性化建议。
-
技术:
- WebRTC 实现低延迟高清视频通话。
-
功能:
- 支持多人通话和实时屏幕共享。
-
顶部导航栏:
- 快捷入口:如语音输入、搜索框。
- 系统状态:显示当前在线模块数、健康状态等。
-
左侧菜单栏:
- 模块分类导航(如“虚拟管家”、“智能家居”、“健康监测”)。
-
主工作区:
- 仪表盘风格,展示模块的实时状态和快捷操作按钮。
- 点击模块卡片进入详细界面(如健康监测数据图表)。
-
底部状态栏:
- 显示系统日志和实时消息通知。
- 模块控制:用户通过卡片式界面快速启用/停用模块。
- 实时反馈:模块状态(如在线/离线)和任务进度实时更新。
- 数据加密:用户数据在存储和传输过程中均加密(使用 AES 或 TLS)。
- 权限管理:基于用户角色控制模块访问权限。
- 隐私保护:支持数据匿名化和本地存储,确保隐私安全。
-
实体机器人管控模块:
- 远程操控:通过核心系统提供机器人控制界面。
- 任务调度:支持按照日程自动完成任务(如清扫、巡逻)。
-
无线脑机交互模块:
- 脑电信号输入:开发 EEG 设备接口。
- 高级交互:支持意念导航、简单指令(如开灯、播放音乐)。
- 开发核心管理系统,支持模块注册与调度。
- 实现虚拟管家模块和物联网联动模块的基本功能。
- 集成情感识别、健康监测等功能模块。
- 优化用户管理和权限控制。
- 添加未来功能(如实体机器人控制、无线脑机交互)。
- 迭代优化情感识别和 LLM 模型性能。
ai-sphere-butler/ # 项目根目录 ├── docs/ # 项目文档 │ ├── README.md # 项目介绍和快速入门指南 (Markdown格式) │ ├── architecture.md # 系统架构设计文档 (Markdown格式) │ ├── api.md # API 接口文档 (Markdown格式) │ ├── contributing.md # 贡献指南 (Markdown格式) │ ├── installation.md # 安装说明 (Markdown格式) │ ├── usage.md # 使用说明 (Markdown格式) │ ├── faq.md # 常见问题解答 (Markdown格式) │ ├── license.md # 开源许可证信息 (Markdown格式) │ └── code_of_conduct.md # 行为准则 (Markdown格式) ├── core/ # 核心管理系统 │ ├── server/ # 后端服务 │ │ ├── main.py # 主程序入口 (Python) │ │ ├── config/ │ │ │ ├── settings.py # 后端配置文件 (Python) │ │ │ ├── logging.conf # 日志配置文件 │ │ │ └── database.ini # 数据库连接信息 │ │ ├── modules/ # 各功能模块的实现 │ │ │ ├── user_manager/ │ │ │ │ ├── init.py # Python 包初始化文件 │ │ │ │ ├── models.py # 数据库模型 (Python) │ │ │ │ ├── routes.py # API路由 (Python) │ │ │ │ └── services.py # 业务逻辑 (Python) │ │ │ ├── dialog_manager/ │ │ │ │ ├── init.py │ │ │ │ ├── nlp.py # 自然语言处理 (Python) │ │ │ │ ├── context.py # 对话上下文管理 (Python) │ │ │ │ └── routes.py │ │ │ ├── emotion_engine/ │ │ │ │ ├── init.py │ │ │ │ ├── models.py │ │ │ │ └── analyzer.py # 情感分析 (Python) │ │ │ ├── skill_platform/ │ │ │ │ ├── init.py │ │ │ │ ├── registry.py # 技能注册 (Python) │ │ │ │ └── skills/ │ │ │ │ ├── init.py │ │ │ │ ├── smart_home.py # 智能家居技能 (Python) │ │ │ │ ├── weather.py # 天气技能 (Python) │ │ │ │ └── ... # 其他技能 │ │ │ ├── device_manager/ │ │ │ │ ├── init.py │ │ │ │ ├── controllers.py # 设备控制 (Python) │ │ │ │ └── discovery.py # 设备发现 (Python) │ │ │ ├── data_analysis/ │ │ │ │ ├── init.py │ │ │ │ ├── analytics.py # 数据分析 (Python) │ │ │ │ └── reporting.py # 数据报告生成 (Python) │ │ │ ├── security_manager/ │ │ │ │ ├── init.py │ │ │ │ ├── authentication.py # 身份验证 (Python) │ │ │ │ └── authorization.py # 权限管理 (Python) │ │ │ └── ... # 其他模块 │ │ ├── api/ # API 接口定义 │ │ │ ├── user.py # 用户API (Python) │ │ │ ├── device.py # 设备API (Python) │ │ │ ├── skill.py # 技能API (Python) │ │ │ └── ... │ │ ├── utils/ # 工具函数和辅助类 │ │ │ ├── init.py │ │ │ ├── logging.py # 日志工具类 (Python) │ │ │ ├── database.py # 数据库工具类 (Python) │ │ │ └── ... │ │ └── tests/ # 后端测试 │ │ ├── init.py │ │ ├── test_user_manager.py # 用户管理模块测试 (Python) │ │ └── ... │ ├── client/ # 前端客户端 │ │ ├── public/ # 静态资源 │ │ │ ├── index.html # 主HTML文件 │ │ │ └── ... │ │ ├── src/ # 源代码 │ │ │ ├── components/ # 组件 │ │ │ │ ├── Header.js # 顶部导航栏组件 (JavaScript/React) │ │ │ │ ├── Sidebar.js # 侧边栏组件 (JavaScript/React) │ │ │ │ ├── Dashboard.js # 仪表盘组件 (JavaScript/React) │ │ │ │ ├── SkillCard.js # 技能卡片组件 (JavaScript/React) │ │ │ │ └── ... │ │ │ ├── pages/ # 页面 │ │ │ │ ├── Home.js # 首页 (JavaScript/React) │ │ │ │ ├── Settings.js # 设置页面 (JavaScript/React) │ │ │ │ └── ... │ │ │ ├── services/ # 服务 │ │ │ │ ├── api.js # API调用服务 (JavaScript) │ │ │ │ ├── auth.js # 身份验证服务 (JavaScript) │ │ │ │ └── ... │ │ │ ├── App.js # 应用入口 (JavaScript/React) │ │ │ ├── index.js # 入口文件 (JavaScript/React) │ │ │ ├── styles.css # 样式表 (CSS) │ │ │ └── ... │ │ └── package.json # 前端依赖管理 │ └── ... ├── modules/ # 可选的独立模块 (可根据需要增减) │ ├── iot_control/ # 物联网控制模块 (示例) │ │ ├── init.py │ │ ├── config.yaml # 模块配置文件 (YAML) │ │ ├── handlers.py # 事件处理 (Python) │ │ └── ... │ └── ... # 其他模块 ├── models/ # AI模型数据 │ ├── qwen-2.5/ # 预训练语言模型 │ ├── emotion_recognition/ # 情感识别模型 │ └── ... ├── data/ # 数据存储 │ ├── user_data/ # 用户数据 │ ├── device_data/ # 设备数据 │ └── ... ├── scripts/ # 脚本工具 │ ├── setup.sh # 安装脚本 (Shell) │ ├── run.sh # 运行脚本 (Shell) │ └── ... ├── tests/ # 测试代码 │ ├── unit/ # 单元测试 │ ├── integration/ # 集成测试 │ └── ... ├── .gitignore # Git忽略文件列表 ├── LICENSE # 开源许可证文件 ├── requirements.txt # Python依赖包列表 └── setup.py # Python项目安装文件
-
启动流程
- 主程序入口 (core/server/main.py):
- 加载配置文件 (core/server/config/settings.py)
- 初始化日志记录 (core/server/config/logging.conf)
- 连接数据库 (core/server/config/database.ini)
- 启动 Flask 或 Django 等 Web 框架服务器
- 加载所有必要的模块和服务(如用户管理、对话管理等)
- 主程序入口 (core/server/main.py):
-
用户交互流程
- 前端客户端 (core/client/src/)
- 静态资源 (public/index.html):
- 主 HTML 文件,加载 React 应用和其他静态资源
- 源代码 (src/):
- 组件 (components/)
- 页面 (pages/)
- 服务 (services/)
- 入口文件 (App.js, index.js)
- 样式表 (styles.css)
- 前端依赖管理 (package.json)
- 静态资源 (public/index.html):
- 前端客户端 (core/client/src/)
-
后端服务 (core/server/)
- API 接口定义 (core/server/api/)
- user.py: 用户相关的 API 接口
- device.py: 设备相关的 API 接口
- skill.py: 技能相关的 API 接口
- 各功能模块 (core/server/modules/)
- 用户管理 (user_manager/)
- 对话管理 (dialog_manager/)
- 情感分析 (emotion_engine/)
- 技能平台 (skill_platform/)
- 设备管理 (device_manager/)
- 数据与安全 (security_manager/)
- API 接口定义 (core/server/api/)
-
数据流
- 数据库 (core/server/config/database.ini)
- 存储用户信息、设备状态、历史交互记录等
- 使用 ORM 框架(如 SQLAlchemy)进行数据库操作 (core/server/utils/database.py)
- AI 模型 (models/qwen-2.5/, emotion_recognition/)
- 加载预训练的语言模型和情感识别模型
- 在对话管理和情感分析中使用这些模型进行推理
- 数据库 (core/server/config/database.ini)
-
测试与维护
- 单元测试 (core/server/tests/)
- 集成测试 (tests/integration/)
- 部署与运维 (scripts/setup.sh, run.sh)
我们诚邀您加入 AI Sphere Butler 的开源项目,携手共建智能、情感化的数字人管家。无论您是开发者、设计师,还是技术爱好者,您的参与都将为 "小粒" 带来新的可能性。感兴趣联系我们微信:LGDesk
AI-Sphere-Butler是一个开源项目,旨在用于个人学习和研究目的。使用本项目时,请注意以下免责声明:
个人用途:本项目仅用于个人学习和研究,不适用于商业用途或生产环境。
风险和责任:使用AI-Sphere-Butler可能会导致数据丢失、系统故障或其他问题。我们对因使用本项目而导致的任何损失、损害或问题不承担任何责任。
支持:本项目不提供任何形式的技术支持或保证。用户应自行承担使用本项目的风险。
在使用本项目之前,请确保您已了解并接受这些免责声明。如果您不同意这些条款,请不要使用本项目。
感谢您的关注、理解与支持!
For Tasks:
Click tags to check more tools for each tasksFor Jobs:
Alternative AI tools for AI-Sphere-Butler
Similar Open Source Tools

godoos
GodoOS is an efficient intranet office operating system that includes various office tools such as word/excel/ppt/pdf/internal chat/whiteboard/mind map, with native file storage support. The platform interface mimics the Windows style, making it easy to operate while maintaining low resource consumption and high performance. It automatically connects to intranet users without registration, enabling instant communication and file sharing. The flexible and highly configurable app store allows for unlimited expansion.

chatwiki
ChatWiki is an open-source knowledge base AI question-answering system. It is built on large language models (LLM) and retrieval-augmented generation (RAG) technologies, providing out-of-the-box data processing, model invocation capabilities, and helping enterprises quickly build their own knowledge base AI question-answering systems. It offers exclusive AI question-answering system, easy integration of models, data preprocessing, simple user interface design, and adaptability to different business scenarios.

ai_wiki
This repository provides a comprehensive collection of resources, open-source tools, and knowledge related to quantitative analysis. It serves as a valuable knowledge base and navigation guide for individuals interested in various aspects of quantitative investing, including platforms, programming languages, mathematical foundations, machine learning, deep learning, and practical applications. The repository is well-structured and organized, with clear sections covering different topics. It includes resources on system platforms, programming codes, mathematical foundations, algorithm principles, machine learning, deep learning, reinforcement learning, graph networks, model deployment, and practical applications. Additionally, there are dedicated sections on quantitative trading and investment, as well as large models. The repository is actively maintained and updated, ensuring that users have access to the latest information and resources.

hongbomiao.com
hongbomiao.com is a personal research and development (R&D) lab that facilitates the sharing of knowledge. The repository covers a wide range of topics including web development, mobile development, desktop applications, API servers, cloud native technologies, data processing, machine learning, computer vision, embedded systems, simulation, database management, data cleaning, data orchestration, testing, ops, authentication, authorization, security, system tools, reverse engineering, Ethereum, hardware, network, guidelines, design, bots, and more. It provides detailed information on various tools, frameworks, libraries, and platforms used in these domains.

vpnfast.github.io
VPNFast is a lightweight and fast VPN service provider that offers secure and private internet access. With VPNFast, users can protect their online privacy, bypass geo-restrictions, and secure their internet connection from hackers and snoopers. The service provides high-speed servers in multiple locations worldwide, ensuring a reliable and seamless VPN experience for users. VPNFast is easy to use, with a user-friendly interface and simple setup process. Whether you're browsing the web, streaming content, or accessing sensitive information, VPNFast helps you stay safe and anonymous online.

PythonPark
PythonPark is a paradise for learning Python, providing babysitter-level tutorials on AI labs, treasure videos, data structures, study guides, machine learning practicals, deep learning practicals, Python basics, web scraping, big company interview experiences, programming life, and resource sharing. Original articles are published at least twice a week, with the latest articles being first released on WeChat and videos on Bilibili. Join the WeChat group for technical discussions or to provide feedback. Continuously improving and outputting content!

py-xiaozhi
py-xiaozhi is a Python-based XiaoZhi voice client designed for learning code and experiencing AI XiaoZhi's voice functions without hardware conditions. It features voice interaction, graphical interface, volume control, session management, encrypted audio transmission, CLI mode, and automatic copying of verification codes and opening browsers for first-time users. The project aims to optimize and add new features to zhh827's py-xiaozhi based on the original hardware project xiaozhi-esp32 and the Python implementation py-xiaozhi.

blog
这是一个程序员关于 ChatGPT 学习过程的记录,其中包括了 ChatGPT 的使用技巧、相关工具和资源的整理,以及一些个人见解和思考。 **使用技巧** * **充值 OpenAI API**:可以通过 https://beta.openai.com/account/api-keys 进行充值,支持信用卡和 PayPal。 * **使用专梯**:推荐使用稳定的专梯,可以有效提高 ChatGPT 的访问速度和稳定性。 * **使用魔法**:可以通过 https://my.x-air.app:666/#/register?aff=32853 访问 ChatGPT,无需魔法即可访问。 * **下载各种 apk**:可以通过 https://apkcombo.com 下载各种安卓应用的 apk 文件。 * **ChatGPT 官网**:ChatGPT 的官方网站是 https://ai.com。 * **Midjourney**:Midjourney 是一个生成式 AI 图像平台,可以通过 https://midjourney.com 访问。 * **文本转视频**:可以通过 https://www.d-id.com 将文本转换为视频。 * **国内大模型**:国内也有很多大模型,如阿里巴巴的通义千问、百度文心一言、讯飞星火、阿里巴巴通义听悟等。 * **查看 OpenAI 状态**:可以通过 https://status.openai.com/ 查看 OpenAI 的服务状态。 * **Canva 画图**:Canva 是一个在线平面设计平台,可以通过 https://www.canva.cn 进行画图。 **相关工具和资源** * **文字转语音**:可以通过 https://modelscope.cn/models?page=1&tasks=text-to-speech&type=audio 找到文字转语音的模型。 * **可好好玩玩的项目**: * https://github.com/sunner/ChatALL * https://github.com/labring/FastGPT * https://github.com/songquanpeng/one-api * **个人博客**: * https://baoyu.io/ * https://gorden-sun.notion.site/527689cd2b294e60912f040095e803c5?v=4f6cc12006c94f47aee4dc909511aeb5 * **srt 2 lrc 歌词**:可以通过 https://gotranscript.com/subtitle-converter 将 srt 格式的字幕转换为 lrc 格式的歌词。 * **5 种速率限制**:OpenAI API 有 5 种速率限制:RPM(每分钟请求数)、RPD(每天请求数)、TPM(每分钟 tokens 数量)、TPD(每天 tokens 数量)、IPM(每分钟图像数量)。 * **扣子平台**:coze.cn 是一个扣子平台,可以提供各种扣子。 * **通过云函数免费使用 GPT-3.5**:可以通过 https://juejin.cn/post/7353849549540589587 免费使用 GPT-3.5。 * **不蒜子 统计网页基数**:可以通过 https://busuanzi.ibruce.info/ 统计网页的基数。 * **视频总结和翻译网页**:可以通过 https://glarity.app/zh-CN 总结和翻译视频。 * **视频翻译和配音工具**:可以通过 https://github.com/jianchang512/pyvideotrans 翻译和配音视频。 * **文字生成音频**:可以通过 https://www.cnblogs.com/jijunjian/p/18118366 将文字生成音频。 * **memo ai**:memo.ac 是一个多模态 AI 平台,可以将视频链接、播客链接、本地音视频转换为文字,支持多语言转录后翻译,还可以将文字转换为新的音频。 * **视频总结工具**:可以通过 https://summarize.ing/ 总结视频。 * **可每天免费玩玩**:可以通过 https://www.perplexity.ai/ 每天免费玩玩。 * **Suno.ai**:Suno.ai 是一个 AI 语言模型,可以通过 https://bibigpt.co/ 访问。 * **CapCut**:CapCut 是一个视频编辑软件,可以通过 https://www.capcut.cn/ 下载。 * **Valla.ai**:Valla.ai 是一个多模态 AI 模型,可以通过 https://www.valla.ai/ 访问。 * **Viggle.ai**:Viggle.ai 是一个 AI 视频生成平台,可以通过 https://viggle.ai 访问。 * **使用免费的 GPU 部署文生图大模型**:可以通过 https://www.cnblogs.com/xuxiaona/p/18088404 部署文生图大模型。 * **语音转文字**:可以通过 https://speech.microsoft.com/portal 将语音转换为文字。 * **投资界的 ai**:可以通过 https://reportify.cc/ 了解投资界的 ai。 * **抓取小视频 app 的各种信息**:可以通过 https://github.com/NanmiCoder/MediaCrawler 抓取小视频 app 的各种信息。 * **马斯克 Grok1 开源**:马斯克的 Grok1 模型已经开源,可以通过 https://github.com/xai-org/grok-1 访问。 * **ChatALL**:ChatALL 是一个跨端支持的聊天机器人,可以通过 https://github.com/sunner/ChatALL 访问。 * **零一万物**:零一万物是一个 AI 平台,可以通过 https://www.01.ai/cn 访问。 * **智普**:智普是一个 AI 语言模型,可以通过 https://chatglm.cn/ 访问。 * **memo ai 下载**:可以通过 https://memo.ac/ 下载 memo ai。 * **ffmpeg 学习**:可以通过 https://www.ruanyifeng.com/blog/2020/01/ffmpeg.html 学习 ffmpeg。 * **自动生成文章小工具**:可以通过 https://www.cognition-labs.com/blog 生成文章。 * **简易商城**:可以通过 https://www.cnblogs.com/whuanle/p/18086537 搭建简易商城。 * **物联网**:可以通过 https://www.cnblogs.com/xuxiaona/p/18088404 学习物联网。 * **自定义表单、自定义列表、自定义上传和下载、自定义流程、自定义报表**:可以通过 https://www.cnblogs.com/whuanle/p/18086537 实现自定义表单、自定义列表、自定义上传和下载、自定义流程、自定义报表。 **个人见解和思考** * ChatGPT 是一个强大的工具,可以用来提高工作效率和创造力。 * ChatGPT 的使用门槛较低,即使是非技术人员也可以轻松上手。 * ChatGPT 的发展速度非常快,未来可能会对各个行业产生深远的影响。 * 我们应该理性看待 ChatGPT,既要看到它的优点,也要意识到它的局限性。 * 我们应该积极探索 ChatGPT 的应用场景,为社会创造价值。

Daily-DeepLearning
Daily-DeepLearning is a repository that covers various computer science topics such as data structures, operating systems, computer networks, Python programming, data science packages like numpy, pandas, matplotlib, machine learning theories, deep learning theories, NLP concepts, machine learning practical applications, deep learning practical applications, and big data technologies like Hadoop and Hive. It also includes coding exercises related to '剑指offer'. The repository provides detailed explanations and examples for each topic, making it a comprehensive resource for learning and practicing different aspects of computer science and data-related fields.

AHU-AI-Repository
This repository is dedicated to the learning and exchange of resources for the School of Artificial Intelligence at Anhui University. Notes will be published on this website first: https://www.aoaoaoao.cn and will be synchronized to the repository regularly. You can also contact me at [email protected].

sanic-web
Sanic-Web is a lightweight, end-to-end, and easily customizable large model application project built on technologies such as Dify, Ollama & Vllm, Sanic, and Text2SQL. It provides a one-stop solution for developing large model applications, supporting graphical data-driven Q&A using ECharts, handling table-based Q&A with CSV files, and integrating with third-party RAG systems for general knowledge Q&A. As a lightweight framework, Sanic-Web enables rapid iteration and extension to facilitate the quick implementation of large model projects.