
xiaoniu
小牛视频翻译 是一款支持本地视频翻译、字幕翻译和 YouTube 视频翻译下载的 AI 工具,集成自动语音识别与多语言翻译功能,助力创作者高效完成视频翻译,应用于视频本地化与视频出海场景。
Stars: 236

Xiaoniu AI Video Translation is a video AI translation tool that can translate speech or subtitles in videos into multiple languages such as Chinese, English, Japanese, French, and Korean. It enables easy creation of multilingual versions and enhances global dissemination. It utilizes AI technology to generate new translated videos, automatically retaining background sound effects and replacing them with new translated voices, achieving precise synchronization of sound and mouth movements. Whether for creating short films or promoting videos on platforms like Douyin, TikTok, and YouTube, Xiaoniu AI Video Translation helps users easily overcome language barriers and broaden the reach of videos globally.
README:
《小牛视频翻译》(YouTube 油管 搬运) ☛查看下载地址
《小牛AI视频翻译》是一款视频AI翻译工具。它可以一键将视频中的语音或字幕翻译成中文、英语、日语、法语、韩语等多种语言,轻松实现多语言版本。通过AI技术,它还能生成全新的翻译视频,自动保留背景音效并替换为新的翻译语音,实现声音和嘴型的精准同步。 无论是制作短剧,还是企业推广抖音、TikTok、YouTube等平台的视频,《小牛AI视频翻译》都能助您轻松跨越语言障碍,让视频在全球范围内更广泛地传播与分享。
- 视频翻译: 一键翻译视频中的语音或字幕为中文、英语、日语、法语、韩语等多种语言,支持本地和YouTube视频,让您轻松创建多语言版本,拓展全球传播。
- 字幕翻译: 自动生成多语言字幕,并提供多种字幕样式选择,让视频内容更直观地传达给全球观众。
- 字幕转语音: 借助AI技术,将字幕内容转换为音频,支持多种男女声线选择,实现声音与画面的精准对齐,使语音与口型同步,提升观众体验。
- 语音转字幕: 智能识别视频语音并生成字幕,支持多语言,免去手动添加字幕的繁琐,帮助创作者轻松制作多语言视频,扩大内容影响力。
- 人声分离与翻译: 自动分离背景音乐和人声,将人声翻译为其他语言音频(例如,将英文转为中文),保留背景音乐,增强视频的沉浸感。
- 创作Web UI界面: 在视频观看时实时修改字幕内容和语音,界面简洁易用,创作者可以迅速调整视频表现形式,充分发挥创意,使视频内容更贴合您的意图,提升您的个性化创作体验。
自研 AI 字幕翻译模型,基于涵盖 100 万部视频字幕的数据集,采用 深度微调(CPT、SFT 、DPO) 训练而成,显著增强了字幕翻译的 语义理解与精准表达能力。
经过调校优化的上下文理解机制,使模型能够充分把握视频整体内容,在翻译时灵活调整词句,确保译文更符合真实语境,避免生硬直译。
同时,经过调校改进的多语言匹配技术使模型能更准确地捕捉并修正不同语言间的细微差别,特别是在短语转换、省略句处理和复杂句结构优化上,实现了更自然、流畅的翻译效果。
- 理解核心: 首先深入理解视频的主旨和核心信息。通过这一过程提取出清晰的大纲和简洁的摘要,确保AI对视频内容有全面而深刻的理解,为后续翻译奠定坚实的基础。
- 语境翻译: 根据视频的大纲和摘要,把字幕翻译成目标语言。确保翻译后的字幕既保留原视频的意思和情感,又容易理解。
- 文化调整: 针对意译的结果,根据目标语言的文化背景和表达习惯,对翻译文本进行适当调整。这一步骤旨在使翻译后的文本更加自然流畅、易于被目标语言的观众理解和接受。
- 反思调整: AI对翻译结果自动评估,检测并修正文化语义偏差、流畅度问题及风格一致性等方面的问题。结合AI模型给出的优化建议,对译文进行必要的迭代改进,确保最终翻译的准确性与可读性。
- 字幕精校: 最后对翻译好的字幕进行全面检查,确保字幕与视频同步准确无误,语言表述精准,格式规范统一。任何遗漏或错误都应在此阶段得到纠正,以确保字幕质量的整体提升和良好的观看体验。
小牛是否开源,完全取决于你的声音!我们相信,开源的真正价值来自于社区的支持和参与。如果你希望小牛开源,或者有创意想法和实际需求,欢迎在 Issues 中踊跃提出。
根据你的电脑配置选择对应的版本,绿色版无需安装,解压即可使用。
-
Mac 下载地址
百度网盘:https://pan.baidu.com/s/14_1ZTT1Xnjkyhf25KLTfDw?pwd=jfed
夸克网盘:https://pan.quark.cn/s/82bbd1f3daa7
123云盘(不限速):https://www.123684.com/s/vLQ9-Q7P4
天翼云盘(不限速):https://cloud.189.cn/web/share?code=UZrYfyMJBRZf(访问码:mxq5)
如果不提前下载,软件运行时会自动下载,但速度可能较慢。
- 百度网盘:https://pan.baidu.com/s/1aa9FUhkEX46DJ2TWpYUErg?pwd=8888
- 天翼云盘(不限速):https://cloud.189.cn/t/neQ3y2uMr6Vv (访问码:bi9y)
我们的绿色版本不需要安装,操作非常简单:
- 解压文件:下载后,将压缩包解压到任意位置。
-
运行软件:双击运行
小牛视频翻译
。 - 访问界面:打开浏览器,输入地址:http://127.0.0.1:8181/home
接入IndexTTS-2声音克隆,打磨IndexTTS-2的音质。
1、提升了 Index2 的音质,声音更清晰、更自然。
2、优化了语音的情感,更生动、更有喜怒哀乐的真实感。
本次针对背景音问题进行了全面改进优化,涵盖乐器/节奏残留、瞬态爆破音、嗡嗡声、混响/回声及分离后的人声残影。
-
消除乐器 / 节奏残留
采用多尺度神经声源分离,并通过 2 轮掩码生成与融合,最大程度去除鼓点及低频乐器残留。 -
消除爆破音
自动检测短时脉冲噪声,利用频谱域插值与瞬态抑制算法修复,避免传统谱减造成的“凹陷”或金属伪影。 -
消除嗡嗡声
结合噪声谱自适应谱减,实施动态窄带抑制,精准去除人声分离后背景音残留的嗡嗡声。 -
抑制人声残影
在伴奏与背景声分离过程中,残留人声可能混入背景轨道。通过二次细化降噪与多模型置信度加权,自动识别并抑制这些残影,确保背景干净,同时最大限度保留主说话人音色与清晰度。 -
消除卡顿与不连续音
通过时域波形平滑与频谱一致性补偿,修复因信号缺失或处理延迟导致的断续现象,确保背景音流畅自然。
- 新增超实用的 声音克隆修改 功能。
1、从视频里挑好声音克隆:
如果你觉得某个角色的声音不好听,可以直接从他在视频里的语句中挑选最“好听”的几句来做克隆。例如:张三在视频里讲了 100 句,你可以挑出最喜欢的 2 句作为样本,系统会用这两句生成更接近你选中声音的效果。
2、用小牛内置的 100 条好声音替换:
我们准备了 100 条优选音色可供选择。如果你不想用视频里的声音(比如李四声音不合适),可以直接从这 100 条里挑一条,替换该角色的声音,操作简单明了。
新增了角色筛选功能 —— 你可以只看某个角色的发言视频,快速定位并检查角色有没有标错。有了这个功能,修正角色的工作效率比以前提效10倍以上!
字幕配音,支持多角色自动识别,自动配音,也可以自动克隆音色配音。
增加了字幕的免费字体、字体颜色、字体大小、字体高度、描边粗细、描边颜色等6大字幕样式功能
上线「上传字幕」功能,跳过转写直达成片,省时省钱更省心:
- 一键导入字幕+视频,即可直接翻译或配音;
- 全流程跳过“视频转写”环节,节省时间与转录成本;
- 生成视频自动同步“视频+音频+字幕+画面+嘴型+音速”,六维一致性一步到位。
新增声音克隆功能,支持 IndexTTS 和 cosyvoice-v2 两大主流模型,语音生成更自然、更智能:
- 支持情感克隆配音,可还原说话人的语气、语调与情绪,实现更真实、生动的语音表现;
- 支持最多100个角色,实现全自动克隆配音,特别适用于多角色短剧的语音生成需求。
解决视频翻译中,AI生成视频后,音频和人物动作不协调问题;例如演讲发布会上,演讲人的声音和手动作 协调一致性问题。
发布了“画面 + 音频 + 字幕 + 嘴型 + 音速” 对齐的稳定版本202500708。 相比上一版本,该版本的对齐准确率提升了 50%。 特别感谢过去 40 天内200+ 位用户的积极反馈与建议,很多用户甚至将翻译效果不佳的视频发给我进行研究与优化,真的非常感谢大家的信任与支持!
- 《基于 AI 的嘴型与画面驱动音频速率调整,最终保证 视频+音频+字幕+画面+嘴型+音速的一致性。》
1、基于嘴型与画面节奏的音频动态速率调整
引入智能嘴型识别与画面帧速分析技术,自动调整音频播放速率,使语音内容与人物口型、动作节奏精准匹配,从而提升视听一致性和沉浸感。
背后应用了基于深度学习的嘴型识别模型与节奏分析算法,实现了更自然、智能的音画对齐。
2、解决视频“画面慢动作”问题
本次通过引入多模态融合模型,融合嘴型识别、人物动作轨迹分析与音频节奏建模,优先保留视频原始节奏结构,并通过 AI 驱动的音频速率动态重建,完成时长对齐,彻底避免画面被强行减速的情况,确保整体画面流畅自然。
- 重构打磨《小牛翻译5步法》(1.理解核心 2.语境翻译 3.文化调整 4.反思调整 5.字幕精校),翻译准确性提升15%; 用心打磨产品,请小伙伴们享用。
- 节约你的成本:本次主要是优化配音,在保证音质的条件下,节约配音成本。比以前能节约50%的成本吧。
- 解决翻译丢字幕问题。增加翻译葡萄牙语种。
- 本次版本升级针对搭载 Apple 芯片(如 M1、M2、M3、M4 系列)的 Mac 设备进行了深度优化。通过全面支持 Apple 芯片的 Metal Performance Shaders(MPS)加速能力,性能相比此前版本提升高达 7倍,大幅提升运行效率与响应速度,充分发挥 Apple 硬件的计算优势。另外也 解决了mac的一些报错bug.
- 视频出海更容易了!中文语音转字幕准确率达99%,支持23种方言: 小牛已经支持23种方言(上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话);
- 优化翻译和播音性能,速度在原来的基础上能提升5-10倍。
- 新增了翻译万能接口,支持所有遵循通用OpenAI兼容接口格式的翻译服务接入,只需提供apiKey、baseURL和model参数即可实现无缝对接。
- 持续优化小牛翻译五步法(理解核心、语境翻译、文化调整、反思调整、字幕精校),确保翻译结果更加准确自然,贴合实际使用场景。
- 接入DeepSeek翻译模型,翻译更加精准。
- 继续优化了小牛翻译5步法(理解核心、语境翻译、文化调整、反思调整、字幕精校),翻译更加精准。
- 解决了YouTube限制下载问题。
-
字幕翻译准确率提升10倍
- 自研AI字幕翻译模型,基于100万部视频字幕数据进行深度训练,采用最新的 Transformer 架构,显著提升字幕翻译的语义理解与精准表达能力。
- 引入上下文感知机制,能够根据视频内容动态调整翻译结果,确保翻译语言更加符合语境逻辑。
- 应用多语言对齐技术,优化语言间的细节翻译误差,特别针对短语、省略句等复杂结构实现更高准确率。
- 加速推理效率,翻译处理时间缩短 30%,为用户提供更快速的字幕翻译服务。
为了提升多语言视频的制作和观赏体验,本次我们对双字幕功能进行了关键升级,特别在精准的双字幕同步和翻译精准度方面做出了显著提升。以下是本次升级的重点:
-
精准的双字幕同步
- 新版本优化了字幕与视频的同步机制,确保两种语言字幕始终保持精准同步,避免错位或延迟。
- 增强的字幕时间轴校准工具,支持用户手动微调字幕的时间轴,保证每一句话的字幕与语音精准对接,适用于高精度需求的视频内容。
-
翻译精准度提升
- 升级后的翻译引擎显著提高了翻译的准确性,特别是在处理专业术语和上下文语义时,能够更好地保留原意。
- 结合上下文分析,智能优化翻译内容,避免传统翻译中的歧义,确保翻译结果自然流畅,更符合目标语言的表达习惯。
- 支持更多语言对的精准翻译,满足国际化内容的需求,确保双语字幕在全球观众中的高质量呈现。
本次升级在同步精准度和翻译质量方面的提升,将大大增强视频内容的跨语言传播效果,满足更高标准的专业视频翻译需求。
-
美化字幕,按语义切割字幕
- 新增智能语义分析功能,将字幕按语义进行切割,每条字幕不超过30字;解决了字幕过长、不合理断句、无标点符号的问题,让字幕更加清晰易读。
- 优化断句规则,自动添加适当标点符号,提升字幕的流畅度和阅读体验。
- 引入动态长度检测算法,确保字幕在多种语言下均能保持视觉友好,不影响用户观看体验。
-
优化字幕翻译对照体验
- 改进了字幕翻译界面,提供更清晰、易读的对照展示方式;让用户可以快速查看原文与翻译的对照内容,提升翻译体验。
- 引入智能排版算法,使翻译内容更加整洁、对齐,避免字幕重叠或显示错乱。
-
修复翻译过程中系统卡死Bug,提升系统稳定性
- 修复了在字幕翻译过程中系统偶尔卡死的问题,优化了后台处理流程,确保翻译过程更加流畅。
- 增强了多线程处理能力,优化了内存管理,有效避免翻译任务长时间运行时导致的系统崩溃或卡顿现象。
- 系统响应速度更快,翻译任务完成更加高效,提升用户体验。
-
新增字幕配音功能
- 支持通过字幕文件直接生成语音。
- 集成微软TTS、字节跳动火山语音及真人ChatTTS三大语音技术,提供自然流畅的声音体验。
- 适用于课程讲解、宣传视频、有声读物等多种场景,为您的创作提供全新可能!
-
新增中英文双字幕功能
- 同时支持中文和英文双语字幕的自动生成与同步。
- 字幕风格灵活可调,支持中英对照模式和分行显示。
- 打造更加国际化的视频内容,让您的作品更具吸引力!
-
新增文本配音功能
我们新增了文本配音功能,现在您可以轻松将文字转换成语音。这个功能使用了微软TTS、字节跳动火山语音和真人ChatTTS三种先进的AI语音技术。 只需输入或粘贴文字,选择喜欢的声音类型,就能生成高质量的语音。无论是做课程讲解、有声书,都能让您的工作更高效、更方便。
-
接入新的语音助手——ChatTTS,增加了40种真人声音
我们在最新的版本中加入AI语音技术叫做ChatTTS,这让我们的应用能够提供更加自然、真实的语音播放效果。这次更新,我们特别添加了40种新的AI声音选项,这些声音都是根据真实人的声音制作出来的,听起来就像真人说话一样自然。这意味着,无论你是想做教学视频、朗读小说,还是制作新闻播报,都可以从这40种新声音中挑选最适合的一种来使用,让你的作品听起来更加生动有趣。
-
接入头条火山语音引擎,新增80个智能AI播音员
此次更新接入了头条火山语音引擎,进一步丰富了语音合成功能,新增了80个智能AI播音员。用户现在可以根据需要选择不同的语音风格和语调,使视频内容的表达更加生动、个性化。无论是新闻解说、广告配音还是故事讲述,都能找到最合适的声音配合,提升整体的视听效果。
- 新增本地视频翻译功能,持续优化字幕翻译体验
在此次更新中,正式上线本地视频翻译功能,提升用户处理本地视频的效率和灵活性。
主要更新内容:
本地视频翻译功能:支持用户上传本地视频进行翻译,进一步满足了用户对非在线内容处理的需求。
字幕翻译优化:在已有的字幕翻译和手工校对功能基础上,本次更新优化了字幕生成的准确度和编辑便捷性。
版本更新背景:
自从9月初推出全新的可视化Web UI系统后,用户对我们的视频翻译和字幕校对功能反响热烈。许多用户表示,希望进一步支持本地视频文件的翻译需求。因此,经过技术团队的努力,我们很高兴能够在此次更新中满足这一需求,继续优化您在使用时的整体体验。
-
全新可视化Web UI系统,支持手工校对字幕和翻译语音功能
此次更新带来了全新的可视化Web UI系统,大幅提升了用户体验和操作便捷性。新增功能包括视频管理、视频翻译添加、字幕翻译管理,以及手工校对字幕等。
版本更新背景:近半年来,我们收到许多用户反馈,大家希望在AI翻译字幕的基础上,能够进一步手动修改和优化字幕内容。同时,用户还希望能够在视频中添加个人见解,进行个性化的视频解说。
为了满足这些需求,本次版本特别推出了手工校对字幕和翻译语音功能。现在,用户可以在观看视频时,实时修改字幕内容和视频语音,充分发挥创意,使视频内容更加符合个人表达意图。这一功能的加入,将帮助您更高效地优化视频质量,为受众提供更加丰富的观看体验。
-
引入双AI模型策略,翻译精准度的显著飞跃
在过去的几个月中,我们收到了许多用户关于翻译结果精准度的反馈。尽管我们之前采用了机器翻译和ChatGPT技术,但实际应用中的翻译效果并未完全达到用户的期望。
经过深入的技术分析,我们认识到单一AI模型在提升翻译质量方面存在局限。为了解决这一问题,我们采用了两个模型同时进行翻译,这一策略显著提高了翻译的准确性。 -
本次更新,我们新增了两个AI翻译大模型,以提供更高质量的翻译服务:
1、初级-Gemma模型: 专为视频解说类翻译设计,准确率可达90%。Gemma是由谷歌发布的大规模语言模型,擅长生成高质量的翻译文本。我们还对其进行了针对翻译场景的模型微调,以进一步提升翻译效果。
2、高级-双模型(Kimi+Gemma): 结合了Kimi和Gemma两个模型的优势,针对视频解说类内容,翻译准确率可达到98%。Kimi作为国内知名的AI大模型,与Gemma模型的结合,为翻译效果带来了质的飞跃。
我们相信,这次技术的更新和模型的升级将为您带来前所未有的翻译体验。期待您的反馈和建议,以帮助我们不断优化服务。
- 引入了先进的音质提纯技术,为您带来更加清晰和震撼的听觉体验: 事情是这样的:三个月前,一些用户向我们反映音质不好,杂音和嘈杂声太多。前期苦于技术的限制,但我们历经3个月技术攻克,最终成功突破。
- 因此,在本版本中我们增加了5个音质选项:
- 去除背景音:只保留人声,没有原始背景音乐。
- 普通音质:采用普通音频提纯方法,提取音质速度快,10分钟的视频大约只需30秒。
- 普通音质-去噪音:在普通音质的基础上,使用15种算法去除噪音,例如国际上最好的WaveNet。
- 顶级音质:采用顶级音频提纯方法,使用国际上最好的Wav2Vec、Conv-TasNet、D3Net、SEGAN 等技术;提取音质速度较慢,10分钟的视频大约需要10分钟。
- 顶级音质-去噪音:在顶级音质的基础上,使用15种算法进一步去除噪音。
- 精准同步声音与说话口型:通过深度学习算法分析视频内容,实现智能配音,精准匹配声音与视频中的说话口型。AI技术极大提升了视频观看体验,使配音更加自然和逼真,广泛应用于电影、电视剧、企业宣传等领域。
- 新增ChatGPT翻译:普通翻译工具(如谷歌翻译、百度翻译)常导致语义不通、上下文僵硬等问题。借助ChatGPT大模型翻译,可以彻底解决这些问题,提供更加流畅和自然的翻译效果。
- Y新增视频裁剪:提供精准的时间段选择和剪辑功能,让您根据需求对视频进行裁剪(去头去尾)和编辑。
- 分离语音中的人声和背景音乐:利用AI技术将视频中的人声和背景音乐分离,并将人声翻译成中文,同时保留背景音乐,使得视频更易理解和欣赏。
- 新增视频翻译:YouTube上的视频多为外国语言,国人难以理解。为此,我们增加了语言翻译功能,将全球视频内容翻译为中文语音,方便用户观看。
- 新增字幕翻译:支持下载视频字幕并自动翻译为中文字幕,提升用户的观看体验。
- 新增YouTube视频管理:针对YouTube视频数量庞大且难以管理的问题,我们增加了Excel管理视频功能,使视频管理更加高效便捷。
- YouTube下载:支持YouTube视频的自动化下载,方便用户离线观看。
For Tasks:
Click tags to check more tools for each tasksFor Jobs:
Alternative AI tools for xiaoniu
Similar Open Source Tools

xiaoniu
Xiaoniu AI Video Translation is a video AI translation tool that can translate speech or subtitles in videos into multiple languages such as Chinese, English, Japanese, French, and Korean. It enables easy creation of multilingual versions and enhances global dissemination. It utilizes AI technology to generate new translated videos, automatically retaining background sound effects and replacing them with new translated voices, achieving precise synchronization of sound and mouth movements. Whether for creating short films or promoting videos on platforms like Douyin, TikTok, and YouTube, Xiaoniu AI Video Translation helps users easily overcome language barriers and broaden the reach of videos globally.

blog
这是一个程序员关于 ChatGPT 学习过程的记录,其中包括了 ChatGPT 的使用技巧、相关工具和资源的整理,以及一些个人见解和思考。 **使用技巧** * **充值 OpenAI API**:可以通过 https://beta.openai.com/account/api-keys 进行充值,支持信用卡和 PayPal。 * **使用专梯**:推荐使用稳定的专梯,可以有效提高 ChatGPT 的访问速度和稳定性。 * **使用魔法**:可以通过 https://my.x-air.app:666/#/register?aff=32853 访问 ChatGPT,无需魔法即可访问。 * **下载各种 apk**:可以通过 https://apkcombo.com 下载各种安卓应用的 apk 文件。 * **ChatGPT 官网**:ChatGPT 的官方网站是 https://ai.com。 * **Midjourney**:Midjourney 是一个生成式 AI 图像平台,可以通过 https://midjourney.com 访问。 * **文本转视频**:可以通过 https://www.d-id.com 将文本转换为视频。 * **国内大模型**:国内也有很多大模型,如阿里巴巴的通义千问、百度文心一言、讯飞星火、阿里巴巴通义听悟等。 * **查看 OpenAI 状态**:可以通过 https://status.openai.com/ 查看 OpenAI 的服务状态。 * **Canva 画图**:Canva 是一个在线平面设计平台,可以通过 https://www.canva.cn 进行画图。 **相关工具和资源** * **文字转语音**:可以通过 https://modelscope.cn/models?page=1&tasks=text-to-speech&type=audio 找到文字转语音的模型。 * **可好好玩玩的项目**: * https://github.com/sunner/ChatALL * https://github.com/labring/FastGPT * https://github.com/songquanpeng/one-api * **个人博客**: * https://baoyu.io/ * https://gorden-sun.notion.site/527689cd2b294e60912f040095e803c5?v=4f6cc12006c94f47aee4dc909511aeb5 * **srt 2 lrc 歌词**:可以通过 https://gotranscript.com/subtitle-converter 将 srt 格式的字幕转换为 lrc 格式的歌词。 * **5 种速率限制**:OpenAI API 有 5 种速率限制:RPM(每分钟请求数)、RPD(每天请求数)、TPM(每分钟 tokens 数量)、TPD(每天 tokens 数量)、IPM(每分钟图像数量)。 * **扣子平台**:coze.cn 是一个扣子平台,可以提供各种扣子。 * **通过云函数免费使用 GPT-3.5**:可以通过 https://juejin.cn/post/7353849549540589587 免费使用 GPT-3.5。 * **不蒜子 统计网页基数**:可以通过 https://busuanzi.ibruce.info/ 统计网页的基数。 * **视频总结和翻译网页**:可以通过 https://glarity.app/zh-CN 总结和翻译视频。 * **视频翻译和配音工具**:可以通过 https://github.com/jianchang512/pyvideotrans 翻译和配音视频。 * **文字生成音频**:可以通过 https://www.cnblogs.com/jijunjian/p/18118366 将文字生成音频。 * **memo ai**:memo.ac 是一个多模态 AI 平台,可以将视频链接、播客链接、本地音视频转换为文字,支持多语言转录后翻译,还可以将文字转换为新的音频。 * **视频总结工具**:可以通过 https://summarize.ing/ 总结视频。 * **可每天免费玩玩**:可以通过 https://www.perplexity.ai/ 每天免费玩玩。 * **Suno.ai**:Suno.ai 是一个 AI 语言模型,可以通过 https://bibigpt.co/ 访问。 * **CapCut**:CapCut 是一个视频编辑软件,可以通过 https://www.capcut.cn/ 下载。 * **Valla.ai**:Valla.ai 是一个多模态 AI 模型,可以通过 https://www.valla.ai/ 访问。 * **Viggle.ai**:Viggle.ai 是一个 AI 视频生成平台,可以通过 https://viggle.ai 访问。 * **使用免费的 GPU 部署文生图大模型**:可以通过 https://www.cnblogs.com/xuxiaona/p/18088404 部署文生图大模型。 * **语音转文字**:可以通过 https://speech.microsoft.com/portal 将语音转换为文字。 * **投资界的 ai**:可以通过 https://reportify.cc/ 了解投资界的 ai。 * **抓取小视频 app 的各种信息**:可以通过 https://github.com/NanmiCoder/MediaCrawler 抓取小视频 app 的各种信息。 * **马斯克 Grok1 开源**:马斯克的 Grok1 模型已经开源,可以通过 https://github.com/xai-org/grok-1 访问。 * **ChatALL**:ChatALL 是一个跨端支持的聊天机器人,可以通过 https://github.com/sunner/ChatALL 访问。 * **零一万物**:零一万物是一个 AI 平台,可以通过 https://www.01.ai/cn 访问。 * **智普**:智普是一个 AI 语言模型,可以通过 https://chatglm.cn/ 访问。 * **memo ai 下载**:可以通过 https://memo.ac/ 下载 memo ai。 * **ffmpeg 学习**:可以通过 https://www.ruanyifeng.com/blog/2020/01/ffmpeg.html 学习 ffmpeg。 * **自动生成文章小工具**:可以通过 https://www.cognition-labs.com/blog 生成文章。 * **简易商城**:可以通过 https://www.cnblogs.com/whuanle/p/18086537 搭建简易商城。 * **物联网**:可以通过 https://www.cnblogs.com/xuxiaona/p/18088404 学习物联网。 * **自定义表单、自定义列表、自定义上传和下载、自定义流程、自定义报表**:可以通过 https://www.cnblogs.com/whuanle/p/18086537 实现自定义表单、自定义列表、自定义上传和下载、自定义流程、自定义报表。 **个人见解和思考** * ChatGPT 是一个强大的工具,可以用来提高工作效率和创造力。 * ChatGPT 的使用门槛较低,即使是非技术人员也可以轻松上手。 * ChatGPT 的发展速度非常快,未来可能会对各个行业产生深远的影响。 * 我们应该理性看待 ChatGPT,既要看到它的优点,也要意识到它的局限性。 * 我们应该积极探索 ChatGPT 的应用场景,为社会创造价值。

py-xiaozhi
py-xiaozhi is a Python-based XiaoZhi voice client designed for learning through code and experiencing AI XiaoZhi's voice functions without hardware conditions. The repository is based on the xiaozhi-esp32 port. It supports AI voice interaction, visual multimodal capabilities, IoT device integration, online music playback, voice wake-up, automatic conversation mode, graphical user interface, command-line mode, cross-platform support, volume control, session management, encrypted audio transmission, automatic captcha handling, automatic MAC address retrieval, code modularization, and stability optimization.

AHU-AI-Repository
This repository is dedicated to the learning and exchange of resources for the School of Artificial Intelligence at Anhui University. Notes will be published on this website first: https://www.aoaoaoao.cn and will be synchronized to the repository regularly. You can also contact me at [email protected].

godoos
GodoOS is an efficient intranet office operating system that includes various office tools such as word/excel/ppt/pdf/internal chat/whiteboard/mind map, with native file storage support. The platform interface mimics the Windows style, making it easy to operate while maintaining low resource consumption and high performance. It automatically connects to intranet users without registration, enabling instant communication and file sharing. The flexible and highly configurable app store allows for unlimited expansion.

aimoneyhunter
AiMoneyHunter is a comprehensive collection of information on AI side hustle opportunities, covering various methods, technologies, tools, platforms, and channels for making money with AI. It aims to break information barriers in the AI era, enabling everyone to leverage AI intelligence for side hustles and earn extra income. The repository includes curated AI-related content sources, tips on starting a side hustle, and insights on using AI technologies for various money-making tasks.

AI-Drug-Discovery-Design
AI-Drug-Discovery-Design is a repository focused on Artificial Intelligence-assisted Drug Discovery and Design. It explores the use of AI technology to accelerate and optimize the drug development process. The advantages of AI in drug design include speeding up research cycles, improving accuracy through data-driven models, reducing costs by minimizing experimental redundancies, and enabling personalized drug design for specific patients or disease characteristics.

vpnfast.github.io
VPNFast is a lightweight and fast VPN service provider that offers secure and private internet access. With VPNFast, users can protect their online privacy, bypass geo-restrictions, and secure their internet connection from hackers and snoopers. The service provides high-speed servers in multiple locations worldwide, ensuring a reliable and seamless VPN experience for users. VPNFast is easy to use, with a user-friendly interface and simple setup process. Whether you're browsing the web, streaming content, or accessing sensitive information, VPNFast helps you stay safe and anonymous online.

Snap-Solver
Snap-Solver is a revolutionary AI tool for online exam solving, designed for students, test-takers, and self-learners. With just a keystroke, it automatically captures any question on the screen, analyzes it using AI, and provides detailed answers. Whether it's complex math formulas, physics problems, coding issues, or challenges from other disciplines, Snap-Solver offers clear, accurate, and structured solutions to help you better understand and master the subject matter.

LLMAI-writer
LLMAI-writer is a powerful AI tool for assisting in novel writing, utilizing state-of-the-art large language models to help writers brainstorm, plan, and create novels. Whether you are an experienced writer or a beginner, LLMAI-writer can help you efficiently complete the writing process.

ai-money-maker-handbook
The 'ai-money-maker-handbook' repository is a collection of information on using AI to earn extra income through side jobs. It includes strategies, resources, and verified methods for making money with AI technology in various fields. The repository provides insights on leveraging AI tools, platforms, and techniques to generate additional revenue streams in the AI era.

MaiMBot
MaiMBot is an intelligent QQ group chat bot based on a large language model. It is developed using the nonebot2 framework, utilizes LLM for conversation abilities, MongoDB for data persistence, and NapCat for QQ protocol support. The bot features keyword-triggered proactive responses, dynamic prompt construction, support for images and message forwarding, typo generation, multiple replies, emotion-based emoji responses, daily schedule generation, user relationship management, knowledge base, and group impressions. Work-in-progress features include personality, group atmosphere, image handling, humor, meme functions, and Minecraft interactions. The tool is in active development with plans for GIF compatibility, mini-program link parsing, bug fixes, documentation improvements, and logic enhancements for emoji sending.

DocTranslator
DocTranslator is a document translation tool that supports various file formats, compatible with OpenAI format API, and offers batch operations and multi-threading support. Whether for individual users or enterprise teams, DocTranslator helps efficiently complete document translation tasks. It supports formats like txt, markdown, word, csv, excel, pdf (non-scanned), and ppt for AI translation. The tool is deployed using Docker for easy setup and usage.
For similar tasks

xiaoniu
Xiaoniu AI Video Translation is a video AI translation tool that can translate speech or subtitles in videos into multiple languages such as Chinese, English, Japanese, French, and Korean. It enables easy creation of multilingual versions and enhances global dissemination. It utilizes AI technology to generate new translated videos, automatically retaining background sound effects and replacing them with new translated voices, achieving precise synchronization of sound and mouth movements. Whether for creating short films or promoting videos on platforms like Douyin, TikTok, and YouTube, Xiaoniu AI Video Translation helps users easily overcome language barriers and broaden the reach of videos globally.

gpt-subtrans
GPT-Subtrans is an open-source subtitle translator that utilizes large language models (LLMs) as translation services. It supports translation between any language pairs that the language model supports. Note that GPT-Subtrans requires an active internet connection, as subtitles are sent to the provider's servers for translation, and their privacy policy applies.

chatgpt-subtitle-translator
This tool utilizes the OpenAI ChatGPT API to translate text, with a focus on line-based translation, particularly for SRT subtitles. It optimizes token usage by removing SRT overhead and grouping text into batches, allowing for arbitrary length translations without excessive token consumption while maintaining a one-to-one match between line input and output.

TeroSubtitler
Tero Subtitler is an open source, cross-platform, and free subtitle editing software with a user-friendly interface. It offers fully fledged editing with SMPTE and MEDIA modes, support for various subtitle formats, multi-level undo/redo, search and replace, auto-backup, source and transcription modes, translation memory, audiovisual preview, timeline with waveform visualizer, manipulation tools, formatting options, quality control features, translation and transcription capabilities, validation tools, automation for correcting errors, and more. It also includes features like exporting subtitles to MP3, importing/exporting Blu-ray SUP format, generating blank video, generating video with hardcoded subtitles, video dubbing, and more. The tool utilizes powerful multimedia playback engines like mpv, advanced audio/video manipulation tools like FFmpeg, tools for automatic transcription like whisper.cpp/Faster-Whisper, auto-translation API like Google Translate, and ElevenLabs TTS for video dubbing.

AiNiee
AiNiee is a tool focused on AI translation, capable of automatically translating RPG SLG games, Epub TXT novels, Srt Lrc subtitles, and more. It provides features for configuring AI platforms, proxies, and translation settings. Users can utilize this tool for translating game scripts, novels, and subtitles efficiently. The tool supports multiple AI platforms and offers tutorials for beginners. It also includes functionalities for extracting and translating game text, with options for customizing translation projects and managing translation tasks effectively.

video2blog
video2blog is an open-source project aimed at converting videos into textual notes. The tool follows a process of extracting video information using yt-dlp, downloading the video, downloading subtitles if available, translating subtitles if not in Chinese, generating Chinese subtitles using whisper if no subtitles exist, converting subtitles to articles using gemini, and manually inserting images from the video into the article. The tool provides a solution for creating blog content from video resources, enhancing accessibility and content creation efficiency.

auto-subs
Auto-subs is a tool designed to automatically transcribe editing timelines using OpenAI Whisper and Stable-TS for extreme accuracy. It generates subtitles in a custom style, is completely free, and runs locally within Davinci Resolve. It works on Mac, Linux, and Windows, supporting both Free and Studio versions of Resolve. Users can jump to positions on the timeline using the Subtitle Navigator and translate from any language to English. The tool provides a user-friendly interface for creating and customizing subtitles for video content.

Srt-AI-Voice-Assistant
Srt-AI-Voice-Assistant is a convenient tool that generates audio from uploaded .srt subtitle files by calling APIs such as Bert-VITS2 (HiyoriUI), GPT-SoVITS, and Microsoft TTS (online). The code is currently not perfect, and feedback on bugs or suggestions can be provided at https://github.com/YYuX-1145/Srt-AI-Voice-Assistant/issues. Recent updates include adding custom API functionality with a focus on security, support for Microsoft online TTS (requires key configuration), error handling improvements, automatic project path detection, compatibility with API-v1 for limited functionality, and significant feature updates supporting card synthesis.
For similar jobs

sweep
Sweep is an AI junior developer that turns bugs and feature requests into code changes. It automatically handles developer experience improvements like adding type hints and improving test coverage.

teams-ai
The Teams AI Library is a software development kit (SDK) that helps developers create bots that can interact with Teams and Microsoft 365 applications. It is built on top of the Bot Framework SDK and simplifies the process of developing bots that interact with Teams' artificial intelligence capabilities. The SDK is available for JavaScript/TypeScript, .NET, and Python.

ai-guide
This guide is dedicated to Large Language Models (LLMs) that you can run on your home computer. It assumes your PC is a lower-end, non-gaming setup.

classifai
Supercharge WordPress Content Workflows and Engagement with Artificial Intelligence. Tap into leading cloud-based services like OpenAI, Microsoft Azure AI, Google Gemini and IBM Watson to augment your WordPress-powered websites. Publish content faster while improving SEO performance and increasing audience engagement. ClassifAI integrates Artificial Intelligence and Machine Learning technologies to lighten your workload and eliminate tedious tasks, giving you more time to create original content that matters.

chatbot-ui
Chatbot UI is an open-source AI chat app that allows users to create and deploy their own AI chatbots. It is easy to use and can be customized to fit any need. Chatbot UI is perfect for businesses, developers, and anyone who wants to create a chatbot.

BricksLLM
BricksLLM is a cloud native AI gateway written in Go. Currently, it provides native support for OpenAI, Anthropic, Azure OpenAI and vLLM. BricksLLM aims to provide enterprise level infrastructure that can power any LLM production use cases. Here are some use cases for BricksLLM: * Set LLM usage limits for users on different pricing tiers * Track LLM usage on a per user and per organization basis * Block or redact requests containing PIIs * Improve LLM reliability with failovers, retries and caching * Distribute API keys with rate limits and cost limits for internal development/production use cases * Distribute API keys with rate limits and cost limits for students

uAgents
uAgents is a Python library developed by Fetch.ai that allows for the creation of autonomous AI agents. These agents can perform various tasks on a schedule or take action on various events. uAgents are easy to create and manage, and they are connected to a fast-growing network of other uAgents. They are also secure, with cryptographically secured messages and wallets.

griptape
Griptape is a modular Python framework for building AI-powered applications that securely connect to your enterprise data and APIs. It offers developers the ability to maintain control and flexibility at every step. Griptape's core components include Structures (Agents, Pipelines, and Workflows), Tasks, Tools, Memory (Conversation Memory, Task Memory, and Meta Memory), Drivers (Prompt and Embedding Drivers, Vector Store Drivers, Image Generation Drivers, Image Query Drivers, SQL Drivers, Web Scraper Drivers, and Conversation Memory Drivers), Engines (Query Engines, Extraction Engines, Summary Engines, Image Generation Engines, and Image Query Engines), and additional components (Rulesets, Loaders, Artifacts, Chunkers, and Tokenizers). Griptape enables developers to create AI-powered applications with ease and efficiency.