全部应用
热门
图像生成
个性化图像
AI绘画
文生图
图片重打光(灯光,场景)
高清修复
图像转草图
人物风格个性化生成
去除背景
虚拟穿衣
图生图
人脸处理
3D模型生成
三维重建
3D模型生成
3D视角图片
文本生成
智能对话
智能搜索
故事续写
代码生成
角色扮演
文件对话
音频生成
文生音频
音频分离
文本转音乐
语音转换
声音克隆
视频生成
模仿视频表情动作
文生视频
运动模仿
动作迁移
图生视频
语音识别
声音克隆
视频配音
视频翻译
表情编辑
数字人
配音
语音识别
虚拟交互对话
对话认知
智能对话
图像描述
多模态生成
多模态生成
信息提取
智能对话
艺术创作
图像风格变换
万字长文创作
证件照
图生视频
文生视频
其他
门牌号识别
物体检测
同步嘴型
PDF文档提取
视频转GIF
Markdown转PPT
图片信息识别
钢琴音频转MIDI
综合排序:
EchoMimicV2(开机自启动v2.0.0)
EchoMimicV2(开机自启动v2.0.0)
2
上传:杨传龙
Hunyuan3D-1(开机自启动v1.0.2)
Hunyuan3D-1(开机自启动v1.0.2)
1
上传:杨传龙
text-generation-webui
text-generation-webui
智能对话
1
上传:卢家东
xinference
0
上传:陈思颖
Hunyuan3D-1
Hunyuan3D-1
虽然 3D 生成模型极大地改善了艺术家的工作流程,但现有的 3D 生成扩散模型存在生成速度慢、泛化能力差的问题。为了解决这个问题,我们提出了一种名为 Hunyuan3D-1.0 的两阶段方法,包括一个精简版和一个标准版,均支持文本和图像条件生成。 在第一阶段,我们采用多视图扩散模型,该模型可在约 4 秒内高效生成多视图 RGB。这些多视图图像从不同视角捕捉 3D 资产的丰富细节,将任务从单视图简化为多视图重建。在第二阶段,我们引入了前馈重建模型,该模型可在约 7 秒内根据生成的多视图图像快速、忠实地重建 3D 资产。重建网络学习处理多视图扩散引入的噪声和不一致性,并利用条件图像中的可用信息高效恢复 3D 结构。 我们的框架涉及文本转图像模型,即 Hunyuan-DiT,使其成为一个统一的框架,支持文本和图像条件的 3D 生成。我们的标准版本比我们的精简版和其他现有模型多 3 倍参数。我们的 Hunyuan3D-1.0 在速度和质量之间实现了令人印象深刻的平衡,显著缩短了生成时间,同时保持了所生成资产的质量和多样性。
3D模型生成
0
上传:杨传龙
Janus
Janus是一种新颖的自回归框架,它将多模态理解和生成统一起来。它通过将视觉编码解耦为单独的路径来解决以前方法的局限性,同时仍然使用单一、统一的转换器架构进行处理。这种解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,而且还增强了框架的灵活性。Janus 超越了之前的统一模型,并且达到或超过了特定任务模型的性能。Janus 的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。
0
上传:杨传龙
F5-TTS
F5-TTS
功能:基础-TTS,多语音生成,语音聊天, F5-TTS 是由上海交通大学、剑桥大学和吉利汽车研究院(宁波)有限公司于 2024 年共同开源的一款高性能文本到语音 (TTS) 系统,它基于流匹配的非自回归生成方法,结合了扩散变换器 (DiT) 技术。。这一系统能够在没有额外监督的情况下,通过零样本学习快速生成自然、流畅且忠实于原文的语音。 F5-TTS 支持多语言合成,包括中文和英文,且能在长文本上进行有效的语音合成。此外,F5-TTS 还具备情感控制功能,能根据文本内容调整合成语音的情感表现,并支持速度控制,允许用户根据需要调整语音的播放速度。系统在 10 万小时的大规模数据集上进行训练,展现出了卓越的性能和泛化能力。 F5-TTS 的主要功能包括零样本声音克隆、速度控制、情感表现控制、长文本合成以及多语言支持。它的技术原理涉及到流匹配、扩散变换器 (DiT) 、 ConvNeXt V2 文本表示改进、 Sway Sampling 策略以及端到端的系统设计。 F5-TTS 的应用场景广泛,包括有声读物、语音助手、语言学习、新闻播报、游戏配音等,为各种商业和非商业用途提供强大的语音合成能力。 E2 TTS,全称为「Embarrassingly Easy Text-to-Speech」,是一种先进的文本转语音 (TTS) 系统,它通过简化的流程实现了人类水平的自然度和说话人相似性。 E2 TTS 的核心在于它完全非自回归的特性,这意味着它可以一次性生成整个语音序列,而不需要逐步生成,从而显著提高了生成速度并保持了高质量的语音输出。已被 SLT 2024 接受。 在 E2 TTS 框架中,文本输入被转换为带有填充标记的字符序列。然后根据音频填充任务训练基于流匹配的梅尔频谱图生成器。与许多以前的工作不同,它不需要额外的组件(例如持续时间模型、字素到音素)或复杂的技术(例如单调对齐搜索)。尽管 E2 TTS 很简单,但它实现了最先进的零样本 TTS 功能,可与包括 Voicebox 和 NaturalSpeech 3 在内的以前的作品相媲美或超越。 E2 TTS 的简单性还允许输入表示的灵活性。
声音克隆
2
上传:姚俊
stable-diffusion-webui(开机自启动v2.0.2)
本镜像带开机自启动功能,直接开机开放端口,然后访问网址即可。本版本在v2.0.1基础上增加了常用插件以及部分模型
AI绘画
文生图
图生图
0
上传:李红丽
Qwen2.5
Qwen2.5
自 Qwen2 发布以来的三个月里,众多开发者在 Qwen2 语言模型上构建了新模型,为我们提供了宝贵的反馈。在此期间,我们专注于创建更智能、知识更丰富的语言模型。今天,我们很高兴向大家介绍 Qwen 家族的最新成员:Qwen2.5。 密集、易于使用、仅解码器的语言模型,有0.5B、1.5B、3B、7B、14B、32B和72B大小以及基本和指示变体。 在我们最新的大规模数据集上进行预训练,涵盖多达18T 个标记。 在指令跟踪、生成长文本(超过 8K 个标记)、理解结构化数据(例如表格)以及生成结构化输出(尤其是 JSON)方面有显著改进。 更能适应系统提示的多样性,增强聊天机器人的角色扮演实现和条件设定。 上下文长度最多支持128K个token,最多可生成8K个token。 支持超过29种语言,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。
智能对话
0
上传:杨传龙
EchoMimicV2
EchoMimicV2
EchoMimicV2:面向引人注目、简化和半身体人体动画。
配音
11
上传:杨传龙
Pyramid-Flow
Pyramid-Flow
这是 Pyramid Flow 的官方仓库,Pyramid Flow 是一种基于 Flow Matching 的高效训练自回归视频生成方法。通过仅在开源数据集上进行训练,它可以生成 768p 分辨率和 24 FPS 的高质量 10 秒视频,并且自然支持图像到视频的生成。
文生视频
图生视频
3
上传:杨传龙
OmniGen
OmniGen
OmniGen 是一个统一的图像生成模型,可用于执行各种任务,包括但不限于文本到图像生成、主题驱动生成、身份保留生成、图像编辑和图像条件生成。OmniGen 不需要额外的插件或操作,它可以根据文本提示自动识别输入图像中的特征(例如,所需的对象、人体姿势、深度映射)
AI绘画
2
上传:陈东风