【www.凯发发布】-zhangyannni的主页
2026-01-15 14:23:17
share to :

51CTO首页AI.x社区博客书院精品班软考社区免费课企业培训鸿蒙开发者社区信创认证 公家号矩阵 视频课免费课排行榜短视频直播课软考书院全数课程软考信创认证华为认证厂商认证IT技能PMP项目治理免费题库于线进修文章资源问答讲堂专栏直播 51CTO 鸿蒙开发者社区 51CTO技能栈 51CTO官微 51CTO书院 51CTO博客 CTO练习营 鸿蒙开发者社区定阅号 51CTO软考 51CTO书院APP 51CTO书院企业版APP 鸿蒙开发者社区视频号 51CTO软考题库 AI.x社区 首页 文章 讲堂 直播 登录/注册 51CTO

中国优质的IT技能网站

51CTO博客

专业IT技能创作平台

51CTO书院

IT职业于线教诲平台

zhangyannni LV.7 这个用户很懒,还有没有小我私家简介 帖子 161 声望 1531 存眷 0 粉丝 0 社区头条作者 热点内容榜上榜作者 私信 存眷 主帖 161 逾越Qwen 3及Ge妹妹a 3!欧洲DeepSeek——Mistral AI重磅开源Ministral 3家族 英华 论文链接:https:arxiv.orgabs2601.08584v1网页链接:https:mistral.ainewsmistral3开源模子:https:huggingface.cocollectionsmistralaiministral3亮点直击推出Ministral3系列:发布了3B、8B及14B三种参数范围的密集型语言模子,专为计较及内存受限的边沿运用设计。全系三版本:每一个尺寸均包罗Base(基础版)、Instruct(指令微调版)及Reasoning(推理版)三个变体。原生多模态:所有模子均具有图象理解能力。级联蒸馏:提出... 4h前 72阅读 0点赞 0答复 0保藏 Qwen3-VL-Flash晋升13.62%!浙年夜等首创CoV:多步推理具身问答Agent,通用提点神器 开源堆栈:https:github.comziplabCoVarXiv链接:https:arxiv.orgabs2601.05172亮点直击CoV框架:首创 视链提醒 (ChainofView,CoV),一个免练习、测试时(testtime)的具身问答智能体框架。自动视觉推理:将传统被动的视觉语言模子(VLM)改变为自动的视点搜刮者,使其可以或许像人类同样经由过程挪动视角来摸索情况。验证测试时扩大性(TestTimeScaling):经由过程增长推理时的 步履预算 (即答应模子多走几步、多看频频),可以持... 1天前 72阅读 0点赞 0答复 0保藏 自回归最新SOTA!baiduVideoAR:首个视频VAR框架,推理步数削减10倍,比肩扩散模子 头条 社区头条 论文链接:​​https:arxiv.orgabs2601.05966​​图1VideoAR经由过程文本提醒天生高保真且时间一致的视频亮点直击首个视频VAR框架:VideoAR,首个将视觉自回归建模运用在视频天生的年夜范围框架,联合了多标准下一帧猜测与自回归建模。时空解耦建模:乐成将空间及依靠瓜葛解耦,使用帧内VAR建模处置惩罚空间内容,使用因果下一帧猜测处置惩罚时间依靠。立异的一致性机制:多标准时间RoPE、跨帧偏差批改及随机帧掩码,有用减缓了长序列天生中的... 2天前 173阅读 0点赞 0答复 0保藏 强势斩获六项SOTA!UniCorn买通理解与天生任督二脉,靠“自察”重构多模态认知 头条 社区头条 论文链接:https:arxiv.orgabs2601.03193代码链接:https:github.comHungryyan1UniCorn模子链接:https:huggingface.coCostaliyAUniCorn基准链接:https:github.comshierlouzUnicycle主页链接:https:costaliya.github.ioUniCorn.github.io亮点直击传导性掉语症:将同一多模态模子中 理解能力强但天生能力衰 的征象情势化为 传导性掉语症 。UniCorn框架:一种无需外部数据或者西席监视的自我晋升框架。该框架将单个模子划分为... 6天前 346阅读 0点赞 0答复 0保藏 一小我私家就是一支整编剧组!首个“同一导演”模子发布:字节UniMAGE,让脑洞原地变年夜片 论文链接:https:arxiv.orgpdf2512.23222项目链接:https:kebii.github.ioUniMAGE亮点直击观点:UniMAGE表现了 同一导演模子 的观点,总体协调叙事逻辑及视觉构图,将用户用意与多模态脚本接洽起来,实现创意音视频天生。技能:UniMAGE采用交错观点进修及解耦专家进修,联合情境中ID提醒及预上下文脚本拆分计谋,以加强长上下文序列中的视觉一致性及叙事联贯性。机能:UniMAGE于长篇、多场景脚本创作中揭示出强盛的能力及泛化... 7天前 231阅读 0点赞 0答复 0保藏 复刻“黑客帝国”枪弹时间!SpaceTimePilot:视频变可操控4D游戏,倒放/变速/运镜随你掌控 论文链接:https:arxiv.orgpdf2512.25075项目链接:https:zheninghuang.github.ioSpaceTimePilot亮点直击初次实现了结合空间及时间节制的视频扩散模子:SpaceTimePilot是首个可以或许从单个单目视频实现对于动态场景举行结合空间(摄像机视角)及时间(运动序列)节制的视频扩散模子。引入动画时间嵌入机制:提出了一种有用的动画时间嵌入机制,可以或许显式节制输出视频的运动序列,实现对于时间进程的邃密操控,例如慢动作、反向播放及子... 9天前 157阅读 0点赞 0答复 0保藏 港中文 字节结合推出DreamOmni3:解锁“涂鸦+图文”结合输入,从头界说多模态天生与编纂 文章链接:https:arxiv.orgpdf2512.22525项目链接:https:github.comdvlabresearchDreamOmni3DreamOmni3的效果展示,具有基在涂鸦的编纂及天生功效亮点直击提出了两项对于同一天生与编纂模子极具实用价值的使命:基在涂鸦的编纂及基在涂鸦的天生。它们可以与语言指令及图象指令相联合,加强同一模子的创作可用性,并为有针对于性的优化及将来研究提供清楚的使命界说。提出了一套流程,用在构建一个高质量、周全的基在涂鸦编纂与天生... 2026-01-05 08:48:34 175阅读 0点赞 0答复 0保藏 口型匹配、身份连结周全SOTA!清华 可灵X-Dub:丢弃修复思维,用“编纂”实现精准同步! 头条 社区头条 论文链接:https:arxiv.orgabs2512.25066项目主页:https:hjrphoebus.github.ioXDub亮点直击范式改变:本文将视觉配音从一个病态的 掩码修复 使命从头界说为一个前提优良的 视频到视频编纂 使命。自指导框架(XDub):提出了一个自我指导框架,使用一个基在DiT的天生器来创立 抱负的 成对于练习数据(即除了了嘴型差别外,其他视觉前提彻底不异的视频对于),从而答应自力的编纂器模子于完备的视觉上下文放学习鲁棒的配音。时间步自... 2026-01-04 08:51:01 341阅读 0点赞 0答复 0保藏 AI本身当导演?KlingAvatar 2.0“结合推理”黑科技:让数字人不仅会演,更懂脚本!新SOTA! 论文链接:https:arxiv.orgabs2512.13313项目地址:https:app.klingai.comglobalaihumanimagenew图1KlingAvatar2.0天生活泼、连结身份的数字人类,具有精准的摄像头节制、富厚的感情表达、高质量的动作以和精准的脸部唇部及音频同步。它实现了音频、图象及文本指令之间的联贯对于齐,推广到多种开放域气势派头,并撑持多字切合成及基在身份的音频节制。这些能力患上益在咱们多模态指令追随、全向时空级联框架,实现高分辩率、永劫长视频生... 2025-12-29 08:42:00 270阅读 0点赞 0答复 0保藏 仅960M参数,不仅干翻百亿年夜模子,速率还有快了6倍!字节最新图象编纂模子EditMGT开源啦 英华 文章链接:​​https:arxiv.orgpdf2512.11715​​ProjectPage:​​https:weichow23.github.ioEditMGT​​GitHubRepo:​​https:github.comweichow23EditMGT​​HuggingFaceDataset:​https:huggingface.codatasetsWeiChowCrispEdit2M​​亮点直击提出了EditMGT,这是首个基在MGT的图象编纂模子,它经由过程使用MGT的令牌翻转特征来显式地保留与编纂无关的区域,从而从底子上解决了扩散模子中存于的虚伪编纂泄露问题。提出告终合区域... 2025-12-26 08:56:07 504阅读 0点赞 0答复 0保藏 六倍极速天生无穷时长人像视频!复旦 微软最新FlashPortrait:让你成为数字人面具暗地里的TA 论文地址:​​https:arxiv.orgpdf2512.16900​​​项目主页:​​https:francisrings.github.ioFlashPortrait​​​项目代码:​​https:github.comFrancisRingsFlashPortrait​​项目Demo:​​https:www.bilibili.comvideoBV1Gfq9BAEvo​​亮点直击提出了一种基在滑动窗口的自顺应潜变量猜测加快机制。该要领无需分外练习,仅于推理阶段激活,可于连结无穷长度人像动画身份一致性的同时实现6倍加快。首个摸索视频扩散模子以加... 2025-12-25 08:43:36 479阅读 0点赞 0答复 0保藏 五万吊打百万级SOTA!UTS新作VideoCoF:首创“帧链思维”同一视频编纂模子,效果冷艳! 亮点直击首创 帧链 (ChainofFrames)范式:借鉴CoT思维,强迫模子先猜测编纂区域,再天生方针视频,实现了从 恍惚指令 到 精准区域 的显式映照。极高的数据效率:仅利用50k视频对于举行微调,就于指令遵照及乐成率上逾越了颠末百万级数据练习的SOTA模子。Infinite长视频外推能力:怪异的RoPE对于齐计谋解决了长视频位置编码掉效问题,撑持处置惩罚练习长度4倍以上的视频,且无任何以障。万能编纂体现:于VideoCoFBench中,不管是... 2025-12-24 09:06:34 393阅读 0点赞 0答复 0保藏 逾越Veo及Runway!可灵开源Kling-Omni:一个模子通吃视频天生、剪辑及多模态推理! 头条 社区头条 论文链接:https:arxiv.orgpdf2512.16776体验链接:https:app.klingai.comglobalomninew亮点直击同一的通用框架:KlingOmni将多样化的视频天生、编纂及智能推理使命整合到一个端到真个通用天生框架中,打破了传统碎片化的处置惩罚模式。立异性的多模态视觉语言(MVL)范式:引入MVL作为交互机制,联合文本指令、参考图象及视频上下文,构建同一的输入暗示,显著晋升了模子理解及揣度用户繁杂用意的能力。强盛的模子智能及推理能力:通... 2025-12-23 09:09:46 1089阅读 0点赞 0答复 0保藏 年夜幅逾越π0.5及X-VLA!清北最新Motus:理解、天生、节制万能, 海量视频喂出“最强盛脑” 头条 社区头条 论文链接:https:arxiv.orgabs2512.13030项目代码链接:https:motusrobotics.github.iomotus亮点直击同一的基础模子:Motus,一个同一的具身基础模子,初次于一个天生式框架内集成为了五种主流范式(世界模子、逆动力学模子、VLAs、视频天生模子以和视频动作结合猜测模子),且未捐躯通用的多模态先验MoT架构与结合留意力:引入混淆Transformer(MoT)架构,经由过程 三模态结合留意力机制 毗连预练习的视频天生专家、动作专家及理解专... 2025-12-19 09:49:13 1074阅读 0点赞 0答复 0保藏 24FPS及时天生!腾讯混元推出WorldPlay:打破“速率与影象”悖论,720P无穷流视频随便玩! 头条 社区头条 论文链接:https:arxiv.orgpdf2512.14614项目链接:https:3dmodels.hunyuan.tencent.comworlddemo链接:https:3d.hunyuan.tencent.comsceneTo3D亮点直击WorldPlay,一个针对于通用处景的及时、持久一致的世界模子。两重动作暗示:提出了一种联合离散键盘输入及持续摄像机姿态的两重动作暗示要领。既实现了对于用户输入的鲁棒节制,又提供了切确的空间位置信息,解决了传统要领于节制精度及练习不变性上的不足。重修上下文影象及时间... 2025-12-18 09:38:16 685阅读 0点赞 0答复 0保藏 完全离别VAE!清华x可灵联手开源SVG-T2I:天生理解合二为一,机能媲美SD3 头条 社区头条 论文链接:https:arxiv.orgpdf2512.11749代码链接:https:github.comKlingTeamSVGT2I模子链接:https:huggingface.coKlingTeamSVGT2I亮点直击初次于视觉特性模子(VFM)特性空间上对于文本到图象的隐扩散模子举行了年夜范围验证。开源了SVGT2I模子的完备练习与推理流程,并提供多个尺寸的预练习权重,以促成后续研究。总结速览解决的问题焦点挑战:视觉基础模子虽然于理解与感知上体现精彩,但其表征空间还没有被充实用在年夜范围、高质... 2025-12-17 09:13:36 681阅读 0点赞 0答复 0保藏 视频模子降维冲击?浙年夜 哈佛提出 IF-Edit:无需练习,用“天生视频”的思绪修图! 论文标题:AreImagetoVideoModelsGoodZeroShotImageEditors机构:浙江年夜学、哈佛年夜学论文链接:https:arxiv.orgabs2511.19435导语:此刻的AI消弭、换配景已经经很强了,但你试过让AI把一张 完备的杯子 照片修成 被打坏的刹时 吗?或者者把 生面团 修成 烤好的饼干 ?传统的生图模子往往不懂这类物理历程及时间因果。今天先容的这项事情IFEdit,另辟蹊径,直接挪用视频天生模子(如Wan2.2)来修图,不需要任何微调练习,让AI... 2025-12-16 09:43:10 382阅读 0点赞 0答复 0保藏 NeurIPS 2025 | 硬刚可灵1.5!阿里通义 清华等开源Wan-Move:指哪动哪的“神笔马良” 论文链接:https:arxiv.orgpdf2512.08765项目链接:https:github.comalivilabWanMove亮点直击WanMove,一个用在图象到视频天生中运动节制的框架。与需要运动编码的现有要领差别,它经由过程编纂前提特性注入运动指导,无需添加新模块,从而易在年夜范围微调基础模子。引入了MoveBench,一个周全且精心筹谋的基准来评估运动节制。一个混淆了人工及SAM的标注流程确保了标注质量。于MoveBench及大众数据集长进行的年夜量试验注解,WanMove支... 2025-12-15 09:19:50 445阅读 0点赞 0答复 0保藏 1步顶100步!TwinFlow:无需西席模子,仅单步推理,Qwen-Image-20B天生速率涨100倍! 英华 论文链接:https:arxiv.orgpdf2512.05150​项目链接:https:zhenglincheng.comtwinflow​代码链接:https:github.cominclusionAITwinFlow​模子链接:https:huggingface.coinclusionAITwinFlow亮点直击简朴而有用的一步天生框架。提出了一种一步天生框架,该框架不需要辅助练习模子(GAN判别器)或者冻结的西席模子(差别的一致性蒸馏),从而消弭了GPU内存成本,答应于年夜模子长进行更矫捷及可扩大的练习。基在肆意步框架,TWINFL... 2025-12-11 08:55:21 480阅读 0点赞 0答复 0保藏 北航 美团等最新EditThinker:给AI修图装上“年夜脑”,Flux、OmniGen2刹时智商暴涨! 论文链接:https:arxiv.orgpdf2512.05965项目链接:https:appletea233.github.iothinkwhileedit图1。EditThinker概述。子图(a)展示了多轮思索编纂流程,该流程迭代攻讦、优化及反复编纂指令,子图(b)陈诉了四个图象编纂基准测试的成果,展示了三种现有编纂要领的显著晋升,咱们利用了FLUX.1Kontext开发版(图中标示为FLUX.1Kontext)亮点直击冲破单轮指令范式:针对于现有单轮指令遵照模式的局限,立异性地提出 边思索边编纂 ... 2025-12-09 09:17:56 463阅读 0点赞 0答复 0保藏 123456789 1 得到成绩 已经堆集 9.9w 人气 得到 0 个点赞 得到 2 次保藏 Copyright © 2005-2026 51CTO.COM 京ICP证060544版权所有 未经许可请勿转载 每日任务 客服-本文由www.凯发 - K8凯发集团(中国)公司官方网站(唯一授权)技术部原创提供,更多官方资讯请认准本站(hai7kuosuo5.com)。


深圳总部
深圳市南山区粤海街道深圳湾
青岛分部
青岛市崂山区科苑
成都分部
成都市双流区西航港街道
上海分部
上海市浦东新区张江高科技园区
南京分部
南京市江北新区