来自德国弗劳恩霍夫研究院和达姆施塔特工业大学的研究团队近期取得了一项重要突破,他们提出了名为ViTNT-FIQA的全新人脸图像质量评估方法。这项发表于2025年的研究成果发表在计算机视觉领域的顶级会议上,论文编号为arXiv:2601.05741v1 ...
多模态面部表情识别研究综述2021-2025年,系统分析Vision Transformer(ViT)与可解释AI(XAI)方法在融合策略、数据集及性能提升中的应用,指出ViT通过长距离依赖建模提升分类准确率,但存在隐私风险、数据不平衡及高计算成本等挑战,未来需结合隐私保护技术与 ...
本研究针对铁路运输安全中紧固件缺陷检测的难题,采用非破坏性评估(NDE)技术,对比分析了Vision Transformer(ViT)、Data-efficient ...
德国科研团队在人脸识别技术领域取得突破性进展,开发出一种无需训练即可评估图像质量的新方法ViTNT-FIQA。这项研究通过分析Vision Transformer模型内部特征变化规律,为提升人脸识别系统可靠性提供了创新解决方案。相关成果已在国际计算机视觉会议发表,论文编号arXiv:2601.05741v1。
近年来,Vision Transformer(ViT)在计算机视觉领域取得了巨大突破。然而ViT模型通常计算复杂度高,难以在资源受限的移动设备上部署。为了解决这个问题,研究人员提出了Convolutional Additive Self-attention Vision Transformers (CAS-ViT),这是一种轻量级的ViT变体,旨在在效率和性能 ...
11月23日(周二),AI顶会审稿人、百度深度学习研究院资深研究员朱欤博士直播讲授《Vision Transformer十讲》。每晚1小时、连续10天,朱欤博士带你从零玩转ViT算法! Vision Transformer前沿技术全面讲解:从ViT经典算法到最新学界前沿,从技术原理到实现细节, ViT, Swin ...
作为北京大学人工智能研究院和集成电路学院的双聘助理教授,李萌既懂 AI 又懂芯片。 近日,他和北京大学集成电路学院王源教授及团队设计出一款面向 Transformer 模型的高效数据流架构——HG-PIPE,并在可编程阵列逻辑(FPGA,Field Programmable Gate Array)平台上完成 ...
经过漫长的等待,ICCV 2021终于迎来放榜时刻! ICCV官方在推特上公布了这一消息,并表示今年共有6236篇投稿,最终1617篇论文被 ...
本文将探讨ViT成为首选的原因、ViT的关键不同之处,以及要最大限度地发挥其的性能,哪些硬件功能必不可少。 视觉AI已不再依赖CNN——接下来会如何发展? 多年来,卷积神经网络(CNN)在人工智能视觉领域一直占据主导地位,广泛用于自动驾驶辅助、人脸 ...
【导读】CVPR 2025,混合新架构MambaVision来了!Mamba+Transformer混合架构专门为CV应用设计。MambaVision 在Top-1精度和图像吞吐量方面实现了新的SOTA,显著超越了基于Transformer和Mamba的模型。 正如标题所言「Attention is all you need」,Transformer已成为不同领域的「霸主」 ...
【新智元导读】CVPR 2025,混合新架构MambaVision来了!Mamba+Transformer混合架构专门为CV应用设计。MambaVision 在Top-1精度和图像吞吐量方面实现了新的SOTA,显著超越了基于Transformer和Mamba的模型。 正如标题所言「Attention is all you need」,Transformer已成为不同领域的「霸主 ...