当前位置：首页 > 科技资讯 > 清华大学与腾讯携手发布Oryx：开源多模态框架力挺超长视频处理新时代

清华大学与腾讯携手发布Oryx：开源多模态框架力挺超长视频处理新时代

发布时间：2025-02-06 19:04:44 作者：阅读：1次

近日消息，在当今AI技术飞速跃进的时代，ORYX这一创新多模态大规模语言模型正逐步重塑我们对人工智能解析视觉信息界限的理解。这项由清华大学、腾讯公司与南洋理工大学携手研究的前沿成果，被视作视觉认知技术领域中的“全能智者”，其独特设计正引领我们步入AI视觉理解的新纪元。

ORYX，全称Oryx Multi-Modal Large Language Models，是一个专门设计用于处理图像、视频和3D场景时空理解的AI模型。它的核心优势在于能够像人类一样，不仅理解视觉内容，还能洞察内容之间的关联和背后的故事。

这个AI系统的一大亮点是其处理任意分辨率视觉输入的能力。无论是模糊的老照片还是高清视频，ORYX都能轻松应对。这得益于其预训练模型OryxViT，它能将不同分辨率的图像转换为AI可理解的统一格式。

更令人惊叹的是ORYX的动态压缩能力。面对长时间的视频输入，它能够智能地压缩信息，保留关键内容而不失真。这就像是将一本厚重的书精炼成一张内容丰富的便签卡，既保留了核心信息，又大大提高了处理效率。

ORYX的工作原理主要依赖于两个核心组件:视觉编码器OryxViT和动态压缩模块。前者负责处理多样化的视觉输入，后者则确保长时间视频等大容量数据能够被高效处理。

在实际应用中，ORYX展现出了惊人的潜力。它不仅能深入理解视频内容，包括对象、情节和动作，还能准确把握3D空间中物体的位置和关系。这种全方位的视觉理解能力，为未来的人机交互、智能监控、自动驾驶等领域带来了无限可能。

值得一提的是，ORYX在多个视觉-语言基准测试中表现卓越，尤其在图像、视频和多视图3D数据的空间和时间理解方面，展现出了领先优势。

ORYX的创新之处不仅在于其强大的处理能力，更在于它为AI视觉理解开辟了新的范式。它能够以原生分辨率处理视觉输入，同时通过动态压缩技术高效处理长视频，这种灵活性和效率是其他AI模型难以企及的。

随着技术的不断进步，ORYX有望在未来的AI领域扮演更加重要的角色。它不仅将帮助机器更好地理解我们的视觉世界，还可能为人类认知过程的模拟提供新的思路。

近日消息，清华大学官方公众号公布，其研究团队已成功研发出全球首台三维成像介观活体超高清显微镜RUSH3D，此技术革新实现了对大脑结构的深度透视，能够首次实现大规模细胞间相互作用的全景式观测，开启了生物医学研究的新篇章。

清华大学科研突破：首推3D成像超级显微镜，成就多项全球首创

RUSH3D 介绍

该仪器具有跨空间和时间的多尺度成像能力，填补了当前国际范围内对哺乳动物介观尺度活体三维观测的空白，为揭示神经、肿瘤、免疫新现象和新机理提供了新的“杀手锏”，使我国生命科学家、医学家能够率先使用我国自主高端仪器设备来解决重大基础研究问题。

清华大学科研突破：首推3D成像超级显微镜，成就多项全球首创

研究团队介绍，在兼具厘米级三维视场与亚细胞分辨率的同时，该仪器能以 20Hz 的高速三维成像速度实现长达数十小时的连续低光毒性观测。

相比当前市场上最先进的商业化荧光显微镜，该仪器在同样分辨率下的成像视场面积提升近百倍，三维成像速度提升数十倍，有效观测时长提升上百倍。

清华大学科研突破：首推3D成像超级显微镜，成就多项全球首创

项目成果

目前，研究团队利用 RUSH3D 系统在脑科学、免疫学、医学与药学等多学科产出一系列成果，实现了多个“世界首次”：

首次在活体小鼠上以单细胞分辨率实现了覆盖大脑皮层 2／3 层的高速长时程三维观测，捕捉了多感官刺激下皮层各脑区的各异性响应模式，能够连续多天以单神经元精度追踪大规模神经响应

首次观测到急性脑损伤后多脑区的免疫反应，发现大量中性粒细胞从非血管区域往脑内的迁移与回流过程

首次在小鼠免疫反应过程中同时观测到了淋巴结内多个生发中心的形成过程，以及 T 细胞在不同生发中心之间的迁移现象。

清华大学科研突破：首推3D成像超级显微镜，成就多项全球首创

团队介绍

该团队由中国工程院院士、清华大学自动化系教授戴琼海带领，自 2013 年起率先开展介观活体显微成像领域研究。

项目意义

研究团队负责人表示，该仪器的研制与产业化填补了对复杂生命现象介观尺度活体观测的空白，标志着我国在活体介观显微成像领域持续引领国际发展，极大提升了我国高端科研仪器的研究和应用水平，为人类探索生命奥秘打开了新的维度。