欢迎user
近日,国际人工智能联合会议IJCAI 2024在韩国济州岛成功举办,由吉林大学人工智能学院王琪老师项目组申报的利用视觉大语言模型直接控制电脑GUI(图形用户界面)的最新研究项目《ScreenAgent: A Vision Language Model-driven Computer Control Agent》依托于新华三提供的智能科学计算方案,凭借其卓越的创新理念和技术前沿性,获得大会的肯定并在IJCAI 2024大会上发表。
吉林大学人工智能学院牛润良博士在IJCAI2024发表论文演讲
IJCAI全称为国际人工智能联合会议(International Joint Conference on Artificial Intelligence),是人工智能领域的CCF-A类顶级国际会议。国际人工智能联合会是一个非营利性组织,成立于1969年,是人工智能研究人员的主要国际聚会,旨在促进科学和教育的发展,包括在会议上沟通交流人工智能信息,展示前沿科学成果。
吉林大学人工智能学院王琪老师项目组发表的《ScreenAgent: A Vision Language Model-driven Computer Control Agent》项目是一项利用视觉大语言模型直接控制电脑 GUI 的最新研究。该项目提出了 ScreenAgent 模型,首次探索在无需辅助定位标签的情况下,利用 VLM Agent 直接控制电脑鼠标和键盘,实现大模型直接操作电脑的目标。ScreenAgent 通过「计划-执行-反思」的自动化流程首次实现对 GUI 界面的连续控制,可以帮助用户轻松实现在线娱乐活动、购物、旅行、阅读等行为,还可以帮助用户管理个人电脑。甚至无需动手,就可以实现快速办公,成为用户最得力的办公助手。该项目是对人机交互方式的一次探索和革新,同时开源了具备精准定位信息的数据集、控制器、训练代码等。
• 论文地址:https://arxiv.org/abs/2402.07945
• 项目地址:https://github.com/niuzaisheng/ScreenAgent
新华三赋能吉林大学人工智能学院构建智能算力中心
作为大模型的高端应用,该项目对于智能算力的强劲、稳定支撑提出了严苛要求,同时还对智能算力的分配与调用提出了全新挑战。鉴于AI技术在科研领域的广泛应用与深入发展,学校迫切需求构建一个统一且高性能的计算资源池,旨在全面支撑多样化的AI科研探索与教学活动,同时促进研究成果的高效共享与交流,以满足日益增长的需求与挑战。
为此,新华三为吉林大学量身打造了智能科学计算方案:
方案采用H3C UniServer R5500 AI服务器作为AI计算节点用作大模型训练,H3C UniStor CX系列分布式存储作为生产存储池,服务器与存储均通过100Gb HDR InfiniBand互联传输业务数据。整套集群还配备了万兆管理网络,为了提升算力使用效率、高效完成AI科研任务,还按需部署了傲飞算力平台与系统所需的相关中间件。该智能科学计算解决方案集群,依托全栈且多元化的开放平台架构,不仅确保了技术的持续领先性,更致力于为用户带来省心、放心的使用体验;通过更高性能的集群配置,显著加速了用户作业处理速度,从而有效提升了科研工作的效率;同时,通过全面而精细的管理优化能力,极大简化了用户的操作流程,有效降低了运维成本。
■ 新华三R5500系列服务器,采用先进模块化设计,实现系统解耦,用户可以灵活选择CPU/GPU模块,实现算力可进化;双供电平面设计,保障业务的稳定运转;2种拓扑架构,有效提升AI应用运转;无需经过CPU,GPU之间可实现高速、全互联的片间通信,以实现大规模AI加速计算;兼容最新OCP OAI开放硬件标准,适配多厂商8-GPU模组。
■新华三针对AI计算场景的专用CX系列存储,单节点可达20GB/s以上的带宽、30万以上的IOPS;系统可轻松扩展至PB级可用容量,性能线性增加,数据保护采用多副本或纠删码方式,供用户灵活选择。
■新华三自研的AI场景专用管理平台傲飞算力平台,依托自研GPU通用适配框架,将适配周期缩短至2周以内。同时,内置大模型全栈工作流,助力AI业务研究;此外,监控、告警等功能全面直观,让运维更轻松。
新华三智能科学计算解决方案,为吉林大学人工智能学院构建了高效的智能算力中心。该中心实现了AI算力资源的智能分配、远程调用、无缝热迁移等功能,提高了资源利用率与灵活性,不仅为学院的科研项目提供了强大的算力支撑,还成功构建了教学、科研与产业实践三者间紧密互动、相互促进的良性循环体系,推动学院科研成果的快速转化与应用。
面向AGI时代,智算能力中心已成为决定前沿技术发展的关键基座。未来,新华三集团仍将秉持“精耕务实,为时代赋智慧”的理念,持续进化“一体·两中枢”智慧计算体系,不断实现技术突破,为百行百业客户提供更高效、更智能、更绿色、更强劲的算力,加速客户激发业务价值。