
ScreenAgent
一个先进的计算机控制智能体,它通过观察屏幕截图和执行鼠标键盘动作来完成复杂的任务。它利用VLM和强化学习环境,可以在真实计算机屏幕上执行多步骤任务。

Vary-toy是由MEGVII Technology、University of Chinese Academy of Sciences和Huazhong University of Science and Technology的研究人员共同开发的一款小型视觉语言模型(LVLM)。它旨在解决大型视觉语言模型在训练和部署上的挑战,特别是对于资源有限的研究者。
Vary-toy是一个小型但功能强大的视觉语言模型,它使得资源有限的研究者和开发者也能体验到先进的视觉语言模型功能。通过改进的视觉词汇网络和多任务预训练策略,Vary-toy在保持小尺寸的同时,展现出处理复杂视觉语言任务的能力。







