通义千问推出视觉了解模型Qwen2-VL-72B API已上线阿里云

08-30 460阅读 4评论

来历:环球网

【环球网科技归纳报导】8月30日,阿里通义千问发布第二代视觉言语模型Qwen2-VL,旗舰模型 Qwen2-VL-72B的API已上线阿里云百炼渠道。

2023年8月,通义千问开源第一代视觉言语了解模型Qwen-VL,成为开源社区最受欢迎的多模态模型之一。短短一年内,模型下载量打破1000万次。现在,多模态模型在手机、车端等各类视觉辨认场景的落地正在加快,开发者和使用企业也分外重视Qwen-VL的晋级迭代。

比较上代模型,Qwen2-VL的根底功能全面提高。能够读懂不同分辨率和不同长宽比的图片,在MathVista、DocVQA、RealWorldQA、MTVQA 等基准测验创下全球抢先的体现;能够了解20分钟以上长视频,支撑依据视频的问答、对话和内容创造等使用;具有强壮的视觉智能体才能,可自主操作手机和机器人,凭借杂乱推理和决议计划的才能,Qwen2-VL 能够集成到手机、机器人等设备,依据视觉环境和文字指令进行主动操作;能了解图画视频中的多言语文本,包含中文、英文,大多数欧洲言语,日语、韩语、阿拉伯语、越南语等。

通义千问团队从六个方面评价了模型才能,包含归纳的大学标题、数学才能、文档表格多言语文字图画的了解、通用场景问答、视频了解、Agent 才能。Qwen2-VL-72B 在大部分的指标上都达到了最优,乃至超过了 GPT-4o 和 Claude3.5-Sonnet 等闭源模型,在文档了解方面优势特别显着,仅在归纳的大学标题方面与 GPT-4o 存在距离。

文章版权声明:除非注明,否则均为ZBLOG原创文章,转载或复制请以超链接形式并注明出处。

发表评论

快捷回复: 表情:
评论列表 (有 4 条评论,460人围观)
网友昵称:天嫉风流
天嫉风流 V 游客 沙发
解、通用场景问答、视频了解、Agent 才能。Qwen2-VL-72B 在大部分的指标上都达到了最优,乃至超过了 GPT-4o 和 Claude3.5-Sonnet 等闭源模型,在文档了解方面优势特别显着,仅在归纳的大学标题方面与 GPT-4o 存在距离。
08-31 回复
网友昵称:丽♂宝
丽♂宝 V 游客 椅子
。短短一年内,模型下载量打破1000万次。现在,多模态模型在手机、车端等各类视觉辨认场景的落地正在加快,开发者和使用企业也分外重视Qwen-VL的晋级迭代。比较上代模型,Qwen2-VL的根底功能全面提高。能够读懂不同分辨率和不同长宽比的图片,在MathVista
08-31 回复
网友昵称:放肆的沉沦
放肆的沉沦 V 游客 板凳
作;能了解图画视频中的多言语文本,包含中文、英文,大多数欧洲言语,日语、韩语、阿拉伯语、越南语等。通义千问团队从六个方面评价了模型才能,包含归纳的大学标题、数学才能、文档表格多言语文字图画的了解、通用场景问答、视频了解、Agent 才能。Qwen2-VL-72B 在大部分的指标上
08-31 回复
网友昵称:樱桃蛋糕
樱桃蛋糕 V 游客 凉席
来历:环球网【环球网科技归纳报导】8月30日,阿里通义千问发布第二代视觉言语模型Qwen2-VL,旗舰模型 Qwen2-VL-72B的API已上线阿里云百炼渠道。2023年8月,通义千问开源第一代视觉言语了解模型Qwen-
08-31 回复