开云(中国)KAIYUN·官方网站  当今在多模态大模子边界-kaiyun体育在线官网

当天,字节逾越Seed团队发布视觉-言语多模态大模子Seed1.5-VL,向更优智能体迈步。 据先容,Seed1.5-VL在荒谬3Ttokens的多模态数据上进行预锻练,具备更强的通用多模态明白和推理身手,且推理资本显耀裁汰。 当今在多模态大模子边界,谷歌最新推出的大模子Gemini 2.5 Pro说明出色,已搭救图像、视频、音频与代码的合资明白,且在多个基准测试(如MME、Math Bench)中率先于GPT-4.0。 字节团队暗示,尽管Seed1.5-VL的激活参数仅有20B,但其性能可达...


开云(中国)KAIYUN·官方网站  当今在多模态大模子边界-kaiyun体育在线官网

  当天,字节逾越Seed团队发布视觉-言语多模态大模子Seed1.5-VL,向更优智能体迈步。

  据先容,Seed1.5-VL在荒谬3Ttokens的多模态数据上进行预锻练,具备更强的通用多模态明白和推理身手,且推理资本显耀裁汰。

  当今在多模态大模子边界,谷歌最新推出的大模子Gemini 2.5 Pro说明出色,已搭救图像、视频、音频与代码的合资明白,且在多个基准测试(如MME、Math Bench)中率先于GPT-4.0。

  字节团队暗示,尽管Seed1.5-VL的激活参数仅有20B,但其性能可达到与Gemini 2.5 Pro至极的水平,在60个公开评测基准中的38个上获取SOTA(最新最优性能,state-of-the-art performance)说明,包括19项视频基准测试中的14项,以及7项GUI代理任务中的3项:

  1、视觉身手杰出

  Seed 1.5-VL在视觉推理、图像问答、图表明白与问答、视觉定位/计数、视频明白、GUI智能体等任务中均说明杰出。其中,在以Agent(智能体)为中心的任务(如GUI限定和游戏)中,Seed 1.5-VL在7个GUI智能体任务中的3个获取了SOTA收货。

imageimageimage

  2、交互性更强

  精简的架构联想显耀裁汰了推理资本和盘算需求,使模子更顺应交互式利用。比如该模子增强了GUI(图形用户界面)定位性能,可在PC端、手机端等不同环境中完成复杂交互任务,包括汇聚处理信息、在绽开游戏中推理和行为等。

imageimage

  字节团队暗示,Seed 1.5-VL进一步普及了视觉明白和推理身手,并向VLM(视觉言语模子)的通用性身手更近一步。但仍存在一定的局限性。

  起首,在细粒度视觉感知方面,模子在处理标的计数、图像互异识别以及复杂空间干系讲授时仍靠近挑战,主要在标的摆列不章程、心思相同或部分庇荫等极点情况下;其次,在高级次推理任务中,如处治华容谈谜题、导航迷宫或遵照复杂教唆时,巧合模子会引入无把柄的假定或产生不圆善的反映,说明仍有普及空间。此外,在视频推理方面,模子尚难以准确识别算作的先后章程或从物体的前后气象臆测章程。

  当今,Seed 1.5-VL已在火山引擎上绽开API供用户体验。

  多模态指的是省略处理和明白来自多种不同来源和体式的信息的系统,如文本、图像、音频、视频等。多模态时期使机器学习模子省略更全面地明白和抒发复杂的真确天下场景,国内大模子厂商纷纷竞逐多模态。

  5月6日谷歌DeepMind团队发布多模态大言语模子Gemini 2.5 Pro,在多个主意上登顶AI排名榜LMArena。

  北京时间4月17日,OpenAI发布o系列多模态推理大模子o3与o4-mini。该系列模子在大边界强化学习与图像念念维链整合时期的加捏下,多模态推理身手显耀增强,用具利用身手大幅普及。

  利用方面,近期多款大厂的AI利用终了多模态功能更新,如文小言升级语音大模子、图片问答身手;腾讯元宝上线10张图片同期处理的功能;豆包文生图功能终了升级,新版深度念念考开启测试。

  祥瑞证券称,近期包括OpenAI、豆包在内发布的新模子,解题念念路在此前念念维链CoT基础上,更多体现对模子原生Agent身手(即用具使用)以及多模态推理身手的醉心。寰球大模子边界的竞争照旧尖锐化,矍铄看好AI主题的投资契机,面前Agent在企业端落地经由较为靠前,AI利用坑诰见谅OA/ERP/编程/办公等边界;算力方面,Agent将带来更多的推理端利用需求,从而拉动推理端算力乃至举座算力需求进取。

  开源证券日前发布研报称,国产模子近期在多模态、推理身手上捏续冲突,多款达到寰球顶尖水平,加之头部模子开源,大模子厂商捏续发力Agent,将陆续鼓动AI利用深切落地,拉动推理算力需求,坑诰陆续布局AI。



相关资讯