业务合作发布作品

    阶跃星辰X吉利,进军多模态!Step系列大模型全球开源

    疯狂车研所头像疯狂车研所头像
    疯狂车研所02-20

    2月18日,阶跃星辰和吉利合作研发的阶跃两款Step系列多模态大模型宣布全球开源,包含目前全球范围内参数量最大的开源视频生成模型阶跃Step-Video-T2V,以及行业内首款产品级开源语音交互大模型阶跃Step-Audio。

    其中阶跃Step-Video-T2V模型的参数量达到300亿,可生成204帧(约8s)、540P高质量视频,在复杂运动、美感人物、视觉想象力、基础文字生成、原生中英双语输入和镜头语言等方面具备强大的生成能力,拥有突出的语义理解和指令遵循能力。

    阶跃Step-Audio是行业内首个产品级的开源语音交互模型,能够根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的语音表达,具有超自然、“高情商”等特征,还能实现高质量的音色复刻并进行角色扮演,满足影视娱乐、社交、游戏等行业的应用场景。

    至于为什么会出现吉利的身影,笔者推测这两个大模型将会在自动驾驶、智能座舱领域发挥重要作用:

    视频生成模型可应用在自动驾驶训练、影视预演等工业场景,尤其是前者,可以更低误差模拟生成复杂场景的视频画面,例如天气多变、运动轨迹随机且连贯的道路交通画面。

    而语音交互模型可实现多种语言/方言和不同情绪的识别与沟通,准确率更高,沉浸感更强。还能通过声纹克隆,用亲人的音色作为AI助手进行更加拟人化的沟通。

    随着更多主机厂认识到AI时代的巨大变革正在路上,无论是自研还是合作,入局已成必选项。正如百亿导演饺子所说:“出来混最重要的是什么?首先是出来。”吉利已经交出AGI成绩单了,看看其他友商如何出招。

    次阅读
    评论
    赞同
    收藏
    分享
    评论
    赞同
    收藏
    分享

    评论·0

    头像头像
    提交评论
      加载中…

      热门资讯