开放API

Aurols 音视频对接API

全链路AI音视频智能处理开放服务

产品API能力介绍

Aurols 音视频对接API,是面向企业开发者、第三方合作平台、终端产品打造的全链路AI音视频智能处理开放服务,整合音频智能解析、视频AI编辑、多轨时间轴创作、通用媒体自动化处理、批量算力调度五大核心能力。接口体系分层完善,兼顾终端用户自主使用与企业商业化对接,支持异步任务处理、幂等防重、配额计费、权限管控,可广泛应用于短视频创作、音频二次制作、自媒体剪辑、媒体素材处理、商用音视频自动化生产等全场景,为各类产品快速赋能音视频AI编辑能力。

核心能力优势

(1)全方位音频智能分析,精准解构音频底层特征

支持单条/批量音频全维度AI解析,深度识别音频基础信息、节奏曲风、BPM、和弦、人声、乐器、能量曲线、音色、制作工艺等数十项核心特征。同时具备专业音频分轨能力,可精准分离人声、鼓、贝斯、钢琴、伴奏等独立音轨,支持自定义生成伴奏音轨,搭配解析结果导出能力,满足音频解析、音频重构、素材拆解、音乐质检等专业需求。

(2)一站式视频AI创作编辑,覆盖全场景剪辑需求

打通视频提音分轨、智能换BGM、多轨时间轴精细化编辑核心创作能力。支持视频人声分离、去人声视频合成、多段音频拼接混音、淡入淡出、音量增益调节;内置专业F7时间轴多轨编辑体系,支持多音轨叠加、片段编辑、轨级静音、自定义时长渲染等,媲美专业剪辑软件创作能力,实现视频音频精细化二次创作。

(3)通用媒体自动化处理,能力全面且轻量化

依托统一媒体处理任务入口,集成第一、二梯队全量媒体处理能力,涵盖画质超分增强、人脸/车牌隐私打码、音视频格式转换、智能音频降噪、视频裁剪拼接、水印添加与去除、AI字幕烧录、滤镜美颜、画中画、音画同步、视频倍速、封面制作等数多项能力。支持单文件处理与批量批量调度,适配轻量化自动化媒体生产场景,大幅降低人工剪辑成本。

(4)企业级开放API,适配商业化合作对接

独立搭建商业化开放接口体系,与用户端能力完全对齐,采用API Key标准化鉴权。支持自定义任务幂等、异步回调、配额管控、调用频率限流、精细化计费对账,具备完善的错误处理机制与任务状态监控能力。接口简洁通用、兼容性强,可快速嵌入第三方平台、SaaS系统、智能设备,助力企业快速落地音视频AI能力。

(5)稳定可靠的工程化服务体系

全量任务类接口支持幂等防重提交,避免重复计费、重复执行;异步回调机制保障任务状态实时同步;统一响应结构、标准化错误码、完善的套餐配额校验机制,全方位保障服务稳定性。支持主流音视频格式、超大文件处理、自定义输出分辨率/码率/帧率,适配各类商用生产标准。

(6)自研顶级AI算法模型,一次输出无损音视频

搭载自研Kaiser-sinc定制化顶级插值算法,全风格音频样本深度调校,实现带限信号无损重构,阻带抑制达-80dB量级,音质处理水准100%对标行业顶尖水平,超长文件处理音质零损耗;创新采用“一次读取、一次写出”一体化管线,彻底杜绝行业多重音质损耗,导出效率提升50%+,全链路算法统一无偏差,全平台兼容,杜绝摒弃依赖外部第三方插件降低处理质量,一键解决行业“音质与效率不可兼得”的核心痛点。

全场景适用

短视频创作者:消人声制伴奏、提人声配字幕、二创剪辑去杂音,搭配AI换声与声效合成,极速产出爆款短视频,支持超长片段剪辑,解析质量对标顶尖水准,高效量产优质内容。

影视/专业剪辑:7轨高精度音轨分离,精准提取人声与乐器,适配影视后期全流程,轻松处理超长影视素材,大幅降低制作成本,提升专业剪辑效率。

直播/MCN机构:提取直播回放人声、剥离背景音乐,二次创作高效变现,最大化复用超长直播素材,支持无上限时长回放处理,变现效率翻倍。

在线教育:智能增强讲师人声、剔除背景杂音,优化授课音频质感,适配超长录播课程,升级后支持无上限时长,大幅提升学生听课体验。

企业办公:提取会议录音人声、降噪归档,支持SaaS云部署协同复盘,适配超长会议录制,助力企业高效协同、数字化办公。

音乐创作/自媒体:7轨精准分离人声与乐器,搭配AI音乐创作、声效合成,解锁原创/改编创作,全程无损音质,零门槛打造专业级音乐作品。

API全能力清单

功能名称能力说明功能分类
视频尺寸设定支持8K级别制作,可自定义分辨率、码率、画幅、帧率,满足超高清制作输出。基础功能
多段混合编辑不限素材数量,可随意导入视频、照片进行混合编辑制作。基础功能
关键帧及曲线可对画面位置、特效强度、音量、各类特效参数等数值添加关键帧与曲线动画。基础功能
视频简易剪辑支持视频精准裁剪、多段素材拼接、画面转场添加,轻量化完成视频二次创作。基础功能
视频倍速调速支持全局/分段快慢调速、曲线变速,最高支持100X变速,调速可保留原声音调。基础功能
视频裁剪旋转支持视频画面比例裁剪、角度旋转、画面镜像翻转,适配全平台画幅规范。基础功能
音画同步校正智能检测修复音画错位、延迟问题,自定义音视频偏移时长,解决音画脱节问题。基础功能
灵活特效使用支持在时间线、轨道、片段等多维度应用滤镜、字幕、转场、音频等各类特效。基础功能
节点图式特效多轨视频可通过节点方式叠加特效,轻松实现复杂多层级渲染效果。基础功能
视频画质增强集成视频去块、画面降噪、超清超分、画质修复能力,优化模糊、老旧低清视频画质。基础功能
视频隐私处理支持人脸车牌自动打码、自定义区域打码、动态跟踪打码、画面模糊虚化,实现素材隐私脱敏。基础功能
外接特效接口提供纹理接入接口,支持第三方特效无缝接入视频处理流程。基础功能
媒体批量处理支持多份音视频素材批量剪辑、转码、美化、降噪,高效完成素材标准化加工。基础功能
自定义导出可自定义截取片段、画质预设、编码参数,满足精细化、个性化素材导出需求。基础功能
区域特效支持对视频自定义局部区域单独添加滤镜特效,实现分区画面美化。滤镜
画面参数调整支持亮度、对比度、饱和度、高光、阴影等11项画面基础参数精细化调节。画面调节
视频画中画支持双层视频叠加,自定义子视频尺寸、位置、动画,可调节音轨混合策略。画面调节
视频添加水印支持文字、图片水印,自定义位置、透明度、动画,用于版权保护与品牌标识。画面调节
视频去除水印多种智能修复算法,清除自有视频水印、logo、文字遮挡,还原干净画面。画面调节
视频一键消音一键清除视频全部音频,完整保留原画面,快速制作静音素材适配二次配音。画面调节
视频封面设置支持截取视频帧或自定义图片作为封面,可裁剪优化封面画质,生成高清作品首图。画面调节
视频配音支持独立多段配音,满足视频解说、旁白制作需求。音乐
独立音量调节视频原声、背景音乐、配音音轨相互独立调节音量,平衡整体音频听感。音乐
视频提取音频一键剥离视频画面,提取原声、背景音乐,支持多音轨选择与格式自定义。音乐
视频替换背景音乐快速替换视频原有背景音乐,可精准保留人声,适配短视频二次剪辑创作。音乐
音视频分轨精准分离视频人声与伴奏音轨,实现人声消除、纯伴奏提取,适配音乐二次创作。音乐
音乐裁剪精准裁剪音频时长,截取指定音频片段用于视频配乐。音乐
音频智能降噪智能清除环境底噪、杂音、混响,区分人声与乐器音,全方位优化音频清晰度。音乐
多段多轨音乐支持多音频叠加制作,兼容mp3、wma、wav、flac、AAC等主流音频格式。音乐
音乐淡入淡出实现音频首尾平滑过渡,消除音乐启停突兀感,提升视频听觉质感。音乐
变声特效内置娃娃音、女声等8种专属变声变调效果,丰富音频趣味创作。音乐
音频均衡器支持低、中、中高、高四频段独立调音,精细化打磨音频音质。音乐
音乐入出点自由设定每段音乐在视频中的起止播放位置,精准适配视频节奏。音乐
音频参数调节支持音量增益、响度标准化、声道切换,统一多素材音频音量与音质。音乐
添加多段字幕支持批量添加多段字幕,可精准自定义每段字幕的展示起止时间。字幕功能
字幕画面位置自由设定字幕在视频画面中的展示位置,适配各类排版需求。字幕功能
文字大小支持无极调节文字大小,适配不同分辨率画面展示。字幕功能
字幕旋转支持自定义字幕旋转角度,打造个性化文字排版效果。字幕功能
字幕颜色设定自定义字幕文字颜色与透明度,适配各类视频画面风格。字幕功能
字幕字体设定支持导入外部字体文件自定义字幕字体,丰富文字样式。字幕功能
字幕对齐设定多行字幕支持左对齐、居中对齐、右对齐多种排版方式。字幕功能
文字处理设定支持文字粗体、斜体、阴影、下划线基础样式处理。字幕功能
文字间距设定可自定义字幕字间距、行间距,优化多行字幕排版美观度。字幕功能
字幕描边设定自定义字幕描边颜色、粗细、透明度,提升文字辨识度。字幕功能
字幕横竖设定支持字幕横排、竖排切换,适配影视、国风等多样创作场景。字幕功能
字幕蒙版支持以字幕覆盖区域作为图层蒙版,实现创意画面遮挡特效。字幕功能
整体样式配置支持为字幕配置组合式整体特效样式,一键美化文字。字幕功能
逐字动画单个文字独立运动动画,支持聚合、分散等多种动态效果。字幕功能
背景动画为字幕添加装饰动画与整体运动效果,丰富画面动态感。字幕功能
边框字幕支持动态字幕边框,适配对话气泡等创意字幕场景。字幕功能
卡拉OK字幕支持字幕背景自适应拉伸,同时可实现卡拉OK动态变色字幕效果。字幕功能
属性拼装效果组合多种文字样式属性,自定义专属字幕视觉效果。字幕功能
文字动画支持文字入、出、组合三类动画,自由控制文字运动方式。字幕功能
文字气泡为字幕添加静态/动态气泡背景,适配解说、对话视频场景。字幕功能

开放API

Aurols 音视频对接API

全链路AI音视频智能处理开放服务

产品API能力介绍

Aurols 音视频对接API,是面向企业开发者、第三方合作平台、终端产品打造的全链路AI音视频智能处理开放服务,整合音频智能解析、视频AI编辑、多轨时间轴创作、通用媒体自动化处理、批量算力调度五大核心能力。接口体系分层完善,兼顾终端用户自主使用与企业商业化对接,支持异步任务处理、幂等防重、配额计费、权限管控,可广泛应用于短视频创作、音频二次制作、自媒体剪辑、媒体素材处理、商用音视频自动化生产等全场景,为各类产品快速赋能音视频AI编辑能力。

核心能力优势

(1)全方位音频智能分析,精准解构音频底层特征

支持单条/批量音频全维度AI解析,深度识别音频基础信息、节奏曲风、BPM、和弦、人声、乐器、能量曲线、音色、制作工艺等数十项核心特征。同时具备专业音频分轨能力,可精准分离人声、鼓、贝斯、钢琴、伴奏等独立音轨,支持自定义生成伴奏音轨,搭配解析结果导出能力,满足音频解析、音频重构、素材拆解、音乐质检等专业需求。

(2)一站式视频AI创作编辑,覆盖全场景剪辑需求

打通视频提音分轨、智能换BGM、多轨时间轴精细化编辑核心创作能力。支持视频人声分离、去人声视频合成、多段音频拼接混音、淡入淡出、音量增益调节;内置专业F7时间轴多轨编辑体系,支持多音轨叠加、片段编辑、轨级静音、自定义时长渲染等,媲美专业剪辑软件创作能力,实现视频音频精细化二次创作。

(3)通用媒体自动化处理,能力全面且轻量化

依托统一媒体处理任务入口,集成第一、二梯队全量媒体处理能力,涵盖画质超分增强、人脸/车牌隐私打码、音视频格式转换、智能音频降噪、视频裁剪拼接、水印添加与去除、AI字幕烧录、滤镜美颜、画中画、音画同步、视频倍速、封面制作等数多项能力。支持单文件处理与批量批量调度,适配轻量化自动化媒体生产场景,大幅降低人工剪辑成本。

(4)企业级开放API,适配商业化合作对接

独立搭建商业化开放接口体系,与用户端能力完全对齐,采用API Key标准化鉴权。支持自定义任务幂等、异步回调、配额管控、调用频率限流、精细化计费对账,具备完善的错误处理机制与任务状态监控能力。接口简洁通用、兼容性强,可快速嵌入第三方平台、SaaS系统、智能设备,助力企业快速落地音视频AI能力。

(5)稳定可靠的工程化服务体系

全量任务类接口支持幂等防重提交,避免重复计费、重复执行;异步回调机制保障任务状态实时同步;统一响应结构、标准化错误码、完善的套餐配额校验机制,全方位保障服务稳定性。支持主流音视频格式、超大文件处理、自定义输出分辨率/码率/帧率,适配各类商用生产标准。

(6)自研顶级AI算法模型,一次输出无损音视频

搭载自研Kaiser-sinc定制化顶级插值算法,全风格音频样本深度调校,实现带限信号无损重构,阻带抑制达-80dB量级,音质处理水准100%对标行业顶尖水平,超长文件处理音质零损耗;创新采用“一次读取、一次写出”一体化管线,彻底杜绝行业多重音质损耗,导出效率提升50%+,全链路算法统一无偏差,全平台兼容,杜绝摒弃依赖外部第三方插件降低处理质量,一键解决行业“音质与效率不可兼得”的核心痛点。

全场景适用

短视频创作者:消人声制伴奏、提人声配字幕、二创剪辑去杂音,搭配AI换声与声效合成,极速产出爆款短视频,支持超长片段剪辑,解析质量对标顶尖水准,高效量产优质内容。

影视/专业剪辑:7轨高精度音轨分离,精准提取人声与乐器,适配影视后期全流程,轻松处理超长影视素材,大幅降低制作成本,提升专业剪辑效率。

直播/MCN机构:提取直播回放人声、剥离背景音乐,二次创作高效变现,最大化复用超长直播素材,支持无上限时长回放处理,变现效率翻倍。

在线教育:智能增强讲师人声、剔除背景杂音,优化授课音频质感,适配超长录播课程,升级后支持无上限时长,大幅提升学生听课体验。

企业办公:提取会议录音人声、降噪归档,支持SaaS云部署协同复盘,适配超长会议录制,助力企业高效协同、数字化办公。

音乐创作/自媒体:7轨精准分离人声与乐器,搭配AI音乐创作、声效合成,解锁原创/改编创作,全程无损音质,零门槛打造专业级音乐作品。

API全能力清单

功能名称能力说明功能分类
视频尺寸设定支持8K级别制作,可自定义分辨率、码率、画幅、帧率,满足超高清制作输出。基础功能
多段混合编辑不限素材数量,可随意导入视频、照片进行混合编辑制作。基础功能
关键帧及曲线可对画面位置、特效强度、音量、各类特效参数等数值添加关键帧与曲线动画。基础功能
视频简易剪辑支持视频精准裁剪、多段素材拼接、画面转场添加,轻量化完成视频二次创作。基础功能
视频倍速调速支持全局/分段快慢调速、曲线变速,最高支持100X变速,调速可保留原声音调。基础功能
视频裁剪旋转支持视频画面比例裁剪、角度旋转、画面镜像翻转,适配全平台画幅规范。基础功能
音画同步校正智能检测修复音画错位、延迟问题,自定义音视频偏移时长,解决音画脱节问题。基础功能
灵活特效使用支持在时间线、轨道、片段等多维度应用滤镜、字幕、转场、音频等各类特效。基础功能
节点图式特效多轨视频可通过节点方式叠加特效,轻松实现复杂多层级渲染效果。基础功能
视频画质增强集成视频去块、画面降噪、超清超分、画质修复能力,优化模糊、老旧低清视频画质。基础功能
视频隐私处理支持人脸车牌自动打码、自定义区域打码、动态跟踪打码、画面模糊虚化,实现素材隐私脱敏。基础功能
外接特效接口提供纹理接入接口,支持第三方特效无缝接入视频处理流程。基础功能
媒体批量处理支持多份音视频素材批量剪辑、转码、美化、降噪,高效完成素材标准化加工。基础功能
自定义导出可自定义截取片段、画质预设、编码参数,满足精细化、个性化素材导出需求。基础功能
区域特效支持对视频自定义局部区域单独添加滤镜特效,实现分区画面美化。滤镜
画面参数调整支持亮度、对比度、饱和度、高光、阴影等11项画面基础参数精细化调节。画面调节
视频画中画支持双层视频叠加,自定义子视频尺寸、位置、动画,可调节音轨混合策略。画面调节
视频添加水印支持文字、图片水印,自定义位置、透明度、动画,用于版权保护与品牌标识。画面调节
视频去除水印多种智能修复算法,清除自有视频水印、logo、文字遮挡,还原干净画面。画面调节
视频一键消音一键清除视频全部音频,完整保留原画面,快速制作静音素材适配二次配音。画面调节
视频封面设置支持截取视频帧或自定义图片作为封面,可裁剪优化封面画质,生成高清作品首图。画面调节
视频配音支持独立多段配音,满足视频解说、旁白制作需求。音乐
独立音量调节视频原声、背景音乐、配音音轨相互独立调节音量,平衡整体音频听感。音乐
视频提取音频一键剥离视频画面,提取原声、背景音乐,支持多音轨选择与格式自定义。音乐
视频替换背景音乐快速替换视频原有背景音乐,可精准保留人声,适配短视频二次剪辑创作。音乐
音视频分轨精准分离视频人声与伴奏音轨,实现人声消除、纯伴奏提取,适配音乐二次创作。音乐
音乐裁剪精准裁剪音频时长,截取指定音频片段用于视频配乐。音乐
音频智能降噪智能清除环境底噪、杂音、混响,区分人声与乐器音,全方位优化音频清晰度。音乐
多段多轨音乐支持多音频叠加制作,兼容mp3、wma、wav、flac、AAC等主流音频格式。音乐
音乐淡入淡出实现音频首尾平滑过渡,消除音乐启停突兀感,提升视频听觉质感。音乐
变声特效内置娃娃音、女声等8种专属变声变调效果,丰富音频趣味创作。音乐
音频均衡器支持低、中、中高、高四频段独立调音,精细化打磨音频音质。音乐
音乐入出点自由设定每段音乐在视频中的起止播放位置,精准适配视频节奏。音乐
音频参数调节支持音量增益、响度标准化、声道切换,统一多素材音频音量与音质。音乐
添加多段字幕支持批量添加多段字幕,可精准自定义每段字幕的展示起止时间。字幕功能
字幕画面位置自由设定字幕在视频画面中的展示位置,适配各类排版需求。字幕功能
文字大小支持无极调节文字大小,适配不同分辨率画面展示。字幕功能
字幕旋转支持自定义字幕旋转角度,打造个性化文字排版效果。字幕功能
字幕颜色设定自定义字幕文字颜色与透明度,适配各类视频画面风格。字幕功能
字幕字体设定支持导入外部字体文件自定义字幕字体,丰富文字样式。字幕功能
字幕对齐设定多行字幕支持左对齐、居中对齐、右对齐多种排版方式。字幕功能
文字处理设定支持文字粗体、斜体、阴影、下划线基础样式处理。字幕功能
文字间距设定可自定义字幕字间距、行间距,优化多行字幕排版美观度。字幕功能
字幕描边设定自定义字幕描边颜色、粗细、透明度,提升文字辨识度。字幕功能
字幕横竖设定支持字幕横排、竖排切换,适配影视、国风等多样创作场景。字幕功能
字幕蒙版支持以字幕覆盖区域作为图层蒙版,实现创意画面遮挡特效。字幕功能
整体样式配置支持为字幕配置组合式整体特效样式,一键美化文字。字幕功能
逐字动画单个文字独立运动动画,支持聚合、分散等多种动态效果。字幕功能
背景动画为字幕添加装饰动画与整体运动效果,丰富画面动态感。字幕功能
边框字幕支持动态字幕边框,适配对话气泡等创意字幕场景。字幕功能
卡拉OK字幕支持字幕背景自适应拉伸,同时可实现卡拉OK动态变色字幕效果。字幕功能
属性拼装效果组合多种文字样式属性,自定义专属字幕视觉效果。字幕功能
文字动画支持文字入、出、组合三类动画,自由控制文字运动方式。字幕功能
文字气泡为字幕添加静态/动态气泡背景,适配解说、对话视频场景。字幕功能