LiveVideoStackCon 2023上海站

免费报名中

15810 人关注

时间 2023-07-28 08:30 ~ 07-29 18:00

地址上海长宁区上海龙之梦大酒店

活动由 LiveVideoStack 主办

大会倒计时：

天

时

分

秒

免费报名中

15810 人关注

微信分享

使用微信扫一扫分享到朋友圈

活动分享

使用微信扫一扫进入小程序分享活动

活动详情

LiveVideoStackCon

大会聚焦在音频、视频、图像等技术的最新探索与应用实践，覆盖教育、娱乐、医疗、安防、旅游、电商、社交、游戏、智能设备等行业领域，来宾将面向3年以上工作经验的音视频工程师、多媒体工程师、图像算法工程师、运维与物联网工程师等分享技术创新与最佳实践。

沉浸 · 新视界

经过近十年的快速发展，多媒体生态正在向精致优化发展，更注重细节、成本，内卷和出海成为压力输出口。一方面，在现有市场及业务竞争仍旧相当激烈的环境下，企业开始更多关注于如何降低成本、追求更高的利润，以及面向用户提供更优质的服务与体验；另一方面，对于不断涌现的更多新的技术、场景，逐步探索并利用其创造更多的业务、产品与商业价值是各企业持续关注的目标。

活动主办方

大会联席主席

虞露

浙江大学 , 求是特聘教授

虞露，浙江大学求是特聘教授。现任国际标准组织MPEG视频编码工作组召集人。曾任国家数字音视频编解码技术标准化工作组视频组组长。组织完成了AVS1、AVS2视频编码等国家标准、核心视频编码（EVC）、低复杂度增强视频编码（LCEVC）等国际标准的制定。曾获国家科技进步二等奖、ISO/IEC、IEEE、AVS等标准贡献奖。

大会出品人

沈巍

网新电气 , 研发总监

沈巍，网新电气研发总监。2011年加入网新至今，12年安防视频研发和3年数字孪生研发经验，目前负责铁路综合视频监控平台和数字孪生平台研发。先后两次参与铁路总公司企业标准QCR575号文编制，创建数字孪生inveta开源社区https://github.com/inveta。

黄斌

Rong.ai , 联合创始人

黄斌，Rong.ai联合创始人，前腾讯视频云产品负责人、专家产品经理。超过十年视频流媒体、通信、互联网及云计算行业经验，对云计算/视频云、to B商业化、企业上云及数字化生态构建有丰富的实践经验。

丁丹丹

杭州师范大学 , 副教授

丁丹丹，杭州师范大学，副教授。于2006年和2011年获得浙江大学学士和博士学位，2011-2013年在浙江大学从事博士后研究，2013-2015年在浙江大学工作，2016年加入杭州师范大学，主要从事智能视频编码、图像处理和三维点云压缩工作。2018年起开始与Google合作关于AV1及下一代视频编码技术AV2的研究。

刘歧

快手 , 音视频首席架构师

开源技术爱好者，FFmpeg 官方源代码维护者，FFmpeg 官方推荐顾问；FFmpeg GSoC Mentor，著有《FFmpeg 从入门到精通》一书。深耕图形图像处理领域十六年，在音视频编解码与流媒体领域拥有着十余年经验。2020年加入快手，任音视频首席架构师，负责多媒体基础架构相关工作。

陈靖

小红书 , 音视频架构负责人

曾任职：51Talk首席音视频科学家，在51Talk期间，从0到1搭建音视频算法团队，全面负责51Talk在线教室平台的技术；Google Chrome Media 视频组工程师，在Google期间，参与VP9/WebRTC开源项目的研发；Mindspeed视频部高级DSP工程师；华为中央研发部视频组工程师。出版《深入理解视频编解码技术》及翻译《计算机视觉算法:基于OpenCV的计算机应用开发》。

章佳杰

微帧 , 图像算法专家

章佳杰，图像算法专家，资深摄影师。清华大学本科、硕士。曾任职于阿里巴巴，后组建创业公司致力于高质量影像拍摄与运动控制。18年初加入快手，专注于利用图像增强算法提升视频拍摄的体验，主导构建了图像算法引擎 VisionEngine。现担任微帧图像算法专家。

迟小羽

北航青岛研究院 , 副院长

迟小羽，博士学历，高级工程师职称，崂山区拔尖人才称号，CCF人工智能学会智能交互专家委员。拥有近20年虚拟现实相关行业从业经历，2005年起，曾任职于中国科学院、微软亚洲研究院、清华紫光、中视典、京东方等核心技术企业，现任职于北航青岛研究院,主要负责虚拟现实高端显示设备方面技术开发和产业化，重点开展虚拟现实、机器视觉、智能制造等科研技术攻关，形成SLAM评测系统、视觉引导系统等相关应用技术产业化。已在国内外一流期刊发表SCI等学术论文10余篇，申请专利96项，承担多项国家、省部级科技计划项目，并获得多个国家级、省部级科技一等奖。

刘泓昊

腾讯 , 14级专家工程师

刘泓昊，腾讯14级专家工程师，毕业于中国科学技术大学，十几年网络传输协议设计和优化经验，中国互联网行业TCP优化最早的实践者，曾就职于网宿和阿里云CDN团队，2017年加盟腾讯，目前就要从事接入层网络传输协议和超低延迟实时流媒体传输协议的研发和设计。

裴志伟

火山引擎 , 直播技术负责人

裴志伟，字节跳动旗下火山引擎直播技术负责人，12年基础设施研发经验，曽负责过计算虚拟化、存储、网络公有云产品，近5年专注于RTC、低延迟直播领域，目前负责将字节内部音视频技术和业务的大量实践对外输出。

卢恒

喜马拉雅 , 首席科学家，珠峰实验室负责人

卢恒，喜马拉雅首席科学家，珠峰实验室负责人。2011年博士毕业于中国科学技术大学语音及语言信息处理国家工程实验室。2011-13年于英国爱丁堡大学CSTR任博士后研究员，参与了爱丁堡大学、剑桥大学以及谢菲尔德大学的欧盟EPSRC联合项目自然语音技术。之后先后在Nuance Communications 的硅谷分部以及阿里巴巴达摩院西雅图分部和腾讯AI Lab西雅图分部但任高级研究员以及主任研究员。目前在喜马拉雅担任音视频技术的负责人，同时也是CCF中国计算机学会语音对话与听觉专委会执行委员，担任多项国际会议以及期刊的审稿人。研究方向主要包括多模态语音合成，说话人转换，歌声的生成及转换，语音识别以及语音评测，虚拟人等。在各类国际语音会议和刊物中发表论文30篇以上，国内外专利40余篇。曾多次获得 Blizzard Challenge 国际语音合成比赛第一名。并获得ISCA SSW8 (Speech Synthesis Workshops, Barcelona) best paper award。

田钊

乐刻运动 , 研发技术总监

田钊，乐刻运动 litta研发技术总监，前PP体育、苏宁内容中台技术总监，拥有十多年的流媒体技术开发经验。

包研

LiveVideoStack , 创始人

70后，5年的开发者社区运营经验，10年科技媒体记者编辑经验。在创立LiveVideoStack之前，曾在迅达云供职并担任市场总监。此前，在InfoQ（极客邦科技）担任策划总监等职位，负责技术大会策划、商务项目支持、技术内容输出等；再之前，在CSDN担任云计算频道编辑，承担技术大会策划及云计算生态技术内容输出等工作。包研曾在北京工商大学计算机及应用专业求学四年。

李郁韬

腾讯云 , 副总裁

李郁韬，资深互联网专家，现任腾讯云副总裁，负责腾讯云音视频通信全线产品、海外安全产品等业务及团队管理工作。毕业于电子科技大学，2006年加入腾讯，曾任QQ通信与音视频技术负责人，具备深厚的行业洞察与技术积累。2015年起，李郁韬带领团队构建业内最完整的音视频通信产品矩阵，取得中国整体市场份额第一（泛娱乐、电商、在线教育分赛道均第一）；并面向海外市场打造“音视频+安全”一站式解决方案，实现业务规模高速增长。

侯爽

火山引擎 , 边缘云产品负责人

侯爽，火山引擎边缘云产品负责人，2015 年加入字节跳动，先后负责字节跳动视频中台架构、应用流量架构等业务和团队，现主要负责火山引擎边缘云产品与研发相关工作。

何亚明

阿里云视频云 , 研发负责人

何亚明，阿里云视频云研发负责人，2018年加入阿里，20余年音视频行业经验和10余项音视频国际专利，专注于视频编码、流媒体协议、视频通话和直播引擎的研发，曾负责Microsoft Azure Media Service、Facebook Messenger和Facebook Live研发项目，目前负责阿里云视频云全线产品的研发工作。

胡浩基

浙江大学 , 副教授

胡浩基，浙江大学信息与电子工程学院副教授，信息与通信工程系副系主任。主要研究方向为计算机视觉、机器学习、深度网络模型压缩和加速等。在CVPR, AAAI，ICLR, TIP等国际人工智能和计算机视觉顶级期刊和会议上发表论文70多篇，获得IEEE新兴标准技术奖。主持多项国家和省级科研项目。

讲师

翟爽

上海广播电视台技术中心 , 上海东方传媒有限公司转播部副总监

翟爽，上海广播电视台技术中心、上海东方传媒有限公司（SMT）转播部副总监，多年来从事电视转播一线岗位，负责各类时政、综艺、体育及电竞转播业务。参与负责过2019年DOTA TI9、2020年英雄联盟S10、2021年东京奥运会和2022年北京冬奥会等多个项目转播。

陆其明

瑞声科技 , 软件开发总监

陆其明，多媒体应用技术领域的早期参与者和推动者，图书作品有《DirectShow开发指南》《高效能程序员的修炼》等，20+年的资深程序员，曾任爱奇艺高级技术总监，负责爱奇艺PC客户端和主站的研发工作。2022年加入瑞声科技，负责触感设计工具套件和SDK的研发，致力于为世界创造更美好的感知体验。

文念

腾讯 , 高级工程师

文念，腾讯高级工程师，云游戏后台开发。专注于实时流媒体的网络传输优化，包括高性能网络通信整体架构设计和实现，实时音视频场景下的多路径传输算法优化。支持云游戏高码率，超低延迟，实时交互场景的网络传输能力。

付涛

中国移动智慧家庭运营中心 , 人工智能专家，多媒体通信算法专家

付涛，中国移动杭州研发中心领军人才，中国移动智慧家庭运营中心人工智能专家，多媒体通信算法专家，13年人工智能算法和多媒体通信算法从业经验，专注于AI和多媒体交叉智能算法，主导了人工智能大模型，高性能视频传输，高质量视频理解生成等多项核心项目；

朱明亮

网易云信视频工程团队 , 音视频引擎开发专家，视频工程团队负责人

朱明亮，网易云信音视频引擎开发专家，网易云信视频工程团队负责人。毕业于同济大学，获得硕士学位。曾就职于 PPTV 和 YY，长期从事视频编解码及 RTC 视频引擎开发相关工作，拥有 15+ 年相关研发经验。

马高阳

Tiledmedia , 中华区总经理，业务发展负责人

马高阳拥有公共管理和当代亚洲研究的学术背景。他于2019年加入Tiledmedia，从2021年初开始在中国杭州工作。他的热情是将下一代媒体技术与中国和世界各地的人们和公司结合起来。马高阳在中国推广高质量的VR以及个性化的Multiview多视图流媒体方案。2022年底Tiledmedia在上海注册上海神瓦科技有限公司，目前马高阳负责管理上海神瓦国内的业务和运营。

范益波

复旦大学 , 博士生导师

范益波，复旦大学微电子学院教授、博导、达摩院计算技术实验室访问学者（ARF）。本科毕业于浙江大学，硕士毕业于复旦大学，博士毕业于日本早稻田大学。主要从事视频图像、人工智能、硬件架构与SoC芯片设计研究。发表专著一部、学术论文150篇、授权国家发明专利40件。相关成果获得中国技术市场协会“金桥奖个人一等奖”，“日内瓦国际发明展金奖”等。获得上海市“东方学者”特聘教授、浙江省“钱江特聘专家”、浙江省在沪人才联合会理事等荣誉称号。

杨海涛

海思 , 视频领域技术专家

杨海涛，现任上海海思视频领域技术专家，曾任华为视频领域技术专家，参与并负责完成多个标准项目与产品原型研发项目。近年来参与以H.266/VVC和AVS3为代表的最新一代视频编解码技术标准与AVS感知无损压缩PLC标准的制定，承担技术专题组长、项目专题组协调人等职责服务于国内外标准组织。

王闻宇

PPIO边缘云 , CTO&联合创始人

连续创业者，原PPTV首席架构师兼联合创始人。2004年，作为大学生在宿舍开始了PPTV的创业，独自完成大部分核心代码，主导P2P、CDN、流媒体等核心技术；2018年创办PPIO，开发了分布式计算、存储、网络服务的边缘云平台，实现了低延迟、大带宽、高性价比。

谢义

英特尔 , 高级软件架构师

谢义，英特尔高级软件架构师，专注基于至强服务器平台的视频编解码优化。

程乐

北京帧趣科技 , 音视频架构师

程乐，北京帧趣科技音视频架构师。10+年音视频开发经验，专注于音视频客户端，有主导过直播、短视频、播放器等客户端框架设计及开发落地。曾主导开发金山云Android端推流SDK，目前负责帧趣科技撕歌产品的音视频能力开发及优化。

金邦飞，B站技术专家。2019年4月加入B站，开始开发播放器引擎，用于BBQ，哔哩哔哩漫画，猫耳，网页版HEVC播放内核。后来设计视频编辑器内核，渲染模块架构。负责开发内核模块。目前独立开发咔嚓剪辑软件。

李凯

淘天集团 , 高级算法专家

李凯，淘天集团大淘宝内容技术团队高级算法专家。14年音视频技术研发和管理经验，曾主导开源项目OpenH264。2021年初加入淘宝音视频团队，主要负责视频编码器和质量评价体系的研发，目前是淘宝直播和短视频相关业务画质的负责人。

朱家悦

华为 , 无线应用场景实验室业务规划副总监

朱家悦，华为公司无线应用场景实验室业务规划副总监。8年无线通信设备研发经验， 10年新业务孵化经验，期间负责了5G直播、监控、远程控制等业务E2E优化和保障。目前是5G ToC新业务孵化、业务体验研究负责人，主要负责基于业务体验的网络评估、业网协同孵化。

魏凌

科腾科技 , 网络协议和算法负责人

魏凌，Caton网络协议和算法负责人。2018年清华大学电子工程系博士毕业，并同年加入思科中国。2021年初加入Caton至今，一直专注于网络协议开发和传输算法优化领域，包括但不限于互联网，物联网，5G网络等。参与并主导了Caton Media Xstream平台中网络协议和流量工程等模块的研发工作。

邓阳

网易云音视频实验室 , 资深音频算法工程师

邓阳，网易云音视频实验室-资深音频算法工程师。2020年初加入云音乐，多年数字音乐与AIGC基础研发经验，专注于AI编曲相关的技术研发 , 参与并主要负责网易天音相关产品矩阵的AI算法研发与架构设计。

张晓杰

智慧海事 , 首席执行官

张晓杰，智慧海事CEO，中国产业互联网发展联盟副理事长、工信部领军人才，专注于VR/AI相关研发，深耕海事海洋领域，推进相关产业的数字化、智能化、无人化进程。

董浩

哔哩哔哩 , 资深开发工程师

B站资深开发工程师。2019年加入B站，3年音视频相关开发经验，专注于B站点直播转码相关组件的工程化开发，主导了点播窄带高清硬件加速项目、直播云导播台项目、直播转码项目的底层工具的设计及开发。

李浩

网心科技 , CEO

现任网心科技CEO，全面负责公司整体经营；曾作为创始团队成员参与腾讯云的创建和运营；在云计算领域拥有十多年从业经历，对云计算行业的客户需求、核心技术、产品构建和服务交付有着深刻洞察和丰富经验；2015 年加入迅雷集团，参与创建网心科技，建立云计算团队和搭建星域云产品线。拥有自动化专业学士、计算机专业硕士学位。

宋利

上海交通大学 , 教授，博士生导师

宋利，上海交通大学教授，博士生导师，图像通信与网络工程研究所副所长，IEEE 高级会员，研究方向是媒体计算与通信、生成式视觉AI。他也是教育部未来媒体网络协同创新中心、教育部人工智能重点实验室兼职教授，主持国家级科研项目10余项，与中国移动，中国电信，华为，阿里，腾讯，字节等行业头部公司开展多项技术合作。发表学术论文300余篇，授权发明专利50项，软件著作权5项。获国家科技进步二等奖(2015)、上海市科技进步一等奖(2011)、上海市技术发明一等奖(2011)、日本大川基金研究奖(2013)、国际会议优秀论文奖(VCIP2016, WCSP2010)、国际竞赛奖(ICME2017,2020)、腾讯云及声网最具价值专家(TVP/MVP)。他创建知名公众号“媒矿工厂”，担任世界超高清视频产业联盟视频体验工作组副组长、视频用户体验联盟副秘书长、LiveVideoStackCon2019/2020上海峰会联席主席，也是中国智慧家庭产业联盟、"科创中国"未来网络、上海市电影电视技术学会、上海市图形图像学会、上海市超高清产业联盟、上海市信息家电协会等领域的顾问专家。

剑寒

小红书 , 音视频架构视频图像处理算法负责人

剑寒，小红书音视频架构视频图像处理算法负责人。模式识别与智能系统专业博士，研究方向包括视频图像算法、异构计算优化等，擅长算法工程联合设计及优化。曾参与或主导“数字电视SoC设计与产业化”(国家科技重大专项)、4K 120 FPS HEVC芯片算法设计、拍照/短视频/直播画质算法研发和落地。

施幸东

爱奇艺 , 技术总监

施幸东，爱奇艺技术总监，直播技术负责人。2013年加入爱奇艺，长期从事即时通信、WebRTC、视频直播等领域的架构设计和研发落地工作，目前是爱奇艺直播技术平台的负责人，为爱奇艺的各类千万级并发直播和实时互动直播提供技术支撑。

党予博

Rokid , 应用平台音视频负责人

党予博，Rokid 应用平台音视频负责人。从零开始实现AR眼镜上的音视频远程协作能力，应用在电力、汽车制造等领域，支持私有云、公有云、混合云部署；并且探索实时音视频在更多AR场景的落地

黄天驰

清华大学 , 博士

黄天驰，清华大学博士，导师孙立峰教授。研究方向为智能流媒体传输，即利用深度学习构建更高效的传输策略。以第一作者在多媒体与网络国际会议ACM MM, INFOCOM和国际期刊JSAC、TMM发表16篇论文，担任多个期刊与会议的审稿人，例如JSAC、TMM、TCSVT、ACM MM、ICME等。曾获NOSSDAV 2019最佳学生论文奖、ACM Multimedia Asia最佳论文提名奖、2020年博士生国家奖学金等。研究成果例如智能拥塞控制，实时传输等方案部署在快手，华为等一线企业。

舒润萱

Unity , 解决方案工程师

舒润萱担任Unity中国解决方案工程师，精通Unity项目与引擎底层研发，并曾负责Unity引擎在渲染、编辑器、工作流等多个方向的定制化解决方案的开发工作。目前负责Unity云原生分布式运行时的研发，为Unity引擎进入元宇宙打下基础。

傅伟峰

OWS , 创始人

傅伟峰，Octopus Web Services Limited创始人，拥有12年IT领域工作经验，10年云计算行业经验，5年边缘计算行业经验，曾就职于国内外头部知名IT企业（A股上市公司），深知边缘计算、元宇宙、区块链、数字货币等新兴领域的未来趋势以及给客户实现的价值。

戴伟

声网 , 视频编解码器负责人

戴伟。声网视频编解码器负责人，2016年加入声网，专注于声网视频编码器的落地和优化，主导开发并落地了声网SDK中的264和av1的编解码器。

冰雁

小红书 , 实验平台Leader

冰雁，小红书实验平台Leader。Statistics PhD，研究方向因果推断与 Bayesian Hierarchical modeling in AstroPhysics。2021年加入小红书。

攸广欣

比心 , 技术专家

攸广欣，比心技术专家。2020年加入比心，9年移动端研发经验。参与并主导了比心直播音视频技术全链路自研、卡顿优化、音视频自动化测试等项目，目前是比心直播音视频技术负责人。

吴昊

小米 , 高级软件研发工程师

吴昊，小米高级软件研发工程师。2019年初加入小米，8年音视频sdk开发经验，目前专注于提升视频播放体验，视频编辑，视频后处理及音视频新场景的研发落地工作。曾就职于机顶盒厂商，参与并主导了多款视频播放sdk的开发维护工作。

江源

科大讯飞 , 讯飞音乐首席科学家

江源，讯飞音乐首席科学家，2005年加入科大讯飞，历任科大讯飞AI研究院研究员、研究总监、副院长，长期从事语音合成、语音信号处理、多语种技术、音色转换、多模态合成、音乐合成等方向研究，是语音技术研究领域中的资深专家。2022年加入讯飞音乐以来，致力于AI+娱乐内容的生产延展，为内容形式制定基调，做好更前沿的技术支持。目前科大讯飞已经将语音技术同音乐行业进行结合，其唱歌合成、唱歌变声等技术，被大量运用于虚拟偶像打造等泛娱乐场景。

陆振宇

华为云视频云 , 华为云媒体服务产品部副总裁

2006年加入华为，曾任华为南太平洋地区部运营商业务部电信软件业务部部长，华为云Video Cloud运营部副部长。对于软件产业，云计算产业，以及视频云有丰富的行业经验。当前担任华为云视频云总监，负责华为云视频云相关业务。

王悦

火山引擎 , 视频云架构技术总监

王悦，2006 年于清华大学电子系获得学士学位，2012 年在中国科学院研究生院获得博士学位，目前担任火山引擎视频云架构技术总监，在多媒体领域有丰富的算法、工程架构和产品业务经验。

朱岩

金山云 , 高级技术总监、高级技术专家

朱岩，金山云边缘云高级技术总监、高级技术专家。2019年加入金山云，具有近20年互联网架构和基础设施经验。目前负责边缘计算和边缘云场景的产研工作，参与并主导了边缘计算的基础架构、鎏光开源云游戏引擎、Livenet边缘组网等的产研工作。目前是金山边缘计算负责人。

温正棋

中科极限元 , 总经理

温正棋，中科极限元总经理。2018年初加入中科极限元，原中科院自动化所副研究员，包括语音识别、语音合成、声纹识别、语音鉴伪等，近年来也将预训练模型应用到语音的研究工作中。先后负责和参与了国家级项目（863计划、国家自然科学基金、科技部重点研发计划）和企业级项目40余项，在包括IEEE TASLP、Speech Communication、ICASSP、Interspeech等国内外学术重要期刊和会议上发表论文120余篇，申请国内发明专利20余项。论文和成果曾获国内外学术会议奖励，2015、2017和2019年连续三次获得全国人机语音通信会议最佳学术论文奖、2019年全国信号处理优秀论文奖等。所研制的产品，分别应用在腾讯、百度、华为等四十余家大型跨国公司产品中，在云平台、智能手机和导航设备中获得广泛的应用。研究成果获得吴文俊人工智能学会特等奖、天津市科技进一等奖、中国电子学会科技进步一等奖和北京市科技进度二等奖。

刘兆瑞

腾讯云 , 高级工程师

刘兆瑞，腾讯云高级工程师。熟悉视频编解码、画质修复增强。2017 年起负责腾讯明眸“极速高清”转码系统、编码器优化，在保证人眼感官的前提下，提供极致的视频压缩。2019 年开始负责基于 AI 的辅助编码技术，以及基于 AI 的画质增强修复能力。

姜骜杰

腾讯香农实验室 , 高级工程师

姜骜杰，腾讯香农实验室高级工程师，专注于视频编解码器的开发、优化和应用，有十余年的相关经验，参与过AVS, 265, AV1等多个标准编码器的研发和落地。目前主要负责直播场景下的编码优化和应用。

孙祥学

腾讯云 , 高级工程师

孙祥学，腾讯云专家工程师。目前主要负责腾讯云媒体处理（MPS）产品的后台开发。先后从事PSTN云通讯及呼叫中心相关开发，在媒体质检、视频识别、视频审核、视频分析等相关应用场景中有一定的实践经验。

江敏

腾讯云 , 高级工程师

江敏，腾讯云高级工程师，具备丰富的后台开发经验，先后在淘米、京东及连尚从事游戏、风控和检索系统相关研发工作。目前在腾讯云音视频平台产品中心负责云桌面架构设计和研发工作。

刘学

火山引擎 , 边缘云流量治理团队负责人

刘学，火山引擎边缘云流量治理团队负责人，2019年加入字节跳动，负责字节端策略中心TNC、全局流量调度中心BTM、流量调度和容灾体系的研发和运营建设。

李冰

火山引擎 , 边缘云网络产品负责人

李冰，火山引擎边缘云网络产品负责人；网络领域资深专家，15年以上大型软件系统研发和架构经验；目前负责边缘云网络业务域产品研发工作。

孙益星

火山引擎 , 边缘云融合CDN团队负责人

孙益星，火山引擎边缘云融合CDN团队负责人，曾参与新浪视频和CDN系统、百度分布式KV、传输中间件、CDN等基础服务的建设，目前负责字节跳动多云CDN平台的研发工作，并推进相关技术在火山引擎的产品化落地。

张晴晴

Magic Data , 创始人兼CEO

Magic Data 创始人兼CEO；对话式AI先行者；中科院博士、副研究员；17年AI语音识别研究经验；中国科学院杰出科技成就奖；法国国家实验室LIMSI-CNRS博士后；Microsoft Research Asia Fellowship Award ；获科学技术厅科学技术进步奖一等奖；《亿欧》2022年霓-中国青年女性创始人TOP20；《财富》2021年中国最具影响力商界女性（未来榜）；《创业邦》2021年最值得关注的女性创业者；CCF语音对话与听觉专委会委员 / CCF智能汽车分会执行委员；CCF女计算机工作者委员会委员 / CCF标准工作委员会委员；秉持“以数据为中心”的理念，张晴晴博士带领团队设计了一系列高质量可快速用于大模型构建及精调的对话式数据集，为全球人工智能领域研发企业和科研机构提供领先AI数据解决方案。

陈亮

洞听智能 , 算法工程师

陈亮，洞听智能算法工程师，2年自然语言处理、智能语音研发经验，参与小Go智能外呼机器人、语音质检、坐席辅助等相关系统的研发工作。热衷于探索智能算法在实际应用中的潜力，致力于提高人机交互的效率和质量。

黄海宇

阿里云 , 智能高级技术专家

黄海宇，阿里云智能高级技术专家。2012年加入阿里，11年音视频系统研发经验，专注于大规模音视频系统研发，负责过视频直播、媒体处理、音视频通讯等云服务研发工作，目前是阿里云视频云通讯服务负责人。

陈高星

阿里云 , 智能高级算法专家

陈高星，阿里云智能高级算法专家，博士毕业于日本早稻田大学，十多年编解码相关优化经验。目前是阿里云视频云视频编码服务端负责人。团队聚焦在视频编码，视频增强以及质量评价方向。

邹娟

阿里云智能 , 资深技术专家

邹娟，阿里云智能资深技术专家，国家广电总局制播专业委员会委员。15年音视频研发经验，专注于媒体处理与生产制作、视频AI、视频点播与直播等技术。加入阿里曾在广电行业获得国家科技进步一等奖和广电总局科技创新一等奖。2016年加入阿里云，目前是阿里云视频云媒体服务负责人，负责媒体服务、视频直播、视频点播的服务端研发工作。

洪炳峰

阿里云 , 智能资深技术专家

洪炳峰，阿里云智能资深技术专家，2022年初加入阿里云，十余年的音视频相关研发经验，当前专注于以音视频SDK为核心的场景能力建设，目前主要负责阿里云视频云媒体服务应用端工作。

任思亮

希迪智驾 , 产品经理

任思亮，希迪智驾（长沙智能驾驶研究院有限公司，CiDi）产品经理，2019年加入希迪，从事矿山车辆自动驾驶、仿真、音视频传输等内容的相关研发，参与并主导了矿区车辆自动驾驶的落地，以及矿区车辆、挖掘机等工程机械设备的远程遥操产品落地实践，目前是希迪智驾矿山事业部的产品经理。

陈普

华为 , 云渲染服务技术专家

陈普，云渲染服务技术专家，2005加入华为公司，从事过华为云桌面、华为云视频分析、华为云渲染服务研发工作。累计发明专利60+。

李明磊

华为 , 虚拟数字人技术负责人

李明磊，华为云虚拟数字人技术负责人。在TAC、ACL、CVPR（2023 Highlight）、IJCAI、EMNLP、ICASSP等发表论文30余篇，曾获得IALP2016最佳论文奖、KSEM2017最佳学生论文奖。目前主导华为云2D数字人、3D数字人相关技术研发，在数字人驱动、多模态交互、自然语言处理等方向有较深的技术积累。

林怡亭

喜马拉雅 , 珠峰实验室数据研发负责人

林怡亭，现任喜马拉雅珠峰实验室数据研发负责人。曾于Nuance Communications 担任首席研发工程师以及语音合成研发经理。从业十余年，专注于TTS、AIGC、情感语音等领域，深度参与苹果Siri、单田芳声音重现、AI多播多情感有声书、声音定制等项目的研发落地工作，并在相关领域发表多篇专利论文。

Rick Clucas

V-Nova Ltd. , SVP Innovation and Technology

Rick Clucas has nearly 40 years of experience in technology Innovation and writing his first image compression 36 years ago! He started his career in 3D video games and was responsible for what would not be called the world’s first GPU, the SuperFX chip for Nintendo, was the founding CTO of ARC international, the first customizable Microprocessor architecture that is still used in many SoCs today. Rick was one of the inventors of the technology that forms a fundamental part of MPEG5 LCEVC. Today as SVP Innovation and Technology at V-Nova he is currently focusing most of his energy into assisting SoC vendors to create LCEVC device drivers on the existing SoCs as well as adding support into future SoC generations.

唐敏豪，腾讯多媒体实验室专家研究员、编解码引擎负责人，主导开发了Tencent266编解码器。

周莹

瀚博半导体 , 公司产品及战略部总监

负责公司业务战略、产品规划及产品管理团队。瀚博半导体是一家高端国产GPU芯片设计公司，致力于为数字和像素世界提供浩瀚算力，拥有基于瀚博统一计算构架（VUCA）构建的全功能GPU芯片、AI智能芯片、以及智能超高清视频芯片。周莹拥有10年以上AI行业解决方案落地经验及企业咨询经验，曾任海能达AI行业负责人，牵头完成公司面向AI的解决方案转型升级；曾为400多家海内外初创公司提供商业落地战略咨询服务，覆盖自动驾驶、机器人、AR/VR、AIOT等多个领域。

刘飞达

南京大学 , 博士

刘飞达，南京大学在读博士生。在读期间从事智能拥塞控制、软件定义网络和网络功能虚拟化等领域的研究，参与国家某重点科研项目《XX组网安全技术研究》等项目，负责多路协同智能拥塞控制算法等方向的研发。

黄亚坤

北京邮电大学 , 博士后

黄亚坤，北京邮电大学博士后，主要研究方向为分布式深度学习、智能边缘计算和沉浸式XR服务。近年来主持国家自然科学基金青年基金1项，中国博士后科学基金2项，子任务负责人参与国家重点研发计划课题2项，在SCI/EI期刊和国际学术会议等上发表论文20余篇，授权专利4项

严侃

中国美术学院 , 信息技术中心副主任

严侃中国美术学院信息技术中心副主任，高级工程师，云上艺考技术总负责人，主持完成《云计算和大数据技术在高校人才选拔中的研究与实践》等多项教育技术研究规划课题，发表多篇教育信息化研究论文。

郭少巍，火山引擎边缘云边缘计算架构师，多年 IaaS 和云原生领域架构及研发经验，具有丰富的边缘计算场景项目经历。曾就职于奇虎360、金山云，领导团队从0-1构建了基于云原生架构的边缘 IaaS 平台。

陈谐

上海交通大学 , 副教授

陈谐，上海交通大学计算机科学与工程系长聘教轨副教授，博士生导师。2009年本科毕业于厦门大学电子工程系，2012年硕士毕业于清华大学电子系，2016年博士毕业于剑桥大学信息工程系，博士毕业后先后在剑桥大学从事博士后研究，美国微软研究院任高级研究员，资深研究员，2021年9月加入上海交通大学。主要研究方向为深度学习和智能语音信号处理，在本领域的国际权威会议和期刊发表论文60余篇。

圆桌嘉宾

周思进，一名音视频行业的老兵，从事音视频行业相关工作20年，01-15年一直从事视频会议相关技术研发工作。2015年跟随直播大潮进入互联网行业创业，2017年创立三体云，是最早的RTC实时音视频服务提供商之一。2020年加入好未来，负责好未来直播技术。在泛娱乐、在线教育领域有丰富的音视频实践经验。

陈若非

声网 , 合伙人及音频技术负责人

陈若非博士现任声网合伙人及音频技术负责人。他从零开始参与了声网实时互动音频引擎的搭建和历代演进，见证了实时互动音频技术在各行业的落地应用。他对实时语音技术有丰富经验，同时也对将沉浸式实时互动音频频体验带入各行业应用充满热情。在加入声网之前，陈若非博士毕业于香港城市大学，主要研究基于模型重建的语音增强技术。他曾任职于 YY 基础技术研发部门，并担任 IEEE 权威语音期刊和会议评审等多个角色。

毛宗武

anyRTC , 创始人

毛宗武，anyRTC创始人之一，2015年加入anyRTC，专注于实时音视频网络分发技术研究，带领技术团队完成anyRTC-SDN从1.0到4.0的迭代，最终建成了一个All-In-One融合通讯媒体分发网络。

鲁力

目睹 , 创始人&CEO

鲁力，目睹创始人&CEO，中国企业级音视频应用领域专家。2015年创立目睹直播，提出业内首个企业直播概念，并晋升行业第一梯队。2021年提出数字化活动概念，ERISR核心KPI模型和SIRAPUE运营体系，以科技创新方法论和实践论，赋能企业数字化增长。

瞿晟荣

识货 , 质量运维总监

瞿晟荣是识货质量运维总监，微软七届最有价值专家。曾在苏宁、龙珠直播、盛大游戏等公司工作，拥有丰富的行业经验。目前，他在识货APP负责质量、运维、数据合规平台的建设和管理工作。曾主导苏宁内容中台互动直播系统架构，龙珠直播运维质量工作以及盛大游戏运营支持部门主管等工作。

余明星

上直播 , 创始人

余明星，上直播创始人，2011年加入又拍云，主导又拍云市场营销体系的创立与落地，2017年开始，在又拍云内部创立企业直播SaaS服务上直播，专注于为企业客户在营销、培训等场景提供专业的企业直播服务，擅长to B业务从0到1的团队搭建与管理及市场营销体系搭建。

王中

爱立信中国 , 行业方案技术总监

王中，爱立信中国行业方案技术总监。从事通信行业工作十多年，于2009年加入爱立信，早期从事蜂窝无线产品研发工作，目前负责爱立信中国5G行业网络及应用解决方案，对5G专网、物联网、XR等方面有深入研究。

邢佳良

橙域 , CTO

邢佳良，橙域CTO，2018年加入橙域，创立了海外CDN融合架构，利用崭新的商业模式打开海外市场。曾就职于蜗牛云，负责设计计CDN+SDN架构，实现CDN架构的革新。

张军

云学堂 , 媒体技术负责人

曾任科天云研发中心总经理，思科Webex中国区协作云平台技术负责人。29年协作通信及云服务产品开发经历，丰富的实时通信与视频会议研发经验，音视频技术专家。他带领研发团队自主开发了云学堂音视频Paas平台、视频会议、智能教练等产品，并持续专注于音视频技术与AI新技术的融合创新。

伍双

独立开发者

伍双 2018创办 Netless 互动白板公司，于 2020 年底并入声网。期间在声网担任互动应用创新部门负责人，主要负责声网互动白板相关业务。于 2023 年 5 月离开声网重新创业，新方向是 AI 数据分析工具。

王亚楠

宇泛智能 , CTO

王亚楠，前音视频行业从业者，曾在爱奇艺和快手做音视频传输相关工作。一线撸过代码，顶级会议发过Paper，传输领域有些专利傍身，从0到1组过团队，搭过平台和终端软件架构。21年创业，主做AIoT行业，现任宇泛智能科技CTO。

周全

哔哩哔哩 , 多媒体技术部资深技术总监

2014年7月开始作为ijkplayer maintainer，贡献其iOS硬解模块。 2015年起从零开始建设B站视频云。2015年开始点播视频云建设工作，涵盖视频上传转码存储调度分发播放全链路的优化和架构。2018年开始协助直播进行直播视频云建设，涵盖推流转码调度分发播放全链路的优化和架构，对全链路点直播质量和成本负责。与小伙伴一起在点直播CDN上大规模铺开了自研QUIC模块与自建HEVC编码器，并在点播系统上率先大规模铺开了DASH与窄带高清，主导推动了4k 120fps HDR 8k 在B站普及，并在国内率先铺开 AV1方案。 2022年开始参与端多媒体与音视频创作技术工作，2023年开始参与到音视频版权技术工作。

杨若扬

火山引擎 , 实时音视频（RTC）产品负责人

杨若扬，火山引擎实时音视频（RTC）产品负责人，专注音视频领域研发和产品工作15年。当前负责火山引擎实时音视频产品，支撑抖音、飞书等字节跳动旗下应用以及火山引擎合作伙伴应用中的音视频通信的实现方案、体验优化和成本优化，并致力于打造RTC的行业标准化。

大会评审员

赵剑

网易云音乐 , 音视频算法专家

赵剑，网易云音乐音视频算法专家。专注于音视频内容分析和处理算法，在音乐内容理解与分析、视频图像智能分析与处理应用、多模态算法方面积累了丰富的经验，主持参与了网易云音乐音视频实验室音视频AI方向的算法研发和产品功能落地，在相关领域申请相关发明专利10多项，发篇顶级学报论文3篇。

魏善义

BIGO , 音频3A技术leader

魏善义，BIGO音频3A技术leader。研发AI回声消除和降噪模型算法，在手机端侧多款APP中落地应用。2022年之前在华为2012实验室，研发手机、智慧屏、智能音箱和PC产品的音频多/单通道3A算法，2021年在PC端全球首发目标说话人提取(TSE)功能。

侯舒娟

北京理工大学 , 信息与电子学院副研究员

侯舒娟，工学博士，北京理工大学信息与电子学院副研究员。长期从事统计信号、自适应信号处理相关的研究，在图像/视频领域专注于混合失真图像复原和步态识别算法的研究。近年发表SCI论文10多篇。曾获国家发明一等奖一项（6/6）。

张欢欢

北京邮电大学 , 博士后研究员

张欢欢，北京邮电大学博士后研究员, 2022年度博士后创新人才支持计划获得者。2018年起专注于低延迟视频传输与QoE优化研究，并取得了一系列创新性成果，成果已服务于国内主流视频平台。近年来发表了多余篇CCF A类国际会议与期刊，特别是在移动计算与网络领域国际顶级会议ACM MobiCom上连续发表四篇论文。研究成果还发表在ACM Ubicomp等国际顶级会议、IEEE/ACM ToN、IEEE TMC等国际重要期刊。

邢芳

海信视像 , 资深多媒体音视频专家

邢芳，资深多媒体音视频专家。2020年加入海信，7年多媒体音视频开发经验，目前主攻视频编解码，JVET 标准跟进。

蔡春磊

哔哩哔哩 , 资深算法工程师

蔡春磊，博士，于2021年毕业于上海交通大学，从事视频图像处理和编解码的研究与应用，是第一届CLIC比赛冠军团队的核心成员，也是DVC的合作作者。毕业后加入B站，主导了B站视频云新一代窄带高清转码系统的研发，帮助公司节约超过20%的带宽成本。

秦英生

传音控股 , BSP多媒体部资深技术专家

15年多媒体音视频框架开发经验，曾负责海信电视多媒体播放器框架的设计，担任过小米手机MIUI系统播放器团队负责人。2022年10月份加入深圳传音控股，并担任BSP多媒体部资深技术专家，负责多媒体视频的项目交付，新技术规划、专项实施及落地。

韩瑞

腾讯 , 专家工程师

韩瑞，腾讯专家工程师。2018年加入腾讯，8年基础架构研发经验。擅长Linux Kernel、网络协议栈、传输优化、实时流媒体服务。在广域网传输领域，有丰富的实践落地业绩。参与过CDN点播、直播、图片、下载等多场景、大规模服务质量优化。参与构建了腾讯START云游戏低延迟高清服务，端到端网络传输架构。

周博立

小红书 , 直播业务移动端技术负责人

周博立，小红书直播移动端技术和互动架构负责人。伦敦大学移动通信硕士。毕业后供职于IBM中国研发中心，负责过iOS/PhoneGap/Cordova混合开发，后加入搜狐视频负责移动端点播业务，19年加入小红书。目前主要负责小红书直播业务架构优化和直播中台的建设。

吴涛

腾讯云 , 行业专家架构师

目前担任腾讯云行业专家架构师，从2007年开始从事音视频研发工作有超过15年的研发经验。在安防、广电和互联网行业视频传输、互动视频的成功项目经验。获得多媒体远程互动发明专利（专利号CN201110204227.4）。2014年作为第一责任人创立了陌陌视频多媒体技术方案，在公域互联网中完成移动端视频采编发和交互的完整项目，并经历过亿活跃用户的考验。

活动日程

2023-07-28

2023-07-29

2023-07-28

09:30 -12:15

主会

音视频技术在整体大环境的影响下，近年来呈现出迅猛的发展趋势。一方面，视频技术能力的普及，面向现有业务及场景视频化发展的道路存在相当激烈的竞争，从底层技术革新到针对实际场景的业务逻辑优化。另一方面，随着更多新概念、新技术的涌现，未来从生产到消费音视频在哪些新的业务、产品及场景下能够创造更多新的价值是我们迫切需要思考的问题。

2023-07-28

11:30-12:15

《端云一体打开点播新视界》

随着移动互联网和智能终端的普及，视频业务出现了全球化井喷式的发展，视频内容也逐渐多样化。5G时代的到来，进一步促进用户对于视频消费场景更高的体验要求，包括更清晰、更流畅、更沉浸。如何平衡用户体验与成本，并在视频技术上不断探索创新，是我们近几年的重点研发方向。此次分享主要结合火山引擎多媒体技术在字节系应用中的实践与探索，分享在用户需求不断升级变迁的大背景下，如何站在用户视角衡量并推动技术演进。

2023-07-28

10:45-11:30

《神经辐射场与沉浸式视频》

2023-07-28

10:45-11:30

《神经辐射场与沉浸式视频》

2023-07-28

10:00-10:45

《直播+X，直播行业新趋势》

2023-07-28

09:30-10:00

《主题演讲》

2023-07-28

14:00 -17:45

AIGC与内容生产

在技术、需求与产业链的共同驱动下，人们也从继UGC、PGC后，迈向了AIGC这个新兴的内容生产时代。但AIGC并不是一门单一的技术，它的本质是利用AI赋能技术而形成的一种高自由度且低门槛的内容生产能力，而这种能力将服务于各类场景中的创作者与生产者。

2023-07-28

17:00-17:45

《AIGC赋能媒体的实践与思考》

2023-07-28

16:00-16:45

《AI重新定义音视频生产力“新范式”》

1、面向新摩尔定律时代，AI技术对音视频内容的影响；
2、AI对音视频生产力的革新，需求构建怎样的基础设施与算力平台？
3、AI智能化应用与构建实践。

2023-07-28

15:00-15:45

《AIGC音视频工具分析和未来创新机会思考》

大语言模型LLM和其他AIGC的技术发展，会给音视频行业带来哪些变化呢？我将会盘点一些很不错的硅谷流行的AIGC应用，然后进行技术+商业的一些思考，分析音视频结合AIGC在未来的创新创业机会所在。

2023-07-28

14:00-14:45

《华为云MetaStudio多模态数字人进展及挑战介绍》

数字人作为AI能力集大成者，涉及计算机视觉、计算机图形学、语音处理、自然语言处理等技术，正在金融、政务、传媒、电商等领域应用越来越广。本报告主要介绍华为云在数字人领域当前的主要进展，包括2D数字人驱动、3D数字人建模、绑定、驱动、情感数字人生成等，同时介绍数字人领域的一些挑战。
本次分享将分为三个部分，第一个部分介绍华为云云原生数字人生产管线介绍及业务规划；第二部分介绍华为云2D数字人技术进展介绍，如何解决口型驱动、肢体编排、移动场景驱动等问题；第三部分介绍华为云3D数字人建模、绑定、驱动等技术的进展。

2023-07-28

14:00 -17:45

数字化与行业案例

音视频技术作为企业数字化转型中的关键技术与能力之一，诸如实时通信、社交互动、高清视频等技术为众多传统行业在生产、管理、服务提供与维护等各方面提供了很大助力，完成对生产效率以及服务质量等多方面的升级。

2023-07-28

17:00-17:45

《智慧海事——从海事产业到范工业数字化、智能化、无人化的探索》

数字作为企业的核心竞争资产，已经成为社会经济成长的新动能；人工智能作为引擎，继工业革命后正推动着又一次伟大革命。各产业纷纷开启数字化、智能化和无人化进程。在技术变革大潮中，是否存在一定的通用模式？可否让产业间相互借用，避免浪费，避免重复投入？以智慧海事（三部曲）作为案例，通过模拟器、智能辅助、无人船对数字化、智能化、无人化进行相关模式的尝试；通过相关产业的横向复制进一步探索和实践；通过通用、共性内容的梳理，建立开放、开源的平台和体系，共同推进数智化进程。

2023-07-28

16:00-16:45

《元矿山下的音视频运用》

随着自动驾驶技术的发展，矿山自动驾驶技术已经逐渐成熟。在智慧矿山的建设中，音视频技术是非常关键的一环。它的应用主要包括以下几个方面：
1、远程驾驶
通过音视频技术，可以实现对矿区车辆的超低延时操控。在智慧矿山的实际运用过程中，虽然自动驾驶已经可以解决百分之99的问题，可是最后百分之一的问题还需要通过远程驾驶来解决，从而实现整个矿区作业面的无人化，进一步提高生产效率、降低生产成本、提高生产安全。

2、实时监控
通过安装摄像头和麦克风等设备，可以实现对整个矿区的实时监控。在矿山生产过程中，往往会出现一些突发事件，这时候及时发现问题就显得至关重要。通过音视频技术，可以及时发现这些问题并进行处理，从而确保矿山生产的正常运作。

3、辅助定位
定位可以说是自动驾驶车辆最为重要的一个环节，在有障碍物遮挡或者信号不理想的情况下，车辆的定位往往飘忽不定，此时通过第三方视角的摄像头来对车辆进行特征识别，辅助定位，就显得尤为重要了。

2023-07-28

15:00-15:45

《华为云渲染实践》

随着云计算与网络基础设施发展，给云端渲染提供了更好的发展机会。华为云长期在云端图形渲染方向进行探索与研究，主要有3个方向：1、自研图形渲染引擎，帮助企业在特定场景下获得实时与离线高质量渲染。通过自研引擎多视角共享，提升并发效率。2、面向工业领域渲染，解决可视化效率与构建实时真实感渲染。3、通过AI加速渲染，提升动漫渲染效率，帮助现有3D渲染程序上云。

2023-07-28

14:00-14:45

《云上艺考的实践与思考》

2023-07-28

14:00 -17:45

火山引擎边缘云专场

伴随超高清视频时代的开启，热点赛事、晚会直播等特殊场景的巨大流量对业务的带宽储备、节点资源、流量调度和安全保障能力提出了新的挑战。火山引擎边缘云基于抖音世界杯、央视春晚直播、京东618等百亿级流量实践，构建了完整支撑超大规模流量业务架构及全链路技术服务保障体系，实力护航超流量业务平稳落地。本专场将系统化解读火山引擎边缘云在应对“超大流量”、“极致体验”、“全路径高可用”等挑战中，沉淀的大规模流量调度体系、云网一体化能力、云原生技术底座及多云资源管理实践。

2023-07-28

17:00-17:45

《字节跳动大规模多云CDN管理与产品化实践》

分享基于字节跳动数百Tbps级别CDN规模实践打造的多云CDN管理平台。在世界杯等大规模流量突发的情况下，作为抖音集团业务核心流量承载的基础设施，在运维效率、质量可观测、调度容灾、成本可观测与优化等多方面都遇到了诸多挑战。本次演讲将介绍火山引擎在多云应用架构下的CDN运维管理解决方案，如何对不同CDN服务商实现资源的统一纳管、流量调度与智能运维等服务，解决多云CDN场景下的效率、容灾、质量、成本等难题。

2023-07-28

16:00-16:45

《大规模流量下的云边端一体化流量调度体系》

分享抖音集团大规模业务流量场景的特点和挑战，通过流量的标准化治理、端内调度能力、云端内外网调度解耦、全局流量规划等关键技术，构建云边端协同的流量调度控制体系，为春晚、世界杯等关键活动提供有效保障。

2023-07-28

15:00-15:45

《融合开放，边缘云网助力企业全球数字化升级》

分享火山引擎边缘云网络产品与技术；围绕边缘云海量分布式节点及上百T网络规模，结合边缘云快速发展期间遇到的各种问题/挑战，介绍火山引擎边缘全球云网基础设施，融合开放的云网技术/产品体系，及基于边缘网络原生的全域联网加速解决方案。

2023-07-28

14:00-14:45

《拥抱云原生，下一代边缘计算云基础实施》

分享火山引擎基于云原生构建的边缘计算云基础设施服务及技术架构。火山引擎边缘计算覆盖全国500+边缘节点，全网储备100T以上带宽，承载视频直播、游戏娱乐、智慧交通、影视特效等多场景客户业务。本次演讲将介绍边缘计算场景下的云基础设施挑战，基于云原生的技术架构解法和优势，大流量场景业务落地经验及未来演进趋势。

2023-07-28

14:00 -17:45

阿里云视频云专场

新数智时代，云和AI在走向深度融合，以云计算为基石、以AI为引擎的云智深度融合俨然成为行业共识。以“云智”为支撑，视频云在拓宽音视频应用的边界，各行业亦对视频云技术提出了更多元、更极致的要求。这其中，作为底座的传输网络、作为内核的智能编码、驱动创新的智能媒体服务，加速应用的音视频终端，方为视频云赛道演进的重心之心，助力加速音视频的数字化转型和全智能升级。阿里云视频云的此次专场，将从面向未来的流媒体传输网络、智能化编码架构、媒体服务重组与进化、媒体开发终端套件四大维度，深度呈现阿里云视频云的全面进化和全智能演进，以云之普惠、AI之智慧，加速音视频数智化创新落地，打造“云智新生”的新景象。

2023-07-28

17:00-17:45

《MediaBox：行业音视频数字化再加速》

随着产业数字化的进程加速，各行各业也需要音视频相关能力进行数字化转型，但面临着音视频能力复杂，接入门槛高等难题，如何加速行业音视频数字化进程，拓宽音视频应用的边界，成为音视频行业要解决的问题。阿里云视频云推出MediaBox一体化终端套件，提出解决这个问题的方案。

本次分享将基于音视频行业场景化的趋势，从音视频终端SDK、低代码开发、生态合作等多层次深度展现MediaBox全景，分享阿里云视频云在行业音视频数字化方面的实践和思考。

2023-07-28

16:00-16:45

《从规模化到全智能：媒体服务的重组与进化》

随着音视频在各行业不同业务的应用场景越来越多，采集汇聚、媒体处理、生产制作、媒资管理、分发消费等媒体服务技术面临如何灵活支持多业务的问题。同时视频作为信息传播的媒介，其量级也与日俱增，这就面临如何高时效高质量对视频进行规模化创作、处理加工、分发消费的技术挑战。

本次分享将展现媒体服务的创新架构设计，通过将媒体原子能力进行打散与重组，和对媒体引擎与服务进行统一“顶设”改造，实现媒体能力的灵活编排，并融合AI及AIGC能力满足业务的高时效和高质量，从而演进到全智能时代。

2023-07-28

15:00-15:45

《“多”维演进：智能化编码架构的研究与实践》

在音视频行业，始终面临更高清、更实时的编码需求，与此同时，更多应用场景（办公、工业、安防…）迸发的视频形态，对视频编码的“多维度适应能力”提出更大的挑战，如：编码优化的目标不再仅仅考虑传统的主客观质量、复杂度、时延等维度，还有诸如与AI处理能力的友好性、多平台下性能的适配性等，这些都推动编解码架构“从传统走向更智能更兼容”的方向演进。

本次分享将从编码与增强方向的业界趋势出发，围绕多目标编码能力、多标准自研编码器、多维度视频增强处理等角度，展开阿里云视频云智能编解码架构的原子能力及研究实践。

2023-07-28

14:00-14:45

《MediaUni：面向未来的流媒体传输网络设计与实践》

从直播到连麦，从音视频通讯到云渲染，音视频应用对网络传输的要求越来越高。阿里云视频云基于全球“云+边”的异构节点，构建全球覆盖的、超低延时的、全分布式下沉的流媒体传输网络，同时，通过统一架构，以一张网同时支持直播、低延迟直播、实时音视频通讯、数据通讯、云渲染、远程控制等全场景音视频传输需求，满足“多元融合”的高阶网络传输。

本演讲将介绍MediaUni多元融合流媒体传输网络的设计理念，并探讨如何解决媒体传输中针对延时、质量、成本、多业务支撑等众多关键性问题，以及流媒体传输网络发展的未来之境。

2023-07-28

14:00 -17:45

腾讯云音视频专场

随着全真互联时代的加速发展，音视频技术正在向多元化的行业应用持续进化。以AIGC为代表的AI能力、Apple Vision为代表的MR/XR、MV-HEVC 3D视频格式以及8K 120FPS实时编码等技术正迅速崛起，随着这些技术的飞速发展，物理世界与虚拟世界的壁垒不断被打破，世界快速进入一个虚实共生的时代。对此，企业将如何更好的满足各场景终端用户对沉浸式、超高清、低延迟等需求，为用户打造极致的音视频体验呢？本次腾讯云音视频专场将重点分享视频实时编码处理、AI画质修复、音视频质检、实时云渲染/VR等技术融合所带来的音视频新突破与实际案例应用，带领大家共同探索音视频技术的无限可能，见证技术发展所带来的改变与机遇。

2023-07-28

17:00-17:45

《实时云渲染与直播应用场景结合技术探索》

随着弹幕互动直播、多人互动直播等相较传统直播更创新，更具互动性的新型直播方式的兴起，也带来一些亟需解决难点，如：弹幕直播对主播设备有很高要求、实时互动无法突破连麦、直播礼物特效受限于用户终端设备性能、直播间无法所见即所得录制等。本次分享将介绍腾讯云实时云渲染基础能力与直播结合，尝试探索提供当前新型直播一站式解决方案以及相关实践。

2023-07-28

16:00-16:45

《音视频质检及画质评估》

海量视频数据的质量监控是多媒体厂商不得不面临的棘手问题之一，贯穿整个视频的生命周期，从拍摄、采集、编码、封装，到传输、解封装、解码、渲染播放都有可能引入质量问题。

腾讯云媒体质检提供全链路自动化媒体质量监控平台，支持离线文件、直播流广泛的媒体格式诊断和设备兼容性分析，针对画面内容覆盖黑白边、抖动、花屏、响度异常等20多种异常检测，兼顾无参考画质打分，为QoS和QoE相关指标保驾护航。本次分享将介绍腾讯云媒体质检的差异化能力，以及在相关细分垂直场景的技术优化实践。

2023-07-28

15:00-15:45

《腾讯云V265/TXAV1直播场景下的编码优化和应用》

随着视频直播不断向着超高清、低延时、高码率的方向发展， Apple Vision的出现又进一步拓展了对3D, 8K, 120FPS的视频编码需求，视频的编码优化也变得越来越具有挑战性。在本次分享中，我们将重点介绍腾讯云在V265/TXAV1直播场景下的优化进展，包括腾讯云对8K、10bit、多视点、快直播等各类实时编码业务的能力支持，以及在这些应用中所实施的技术细节。

2023-07-28

14:00-14:45

《4K/8K/VR 超高清低延时高码率实时处理及分发》

随着观看设备分辨率的提升以及国家对超高清视频规划的发展，4k/8k超高清成为视频行业的热点。然而，超高清片源稀少，视频编码高算力需求以及高码率对传输带宽的压力，这些都让超高清推广困难。本次分享将介绍如何优化转码系统架构、编码内核、8K场景下CPU/内存的瓶颈、分发调度优化策略，以实现使用低成本的硬件设备完成超高清产业升级。

2023-07-29

14:00 -17:45

客户端体验与性能优化

客户端作为直接面向用户大众的接口，随着需求与技术的不断进步，如何借助新的技术实现更完美的体验与更大的价值是需要我们去探索和发现的。本专题将围绕浏览器、移动端技术，探讨在客户端用户体验与性能优化方面新技术的发展给音视频业务及产品开发带来了哪些新的可能，以及可落地的新技术与其在规模化实践中的经验。

2023-07-29

17:00-17:45

《FFmpeg 直播能力更新计划与SDK使用思考》

2023-07-29

16:00-16:45

《咔嚓剪辑高性能低依赖开发实践》

越来越多的用户喜欢分享视频，普通的用户需要一个简单易用的视频编辑工具来剪辑视频内容。目前的视频剪辑软件对硬件要求很高，需要配置很高的电脑。但是很多初学者的电脑配置一般，要么无法使用，要么使用起来非常卡顿。咔嚓的低依赖和高性能可以在低配置的电脑上非常流畅地编辑视频。咔嚓通过1. 自研UI框架，减少内存使用，增加操作的流畅度。2. 尽量减少使用开源模块，自研开发提升性能。3. 优化内核线程间的任务调度，充分利用资源，提升相应速度。4.充分利用硬件的能力，减少CPU和GPU之间的数据传递。5. 结合AIGC，自动产生草稿，提升编辑效率。这样咔嚓能够在十几年前的电脑上，非常流畅地编辑视频。

2023-07-29

15:00-15:45

《云化XR和沉浸式全息交互技术的探索与思考》

本次分享将分为四个部分。第一部分介绍沉浸式XR通信与交互的现状，包括终端侧XR和云化XR的特点及问题分析。第二部分介绍在轻量化WebAR上的探索与研究进展，解决计算资源有限的移动Web上提供XR通信与交互服务的难题。第三部分针对沉浸式全息通信与XR交互服务面临的海量数据融合、实时传输与交互的难题，介绍了当前的相关进展。第四部分介绍对沉浸式云化XR的新需求与挑战的一些思考。

嘉宾

黄亚坤

北京邮电大学 , 博士后

2023-07-29

14:00-14:45

《撕歌的在线K歌体验优化实践》

从2019年初在线实时K歌玩法开始兴起，提出了许多不同于直播、会议、语聊房、离线K歌场景的新要求，像是音质、耳返、延迟、实时对齐等等。撕歌作为一个创业团队，如何在有限的资源下把握住K歌体验的关键，同时想办法降低成本，是一个比较大的挑战。

本次分享将分四个部分，第一部分介绍撕歌在线K歌的技术方案选型，主要考虑了哪些因素，实践中有哪些优势；第二部分介绍撕歌在迭代过程中都尝试过哪些技术方向来优化体验；第三部分介绍几种合唱方案，以及在撕歌中的应用尝试；第四部分扯点闲篇，聊聊技术优化如何变成数据指标，方便向上管理，同时也聊聊业界常见的卡房卡麦现象，以及可以如何处理。

嘉宾

程乐

北京帧趣科技 , 音视频架构师

2023-07-29

09:00 -12:25

多媒体商业探索（圆桌）

音视频的大时代已经到来，从过去文字、图片信息通信，到现如今人们生活中所常见的短视频、实时互动直播，再到元宇宙所带来的的对在线互动、社交娱乐的更多全新想象，其背后所代表的的是音视频技术在当前行业市场，以及未来更多产业下的商业探索。

2023-07-29

11:40-12:25

《怎么降本？怎么增效？》

2023-07-29

10:50-11:35

《直播和RTC历史与未来》

2023-07-29

09:50-10:35

《创业，就业与苟住——规划自己的未来》

2023-07-29

09:00-09:45

《当下多媒体企业的困境与机遇》

2023-07-29

09:00 -12:25

架构与服务端优化

随着实时音视频技术的线上互动交流、协作、游戏娱乐等场景的快速发展，对音视频服务整体包括稳定性、交互能力、延时、体验质量等方面都提出了更高的要求。这在系统架构设计及演进的过程中，需要技术者对音视频编解码、传输、能力实现、服务保障等全方面的优化考量。

2023-07-29

10:40-12:25

《实时音视频技术在明星陪看直播中的应用实践》

当一部新剧上映时，如果该剧的演员能够以直播的形式陪着用户一起看剧，将是一种多方共赢的体验形式。对用户来说，在追剧的同时可以追星；对明星来说，对于自己和参演的剧集能起到宣传的效果；对于视频媒体平台来说，则能丰富产品体验，也提升了用户粘性。

爱奇艺本身已具备成熟的传统视频直播基础架构，足以支撑千万级并发的直播场景。但在明星陪看场景下，需要引入外部的实时音视频互动技术。如何将第三方的实时音视频互动服务与爱奇艺自身的基础架构有机结合，发挥各自的优势，以最低的成本达到预期的效果，将是本次分享的主要内容。本次分享将介绍明星陪看直播的整体技术架构，以及在剧集版权管理、复用已有基础设施、高可用性保障等方面的考虑。此外，也会介绍前端在美颜集成、多路音频播放等方面遇到的一些挑战，以及相应的解决方法。

2023-07-29

10:50-11:35

《大型直播活动中B站云导播台应用实践》

随着B站直播业务的快速发展，各种大型直播活动对于转码服务的稳定性、灵活性都提出了越来越高的要求：大型赛事直播中需要解决第三方的源流产生波动、断流等问题时转码断流导致的体验降低、带宽上涨；大型晚会直播中需要随时进行点直播内容切换、广告插入。B站云导播台系统较好地解决了上述这些问题，自2021年起已经用于B站所有直播大型活动中。

本次分享将分为三个部分，第一部分介绍B站直播业务对于大型直播活动是如何进行保障的；第二部分介绍直播保障中的核心服务云导播台的架构和实现方式；第三部分介绍在直播业务不断拓展的过程中，云导播台跟随业务不断成长迭代出的特化能力。

2023-07-29

09:50-10:35

《金山云直播架构演进及边缘计算场景探索》

随着直播业务的快速发展，金山云的直播架构也从一开始的简单架构到逐渐复杂的架构演进。在这个过程中充满了对稳定性、性能、质量等方面的挑战。特别是伴随着边缘云和边缘计算的同步发展，将为直播和和其基础设施提供更多的选择空间，这些都对直播和边缘计算业务提出了挑战。

本次分享将分为三个部分，第一部分介绍金山云直播架构演进，直播架构如何从0到1再到10完成几个阶段性的跨越；第二部分介绍在直播过程引入的传输技术的讨论；第三部分介绍直播和边缘计算的结合，如何强化直播的基础设施能力以及算力弹性能力，为直播提供更好的成本与性能体验。

2023-07-29

09:00-09:45

《"创多窗" 和 "解压平": 流媒体的下一代是多视角以及全景视频》

流媒体行业在内卷，企业不仅要考虑如何在竞争中脱颖而出，还需要考虑降本增效的问题。行业内已经存在了许多提升用户体验和优化设计的功能，包括：多视角，VR/AR和AI等，但无论如何，从好的方法到实际用户服务之间存在一定程度的困难。

从用户需求的角度来看，流媒体内容必须有高度的吸引力和个性化定制，否则他们不愿意花时间观看或者购买会员。本次演讲分三个部分，第一个部分说明”创多窗“的概念，然后解释通过创新的Multiview多视角方案可以提高流媒体的个性化能力。第二部分说明“解压平”的概念，是指备用切片FOV的传输方案，可以给用户最沉浸的直播体验，因而提高用户的参与度。最后一部分要针对业务层面：内容平台怎么可以使用上述的下一代流媒体方式改善KPI和提高收入。

2023-07-29

09:00 -12:25

网络传输优化

为应对互联网日益增长的加速需求、复杂的网络环境以及多种多样的视频业务，技术者们不断探索着如何达到准确与极低延时并存的网络传输能力。并在应用层流控、传输层协议设计及跨层优化等方面也在积极探索，为用户带来更好的网络体验。

2023-07-29

11:40-12:25

《SMT在远程制作及虚拟化云端制作的发展实践》

随着流媒体技术、虚拟化技术和云技术的发展，也伴随着疫情等客观因素，远程制作的应用越来越广泛，虚拟化及云端制作也逐渐开始起步，一种全新的转播模式也在被世界各大重要赛事所接受，所认可。远程制作和虚拟化云端制作到底能给客户带来什么，是制作质量的提升，类似于HDR，4K，8K，三维声给我们带来的全新的视听体验，还是制作成本的大幅减少，这是值得讨论的。

本次分享分三个部分，第一部分介绍SMT的几个重要的远程制作案例，第二部分介绍虚拟化及云端制作的一个初步尝试安利，最后是对未来融合制作模式的一些思考。

2023-07-29

10:50-11:35

《Caton Media Xstream: 重新定义实时内容交付服务》

随着公共互联网愈加复杂，best effort的基本原型已无法满足越来越多的有QoS保障需求的实时内容交付服务。而专线、卫星等传统解决方案存在部署成本高、周期长等问题，无法快速响应各类需求。

为提供低成本、高可靠的传输服务，下一代IP网络传输解决方案的领导者Caton推出了Caton Media Xstream平台。该平台通过基于AI的智能路由算法以及高可靠、高质量的传输策略，在低成本的公共互联网上实现了广播级的传输标准，SLA超过6个9。

Caton Media Xstream是基于全球分布式云架构Caton Cloud，支持混合网络部署、高效扩容，不仅实现了流量的高效连接和转发，同时支持了快速部署，实时流量监控等功能。Caton Media Xstream建立了自己的大数据平台。基于大数据技术，平台通过网络实时数据的挖掘和学习，不断迭代优化智能路由算法，提高传输性能。

2023-07-29

09:50-10:35

《网易云信4K/8K RTC助力远程医疗的技术实践》

当前国内医疗资源分布不均，医疗协作是解决医疗资源分布不均、提升有限资源效率和价值的重要途径，随着“分级诊疗”的推行，远程手术示教、视频会议、跨域医学培训等协作方式，可弥补城乡间的医疗资源差距，这对超高清实时音视频通信技术产生了强烈需求。网易云信面向医疗行业提供了 4K/8K 超高清实时音视频通信的能力，并与多家业内知名的医疗软硬件生态伙伴深度合作，形成了场景化的解决方案，已在多家公立三甲医院的远程医疗、远程手术示教场景成功落地。

本次分享主要分三个部分，第一部分介绍行业需求及网易云信针对医疗行业提供的解决方案及应用；第二部分介绍云信的4K/8K RTC超高清音视频通信技术的实践，包括技术实现及优化；第三部分介绍4K/8K RTC在远程医疗总应用情况。

2023-07-29

09:00-09:45

《自适应流媒体智能传输优化》

自适应流媒体视频传输是一项重要的网络应用，通过动态选择码率档位提高用户观看体验。传统的启发式码率自适应算法由于固定参数与传统建模的限制，逐渐被数据驱动的智能码率自适应算法取代。该算法通过构建模型辅助传统算法、决策或生成智能策略，显著改善了体验。然而，网络时变性、异质性与用户需求多样性等问题促使智能算法需依托闭环系统持续优化性能。
本报告围绕高效训练模型、降低执行开销、快速适应环境和满足多样需求等四个方面，对自适应视频流智能传输的核心部分——服务端训练与客户端执行进行了优化，改善了各种场景下的用户体验，提升了智能算法可行性。第一部分介绍了基于终身模仿学习的智能码率自适应优化算法，提升了服务端的模型训练效率。第二部分介绍了结合启发式算法机制的低开销智能码率自适应融合方案，提高了性能并降低了整体开销。第三部分介绍了基于元强化学习的智能码率快速自适应方法，通过快速优化策略提升了用户体验。第四部分介绍了基于自我对弈理论的需求驱动智能自适应视频传输算法，满足了多样化的用户需求。

2023-07-29

09:00 -12:25

AI与视频编辑码

从跟跑到领跑，中国超高清视频编解码技术已走过20个年头。从开始制定不同的视频编解码标准，如H.264/265、AV1、VVC，再到基于AI的视频编码技术，在看似简单的对视频数据大幅压缩编码、传输、解码还原清晰度的过程中，每一次小小的提升，都是一次大大的进步。面临越来越复杂的算法，新视频标准对算力的需求指数级增长，对GPU、ASIC等硬件的依赖度也与日俱增。

2023-07-29

10:50-11:35

《支持 AI 视频处理的高容量流媒体加速卡方案》

主要介绍 AMD Alveo™ MA35D 视频加速卡的基本架构和功能，以及基于 MA35D 转码卡在各个领域的视频解决方案中的应用。

2023-07-29

09:50-10:35

《系统芯片（SoC）实现低复杂度增强视频编码(LCEVC)》

低复杂度增强视频编码(LCEVC)是MPEG组织最新定义的一种视频编码格式。
LCEVC 可以和任何现有视频编码技术共存，提供更低码率以及减少编码复杂度。根据具体视频编码格式， LCEVC可以在保证同等视频质量的前提下减少20% – 50% 视频码率。
对于一种新的视频编码格式的广泛商用，通常需要新的芯片设计，实现和集成到主流终端设备。LCEVC当然可以硬件实现，已经有一些公司开始提供LCEVC芯片设计方案。
拥有更强大处理能力的电脑和智能手机已经可以软件实现LCEVC解码，即便在分辨率和帧率方面有所限制（当然对于小屏幕的智能手机这种限制可能并不是大问题），然而耗电量是一个需要解决的问题。为了在大屏幕上支持LCEVC，无论是电视内置还是通过机顶盒，芯片级硬件解码都是必须的。
V-Nova已经实现了几种创新的LCEVC硬解码，通过利用终端平台提供的硬件模块和处理资源实现了安全有效的驱动层解码，这种方案能帮助终端设备制造商在现有设备上实现LCEVC解码，以便给流媒体服务运营商部署这种能大幅度减少传输成本的新MPEG标准。
本文会介绍LCEVC技术梗概以及两种V-Nova实现的基于现有SoC的LCEVC硬件解码方案。

2023-07-29

09:00-09:45

《AVS感知无损压缩标准概述》

感知无损压缩PLC（Perceptual Lossless Compression）标准是AVS工作组在视觉无损质量等级视频图像压缩领域的第一次尝试，针对8K超高清视频信号高速传输制定的“超低延时、硬件友好、主观无损”轻量级图像压缩标准。2023年5月标准技术方案定稿，发布FCD 1.0文本。本次演讲将介绍PLC标准技术与应用。

2023-07-29

09:00 -12:25

AI与多媒体

随着生活方式及习惯的变化，人们对于媒体内容与体验有着更高的需求与期待，如何提供更高质量的视频质量和沉浸式的音视频体验成为了新一代多媒体发展的挑战，人工智能、计算机视觉、云计算等技术的发展和突破这些挑战提供了更多的机会与可能。

2023-07-29

11:40-12:25

《智能外呼，引领信贷服务的未来》

随着人工智能技术的发展，企业客服的模式也在发生变革。传统的客服模式往往是人工坐席接听电话或在线客服回复消息，但这种模式效率低下，容易出现人为失误，不符合现代企业对高效、精准的客服服务的需求。

本次分享将分为三个部分，第一部分介绍传统客服模式存在的痛点，以及小Go智能外呼机器人是怎么解决这些问题的，第二部分介绍相较于传统客服场景，小Go的优势与亮点，第三部分介绍技术特色。通过以上三个部分的分享，将为大家全面介绍小Go智能外呼机器人在传统客服场景中的创新应用和技术优势。

2023-07-29

10:50-11:35

《数据即科技——AIGC底层数据探索》

ChatGPT爆发之后，全球范围内掀起了大模型热潮。包括微软、谷歌、百度、阿里在内的一众科技巨头加速大炼“大模型”。数据是大模型构建三要素之一，是决定模型智能的关键因素。目前国内模型训炼数据依然存在很多挑战，如语料库稀缺、数据质量低和数据合规等。
本次分享将主要分为四个部分，首先介绍目前大模型的发展现状以及目前训练数据的痛点，之后介绍国内中文数据与ChatGPT所用的数据进行对比，第三部分将会通过实验介绍对话式数据在大模型训练中的表现能力，最后介绍如何打造数据为中心的MLOps，助力大模型构建以及落地。

2023-07-29

09:50-10:35

《基于人眼感知质量的端云结合画质及带宽优化实践》

随着小红书视频业务和短视频播放的规模化增长，如何有效地提升用户体验质量同时降低视频带宽成本成为一个重要的技术优化目标。端侧超分是一种有效的画质提升及带宽节省技术，然而端侧计算资源及性能约束限制了高级超分算法的落地。此外，如何规模化地评价超分后视频质量从而最大程度保障和量化用户体验质量也成为一个待解决的问题。

为应对上述挑战，小红书音视频架构算法团队开发了基于人眼感知质量的端云结合超分框架，通过云端视频处理有效补偿并提升端侧超分效果，利用基于AI的无参考视频质量评估指标实现与人眼视觉一致的质量评价，为云端画质分析和处理以及大规模量化用户体验质量提供了关键支撑。整体方案实现端侧超分效果可量化、集成高覆盖、带宽高节省。

2023-07-29

09:00-09:45

《家庭场景大模型技术与应用实践》

智慧家庭作为一种新的生活方式，受到越来越多的关注，其核心在于人们渴望从繁琐的家居操作中解脱，把更多精力投入到生活中的精彩和感动中。
对话陪伴，家庭安防，家庭教育，家庭健康，家庭娱乐等模块是智慧家庭的重要组成部分，其中涉及到自然语言处理，计算机视觉，语音处理等多模态复杂AI理解和生成技术，为解决人们对智能要求的不断提升，需要利用大规模预训练大模型所涌现出的通用智能，并针对性的做场景化微调适配；具体的，我们利用千亿参数的大模型，并结合家庭场景进行指令微调和对应算法优化，赋能了亿级的智慧家庭用户，其中智能对话，智能安防，家庭教育等覆盖率达到了千万级以上；

本次分享分为4个部分，第一部分主要是介绍家庭场景的核心业务，同步引入算法应用的关键问题，第二部分主要是回顾行业大模型的发展现状和主要算法架构，第三部分是我们在家庭场景下大模型的关键技术研发，第四部分主要是大模型的应用实践

2023-07-29

14:00 -17:45

音频新体验

随着多媒体和通信网络技术的不断更新，以及新型音视频应用场景的不断涌现，音频处理技术向着更加智能化和沉浸化的趋势发展。人们对音频的听觉体验要求也逐步提高，各类场景下的声音体验更加清晰，并呈现声临其境的沉浸感。

2023-07-29

17:00-17:45

《当“AI”遇见“爱”——人工智能情感技术如何赋能喜马拉雅创作生态》

2023-07-29

16:00-16:45

《音乐流媒体平台在音乐AIGC方面的探索》

随着音乐制作设备成本的不断降低，音乐产业正在经历一场前所未有的变革。为了在这个新的音乐时代中保持青春活力，我们决心打造一种新型音乐创作引擎，利用最先进的AI技术来赋能音乐的创作和体验过程。我们的愿景是将音乐从一种静态的媒介转变为一种具有实时交互性和可感知性的元素，让用户在创作过程中享受更加丰富的音乐创作体验。然而，复杂的技术壁垒和研发门槛使我们面临着诸多挑战。

本次分享将以音乐流媒体平台在音乐AIGC方面的探索为主题，深入探讨天音TY-AIGC内容生产引擎的架构设计思路。在第一部分，我们将从国际主流的音乐生产解决方案及其技术难点入手，详细介绍如何将云音乐生态与AIGC相结合，设计高可用音乐生产解决方案。在第二部分，我们将深入挖掘AIGC的关键技术线和技术点，包括架构设计、算法优化、音频处理和数据管理等方面的技术细节。最后，在第三部分，我们将分享TY-AIGC技术落地的具体产品和业务成果，为音乐产业的AI数字化升级贡献技术成果。

2023-07-29

16:00-16:45

《音乐流媒体平台在音乐AIGC方面的探索》

2023-07-29

15:00-15:45

《基于离散表征的高质量语音合成》

现有的语音合成系统大都使用频谱作为中间变量，基于文本输入通过回归模型预测频谱系数，继而基于频谱系数，使用声码器还原语音信号。近年来，面向语音信号的自监督学习取得了巨大成功，语音自监督模型提取的离散表征也开始尝试用于语音合成，将语音合成中的回归任务，转换为分类任务，并取得了很好的合成效果。

在本次分享中，我们将介绍基于离散表征的语音合成的一些最新工作进展。首先我将介绍一个基于语音自监督模型为中间表征的语音合成模型：VQ-TTS，通过将频谱系数替换为离散特征作为中间变量，其在语音的合成质量上取得了相比基于频谱系数作为中间变量的语音合成系统更好的性能。同时我们将分享两个最新的基于离散表征的语音合成模型，这两个模型都支持基于几秒目标说话人的语音数据，进行高效说话人克隆的能力。一是基于微软Vall-E的扩展工作，相比Vall-E模型只需要1/10的参数量，取得了和Vall-E模型相当的模型性能；另一方面，通过VQ-diffusion模型来直接预测VQ特征，提出了uniCATS模型，在合成速度和性能上都达到了SOTA水平。

2023-07-29

14:00-14:45

《AIGC技术探索与应用创新》

针对近年来元宇宙、AIGC、大模型等关键技术发展，分享科大讯飞在AIGC技术方上，围绕音频、视觉、认知三大领域的技术布局和探索研究，以及在相关行业的创新应用案例。期待与业界共同探讨，利用人工智能的力量建设美好数字世界。

2023-07-29

09:00 -12:25

元宇宙

作为新一轮互联网大变局的核心，元宇宙可能重塑产业生态，形成与现实世界相对应的虚拟世界，是未来社会变革的重要力量。这也引发了众多互联网公司争相入局，虽然目前仍处于发展的早期阶段，但政府也开始对此高度重视并出台了相应文件，相信通过技术的不断发展，元宇宙的真正实现只是时间问题。

2023-07-29

11:40-12:25

《瀚博GPU加速高质量元宇宙内容生产》

2023-07-29

10:50-11:35

《当边缘计算+GPU遇上元宇宙》

区块链融合边缘计算和GPU算力已经成为元宇宙基础设施的核心需求，其关键是打破云、网络的边界，在基础架构、底层设施和资源调度等方面趋于一体化。基于这种全新形态，将模糊虚拟现实的边界，实现数字世界和现实世界的融合。

2023-07-29

09:50-10:35

《“触”手可及的视听新体验——触觉反馈标准及新进展》

人类对美好体验的追求是永无止境的。在多媒体应用领域，特别是在AR/VR场景下，如何让人们获得更加沉浸的体验？仅仅在视觉和听觉两个方向努力是不够的，还需要触觉、嗅觉、味觉… 本次分享侧重于触觉的介绍，而行业内对触感的应用价值和触感品质的认知是不够的，相关标准的缺失也阻碍了技术的快速普及。

本次分享分三个部分：第一部分介绍触觉的生物学原理、应用价值以及触感设计和表达方法；第二部分介绍触感的软硬件生态现状，以及相关的应用开发技术，力求全平台覆盖；第三部分介绍触感相关国际标准的最新动向和进展。通过以上三个部分的内容，期望大家对触感开始有基本的认知，认可其价值，并且能够快速上手，共同促进应用端的繁荣。

2023-07-29

09:00-09:45

《Unity云原生分布式运行时》

元宇宙时代，大规模实时3D交互的需求越发重要，然而传统的3D实时交互引擎/游戏引擎在这一方面面临着巨大的挑战。如何实时地处理大规模的数据、交互与渲染是游戏引擎进入元宇宙的第一个课题。

本次分享将会介绍Unity针对元宇宙的需求提出的云原生分布式运行时解决方案。首先介绍Unity为解决大规模渲染而提出的云原生分布式渲染解决方案，以及为解决大规模数据计算而提出的云原生分布式计算解决方案；其次将介绍Unity分布式运行时在实际产品和开发中产品中的实际应用与效果展示；最后将介绍Unity云原生分布式运行时的产品路线和未来规划。

嘉宾