AI 如何赋能万物？GOTC 2023 给出答案

AI 赋能万物的时代已经到来。5 月 28 日，GOTC 2023 ” AI is Everywhere 专题论坛 ” 由 Linux 基金会亚太区副总裁杨轩担任出品人，将于上海张江科学会堂召开。

全球开源技术峰会（Global Open-source Technology Conference，简称 GOTC）是由开放原子开源基金会、 Linux 基金会亚太区、上海浦东软件园和开源中国联合发起的，面向全球开发者的一场盛大开源技术盛宴。

GOTC 2023 为期两天，大会将以行业展览、主题发言、特别论坛、分论坛的形式展现，与会者将一起探讨元宇宙、3D 与游戏、eBPF、Web3.0、区块链等热门技术主题，以及开源社区、AIGC、汽车软件、AI 编程、开源教育培训、云原生等热门话题，探讨开源未来，助力开源发展。

AI 已经颠覆世界，GOTC 2023 报名通道现已开启，来吧，一起走进 AI is Everywhere 专题论坛，探讨开源 AI 的未来。

大会亮点：

AI 与数据、数据库的未来

训练框架、推理模型、算法量产

详解 PyTorch 2.0 体系结构

大模型与多模态技术、AI 应用落地实践

出品人：杨轩

现为 Linux 基金会亚太区副总裁，拥有超过 20 年软件行业经验，曾在 Saba、Sumtotal、Computer Associates 等大型国际软件公司担任高级管理职务。拥有丰富的企业级软件应用和开发经验，以及软件开源和数字化转型实践经验。

议题：Welcome and Introduction

演讲时间：9:00-9:20

演讲嘉宾：谭中意 | LF AI Outreach 主席

议题：Keynote

演讲时间：9:20-9:40

演讲嘉宾：Ibrahim Haddad | LF AI & Data 基金会执行董事、PyTorch 基金会执行董事

议题：AI & Data: painpoints and the future.

演讲时间：9:40-10:00

演讲嘉宾：堵俊平 | LF AI & Data Board Chair、ASF Member

议题简介：当下，由 ChatGPT 引爆的大语言模型革命正在产生深远影响。作为智能时代最稀缺的资源之一，数据的重要性毋庸置疑，也经常成为各大企业与研究机构模型研发与调优的瓶颈。本议题重点讨论大模型背后的数据痛点以及面向未来的应对方案。

议题：大规模语言模型在智能文档问答的应用：基于 Langchain 和 Langchain-serve 的解决方案

演讲时间：10:00-10:20

演讲嘉宾：王楠 | Jina AI 联合创始人兼 CTO

议题简介：文档问答系统的任务是从文档数据中查找与用户问题相关的答案。由于文档数量不断增加，传统的搜索已经不能满足人们的需求。随着深度学习模型的发展，文档问答系统从基于字符匹配的方法迁移到基于向量表示的方法。但是，它们仍然只能返回与问题相关的段落，不能直接给出问题的答案，尤其是对于是否类问题。最近，大规模语言模型的能力不断提升，为文档问答系统的答案生成问题提供了解决方案。新一代的文档问答系统将传统模型、深度学习问答模型和大规模语言模型技术融合在一起，为用户提供更完善的文档问答服务。本次演讲将介绍如何使用 Langchain 开发框架和 Langchain-serve 部署工具来开发智能文档问答系统。

议题：昇思大模型一站式易用实践

演讲时间：10:20-10:40

演讲嘉宾：何芦微 | 华为资深开源工程师

议题简介：人工智能发展到今天，已经从” 大炼模型 “逐步迈向” 炼大模型 “。相比传统针对特定应用场景需求进行训练的模型，大模型泛化能力强，不再局限于单一特定场景，也因此它需要更大更广数据量的” 投喂 “，需要更强的算力训练，这些都需要巨量的成本，绝大部分开发者基本无法承担，如何降低大模型的训练和应用门槛成了新的难题。在本次议题中，我们将带来昇思大模型一站式易用实践分享，介绍昇思 MindSpore 社区打造的一站式大模型平台，它集模型选型、在线推理、在线训练为一体，支持大模型的在线体验及微调，让开发者零距离接触紫东・太初以文生文，悟空画画以文生图，Luojia 遥感检测等大模型应用。

议题：AI 数据库 OpenMLDB 应用实践

演讲时间：10:40-11:00

演讲嘉宾：陈迪豪 | 第四范式架构师

议题简介：AI 已经成为计算机基础架构中不可或缺的一环，而针对 AI 场景优化的数据库也应运而生。AI 数据库不仅功能上要满足特征工程以及机器学习模型的上线需求，在离线和在线性能上也有更高的要求。本次分享将以 OpenMLDB 项目为例，深入介绍 AI 数据库的应用场景和性能优化，实现特定 AI 场景快速落地以及数倍甚至数十倍的性能提升。

议题：向量数据库：面向 AIGC 的海量记忆体

演讲时间：11:00-11:20

演讲嘉宾：郭人通 | Zilliz 合伙人、产品总监

议题简介：在 AIGC 大火的时代，向量数据库在海量非结构化数据处理中发挥着越来越重要的作用，本次分享将重点介绍在 AIGC 浪潮里，向量数据库如何为 AI 赋能。

议题：PyTorch 2.0：将编译器技术引入 PyTorch 内核

演讲时间：11:20-11:55

演讲嘉宾：Peng Wu | Engineering Manager supporting the PyTorch compiler team

议题简介：PyTorch 2.0 利用编译器实现更快的训练和推理，同时不牺牲 PyTorch 的灵活性和易用性。本次演讲将概述新 torch.compile () API 背后的技术栈，并讨论 PyTorch 2.0 的关键特性，包括其完全向后兼容以及模型训练速度提高 43%。我们将介绍各种堆栈组件，如 TorchDynamo、AOTAutograd、PrimTorch 和 TorchInductor，以及它们如何协同工作以简化模型开发过程。参会者将更深入地了解 PyTorch 2.0 架构以及在深度学习框架中整合编译器技术所带来的优势。

议题：开源深度学习框架飞桨及其开源社区

演讲时间：13:30-14:00

演讲嘉宾：张军 | 百度飞桨框架产品负责人、开放原子开源基金会 TOC 委员

议题简介：本报告结合生成式 AI 的最新发展趋势和百度的实践，介绍百度深度学习平台 + 大模型核心技术研发、产品创新和生态建设的进展。报告同时分享围绕飞桨产业级深度学习开源开放平台、在新趋势下开展产教融合教育生态建设的思考。

议题：当联邦学习遇到大型语言模型

演讲时间：14:00-14:20

演讲嘉宾：彭麟 | VMware CTO 办公室资深研究员

议题简介：联邦学习使得多个数据源可以在不共享数据的情况下协同训练一个模型。近年来，基于 transformer 的大型语言模型越来越受欢迎。然而，这些模型由于其高计算资源需求和复杂算法而带来挑战。在本次演讲中，我们将介绍 FATE 在金融用例中将联邦学习应用于 GPT-J、ChatGLM-6B、GLM 和 LLaMA 等大型语言模型方面的最新努力。FATE 将联邦学习的分布式训练机制与大规模模型相结合，在保持各方敏感数据仅限于本地域内的同时允许根据每个参与者实际数据量进行计算投入。这使得能够共同培训大规模模式并互惠互利。我们还将探讨技术和实践考虑因素、现实世界用例以及对隐私保护机制的需求。

议题：模型推理优化，探索 AI 落地潜能

演讲时间：14:20-14:40

演讲嘉宾：袁丽雅 | 中兴通讯标准及开源高级工程师

议题简介：大模型的趋势已经势不可挡，如何提高模型推理效率成为亟待解决的问题。本报告将介绍模型推理优化的技术现状及趋势，并分享 Adlik 项目在该领域的实践。

议题：Xtreme1 下一代多模态开源训练数据平台

演讲时间：14:40-15:00

演讲嘉宾：王家军 | 倍赛科技技术研发总监

议题简介：UBS Global 研究报告发现：现如今 AI 工程师 70%-90% 的时间都花费在训练数据上。很多算法在实践中已非常优秀，数据已然成为 AI 模型开发新的瓶颈。基于以上现状，倍赛科技团队研发出 Xtreme1 训练数据平台，致力构建最容易触达的开源 Data-Centric MLOps 基础设施，以连接人、模型和数据。Xtreme1 首次引入本体 Ontology 来穿透不同 AI 客户的问题抽象，是全球首个支持多模态数据标注的开源工具，全面遵循云原生架构原则，以保证服务性能的可扩展性，部署规模的可弹性，以及在故障情况下的服务韧性。

议题：OPPO 移动端图形技术领域探索实践 ——O3DE Mobile WG 及 shaderNN

演讲时间：15:00-15:20

演讲嘉宾：彭周虎 | OPPO 开源办公室负责人

议题简介：近年来，随着移动端算力的不断提升和深度学习研究的快速发展，特别是小网络模型不断成熟以及数据安全的要求越来越高，越来越多的原本在云端执行的推理转移到移动端上来实现。移动平台的深度学习推理涉及硬件平台、驱动、编译优化、模型压缩、算子算法优化以及部署，适合系统业务开发的高效推理框架成为业界迫切需求和开发重点。

基于移动端图形图像后处理高效 AI 推理需求，为降低业务融合成本，提高效能，我们开发了基于 GPU Shader 高效推理引擎 ShaderNN。它直接基于 GPU 纹理进行高效推理以节省 I/O 时间，不依赖第三方库，跨不同硬件平台，支持主流深度学习训练框架，可定制，方便优化、集成、部署和升级。

议题：英特尔的 PyTorch 之旅：AI 算力提升和开源软件优化

演讲时间：15:40-16:00

演讲嘉宾：马鸣飞 | Senior Deep Learning Software Engineer

议题简介：PyTorch 是深度学习和机器学习最流行的框架之一，英特尔一直是 PyTorch 社区的长期贡献者和宣传者。在本次演讲中，我们将分享在核心框架及其生态系统库中为 PyTorch 做出贡献的经验。我们将详细介绍我们在 torch.compile 中的优化，这是 PyTorch 2.0 的旗舰新功能，并展示其在 CPU 上的性能优势。我们将展示如何通过硬件算力的提升和开源软件的优化，让 AI 应用更加平民化，如基于扩散的生成式 AI 和大语言模型。我们还将介绍过去参与的一些 PyTorch 生态系统项目，例如 HuggingFace，DeepSpeed，PyG 等等。最后，我们将讨论未来的计划和愿景，继续与 PyTorch 基金会合作，以推动深度学习和机器学习朝着更好的方向发展。

议题：DeepRec：面向推荐场景的高性能深度学习框架

演讲时间：16:00-16:20

演讲嘉宾：演讲嘉宾：丁辰 | 阿里云 PAI 技术专家

议题简介：DeepRec 是阿里云机器学习平台 PAI 开源的面向推荐场景的高性能深度学习框架，针对稀疏模型在分布式、图优化、算子、Runtime 等方面进行了深度的性能优化，同时提供了动态弹性特征，动态弹性维度，自适应 EmbeddingVariable、增量模型导出及加载等一系列功能。DeepRec 在阿里巴巴集团内部应用于淘宝、天猫、阿里妈妈、高德、淘特、AliExpress、Lazada 等，在核心业务上支撑着千亿特征、万亿样本的超大规模稀疏训练。DeepRec 开源一年多以来，已经在数十家公司的搜推广业务场景中大规模应用，带来了巨大的业务价值。

议题：旷视算法量产与 MegEngine 生态建设

演讲时间：16:20-16:40

演讲嘉宾：陈其友 | 旷视科技 MegEngine 团队负责人

议题简介：目前 AI 技术应用已经在各种领域得到验证，它具有比传统算法更高的生产力。但是随着大量的 AI 算法的需求，传统的针对某个具体场景进行数据采集，标注，模型训练，验证，交付的算法生成方式成为了 AI 落地的瓶颈。MegEngine 团队围绕 MegEngine 训练框架，提出一种基于各个阶段标准化的算法量产的方法来减低 AI 落地的门槛，为了实现算法量产，MegEngine 开发了一系列组件，他们共同形成了 MegEngine 的算法量产的生态，正在逐步开源。

议题：Primus—— 通用的分布式训练调度框架

演讲时间：16:40-17:00

演讲嘉宾：徐合邦 | 字节跳动基础架构计算框架研发工程师

议题简介：近些年来，机器学习科技已经深植各应用领域，并且成功带来显着的提升。面对与日具增的训练资料和模型规模，为了满足更高效率的模型训练，分布式训练的概念顺应而生。作为一个通用的分布式训练调度框架，Primus 提供一个通用的介面桥接了分布式训练任务和物理计算资源，让资料科学家可以专注与学习算法的设计，并且让分散式训练任务可以运行在不同种类的计算集群，例如 Kubernetes 和 YARN。于此基础上，Primus 更提供了分布式训练任务所需的容错能力以及资料调度能力，进而更提升了分布式训练的易用性。本议题将分享 Primus 在字节跳动的站内现况及实践，Primus 和分布式训练领域的相关挑战、及未来展望。

议题：透明后端图编译器无缝提升 ML 上游框架

演讲时间：17:00-17:20

演讲嘉宾：Tiejun Chen | Sr. Technical lead

议题简介：当前有一个新兴趋势：观测性从云向边缘转移，这时 AI 工作负载往往通过高层级 ML 框架（如 Ray）进行管理和编排。但与此同时，各种厂商的 AI 加速器（如 Nvidia GPU 系列、Intel Movidius VPU、Google TPU 等）已经实现了 AI 加速。实际上可以看到许多基于 ASIC 的 AI 加速器。另一方面，存在着各种图编译器（如 TVM、Intel OpenVINO、TensorRT 等）用来提高 ML 性能，但碎片化严重。因此，在现实世界中用户在赋予这些异构 AI 加速器不同软件加速时面临挑战，原因是缺少一个自然支持它们的通用统一框架。本次演讲将分享引入透明后端加速技术来自动提升流行 ML 上游框架（如 Tensorflow、Pytorch、TorchServe、Tensorflow Serving 等）上异构 AI 加速器上的 ML 性能，并与那些主流 ML 图编译器无缝结合。通过我们对主流 ML 框架零代码更改方法，用户可以在他们原始的 AI 应用上看到提升的 ML/AI 性能。

议题：OpenGPT：LMM 多模态大模型推理框架

演讲时间：17:20-17:40

演讲嘉宾：王峰 | Jina AI 高级算法工程师

议题简介：大语言模型和多模态技术已经成为趋势，以 GPT-4 为代表的 AI 能力的提升，从实现单调的文本交互，转变为可以接受图像、文本作为输入。越来越多基于大模型的多模态技术涌现出来，但是在实际工业产品落地过程中仍然存在诸多挑战。特别是针对模型推理问题又有更多新的问题需要解决。本次分享将以 OpenGPT 项目为例来介绍 Jina AI 在解决大模型产品落地问题的实践。

GOTC 2023 将于 5 月 27 日至 28 日在上海张江科学会堂召开。大会将以行业展览、主题发言、特别论坛、分论坛的形式展现，与会者将一起探讨元宇宙、3D 与游戏、eBPF、Web3.0、区块链等热门技术主题，以及开源社区、AIGC、汽车软件、AI 编程、开源教育培训、云原生等热门话题，探讨开源未来，助力开源发展。