x Apache｜Community Over Code Asia 2025 AI 专题

2025年7月11日16时作者 HyperAI超神经

7 月 25 日，Apache 将在北京中关村举办 Community Over Code Asia 2025 的 AI 专题论坛，给大家带来 Apache 社区建设和发展的最新资讯和前沿实践。

7 月 25 日至 27 日，作为 Apache 软件基金会（ASF）官方全球系列大会的 Community Over Code Asia 2025 即将在北京中关村国家自主创新示范区会议中心开幕！

本次大会的 AI 专题，由 OpenBayes贝式计算创始人兼 CEO 王臣汉、Apache 软件基金会成员谭中意、Datastrato 创始人兼首席执行官堵俊平，共同担任专家出品人，也将在 7 月 25 日 14:00-17:15 给大家带来 Apache 社区建设和发展的最新资讯和前沿实践。HyperAI超神经将以合作社区的身份参与本次活动，并设立了市集展位，欢迎大家来玩呀～

我们还为大家准备了 12 张免费门票，参与抽奖即有机会免费参会！

抽奖赢免费门票

奖品详情

共 12 张，中奖者可获得「社区活动伙伴邀请票」，包含 3 天免费门票及每日午餐。

参与方式

专题介绍

Community Over Code Asia 2025

AI 分论坛是一个专注于人工智能（AI）技术与 Apache 开源项目结合的专业交流平台。该分论坛旨在汇聚全球开发者、研究人员和行业用户，共同探讨 AI 技术在开源生态中的应用与发展，展示前沿技术、分享实践经验，并推动开源 AI 解决方案在各行业的落地。

适合本论坛的议题为：

Apache 基金会下的 AI 相关项目（例如聚焦于开源 AI 框架和基础库项目 Apache TVM、Mahout、Singa、SystemML 等）
Apache 单个项目在 AI 场景下的优化（例如 Spark MLib，Flink ML 等项目）
基于 Apache 多个项目组合后在工业场景的 AI 解决方案例如某某企业的 AI 业务构建方法

出品人

Community Over Code Asia 2025

王臣汉

Community Over Code Asia 2025

OpenBayes贝式计算创始人、CEO，Apache TVM 中文文档译者之一，天津大学贝式计算联合研究中心副主任。曾就职于华特迪⼠尼互动媒体集团、AVOS Systems 等科技公司，曾任开源组织 CLUE Benchmarks 基金会秘书长。

谭中意

Community Over Code Asia 2025

COPU 常务副秘书长，20 年+开源老兵，Apache 软件基金会成员。

堵俊平

Community Over Code Asia 2025

Datastrato 创始人兼 CEO，LF AI & DATA 基金会董事，Apache 软件基金会成员，大数据技术与开源领域专家，Apache 开源基金会 Member，Apache Hadoop，OZone，YuniKorn 等项目 Committer 和 PMC，Apache Gravitino，NuttX 等项目导师。曾任世界 500 强企业开源委员会主席、大数据平台研发总监，开源业务总经理等职位，原 Hortonworks Hadoop 计算团队负责人等。

议程亮点

Community Over Code Asia 2025

📅 7 月 25 日 14:00 – 17:15

演讲议题：以云原生方式最大化异构 GPU 利用率｜释放 HAMi 的强大能力

分享时间：7 月 25 日 14:00-14:30

议题介绍：随着 AI 的日益普及，Kubernetes 已成为事实上的 AI 基础设施标准。然而，包含多种 AI 设备（如 NVIDIA、Intel、华为昇腾、海光、沐曦、寒武纪、天数智芯、燧原等）的集群数量不断增加，带来了重大挑战。AI 设备成本高昂，如何提高资源利用率？如何更好地与 K8s 集群集成？如何统一管理异构 AI 设备、支持灵活调度策略并实现可观测性，都面临诸多挑战。HAMi 项目应运而生。本次演讲内容包括：

Kubernetes 如何管理异构 AI 设备（统一调度、可观测性）
通过 GPU 共享提升设备利用率
在 GPU 共享场景下保障高优先级任务的 QoS
支持灵活的 GPU 调度策略（NUMA 亲和/反亲和、装箱/分散等）
与其他项目的集成（如 Volcano、scheduler-plugin 等）
生产级用户的真实案例分享
当前仍面临的挑战与未来规划

演讲嘉宾：

Xiao Zhang｜dynamia.ai founder, a cloud-native enthusiast and community maintainer, focusing on the AI infrastructure

Xiao Zhang 是 dynamia.ai 创始人（专注于基础设施、AI、多集群管理、集群生命周期管理（LCM）和开放容器倡议（OCI））。他同时也是社区的活跃贡献者和云原生技术爱好者，目前是 Kubernetes/Kubernetes 特别兴趣小组（Kubernetes-sigs）成员，并担任 Karmada、kubean 和 cloudtty 项目的维护者。此外，他还是 CNCF HAMi 项目的共同发起人和维护者，GitHub ID 为 wawa0210。

Yu Yin｜Product Owner @dynamia.ai, Open Source Maintainer @HAMi, Driving GPU Virtualization & AI Infra Innovation on Kubernetes

Yu Yin 是 dynamia.ai 的产品负责人，同时也是 HAMi 的核心维护者，HAMi 是 Kubernetes 上 GPU 虚拟化和异构计算的开源项目。凭借在构建人工智能基础架构方面的实践经验，Yu 主要致力于为多架构环境实现可扩展的 GPU 共享、设备池和智能调度。他曾帮助物流、电信和金融领域的企业用户在生产中采用异构资源管理。同时，余先生也是中国开源应用的积极倡导者，并领导着 HAMi 社区的国际化工作。

演讲议题： Apache Doris 在 AI 领域的探索与实践

分享时间：7 月 25 日 14:30-15:00

议题介绍：作为一款热门的 OLAP 实时分析数据库，Apache Doris 在当前 AI 浪潮快速变革的时代背景下，已构建或正在规划更多与 AI 相关的功能及周边组件，如向量检索、MCP、RAG 等功能模块。本次演讲将通过交流与演示，公布 Doris 在 AI 方向的当前进展。

演讲嘉宾：

YiJia Su｜Apache Doris Committer、SelectDB Solutions Architect、PowerData Sponsor

Apache Doris Committer，Apache Doris 社区布道师，Doris-MCP 贡献者，SelectDB 高级解决方案架构师，PowerData 社区发起人，曾协助 Apache Doris 社区数百家企业完成实时数仓建设与优化演进。

演讲议题：Apache Gravitino｜AI 时代的元数据管理解决方案

分享时间：7 月 25 日 15:00-15:30

议题介绍：

元数据管理已成为 AI 时代的基石。本次演讲将探讨 Apache Gravitino 如何实现大规模非结构化数据和模型的管理，以及小米如何利用 Gravitino 进行大语言模型（LLM）数据处理和模型生命周期管理的实际应用。

演讲大纲：

1、AI 工作流中数据集和模型管理的挑战，以及 Gravitino 如何通过其 Fileset Catalog（结构化 AI 数据集治理）和 Model Catalog（统一模型生命周期管理）解决这些问题

2、利用 Gravitino 的标签系统、血缘追踪和凭证管理功能，最大化运营效率和治理合规性

3、Fileset 在小米数据处理中的实践：在 AI 场景中，数据处理涉及下载、提取、过滤、去重和训练等多个阶段。利用 Fileset 提升了数据与 AI 引擎间的管道效率，实现了端到端数据集管理，并建立了统一的元数据视图

4、小米 AI 大模型管理实践：小米如何管理大模型元数据、部署模型服务，以及我们与 Gravitino 集成的未来计划

演讲嘉宾：

Xiaojing Fang｜Apache Gravitino PPMC & datastrato software engineer

Apache Gravitino PPMC 成员，专注于数据与 AI 基础设施系统。

Han Zhang｜Software R&D Engineer at Xiaomi

Apache Gravitino 贡献者，负责小米 AI 开发平台的研发。

演讲议题：目录即情境｜利用元数据推动和管理下一波人工智能开发浪潮

分享时间：7 月 25 日 15:45-16:15

议题介绍：开发强大的 AI 工具是我们今年的主题，智能体和基础模型在各领域都取得了显著进展。但核心问题依然存在：我们如何为这些应用提供有效运作的数据？企业级规模又该如何实现？上下文的本质究竟是什么？本次演讲将探讨当前大数据生态现状、AI 数据平台面临的挑战，以及为何数据目录和元数据是通向高效、可控 AI 开发的唯一可行路径。我们将以开源框架 Apache Gravitino 为例，阐释为何此类解决方案必须保持厂商中立性。

演讲嘉宾：

Jerry Shao｜Datastrato, CTO

Jerry Shao 是 Datastrato 联合创始人兼 CTO，十余年深耕开源大数据领域。作为 Apache 成员，他是 Apache Spark 和 Apache Inlong 的提交者及 PMC 成员，同时是 Apache Gravitino（孵化中）项目的创始人。

演讲议题：从数据到 AI｜基于 Apache Cloudberry 构建统一分析平台

分享时间：7 月 25 日 16:15-16:45

议题介绍：

当前企业由于数据系统碎片化、处理流程低效以及分析与机器学习之间的隔阂，难以充分发挥 AI 潜力。Apache Cloudberry 作为开源 MPP 数据仓库，通过深度集成数据处理与 AI 能力，重新定义这一范式，消除壁垒并加速创新。

本次演讲将展示 Cloudberry 如何实现：

统一执行：直接在数据仓库上运行原生 AI/ML 模型（如 PyTorch、Scikit-learn）
多模态分析：在统一框架中处理结构化与非结构化数据（PDF、图像等文档）
智能数据应用：构建 RAG 增强的问答系统、对话式 BI 及多模态搜索

您将了解如何将数据与智能汇聚至统一平台，在简化架构的同时扩展 AI 工作负载。

演讲嘉宾：

Chuanxin Bian｜HashData, Data & AI Engineer

Chuanxin Bian 博士是专注于深度学习、自然语言处理和时间序列建模的数据科学家与应用数学家，持有香港理工大学应用数学博士学位。现就职于 HashData，主导开发 HashML、ChatData 等 AI 工具及 AIGC 应用。曾任百度高级研发工程师，参与文心大模型开发，基于 PaddleTS 构建时间序列模型，并推进用户画像系统升级。精通 Python 及深度学习框架，善于连接理论与实际推动 AI 创新。

演讲议题：Apache Doris 混合检索技术解析

分享时间：7 月 25 日 16:45-17:15

议题介绍：

Apache Doris 的混合检索能力将传统全文检索（基于关键词的词典搜索）与向量检索（基于语义的搜索）相结合，提供更精准的搜索结果。这种能力特别适合需要同时兼顾关键词匹配和语义理解的复杂搜索场景，如电商、内容推荐和知识库搜索。

一、混合检索核心原理

混合检索充分发挥两种搜索方式的优势：

全文检索（BM25）：基于倒排索引和关键词匹配，擅长精确匹配用户输入的查询词。Doris 使用 BM25 算法（默认）计算文档与查询的相关性得分，适合结构化文本搜索。
向量检索（语义搜索）：通过将文本转换为向量（embedding），利用机器学习模型计算查询与文档的语义相似度，擅长理解查询意图和上下文。
融合机制：采用特定评分和排序技术（如 Reciprocal Rank Fusion/RRF 或 Convex Combination/CC）整合两种方法的搜索结果，平衡词典相关性和语义相关性。

二、技术实现架构

Doris 混合检索依赖以下技术组件和工作流：

1、字段类型支持

文本字段：通过分词器生成倒排索引，支持全文检索
向量字段：使用模型将文本转为向量类型存储

2、复合索引

支持同时存储文本和向量字段
启用混合查询功能

3、查询执行流程

词典查询：

使用 match 查询检索关键词匹配的文档（基于 BM25 算法）
向量查询：使用 knn 查询或 ANN 索引检索语义相似的文档（基于余弦相似度等）
混合查询：并行执行两种查询，通过融合算法整合结果

4、结果融合策略

RRF（逆序位融合）：根据文档在不同查询结果中的排名计算综合得分，强调在多搜索方法中均排名靠前的文档
CC（凸组合）：通过加权求和整合 BM25 和向量查询得分，需手动调整权重平衡
支持通过 script_score 或 Rerank 模型进一步优化结果排序

演讲嘉宾：

Lee Happen｜SelectDB Senior-RD

Apache Doris PMC 成员

📅 7 月 26 日 14:00 – 16:45

演讲议题：将大语言模型集成至 CI/CD 流水线｜提升 Apache 项目代码质量的实践案例

分享时间：7 月 26 日 14:00-14:30

议题介绍：本次演讲将探讨如何系统性地将大语言模型（LLMs）集成到 GitHub Actions 中，以提升 Apache 项目的代码质量和安全性，内容基于 apache/brpc#2911 的真实案例。特别适合寻求可操作、低开销策略来设计、实现和部署 AI 代理以保障代码质量的开发者和维护者参与。

我们将引导观众思考以下方面：

人机协作：对比传统的”copilot”模式（人工驱动、同步式）与流水线中的异步 AI 代理工作流，突出效率提升和权衡取舍
实践落地：了解如何在资源限制条件下，利用 LLMs 执行代码健壮性扫描和 CVE 检测等针对性任务——无需依赖 RAG、微调或 MCP 等技术

演讲嘉宾：

Yi Yuan｜software developer

CNCF kepler 项目维护者，主要负责项目流水线相关工作。

演讲议题：Lance｜面向多模态 AI 前沿的数据格式

分享时间：7 月 26 日 14:30-15:00

议题介绍：多模态模型的前沿训练需要处理 PB 级的多模态 AI 数据，包括视频、图像和长文本。新型 AI 数据的复杂性和规模对现有数据基础设施提出了挑战。

Apache 许可的 Lance 格式基于 Apache Arrow 和 Apache Datafusion 构建，核心采用 R

ust 编写，开发团队由 Apache Hadoop、Apache HBase、Apache Iceberg、Apache Arrow 和 Delta Lake 的 PMC 成员组成。Lance 格式是一种专注于 AI 的新型列式存储格式和表格式，深受 Apache Parquet、Apache Iceberg 和 Apache Hudi 项目的启发。Lance 格式的显著特点是随机访问和零成本模式演进——这两个 AI 工程师最喜爱的特性。这些特性使 Lance 区别于 Apache Parquet、Apache ORC 或 Apache Iceberg，使其更适合多模态 AI 的特征工程和训练。

Lance 格式已被许多领先的 AI 公司采用，如 MidJourney、WorldLabs、Runway ML、Character AI 等。

本次会议将由 LanceDB CTO 徐磊（Apache Hadoop PMC 成员）与字节跳动火山引擎专家杨华（Apache Hudi PMC 成员）共同呈现：

支持前沿多模态 AI 公司工作负载的基础设施挑战
Lance 格式背后的核心设计原则
字节跳动火山引擎如何基于 Lance 格式构建 Lance 数据湖并支持全球顶尖 AI 公司

演讲嘉宾：

Lei Xu｜CTO @ LanceDB

LanceDB 首席技术官。Apache Hadoop/HDFS PMC 成员。曾领导 Cruise Automation 的机器学习平台和数据基础设施团队。

Vino Yang: Volcano Engine Technical Expert, Lance Committer.

火山引擎技术专家，Lance Committer。Apache Hudi/Kyuubi PMC 成员。

演讲议题：量子 AI｜超智能时代的黎明

分享时间：7 月 26 日 15:00-15:30

议题介绍：量子计算与人工智能的融合即将打破经典计算的极限，开启超智能时代。当量子增强模型能够实现指数级学习、秒解复杂问题并重新定义决策过程时，我们是否正在进入一个 AI 将超越人类理解范畴的新纪元？

本场演讲将探索人工智能的下一个前沿领域，重点关注：

量子机器学习（QML）：AI 如何利用量子力学实现前所未有的问题解决能力

量子神经网络：AI 能否实现超乎想象规模的学习？

量子叠加与并行：AI 是否会从序列推理进化到多维思考模式？

理论启示：量子 AI 是否会成为人工超级智能（ASI）的基石？

当我们迈向 AI 驱动的科学发现、后人类智能和潜在的知识奇点时，本演讲将挑战传统 AI 范式，并探讨当 AI 不再像人类一样思考——而是远超人类时的可能性。

演讲嘉宾：

Prakul Hiremath｜VISVESVARAYA TECHNOLOGICAL UNIVERSITY, UNDERGRADUATE B.TECH STUDENT AND BIOLOOP, CEO AND FOUNDER

Prakul Hiremath 是来自印度 VTU Belagavi 的研究员、技术专家和创新者，专注于人工智能、网络安全和系统优化的交叉领域。怀着对人工智能、计算系统和未来技术的深厚热情，他积极投身于 AI 驱动的网络安全、医学信号分析和工业 4.0 创新的研究。

他的工作涵盖 AI 驱动的威胁检测、预测分析和高性能计算，重点突破智能系统和自主决策的边界。同时，他也在探索 AI 增强生命体、后人类智能和知识进化，致力于为未来技术贡献突破性见解。

除AI和网络安全研究外，Prakul 还积极参与 Bioloop——一个融合生物技术与人工智能的创新研究项目，致力于开发可持续性、医疗保健和工业自动化领域的尖端解决方案。Bioloop 旨在通过创建优化生物与技术流程的新一代智能生态系统，彻底革新生物 AI 系统。

在 Community Over Code Asia 2025 大会上，Prakul 将探讨 AI 势不可挡的崛起、它带来的挑战，以及对技术未来、社会发展和人类智能的深远影响。

演讲议题：采用 MCP 还是不用 MCP？使用开放协议设计可组合的 AI 系统

分享时间：7 月 26 日 15:45-16:15

议题介绍：随着 AI 应用的多样化发展，定制化工具与服务的点对点集成带来了碎片化和高维护成本的问题。Model Context Protocol（MCP）作为一种开放协议，通过标准化的发现、调用与交互流程，为 AI 代理与外部工具之间建立统一的连接方式。分享将介绍当前 AI 生态中互操作性的挑战，以 llama-nexus 为例，展示如何通过原生开发的 MCP 服务实现 AI 系统的可组合性和灵活编排。最后，探讨开放协议在促进 AI 系统互联互通、降低集成复杂度和推动创新中的战略意义，未来可组合 AI 生态的发展方向。github.com/LlamaEdge/llama-nexus

演讲嘉宾：

Miley Fu｜CNCF Ambassador, Founding member of open source runtime WasmEdge

Miley 是一名开发者布道师，热衷于赋能开发者构建和贡献开源项目。她是2024 KubeCon+Open Source Summit 和 AI Dev China 2024 的联席主席和主讲嘉宾。她是 CNCF 沙箱中 WasmEdge 运行时的创始成员，在该项目上工作超过 6 年，并在 KubeCon、KCD 、CloudDay 意大利、DevRelCon、日本开源峰会、AWS 用户组、Global AI Note、KubeDay 新加坡等活动中发表演讲。Miley 撰写技术内容并组织开发者活动，包括 KCD北京、KCD深圳、WebAssembly & Rust 台北、新加坡等 meetup。

演讲议题：为什么我们需要开源 AI 网关

分享时间：7 月 26 日 16:15-16:45

议题介绍：在 AI 应用爆发的时代，API 流量激增，但成本控制、安全合规和多模型管理等挑战依然存在。全球最活跃的开源 API 网关 Apache APISIX 将于 2025 年正式推出 AI 网关能力，为开发者和企业提供一站式解决方案。

为什么选择 APISIX AI 网关？

统一 AI 服务管理：无缝代理 OpenAI、Deepseek、QWen 等主流大模型的请求，避免供应商锁定，并通过动态流量编排优化成本/性能。

安全与合规：内置 AI 保护插件（如 ai-prompt-guard 过滤恶意输入，ai-rate-limiting 实现基于 token 的限流），确保数据隐私和合规性。

开发者优先体验：热重载插件、多语言支持（Java/Python/Go）以及与微服务和 Kubernetes 生态系统的原生集成。

无论您是开发者还是企业，APISIX AI 网关都能加速 AI 应用落地，释放创新潜力。

演讲嘉宾：

Yuansheng Wang｜API7.ai, CTO

Apache APISIX PMC 成员 Apache 基金会成员。

🌟 点击下方二维码进行扫码购票

数量有限，快来参与吧👆

往期推荐

戳“阅读原文”，免费获取海量数据集资源！

（文：HyperAI超神经）

发表评论取消回复