

昔日几年,数据界的每个东说念主都在辩论语义层。
买卖智能供应商将其行为一种浅易的目的模子进行销售。当代数据架构称之为目的层。东说念主工智能团队则宣称,如若莫得它,就无法构建分析代理。但如若你仔细不雅察一下主要科技公司(Uber、Netflix、Airbnb、LinkedIn、Spotify)的架构,就会发现它们的含义与“语义层”一词泛泛所示意的含义天渊之隔。
他们来说,这不单是是 BI 器用里面的一层目的。它是数据平台内的一个寂寥基础设施。一个经管业务目的界说、估计、数据质料、拜谒末端以及这些目的在 BI、机器学习、家具以致 AI 系统中的使用样子的平台。
尤其真义的是,好多公司都曾在博客、经营论文和架构演讲中部分败露过其架构信息。如若将这些零碎的信息拼集起来,就会呈现出一幅相适时东说念主骇怪的图景。本文将尝试作念到这极少。
咱们将网罗大型科技公司 数据工程样式 贵寓中公开可用的凭据,并重建语义层的的确架构。咱们将经营 Uber 和 LinkedIn 的目的平台是若何运作的,Netflix 为什么构建 Metrics Repo,Airbnb 若何想象 Minerva,Spotify 为什么在数据仓库前边摒弃 API,以及语义层在东说念主工智能系统中开动进展什么作用。
最终遣散将肖似于一张舆图:语义层在大科技公司中本色是若何运作的,以及哪些原则不错诈欺于更典型的组织。粗略最真义的论断会出乎料到:在大型科技公司中,语义层根柢不是 BI 功能,而是当代数据平台的关节架构层之一。
1. 大型企业的语义层架构
1.1 优步
目的平台架构
Uber 构建了一个名为 uMetric 的勾搭式平台,用于经管目的的通盘人命周期:界说 、 发现 、 估计 、 质料考据 和赔本。
本色上,这既是一个 语义层,亦然一个目的平台 。

Uber 公开将其里面 uMetric 平台态状为一个长入的目的平台,涵盖目的的通盘人命周期:界说、发现、策画、估计、质料和使用。
此外,Uber明确表示,该平台将目的膨胀到 机器学习特征 ,这意味着它不再只是是一个分析辞书,而是分析和机器学习之间的桥梁。

2025年,Uber还先容了其对话式数据代理 Finch 。它基于全心整理的单表数据集市和构建在元数据之上的语义层运行。Finch使用存储在OpenSearch中的元数据、列别称和值,使LLM能够生成更精准的WHERE筛选要求,并权贵减少失误。
知奋勉
在 Uber,语义层本色上照旧成为 机器的末端平面 ,而不单是是分析师的末端平面。
这里最有价值的凭据是,他们的AI代理并莫得依赖于“LLM会自行推断模式”的想法。相悖,他们依赖于全心经管的数据集市、元数据别称和受控拜谒权限。
换句话说,的确基于数据构建的企业级东说念主工智能并不依赖于原始SQL语句的生成,而是依赖于 事先构建的语义落魄文 。
系统核豪情念
该系统的主要理念是摈斥不同团队估计出的目的之间的互异。
简化架构
[事件流] → [数据管说念] → [目的界说] → [目的估计引擎] → [质料考据] → [目的 API] → [仪容盘/机器学习/诈欺]
关节见识
Uber明确表示,其目的系统不仅用于分析,还用作 机器学习特征平台 。
这本色上意味着: 语义层 = 机器学习的特征层
1.2 Netflix
目的库 — 目的即代码
Netflix 构建了一个名为Metrics Repo 的 系统,这是一个勾搭式目的界说的框架。
Netflix 在态状其实践平台时讲授说,Metrics Repo 是一个里面 Python 框架,用户不错在其中界说以编程样子生成的 SQL 查询和目的界说。然后,系统会将这些界说勾搭经管。

在Netflix最近发布的一份对于其分析 样式 的综合中,该公司强调,里边幅的的创建和使用“泛泛比应有的复杂得多”。换句话说,即使在Netflix这么训诫的公司,目的界说不一致的问题也并未皆备隐藏。
此外,还有另一个垂危的信号。在另一篇对于云效用的著作中,Netflix 态状了一个 分析数据层 ,该数据层为金融 样式 用例提供时间序列效用分析。
知奋勉
Netflix 败露了一些鲜为东说念主知的内幕:
在大型公司中,语义层泛泛不是一个单一的通用系统。相悖,它由 特定边界的目的库和 针对特定用例的分析层组成——举例实践、效用分析、创意分析等等。
换句话说,的确的架构更接近于 联邦语义治理, 而不是“一个语义层统治一切”的想法。
这不是径直引语——而是根据 Netflix 对其各式目的框架和特定边界分析层的态状得出的论断。
中枢想想
目的是 通过行动 界说的,而不是在 BI 器用里面界说的。
因此,目的估计从 ETL 管说念中移出,更围聚分析师。
简化架构
[原始数据] → [数据仓库] → [目的库(代码界说)] → [实践平台] → [统计引擎] → [仪容盘/有规画系统]
关节见识
目的库不仅用于买卖智能,况且主要用于:
A/B 测试、家具实践、因果推断
Netflix对于其实践平台的经营论文阐述了这极少。换句话说,Netflix的语义层是 科学实践平台 的一部分。
1.3 LinkedIn
长入目的平台
LinkedIn 构建了 长入目的平台 (UMP) 。该平台旨在处分的主要问题是:不同的团队以不同的样子估计接洽的目的。
为了处分这个问题,LinkedIn遴荐了勾搭化措施:度量界说 、 估计 和 办事 。
简化架构
[原始事件] → [Kafka] → [批处理 + 流处理] → [目的估计] → [目的存储] → [目的 API] → [仪容盘/办事]
关节见识
LinkedIn 将语义层转动为一项 的确的办事 ,而不是 SQL 模子,而是一个 目的 API 。
1.4 Spotify
实践平台里面的语义层
Spotify 构建了我方的实践平台。其架构大要如下:
[家具事件] → [数据湖] → [目的界说] → [实践引擎] → [统计分析] → [有规画仪容盘]
中枢原则
目的必须具有 可复现性 。换句话说,每个实践都必须基于 接洽的目的界说 。
1.5 Airbnb
Minerva——面向通盘公司的语义层
Airbnb 成就了一个名为Minerva 的 系统。
Airbnb明确指出,Minerva在其新的数据仓库架构中饰演着中枢变装。它负责招揽事实表和维度表,对数据进行反规范化处理,并通过API将其提供给下流诈欺行动。

他们还揭示了该系统的范围:向上 12,000 样式的、 向上 4000个维度和 向上200 名来自不同公司职能部门的 数据分娩者。
目的和维度界说存储在 勾搭式 GitHub 存储库 中,并经过代码审查、静态考据和测试运行。
该系统支握:
界说质料检查、回填、版块末端
本钱归因、GDPR弃取性删除、拜谒末端
自动弃用策略、基于使用量的保留
Airbnb 对其目的作念了绝顶清醒的回想: “一次界说,处处可用”。
知奋勉
的确的“窍门”不在于公式。Airbnb 的语义层既不是 用户界面功能,也不是买卖智能功能 ——它是一门工程学科。
目的被视为代码。 元数据是强制性的。 存在审查过程。 中间估计遣散不错重用。 弃用和人命周期经管已崇拜化。
换句话说,Minerva 不仅处分了“若何估计 KPI”的问题,还处分了“若何防患业务深嗜深嗜在数百个团队中散播”的问题。
Airbnb明确讲授说,米乐app只是圭臬化表格是不够的。圭臬化必须 在目的层面 进行,因为用户使用的是目的、维度和通告,而不是表格。
Minerva 经管:目的 、维度和 KPI估计 。
中枢想想
界说一次,即可处处使用
简化架构
[数据仓库] → [语义层(Minerva)] → [目的估计] → [目的 API] → [分析器用]
Airbnb 还指出,它已将其 数据质料评分 膨胀到 Minerva 目的和维度。
这是一个至关垂危的信号:除非目的具有 信任信号, 不然它不被视为一个好意思满的对象。
知奋勉
一个的确的企业语义层简直老是由三个组件组成:
深嗜深嗜的界说
估计机制
信任/质料信号
如若莫得第三个组成部分,它就只是是一个公式辞书,而不是企业级语义层。Airbnb的 Minerva + 数据质料评分 以及Uber uMetric 平台中寂寥的 质料搭救都清醒地支握了这一论断。
1.6 Pinterest
在最近一篇对于文本转 SQL 的著作中,Pinterest 讲授说,在判辨查询之前,他们会用以下样子丰富落魄文:
表格和列态状
圭臬化术语
度量界说
数据质料驻防事项
提出日历范围
他们还讲授说,如若莫得这种落魄文,LLM 就只可看到原始的表格和列,因此会失去数据的业务深嗜深嗜。

Pinterest 还指出,这种落魄文信息是通过以下样子自动保重的:
东说念主工智能生成的文档
基于流畅的词汇表传播
基于搜索的语义匹配
知奋勉
这为一种新趋势提供了强有劲的凭据。在东说念主工智能时期,语义层不再只是是肖似这么的抒发式:收入 = SUM(x)
它还包括:
字段的同义词
数据质料驻防事项
可禁受的日历范围
有用的流畅旅途
这些恰是传统 BI 语义层家具中经常缺失的身分——尽管它们对于 文本到 SQL 系统和代理驱动的分析 至关垂危。
2. 大型科技公司语义层矩阵

3. 的确情况
当这些作念法勾搭起来时,它们就造成了大型科技公司语义层的长入架构。
[数据源] → [数据仓库/湖屋] → [调遣层] → [目的界说(Git)] → [目的估计引擎] → [目的目次] → [目的 API] → [BI / ML / 诈欺 / AI]
这代表了一个 好意思满的企业级语义层架构 。
本色上,在一般公司里面复制这种架构并非易事。
大大都组织照旧具备:数据仓库 、 转型器用 和 BI仪容盘 。
但它们泛泛短少将业务含义与底层数据结构流畅起来 的语义建模层。
这恰是 DataForge 这类器用的用武之地。DataForge并非将目的逻辑镶嵌BI器用或SQL管说念中,而是允许团队想象一个勾搭式的语义模子 , 该模子包含事实、维度和业务目的——有用地充任了本文所述的架构层。
换句话说,它有助于完毕 Uber、Airbnb 和 LinkedIn 等公司使用的接洽原则——但样子上却能让普通的数据团队平安上手。
4. 普通公司与大型科技公司的永诀是什么

5. 大型科技公司舆图:每家公司本色成就了什么

该矩阵凸起了一个关节不雅察遣散:
大型科技公司并非老是明确使用“语义层”这个术语。然而,当它们发布架构细节时,接洽的组件却反复出现:
度量界说
勾搭式估计
办事层/API
治理
数据质料
家具目次
跨器用重用
6. 语义层的演进:2010 年 → 2026 年

第一阶段:2010–2014 年 / “目的及时响应在通告和过程中”
早期阶段,万般式的散播在 ETL 管说念、报表器用和各个团队中。LinkedIn 明确指出,在 UMP 推出之前,报表系统 一鳞半瓜、各自寂寥且短少系统性 ,不同的利益酌量者对并吞目的的估计样子也各不接洽。这与 2010 年代初期企业分析环境的典型景色极为雷同。
第二阶段:2015–2019 年 / 圭臬化和实践
在这个阶段,企业开动勾搭经管目的,主要目的是为了支握 A/B测试和可靠的实践 。2019年,Netflix推出了 Metrics Repo ,行为一种长入的目的界说样子,并支握以编程样子生成SQL。与此同期,LinkedIn照旧领有了 长入目的平台(UMP),支握A/B测试和通告。在这个阶段,语义层的出现并非源于买卖智能器用,而是源于确保可复现性和一致性的 需求。
第三阶段:2020–2022 年 / 目的即代码和办事层
2020 年至 2021 年间,Spotify、Uber 和 Airbnb 等公司开动公开展示下一阶段的发展标的:
代码或 Git 中的度量界说
勾搭式目的人命周期经管
API 或办事层
治理
质料考据
Spotify 在数据仓库前端引入了 API。Uber 成就了全人命周期的 uMetric 平台。Airbnb 发布了对于 Minerva 过火 API 的驻防信息。至此,语义层不再只是是一个 BI 模子,而成为一个 寂寥的平台层 。
第四阶段:2023–2024 年 / 盛开生态系统和可组合性
2024年,谷歌通过 盛开SQL接口(Open SQL Interface) 和不断壮大的流畅器生态系统,向外部器用盛开了Looker语义层。同期,Meta发布了其对于 可组合数据经管 以及不同系统间语义不一致挑战的经营效果。至此,语义层开动被视为更平庸的 互操作性架构 的一部分。
第五阶段(2024-2026 年)/语义层行为东说念主工智能落魄文层
在2024年至2025年间,谷歌明确地将语义层与 Gemini、对话分析API和MCP 流畅起来,并指出东说念主工智能应该查询语义层,而不是生成原始SQL语句。优步此前照旧通过“目的和机器学习特征即办事”的看法示意了这极少 。 至此,语义层已不再只是是一个分析抽象层。
它成为 东说念主工智能代理的受控落魄文层 。
7. “交叉图”:哪些诡秘是悉数东说念主都知说念的

8. 要达到最高水平需要作念些什么
目的不是 “购买语义层” ,而是渐渐完成六个训诫阶段。

第一级——根绝芜杂: 关节KPI不应再以Excel表格、BI估计字段或临时SQL语句行为主要数据源。LinkedIn和Uber的案例明确标明,他们构建平台的主要原因即是为了处分团队间目的重叠和不一致的问题。
第二级——一次性界说: 将目的界说移至勾搭式 规范/代码层 。这不错通过以下样子完毕:DataForge、YAML、DSL、dbt 元数据、LookML 格调的建模层、里面存储库 。
Uber、Airbnb、Netflix 和 Google 恰是这么经管目的的。
第三级——一次估计: 目的必须 在悉数所在以接洽的样子 估计:仪容盘、实践系统、临时候析、诈欺行动。这种模式在 LinkedIn 的 UMP 、Uber 的 uMetric 和 Spotify 的 目的目次 中都有赫然的体现。
第四级——无处不在:只是 保重一个目的界说库是不够的。您还需要一个 办事层 ,举例:API、查询层、盛开SQL接口、语义端点 。
这种模式在Spotify、Airbnb 和 Google 的架构中都有赫然的体现。
第五级——增强信任: 如若莫得质料检查、考据、悉数权和审查过程,语义层就无法达到企业级训诫度。Airbnb 的 数据质料评分 、Uber 的 目的级质料检查 以及 Stripe 的 数据质料平台 都标明, 信任并非无关大局,而是训诫架构的基本组成部分 。
第六级——将东说念主工智能诈欺于语义层: 下一个最高等别的设施是将语义层用作 东说念主工智能和分析代理的落魄文 。当前,最清醒的公开示例来自谷歌,它整合了以下技能:Looker、双子座、对话分析 API、MCP。
9.要迈向大型科技公司水平,需要作念些什么
设施 1
完毕 目的即代码
示例:目的:收入,界说:订单金额之和,维度:国度/地区,悉数者:财务
设施 2
创建长入目的目次。该目次应包含:公式 、 态状 、 悉数者 、 血缘 和 质料检查 。
设施 3
勾搭式目的估计。一个目的应该只估计 一次 。
不是指:在 BI 器用中、在 SQL 查询中、在 Excel 中。
第四步
构建目的 API,以便以下用户不错使用目的:BI系统、机器学习管说念、诈欺行动 。
第五步
增多治理身分。每样式的都应包含以下内容:悉数者、态状、考据测试 。
10. 小结
那么,最“避讳”的见识是什么——即便它已被公开纪录?最被低估的论断是:
率先的技能公司不会将语义层构建成BI之上的一个薄层。
他们将其打造为一款 用于经管业务的家具 ,其含义包括:
代码
驳倒
悉数权
血缘
质料
拜谒末端
回填
弃用计谋
API 和代理赔本
这种模式在Airbnb、Uber、Netflix 和 Pinterest 的架构中都能同期不雅察到。如若你仔细经营 Uber、Netflix、LinkedIn、Airbnb 和 Spotify 的架构,你会发现一个了然于目的事实:
语义层 不是一种器用 。
它是 业务目的的操作系统 。
这即是大型科技公司将其构建成这么的原因:
一个平台
一项办事
API
治理层
大型科技公司并莫得将语义层构建成一个完善的买卖智能功能。
大型科技公司将语义层构建为 界说、估计、办事、信任以及当今的 AI 基础架构的平台层 。
并非悉数公司都会公开展示单一的长入语义层。
但在职何一家顶尖公司里, 这一层级的组织机构都是了然于目的 :
家具目次
度量界说
办事 API
质料层
语义互操作性
实践重叠使用
这亦然数据器用生态系统的发展标的。
一种新的平台类别正在兴起,它不再将语义层视为 BI 器用里面的功能,而是将语义层视为数据平台的 一流架构组件。
大大都 BI 语义层本色上即是 数据模子 米乐app下载。大型科技公司的语义层是 目的基础设施 。
亚博体彩官方网站入口