有五种核心 AWS 技术可作为该架构的基础:
Posted: Thu Jan 23, 2025 3:54 am
数据之争
大公司通常不会从头开始启动全新的项目,那么为什么道琼斯决定从头开始创建一个全新的数据平台呢?
在道琼斯,数据用户在处理数据时面临五个问题。
真相的多个版本
绩效可见性有限
浪费时间寻找数据
缺乏洞察力会损害决策
无法细分
道琼斯在云化之前面临的数据挑战
用户无法获得他们想要的数据。考虑到这些问题,科琳和她的团队看到了一个机会。这个机会就是利用云,通过创建一个全新的、世界级的数据平台,将数据从成本中心转变为创收中心。
设计新的数据平台
为了规划架构并选择创建数据平台所需的所有工具,该团队成立了一个云技术专家委员会。该委员会包括道琼斯内部的专家、行业专家和 AWS 成员,以帮助设计新平台的架构。
道琼斯数据平台参考架构
S3 作为数据湖
EC2 将数据拉入 S3
EMR和Spark处理数据
使用 AWS Glue 来组织和分区数据
Amazon Redshift 作为分析平台
这五项技术构成了道琼斯数据管道的支柱。
S3 作为数据湖
S3 是获取、标准化和编目数据的暂存区。目标是收集、清理和键入每个相关客户事件以供下游使用。S3 中的数据被转换为 Parquet 并标准化,以供自助服务工具和分析用例使用。
EC2 将数据拉入 S3
并非所有道琼斯合作的系统都能够 通辽电话数据 通过现成的 ETL 工具等将数据直接放入平台。为了解决这个数据来源问题,EC2 实例从服务器、API 和第三方来源提取数据。
EMR和Spark处理数据
Amazon EMR 是用于处理大数据工作负载的 AWS 框架。EMR 允许您将数据存储在 S3 中并在单独的进程中运行计算。EMR 为 Apache Spark 提供本机支持。何时使用Spark 还是 Redshift来处理数据取决于用例。
道琼斯使用 EMR 来处理、调整和转换数据, 并对各个步骤和阶段使用不同的 S3 存储桶。
大公司通常不会从头开始启动全新的项目,那么为什么道琼斯决定从头开始创建一个全新的数据平台呢?
在道琼斯,数据用户在处理数据时面临五个问题。
真相的多个版本
绩效可见性有限
浪费时间寻找数据
缺乏洞察力会损害决策
无法细分
道琼斯在云化之前面临的数据挑战
用户无法获得他们想要的数据。考虑到这些问题,科琳和她的团队看到了一个机会。这个机会就是利用云,通过创建一个全新的、世界级的数据平台,将数据从成本中心转变为创收中心。
设计新的数据平台
为了规划架构并选择创建数据平台所需的所有工具,该团队成立了一个云技术专家委员会。该委员会包括道琼斯内部的专家、行业专家和 AWS 成员,以帮助设计新平台的架构。
道琼斯数据平台参考架构
S3 作为数据湖
EC2 将数据拉入 S3
EMR和Spark处理数据
使用 AWS Glue 来组织和分区数据
Amazon Redshift 作为分析平台
这五项技术构成了道琼斯数据管道的支柱。
S3 作为数据湖
S3 是获取、标准化和编目数据的暂存区。目标是收集、清理和键入每个相关客户事件以供下游使用。S3 中的数据被转换为 Parquet 并标准化,以供自助服务工具和分析用例使用。
EC2 将数据拉入 S3
并非所有道琼斯合作的系统都能够 通辽电话数据 通过现成的 ETL 工具等将数据直接放入平台。为了解决这个数据来源问题,EC2 实例从服务器、API 和第三方来源提取数据。
EMR和Spark处理数据
Amazon EMR 是用于处理大数据工作负载的 AWS 框架。EMR 允许您将数据存储在 S3 中并在单独的进程中运行计算。EMR 为 Apache Spark 提供本机支持。何时使用Spark 还是 Redshift来处理数据取决于用例。
道琼斯使用 EMR 来处理、调整和转换数据, 并对各个步骤和阶段使用不同的 S3 存储桶。