这是一个问题原因有三：

arzina221 · Post by **arzina221** » Thu Jan 23, 2025 4:08 am

ETL 管道运行时间很长，会产生错误和问题。但您可能只会在运行后才发现，现在您必须弄清楚到底是什么出了问题。这非常令人分心。
现有的模型可能无法提供业务所需的答案。分析师希望快速行动，因此他们绕过您并开始添加新模型，甚至直接在您的仓库中查询原始数据。如果底层表发生变化，这会导致模型膨胀和损坏。
您的最终用户可能正在使用为他们生成 SQL 的工具。或者他们编写自己的 SQL 语句。这两种方法都可能导致 SQL 语法不佳，从而给整个仓库带来压力，导致每个人的查询速度都很慢。
然后用户向数据工程师提交支持单（“我的查询很慢”或“我的查询没有完成或结束”）。然后你就会被支持请求淹没。

当然，我们是在夸大其词，但从方向上看，这是这份工作最糟糕的三个部分。我们称之为“保持运转”。

数据工程中最糟糕的部分
我认为最糟糕的是最后一点——处理糟糕的 SQL。

这是因为管道和模型是你可以控制的。约定、工具、监控、警报、访问权限等——有办法为事物设置护栏。

但无法控制最终用户及其 SQL。例如，我见过没有 WHERE 子句的“SELECT *”查询，连接两个各有 20 亿行的表。输出非常大，以至于填满并压垮了仓库。“谁写了这个查询？？”。

不太明显的结果包括编写查询需要 10 分钟才能执行，而一个小的更改可能会导致 1 分钟的执行时间。这听起来可能不是什么大问题（“我要去喝杯咖啡了”），但这会造成巨大的生产力损失。对于数据科学来说，快速迭代和测试模型才是最重要的。

是的，您可以设置规则来终止查询，但这样做只会增加分析师提交的支持票数量，因为查询没有完成。

对于数据工程师来说，这些查询的编写者也并不明显。分析师使用的工具掩盖了其背后的用户。Tableau、Looker 或 Mode Analytics 等仪表板工具在您的仓库中显示为一个用户。

但在他们背后，可能有 100-200 人编写查询。因此，您使用“Looker”作为用户，但您不知道编写查询的是“Jack”、“Anne”还是“Joe”。因此，需要进行大量挖掘才能找出发生了什么以及谁编写了哪个查询。

概括
以上就是长版本。答案的简短版本是“最终用户的 SQL 语句很差”。

您无法控制分析师编写的 SQL 语法。您很可能只有在查询运行并造成损害后才会发现。
分析师用来编写查询的工具掩盖了其背后的用户。面对数百名用户，找到编写查询的人就像大海捞针一样。
您不能直接关闭分析师或终止他们的查询 - 这将导致支持票的增加以及数据工程和数据消费者之间的摩擦。
随着数据生产者与数据消费者的比例不断增长，问题只会越来越严重。您需要支持的最终用户越多，您需要处理的投诉和工单就越多，这会让人非常沮丧，而且浪费大量时间。

问题的答案当然是让分析师能够编写更好的 SQL，并帮助数据工程师与分析师进行合作。

我们步入 2025 年，我们很高兴与大家分享 2024 年第哥斯达黎加电话数据四季度的产品亮点。从推出新产品到完善现有功能，本季度的重点是精准和效率。一方面，NextBillion.ai推出了 Dispatch APIs Suite、Route Report API 和 Places API，另一方面，我们同样专注于增强Route Optimization API、Clustering API 等，不断升级我们的解决方案以提供更大的价值。以下是这些更新的详细概述以及它们如何有助于实现承诺的价值。
MapFusion Dispatch API 套件
新的 Dispatch API 与 NextBillion.ai Driver 应用程序无缝集成，以提高运营效率。它们允许您从任何来源生成路线，而无需依赖NextBillion.ai路线规划器。借助 Dispatch API，调度员可以将这些路线直接发送到 NextBillion.ai Driver 应用程序。这一简化流程可确保您灵活、精确地管理车队。该团队推出了两款由MapFusion提供支持的强大调度 API 产品：路线调度 API 和文档 API，旨在简化和扩展调度流程。
路线调度 API
路线调度 API可让调度员通过电子邮件直接向司机发送计划路线和详细站点信息。它有助于简化沟通，确保司机掌握所有必要的路线详细信息，包括距离、预计到达时间以及每个站点的具体说明。