这是一个问题原因有三:

Advancing Forum Analytics at China Data
Post Reply
arzina221
Posts: 525
Joined: Wed Dec 18, 2024 8:22 am

这是一个问题原因有三:

Post by arzina221 »

ETL 管道运行时间很长,会产生错误和问题。但您可能只会在运行后才发现,现在您必须弄清楚到底是什么出了问题。这非常令人分心。
现有的模型可能无法提供业务所需的答案。分析师希望快速行动,因此他们绕过您并 开始添加新模型,甚至直接在您的仓库中查询原始数据 。如果底层表发生变化,这会导致模型膨胀和损坏。
您的最终用户可能正在使用为他们生成 SQL 的工具。或者他们编写自己的 SQL 语句。这两种方法都可能导致 SQL 语法不佳,从而给整个仓库带来压力, 导致每个人的查询速度都很慢。
然后用户向数据工程师提交支持单(“我的查询很慢”或“我的查询没有完成或结束”)。然后你就会被支持请求淹没。

当然,我们是在夸大其词,但从方向上看,这是这份工作最糟糕的三个部分。我们称之为“保持运转”。

数据工程中最糟糕的部分
我认为最糟糕的是最后一点——处理糟糕的 SQL。

这是因为管道和模型是你可以控制的。约定、工具、监控、警报、访问权限等——有办法为事物设置护栏。

但无法控制最终用户及其 SQL。例如,我见过没有 WHERE 子句的“SELECT *”查询,连接两个各有 20 亿行的表。输出非常大,以至于填满并压垮了仓库。“谁写了这个查询??”。

不太明显的结果包括编写查询需要 10 分钟才能执行,而一个小的更改可能会导致 1 分钟的执行时间。这听起来可能不是什么大问题(“我要去喝杯咖啡了”),但这会造成巨大的生产力损失。对于数据科学来说,快速迭代和测试模型才是最重要的。

是的,您可以设置规则来终止查询,但这样做只会增加分析师提交的支持票数量,因为查询没有完成。

对于数据工程师来说,这些查询的编写者也并不明显。分析师使用的工具掩盖了其背后的用户。Tableau、Looker 或 Mode Analytics 等仪表板工具在您的仓库中显示为一个用户。

但在他们背后,可能有 100-200 人编写查询。因此,您使用“Looker”作为用户,但您不知道编写查询的是“Jack”、“Anne”还是“Joe”。因此,需要进行大量挖掘才能找出发生了什么以及谁编写了哪个查询。

概括
以上就是长版本。答案的简短版本是“最终用户的 SQL 语句很差”。


您无法控制 分析师编写的 SQL 语法。您很可能只有在查询运行并造成损害后才会发现。
分析师用来编写查询的工具掩盖了其背后的用户。面对数百名用户,找到编写查询的人就像大海捞针一样。
您不能直接关闭分析师或终止他们的查询 - 这将导致支持票的增加以及数据工程和数据消费者之间的摩擦。
随着数据生产者与数据消费者的比例不断增长,问题只会越来越严重。您需要支持的最终用户越多,您需要处理的投诉和工单就越多,这会让人非常沮丧,而且浪费大量时间。

问题的答案当然是让分析师能够编写更好的 SQL,并帮助数据工程师与分析师进行合作。



我们步入 2025 年,我们很高兴与大家分享 2024 年第 哥斯达黎加电话数据 四季度的产品亮点。从推出新产品到完善现有功能,本季度的重点是精准和效率。 一方面,NextBillion.ai推出了 Dispatch APIs Suite、Route Report API 和 Places API,另一方面,我们同样专注于增强Route Optimization API、Clustering API 等,不断升级我们的解决方案以提供更大的价值。 以下是这些更新的详细概述以及它们如何有助于实现承诺的价值。
MapFusion Dispatch API 套件
新的 Dispatch API 与 NextBillion.ai Driver 应用程序无缝集成,以提高运营效率。它们允许您从任何来源生成路线,而无需依赖NextBillion.ai路线规划器。借助 Dispatch API,调度员可以将这些路线直接发送到 NextBillion.ai Driver 应用程序。这一简化流程可确保您灵活、精确地管理车队。 该团队推出了两款由MapFusion提供支持的强大调度 API 产品:路线调度 API 和文档 API,旨在简化和扩展调度流程。
路线调度 API
路线调度 API可让调度员通过电子邮件直接向司机发送计划路线和详细站点信息。它有助于简化沟通,确保司机掌握所有必要的路线详细信息,包括距离、预计到达时间以及每个站点的具体说明。
Post Reply