将实时数据流传输到数据科学环境中

来源：CPDA数据分析师网　/　时间：2021-03-19

为了保持竞争优势并增加市场份额
许多公司正在寻找实现更快，更智能的数据分析的方法，随着对数字化和自动化的需求日益增长，以应对当前流行病的现实以及冠状病毒后世界的预期需求，这一点变得更加重要，88％企业受访者表示需要对存储的流数据进行实时分析，而超过70％的企业表示他们正在使用或计划将机器学习与流数据一起使用，因此当今的数据科学家需要更好的工具，以更低的成本和复杂度从流式数据中获取更多价值，他们需要访问功能全面的开发环境，并具有对工具的内置完全集成支持，这些工具有助于无缝开发，培训，管理和部署带有流数据的ML模型。

这样的环境将使数据科学家能够充分利用快速到达的实时数据流的数量
来构建和训练机器学习模型，从而提供更准确的见解并促进对现实世界的影响做出明智，快速的决策，具有存储数据的分析与具有流数据的分析，传统上使用历史数据或静止数据来训练机器学习模型，如今许多机器学习应用程序旨在识别历史数据中的可靠，可重复的模式和异常，以识别未来将发生的情况，这里的假设是，世界将保持不变……并且过去观察到的模式将在未来重演，尽管此方法在某些情况下提供了有用的见解，但不适用于许多实际应用程序和用例。

前沿数据科学不是通过观察过去来提供预测
而是通过查看实时数据来专注于“查询未来”，将数据科学模型实时应用于流数据传输具有多个优点，它可以通过快速考虑和吸收新发现的见解来增强AI驱动的应用程序的性能和准确性，结果ML应用程序可以立即意识到数据模式的动态变化，以支持关键业务流程并为适用的用例提供竞争优势，流分析是至关重要的关键，使企业可以实时实现这种智能分析和数据驱动的决策，将实时数据流整合到他们的工作流程中意味着公司可以基于流入管道中的数据来实现模型的自适应学习和连续校准，以增强运营并进一步挖掘业务价值。还可以应用特殊算法来实时地同时改进预测模型并避免概念漂移，在处理动态数据而不是静态数据时，需要使用不同的架构，技术和分析方法。

实现流数据科学
希望通过构建可对数据流进行转换和响应的应用程序来享受实时数据分析前景的企业，必须首先构建实时流数据管道，才能可靠地将数据导入其数据科学环境，当今的数据科学家可以使用大量开放源代码工具，框架和库来训练他们的ML模型，但是许多这些工具都适合于浏览和可视化静态数据，使用实时数据流需要以极低的延迟显示数据，而且很少有工具可以处理这种延迟需求，流数据通常由一系列带有时间戳的数据包组成，想要与之合作的数据科学家必须使用可处理此类数据的本机数据类型附带的工具，这使得更容易清洁和可视化数据，探索模式并大规模提取见解。

对于这些类型的用例，数据科学平台可能会是有益的
因为它们提供了完善的数据科学环境，许多内置于流行的Python库中，以使数据科学家能够在数据探索，培训等过程中使用新的实时数据集，专注于实时环境的数据科学平台也将使数据科学家能够轻松地进行工作，在其Python环境中访问历史数据和实时数据，以进行探索和培训，为了将实时数据流传输到数据科学开发环境中，可以从现有的Kafka流中将数据收集到时间序列表中，分布式水平可扩展的开源流媒体平台，每天可处理数万亿个事件，用于将数据流摄取到处理平台中的的框架，本质上它充当数据传输机制，可替代地充当流的传输点或流的获取点。

为了加快数据吸收

然后将其事件吸收到时间序列表中，快的开源无服务器框架，接下来可以使用仪表板对流进行可视化，可以使用Python代码在Jupyter笔记本中操纵时间序列数据，这样数据科学家可以构建，监视和管理实时ML管道，这些管道可以自动化并自动扩展数据科学工作流以处理实时流数据。

返回列表