对 Gerrit Kazmaier 来说,托管数据库和数据湖之间的区别从来没有多大意义,而如今,随着数据堆积如山,被构造力推高,这种区别就更没有意义了。
“这种区别从来没有用过,”谷歌云数据库、数据分析和 Looker 总经理 Kazmaier 本周在与记者和分析师的虚拟会议上表示。“这是技术上的必要性,因为数据量一直在增长,而且在传统数据存储技术中管理它们变得过于复杂且成本过高。”
随着数据量的增加,组织转向数据仓库。随着数据量的进一步扩大——以及更高比例的非结构化数据——他们开始引入数据湖来完善他们的数据仓库。
“这产生了以相对较低的成本在不同的仓库中大规模存储大量数据的强烈需求,”Kazmaier 说。“这是数据湖运动的入口。但它付出了巨大的代价。对于所有这些试图在数据之上进行创新但最终发现它只是一个数据沼泽的组织来说,这付出了一致性、安全性和可管理性的巨大代价。”
它还在企业必须管理的 IT 环境中创建了单独的数据孤岛,这是其他供应商(从Hewlett Packard Enterprise和 Dell Technologies 到Pure Storage和Hitachi Vantara)正在努力解决的问题。今年早些时候,我们写了一家名为 Onehouse 的初创公司,该公司从隐身中脱颖而出,计划利用开源 Hudi 将数据库和数据仓库功能引入数据湖,创建可以容纳和管理结构化、半结构化和非结构化的 Lakehouse数据。
谷歌云正在寻求做类似的事情。在本周的数据云峰会上,该公司推出了 BigLake,它统一了数据仓库和数据湖,使组织能够通过单个数据副本存储、管理和分析其数据,而无需复制或移动数据或担心底层存储格式或系统。
BigLake 将 Google Cloud 的 BigQuery 数据仓库功能扩展到 Google Cloud Storage 上的数据湖,使用 API 接口对 Google Cloud 和开放格式(如 Parquet)和开源处理引擎(如 Apache Spark)进行更大的访问控制。它消除了 Kazmaier 所说的“托管仓库和数据湖之间的人为分离”。
BigLake 提供预览版,是 Google Cloud 在此次活动中推出的众多新产品和增强功能之一,这些产品和增强功能利用了该组织多年来通过 BigQuery、Vertex AI等数据工具所做的工作——一个集合使企业能够构建和管理机器学习工作负载的服务——Spanner 分布式 SQL 数据库管理和存储服务以及 Looker 商业智能平台。
所有这些以及数据库迁移计划等新产品及其合作伙伴计划中的更新旨在使企业能够更轻松地从他们创建的海量数据中获得更大的商业价值。谷歌云是全球第三大云提供商,约占全球收入的 10%,落后于亚马逊网络服务(约 33%)和微软 Azure(约 22%)。
解决数据挑战——不仅是存储和管理数据,还包括移动、处理、分析和保护数据——可以帮助 Google Cloud 继续加速其多年努力,以在企业中获得更大的影响力。市场研究公司 Statista 预测, 2025 年将创建超过180 泽字节的数据。
Kazmaier 说:“数据几乎是这个星球上每个高管的首要议程。” “我们相信,要转型,你实际上不能应用过时的技术、过时的架构和过时的想法来解锁真正拥有的无限潜力数据。…今天的数据是多格式的,它是流式的,并且是静止的,它跨越数据中心,甚至跨越今天的云。数据架构需要将所有这些结合在一起。”
Google Cloud 能够使用 BigQuery 等服务构建它在数据存储领域已经完成的工作,从而构建 BigLake。
“我们在 BigQuery 上拥有数以万计的客户,我们在所有治理、安全性和所有核心功能方面投入了大量资金,”他说。“我们正在从 BigQuery 中汲取创新,现在将其扩展到所有不同格式的数据,以及湖泊环境中,无论是在带有 Google Cloud 存储的 Google Cloud 上,还是在 AWS 上还是在 Azure 上。我们采用创新并将其扩展到其他数据湖环境。”
与 BigLake 一起,Google Cloud 很快将使数据工程师能够实时跟踪其 Spanner 数据库中的变化。即将推出的 Spanner 更改流可跟踪整个数据库的插入、更新和删除。这些更改可以复制到 BigQuery 以推动分析并存储在 Google Cloud Storage 中以确保合规性。
Vertex AI Workbench 现已上市,它为数据和机器学习系统创建了一个单一界面,为用户提供了一个用于数据分析、数据科学和机器学习以及直接访问 BigQuery 的通用工具集。Google Cloud 上云 AI 和分析服务副总裁 June Yang 表示,Workbench 还与 Serverless Spark 和 Dataproc 集成,使组织能够以比传统系统快五倍的速度构建、训练和部署机器学习模型。
此外,谷歌云还拥有 Vertex AI 模型注册表,这是一项预览服务,可让数据科学家更轻松地共享模型,并让开发人员更快速地将数据转化为预测。
Connected Sheets 和 Data Studio for Looker 是 Google Cloud 将其商业智能服务组合更紧密地整合在一起的过程的一部分。
“我们将这两个世界结合在一起,”谷歌云产品管理总监 Sudhir Hasbe 说。“现在您可以使用 Data Studio 或 Tableau 等工具的自助服务功能,并使用 Looker 语义层的中央模型,您可以在一个地方定义您的指标,所有自助服务工具将无缝地工作和互动那。这将使组织和高级用户能够拥有自助服务工具,而且还可以集中指标并对整个组织的业务有一个共同的理解。”
免费试用尝鲜
贴心会员服务
服务可用性
数据安全保障
全年不间断在线
工作时间:早上9:00-下午6:30
河南快米云网络科技有限公司
公安备案编号:41010302002363
Copyright © 2010-2023 All Rights Reserved. 地址:河南自由贸易区开封片区经济开发区宋城路122号