怎样才能让你的云端数据管理更专业?

51cto.com
亦安
【51CTO.com快译】当Carolinas HealthCare系统的肿瘤学家在肿瘤委员会进行审查前讨论患者病例时,表示他们正在寻求有关治疗计划和临床试验的反馈。这些医生在演示过程中展示了基因数据、病理报告、实验室结果和医...

【51CTO.com快译】当Carolinas HealthCare系统的肿瘤学家在肿瘤委员会进行审查前讨论患者病例时,表示他们正在寻求有关治疗计划和临床试验的反馈。这些医生在演示过程中展示了基因数据、病理报告、实验室结果和医生的笔记。而所有内容都是通过指尖点击就完成了,因为这些数据都存储在了Azure的Hadoop云中。

这是非盈利性医院网络第一次进入云计算,也体现了CHS对如何保护和管理其云端数据的一些细致地考虑。这家医疗服务组织拥有员工62000多人,在东南亚经营39家医院和900个其他医疗机构。

对此,CHS信息和分析服务(IAS)副总裁Chris Danzi表示,CHS需要解决的两大问题是网络和治理问题。管理内部和外部数据之间的一个显著区别是:在云端,数据可能会在数百英里之外。Danzi指出:“你正在谈论远程移动数据,所以你必须有一个电路和安全的网络来连接。”为确保每天晚上都能够准确无误地将云数据传输到云提供商那里,光这数千兆字节的传输就要求他们必须与电信运营商购买一条安全的医疗保健网络专线。

在将数据迁移到云端的一年中,CHS一直在使用一个VPN,来实现与Azure的私有连接。同时该线路也用于其Office 365系统。“另一件你必须考虑的事情是,我买这条线路不仅是为了获得更好的速度,还必须为需要实时访问的互动用户分段,以及将要做的大批量文件传输。” Danzi解释说。

他认为,在云中管理数据不同于在内部管理数据,包括在员工技能方面,都需要考虑如何设置数据治理计划以及如何启用部分技术基础架构。

Danzi说:“从可能试图窃取您的数据的人的角度来看,这些领域都必须完全重新考虑。我们已经掌握了很好的内部部署,现在我们正在传输数据并将其存储在不同的地方,所以我们必须重新考虑它。你必须不断去重新思考,因为每天我们都会听到一些新的,更为聪明的方式能破译数据。”

更多公司选择了外部数据存储

毫无疑问,云已成为许多组织的IT和数据环境的组成部分。IDC数据集成软件研究总监Stewart Bond表示,最近的IDC调查显示,越来越多的组织正在将数据整合到混合和仅云环境中,而不是将数据严格地保留在内部。

“云中数据可以是SaaS应用程序,PaaS系统或包含在IaaS中实现的数据库和文件服务器。”Bond表示,在SaaS应用程序中访问数据通常需要使用API,使用Web服务访问数据与使用SQL脚本与关系应用程序数据库非常不同。

“在PaaS环境中,实施将决定是否需要Web服务API,或者如果使用SQL或NoSQL方法来访问数据。”Bond说,在IaaS环境中的数据可能可以使用也可用于内部部署数据源的编程结构来访问,但该访问需要通过安全通信通道进行。无论如何,主数据管理技术有助于在多个不同的数据孤岛之间进行调和。

技术业务管理(TBM)理事会的新任总裁Erez Yarkoni表示,在考虑如何管理云数据的步骤时,首先组织需要非常仔细地规划网络容量。

“当我们的数据中心的数据是正确的时候,我们所理解的显而易见的事情正在发生变化,基本上是扩展你的网络足迹,你必须非常小心你的设计方式。”Yarkoni另一个身份是Telstra和T-Mobile的CIO,“这又增加了另外一个因素,如果你不仔细地计划出口和退出环境,从往返云本身以及人们如何与你放入云中的信息进行互动,那么这个花费可能非常昂贵。”他说。

Yarkoni表示,当他参与设计数据环境时,他尽可能避免将大量数据传输到云端,如果有必要,可以在一天的某些时间进行。“如果你将信息从数据中心移动到云端,并且希望获得一些服务质量保证,则必须保证这些位置之间的链接。”

检查云供应商

Forrester公司副总裁兼首席分析师Andras Cser表示,虽然组织通常会对云提供商进行审核,但这一过程往往出现脱节。“我们看到大多数组织对云计算提供商进行初步审核,他们计划存储数据,但持续的审计很少。”这可能是由于其他优先事项,流程的复杂性,云中存储的数据量以及采用云的速度加快等因素使然。而Forrester通常会看到公司要求ISO27001和SOC1/SOC2认证。CHS则规定其云提供商将进行SOC2审核,并且可以访问这些结果。CHS的Danzi表示,CHS可以审核他们与计费做法相关的记录。通过适当的通知,CHS也可以检查其供应商的数据中心。

不过,像Azure的ExpressRoute和Amazon的Direct Connect这样的产品可以在内部部署环境和各自的云端之间提供专门的网络连接。“一旦数据在云中,IT商店就不再需要数据库管理工具来管理数据库,因为管理数据库性能、调优和设置的耗时过程都由云提供商处理。”咨询公司全球数据战略公司信息管理总经理Donna Burbank说。

她指出:“了解你的数据,并知道它在哪里和保护它是重要的,但它的许多日常管理已经消失了。云提供商现在监督诸如性能和调优等任务,并检查服务器是否正在运行并正在进行备份。(换言之,在某种程度上监督供应商是一个很好的做法)”

保护云数据

“管理云中的数据不同于在内部管理数据,特别是在处理敏感数据(例如客户信息)时。”Burbank说。当另一个实体控制个人信息时,她建议使用PCI数据安全标准和令牌化密钥。当公司利用云提供的效率时,“有很多假设的信任,但是你仍然没有完全控制它。”

Forrester高级分析师Heidi Shey同意Burbank的意见,即安全令牌是保护数据的一种方式,但她表示,组织应该规定谁掌握这些数据,“一些安全解决方案将加密作为这些控制之一,谁拥有的是关键问题。有些公司希望拥有自己的控制权,而其他公司则会相信供应商。控制你自己的钥匙是最好的选择。这样做有时会增加另一层复杂性,因为你是一个管理者,但它是一个额外的控制。”

除了确保云端数据安全外,确保数据在传输过程中的安全也很重要。这可能需要VPN连接、HTTPS、SFTP/FTPS和其他安全的通信方式。

IDC的调查还表明,随着数据在云中分布越来越多,信任越来越困难,主数据特别是有关组织关心的人员,地点和事物的数据是最分散的,因为某些形式的需求将需要存在于每个应用程序中。

云数据管理难题

然而,在2017年1月份的Forrester调查中,通过对美国和加拿大的150位数据安全专业人员的调查,只有31%的受访者会根据其敏感度对云中的企业数据进行分类。另外,只有约三分之一(34%)的数据安全专业人员知道他们的云计算公司数据位于何处。

对此,Forrester的Shey认为,还必须考虑云安全治理流程,以及将企业安全要求与合规性和隐私权法律相一致,特别是涉及个人信息时。

因为是一个医疗保健实体,CHS正在寻求在云中更加复杂的安全性。CHS的Danzi解释说,人们在云中使用的大量Hadoop环境并不比结构化关系数据库环境成熟。CHS正在使用Apache Hadoop的HDInsight,它具有Apache Ranger等产品用于管理和管理用户级访问的Enterprise Hadoop的安全层。

Azure支持两个版本的Hadoop实现。完全管理的HDInsight版本不支持Ranger以及IaaS版本HDP。“HDInsight符合HIPAA标准”,但没有Ranger的用户级安全特性,所以我们必须限制访问。”Danzi解释说。这是CHS早期学习的重要课程,即确保云端供应商支持公司正在使用或希望使用的软件版本。“你不能以为这些东西提供你所使用的所有安全协议和保护。”

此外,“我们知道,我们使用的Hadoop版本是全部或无论在谁被授予访问权限。但CHS只希望其信息和分析服务(IAS)管理员能够访问其环境。因此,CHS在Microsoft SharePoint中构建了一个安全的应用程序,仅向肿瘤板上的医生提供患者信息。

Shey补充说,云中管理数据的另一个重要方面是数据驻留和数据传输。“如果你有来自特定国家或地区的客户数据,你会看到一般数据保护条例的作用,但具体国家可能有自己的数据居住要求。”

Global Data Strategy的Burbank认为:“你需要知道数据在何处存在数据,因为法律在不同国家是不同的。”

其他云管理考虑

Burbank指出,数据备份和恢复应该在云提供商的服务级别协议中阐明,这是他们应该提供的关键优势之一。这些SLA应包括有关提供者是否具有故障切换站点以及该故障转移站点所在位置的信息。“另外需要考虑你是否可以选择这些故障转移的地方。”

“组织还应该考虑他们在云中管理的数据的格式。它可能在关系数据库、平面文件或电子邮件中。如果客户数据存储在大容量的数据仓库中,他们还需要考虑是否拥有内部管理技能。”Burbank指出,“如果你在数据周围进行大量的清理和管理,那么这是需要考虑的事情,而且很多云技术都不那么先进。但是,如果你有原始数据可以轻松扩展和迁移,那么它非常适合于云端,因为它不需要很多管理。”

“由于技术如此之新,所以管理云中数据所需的技能可能难以实现。”IDC的 Bond表示,必要的技能将取决于数据是SaaS、PaaS还是IaaS模型。在技术层面上,IT人员可能需要熟悉互联网技术,如Web服务、SSL、安全FTP和RESTful API。他们也可能需要熟悉IaaS体系结构,如虚拟机、对象存储,可用区域和子网络。在业务层面,用户需要意识到管理数据输入和维护的策略,以及跨多个系统进行数据复制的延迟问题。

计划意外

CHS的Danzi表示,他们发现CHS的一些“热切的数据科学家”刚刚开始运行R编程语言编写模型来研究再入院风险。因此,在Azure,IAS小组撰写脚本,以便在不需要计算时在晚上关闭模型。“云像一个扩大的气球,你必须告诉它让空气流出来,它让你有能力编写脚本关闭服务器。这就是所谓的弹性,你想确保你的云供应商能够弹性上下,只有在你使用它们的时候才支付资源。”

他还建议受监管机构应该拥有良好法律技能的人员,“你与第三方服务提供商必须确保所有HIPAA合规性和良好的业务关联协议”。

许多云供应商提供分析产品,并为潜在客户提供基准分析,Danzi认为,需要确保这些供应商在将你的数据提供给你所在的行业同行时,将其数据匿名化。

组织可能不会考虑的另一个问题是,如果他们在Azure上编写算法,可能希望保护该算法的知识产权,以免其他人在云中使用它。Danzi认为,所有数据将在15年时间内在云端托管。在管理云数据时需要大量的额外工作,但这些是值得的,“虽然新环境需要更加持续的警惕,但你可以访问这种令人惊奇的技术。”

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论