本文来自计算机世界。
一个可靠的数据管理战略可以为任何寻求利用数据价值的企业带来回报。尽管如此,在通往数据驱动决策的道路仍然充满挑战和谜团。
有人称数据为新型石油。其他人则称它为新型黄金。哲学家和经济学家可能对这个比喻的质量提出质疑,但毫无疑问,对于任何希望实现数据驱动决策承诺的企业来说,组织和分析数据是至关重要的。
要做到这一点,可靠的数据管理策略是关键。数据管理包括数据治理、数据运营、数据存储、数据工程、数据分析、数据科学等等,如果做得好,可以为每个行业的企业提供竞争优势。
好消息是,数据管理的许多方面都被很好地理解,并以数十年来发展起来的的合理原则为基础。例如,它们可能不容易应用或简单理解,但由于实验室科学家和数学家的努力,公司现在有一系列的逻辑框架来分析数据并得出结论。更重要的是,我们还有统计模型,可以绘制误差条来描述我们分析的局限性。
但是,尽管数据科学的研究和为其提供支持的各种学科带来了种种好处,有时我们还是会感到挠头。企业经常会撞到这个领域的极限。有些悖论与收集和组织如此多数据的实际挑战有关。另一些是哲学上的,考验我们对抽象品质进行推理的能力。此外,人们对最初收集的如此多数据的隐私担忧也在增加。
以下是一些让数据管理成为众多企业的挑战的不为人知的秘密。
|非结构化数据难以分析|
许多储存在企业档案中的数据根本就没有什么结构。我的一个朋友渴望使用人工智能来搜索他的银行的呼叫中心工作人员所做的文字记录。这些句子可能包含有助于改善银行贷款和服务的见解。但是这些笔记是由数百名不同工作人员记下的,他们对一个给定的通话应该写些什么有不同的想法。此外,工作人员有不同的写作风格和能力。有些人写得不多。有些人写下了关于他们给定通话的太多信息。一开始文本本身可能确实没有什么结构,但当你有一堆由数百或数千名员工在数十年间写下的文本时,那么不管有什么结构都可能也都没用了。
|即使是结构化的数据也往往是非结构化的|
优秀科学家和数据库管理员通过指定每个字段的类型和结构来指导数据库。有时,以更多的结构为名,他们将一个给定字段的值限制在某些范围内的整数或预定义的选择。即使是这样,填写数据库所存储的表格的人也会想方设法增加麻烦和小毛病。有时字段被留空。当他们认为某个问题不适用时,其他人会填上一个破折号或首字母"n.a."。人们甚至在同一表格中,每年、每天、甚至每行的姓名拼写都不同。好的开发人员可以通过验证来发现其中的一些问题。好的数据科学家也可以通过清理来减少一些不确定性。但是,让人抓狂的是,即使是最结构化的表格也会有可疑的条目,而且这些可疑条目会在分析中引入未数,甚至是错误。
|数据模式要么太严格,要么太松散|
无论数据团队如何努力地阐明模式约束,所产生的用于定义各种数据字段中的值的模式要么太严格,要么太松散。如果数据团队添加了严格的约束条件,用户就会抱怨他们的答案在可接受值的狭窄列表中找不到。如果模式过于宽松,用户又可以添加一些不一致的奇怪的值。几乎不可能把模式调整得恰到好处。
|数据法则非常严格|
有关隐私和数据保护的法律很强大,而且只会越来越强。在GDPR、HIPPA等法规之间,汇集数据是非常困难的,而让数据躺在那里等待黑客闯入,则更加危险。在许多情况下,花更多的钱请律师比请程序员或数据科学家更容易。这些令人头疼的问题就是为什么一些公司只要能摆脱他们的数据,就干脆把它处理掉了。
|数据清理的成本巨大|
许多数据科学家会证实,90%的工作只是收集数据,把它以一个一致的形式放在一边,然后处理无尽的漏洞或错误。拥有数据的人总是会说,"这都是CSV格式的,随时可以使用"。但他们不提那些空字段或错误的描述。花在清理数据以用于数据科学项目上的时间,是在R或Python中启动程序以实际执行统计分析的时间多10倍。
|用户越来越怀疑你的数据做法|
终端用户和客户对公司的数据管理行为越来越怀疑,而一些人工智能算法及其使用只会放大这种恐惧,让许多人对记录他们一举一动的数据发生了什么感到非常不安。这些担忧正在助长监管,并经常使公司甚至善意的数据科学家陷入公关反击。不仅如此,人们还故意用假的数值或错误的答案来干扰数据收集。有时一半的工作是与恶意的合作伙伴和客户打交道。
|整合外部数据可以获得回报,也可以带来灾难|
一个公司对其收集的数据拥有所有权是一回事。IT部门和数据科学家对此有控制权。但是,越来越多激进的公司正在想办法将他们自己的信息与第三方数据以及互联网上的浩瀚的个性化信息整合起来。一些工具公开承诺吸纳每一位客户的数据,为每一次购买建立个性化的档案资料。是的,他们使用了与追捕恐怖分子的间谍机构一样的字眼,来追踪你的快餐购买和信用评分。人们感到焦虑和恐慌有什么奇怪的吗?
|监管机构正在打击数据使用|
没有人知道什么时候聪明的数据分析会越过某条界限,但一旦越过界限,监管机构就会出现。在加拿大最近的一个例子中,政府探讨了一些甜甜圈商店是如何追踪那些也在竞争对手那里购物的顾客。最近的一份新闻稿宣布:"调查发现,Tim Hortons与一家美国第三方位置服务供应商的合同中包含了非常模糊和宽容的语言,以至于该公司可以出于自身目的销售'去识别'的定位数据。"为什么呢?为了卖更多的甜甜圈?监管机构正越来越多地注意到涉及个人信息的事情。
|你的数据方案可能不值得|
我们设想,一个出色的算法可能会让一切变得更有效率,更有利可图。有时这样的算法实际上是可行的,但代价也可能太高。例如,消费者——甚至是公司——越来越多地质疑来自精心设计的数据管理的目标营销的价值。一些人指出,我们经常看到我们已经购买的东西的广告,因为广告追踪器还没有弄清楚我们已经完成采购了。同样的命运往往在等待着其他聪明的方案。有时,严格的数据分析可以发现表现最差的工厂,但这并不重要,因为该公司在这栋大楼上签了30年的租约。公司需要做好准备,以应对这些天才的数据科学可能提供一个不可接受的答案。
|归根结底,数据决策往往只是判断|
数字可以提供足够的精确性,但人类如何解读数字往往是最重要的。在所有的数据分析和人工智能魔法之后,大多数算法都需要对某些数值是超过还是低于某个阈值做出决定。有时科学家想要一个低于0.05的P值。有时警察会给超速20%的汽车开出罚单。这些阈值往往只是任意的数值。对于所有可以应用于数据的科学和数学,许多"数据驱动"过程中的灰色地带,比我们想象的要多,尽管一个公司可能已经在其数据管理实践中投入了所有的资源,但决策还是取决于直觉。
|数据存储成本正在爆炸性增长|
是的,磁盘驱动器越来越胖,每兆字节的价格不断下降,但程序员收集数据的速度比价格下降的速度快。物联网(IoT)的设备不断上传数据,用户期望永远浏览这些字节的丰富集合。与此同时,合规官员和监管机构不断要求提供越来越多的数据,以备将来的审计。如果有人真的看了其中的一些数据,那是一回事,但我们一天只有这么多时间。真正被再次访问的数据比例不断下降,越来越低。然而,存储不断扩大的数据包的价格却在不断地上涨。