`
sogotobj
  • 浏览: 615731 次
  • 性别: Icon_minigender_2
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

数据仓库—在“啤酒与尿布”中挖掘

阅读更多

  数据仓库—在“啤酒与尿布”中挖掘

2006.01.16来自:赛迪

  对话者:

  主持人:程鸿——《计算机世界》报记者

  专家:孟晓峰——中国人民大学信息学院教授

  祁国辉——“数据仓库之路”网站主持人

  it厂商:杨顺生——ncr大中华区市场及合作伙伴总经理

  用户:陈道斌——工商银行信息管理部处长(博士)

  对话主题:

  数据仓库在中国的应用前景如何?  

  

  数据仓库的门槛有多高?

  主持人:自从“啤酒和尿布”的故事在中国广泛流传之后,数据仓库在中国也热闹了一阵子,许多企业家曾对它抱以极大的希望,但为什么时隔不久数据仓库应用就进入了“冬眠期”?数据仓库技术在中国的应用受到了哪些因素的制约?

  孟晓峰:数据仓库是在数据库基础上发展而来的,它通常有三个部分:数据仓库(data warehousing)、联机分析处理(olap)及数据挖掘(datamining),它们之间具有极强的互补关系。数据仓库是为了满足人们在高度数据积累基础上进行数据分析的需要而产生的,但由于目前中国在基础数据的积累方面存在不足,导致数据仓库技术的应用没能推广开来。一个技术的出现一般是由于创新者提出新的概念,研究者去解决某些问题;虽然数据仓库已经跨过了这一阶段,但目前在数据仓库的应用推广过程中,又遇到了一个门槛,那就是这种技术如何被多数人所接受。我认为要使数据仓库被多数人接受,首先需要解决的问题就是数据挖掘技术如何与现有商业技术的结合。目前市场上已有多种适用解决所有商业模式的通用数据挖掘系统,但实际上这些系统极其不好用,只有那些非常熟悉数据挖掘技术的人才能够理解和使用它们,而普通用户是很难应用这些技术来解决自己的商业问题。

  杨顺生:我们是一家真正经营数据仓库产品的企业,从我们与国内企业接触的经验来看,数据仓库技术在中国没能很好发展起来,主要有以下几方面原因:第一,中国的信息化基础设备相对不太完善,例如目前电信行业的计费数据非常分散,计费工具就有40~50种,数据采集都是各搞各的,为今后的分析带来许多技术上的困难。第二,企业的竞争意识和服务意识还不够强,对于决策分析的需求还不那么迫切,由于企业没有机会实施数据仓库,因而也相应造成这方面技术人才缺乏的现象。第三,数据仓库是一个数据共享的系统,不同层面的人从中得到的信息会大不一样,它对企业决策是一个很好的工具,但目前中国企业没有建立起一个管理机制来推动数据的共享,不论是对人的能力、企业的组织制度还是数据质量都没有一个连续的管理机制,要在这样的基础之上建立好用的数据分析是非常困难的。

  祁国辉:实际上,在国外市场竞争非常激烈的环境下,每个商场为了自身的生存,已经想尽了办法,很多能够被人工发现的规律早就发现了,在这种情况下,使用数据挖掘技术来解决问题是一个很正常的想法。但是数据挖掘工具并不能直接告诉决策者应该把啤酒和尿布摆在一起卖。国内企业有很多实施了数据仓库,但结果大多不尽如人意,其关键的原因在于,建设数据仓库时一定要先确认为什么要投资数据仓库?要利用数据仓库解决什么问题?数据仓库要达到什么目的才可以告一段落? 否则做完数据仓库还不知道该怎样来用,如何评价其成功与否。其次,数据仓库不是那种买来就可以使用的软件产品,事实上,数据仓库更像一个过程,一个用户逐步认识自己、提高自己的过程。第三,数据仓库不仅要反映出企业的现状,而且还要依靠用户做出最终的决策。总之,国内数据仓库不太成功的原因除了用户的应用水平、业务管理水平有待提高外,数据仓库产品价格居高不下的原因也多多少少影响到其在国内的顺利推广。

  陈道斌:我本人是从事信息分析方面工作的,对于为什么要借助数据仓库也正在展开一些研究。作为用户我感到,银行业最需要数据仓库技术,也最应该大力发展数据仓库技术。近几年国内几大银行都在这方面进行了一些尝试,然而迄今为止失败者多,成功者少。其中最主要的原因就是许多银行在建立数据仓库系统时,对系统所要实现的功能定位不明确。一个数据仓库系统应明显区别于业务处理系统,因为业务系统的要求往往是快速响应和界面简单等。而数据仓库与业务系统并不是平行的关系,它应该是基于所有业务系统之上的,对业务信息进行采集、分析、整理和发布等,应该是一个稳定的、带有时间参数的数据集合。数据仓库技术本身并没有新的内容,它是管理科学、计算机科学、网络科学和分析手段的大融合。

  数据仓库技术好用吗?

  主持人:数据仓库应用不理想是否存在技术上的原因?使用者的层次与数据仓库前端工具之间是否存在矛盾?

  孟晓峰:在数据仓库的三个概念中,数据仓库是企业进行数据分析的基础,它的主要工作是将数据库中的原始数据进行归纳整理,聚集成一个可供高层次使用的数据集合。在数据仓库的基础上有两类分析工具,一类是做分析型工作的olap,另一类是做预测型工作的数据挖掘。数据挖掘概念的提出,是希望发现像“啤酒和尿布”这样具有关联性的规律。但目前这套技术体系,无论在中国还是在世界其他国家,应用都受到一定制约,最主要的原因是,这套技术还没有达到数据库技术的成熟度和易用性。但目前看来,所有产品的可用性都还值得怀疑,因为如果你不是一个数据库专家、统计学专家以及人工智能专家,你将很难用好这样的分析工具。目前市场上的数据仓库产品都是基于一个通用的技术平台而设计的,这种产品虽然能够解决不同用户的分析需求,但它没有将特殊领域的商业逻辑与数据仓库技术集成起来,因而分析效果不可能达到峰值。另一个技术瓶颈是目前各种算法层出不穷,还没有经历一个大浪淘沙的沉淀,而数据库中的检索技术经过人们多年的摸索,已经形成几种固定、成熟的技术模式,这是数据仓库产品没能达到数据库产品实用性的另一个原因,所以说目前数据仓库技术的发展仍处于积累阶段。

  陈道斌:工商银行在建立数据仓库系统时的统一认识是,在市场上买不到可以直接使用的数据仓库产品,必须根据自己的业务进行量身定制,必须将自己的数据源及业务需求理清楚,然后将中间搭桥的工作做好,这个搭桥的工作需要市场上的数据仓库产品的支持,从一开始就必须注意业务与技术的协调。

  祁国辉:由于数据仓库是从西方国家产生的,它带着浓厚的西方文化色彩,最典型的是数据仓库中的报表展现。国外的产品注重的是报表内容,但是中国要求内容和格式一样重要,甚至有些时候格式比内容更重要,在这一点上,国外的报表工具很难满足中国用户的需要。数据仓库作为一个工具,企业内部每个层次的用户都可能利用它产生效益,但是真正实现起来,还是存在用户水平与需求问题,我们不可能要求每个用户都能够自已去数据仓库中获取数据,而且安全措施也不允许这样做。这时,我们需要的是一系列不同的数据仓库前端工具,而这正是目前所有的数据仓库产品都缺乏的。目前的产品大多数只提供一种工具,试图满足所有人的需求,结果每个人都不满意。  

  数据仓库应用范围如何?

  主持人:哪些行业对数据仓库的需求较大?目前数据仓库技术在国内哪些行业应用较好?为什么?

  杨顺生:我曾经根据一些假设条件对某些行业和企业实施数据仓库的成熟度作过分析。在2000年全球财富杂志500家名单中,有近50%的企业已经实施了企业级数据仓库或部门级数据集市,我们了解到电信、银行、零售、航空、铁路、邮政、食品、消费类制造、汽车、医疗、保险等行业是对于数据仓库技术需求最为强烈的行业。在所有这些实施了数据仓库的行业中,所占比例分别是:零售业17家、航空业16家、有线电话15家、移动通信企业14家、银行业13家。另外,我们还对目前全球不同行业实施过数据仓库的企业数量进行了统计:根据国外实施的经验,我们发现,领导的需求度、信息技术基础设施、分析型的应用需要以及竞争的激烈程度这四项因素是影响企业实施数据仓库进度的关键因素。企业规模越大、历史数据越多,实施数据仓库的迫切性就越高;零售和制造型企业目前较重视成本控制,会首先使用营运和生产的分析型应用;政府监管部门由于历史数据采集的困难,实施数据仓库的速度相对较慢;企业集团总部为加强监管,会采用数据仓库作为处理和分析大集中的信息技术手段;受过工商管理学教育的领导,比较重视科学化的决策手段,因此比较支持数据仓库的建设。

  陈道斌:目前在中国金融系统只有工商银行在数据仓库的应用方面有所突破,其原因是:首先工商银行规模较大,客户群庞大,因此必须对客户进行深入研究,以实现以客户为中心的服务模式;其次,早在1999年9月1日,工商银行就提出将所有业务都集中在北京和上海两个中心进行处理,实际上解决了建立数据仓库所必需的数据集中问题;第三,工商银行有一个最大的优势,就是已经推行了一套统一开发的综合业务系统,提供了客户信息整合的条件。而从领导支持的角度看,现在的行长是专门研究高技术环境下的商业发展问题的,他对于利用信息技术发展银行业务有着独到的见解,因此工商银行目前在数据仓库的第一个项目(客户关系管理)上已经有了实质性的进展。

  怎样跨过数据仓库门槛?

  主持人:中国数据仓库市场成熟吗?对于前面所提到的制约因素,我们能够提出哪些解决思路?应采取什么样的措施和手段来推动中国企业数据仓库的应用?

  祁国辉:这个问题问得好!gartner group 曾经有一份数据仓库市场占有率的报告,从报告中可以看出,到2003年,美国的数据仓库销售额将占全世界的58%,亚洲只占7.5%,不难看出我们的差距。但是目前两者的技术发展速度相差不多,所以说数据仓库应用市场在中国还是存在的。我认为惟一的解决办法是,让企业直接面向竞争激烈的市场,改变管理思路,这样很快就会产生需求,看书学拳击永远也领悟不到拳王的丰富经验。

  孟晓峰:现在越来越多的公司在建立基于web的电子商店,这些商店可以收集到大量的原始数据,因此电子商务成为数据仓库技术极有前途的应用领域。而如何为电子商务应用提供一套特殊的数据仓库解决方案,应该比一个通用化的解决方案更能够为市场所接受,从而跨过数据仓库应用过程的门槛。现在数据仓库应用领域有许多定制的需求,用户急需一种既可以提供数据分析又可以提供客户个性分析的工具。

  杨顺生:从先进国家的经验中我们发现,联机交易处理系统(oltp)和企业网两项信息化基础设施是实施数据仓库的必备条件。竞争环境越激烈就越需要数据仓库系统,企业需要了解客户的需求、需要发现经营风险同时还需要进行经营分析和管理,所有这些分析都属于大数据量的分析,采用传统的信息技术将会产生很多局限性,必须依靠一个tb级的数据仓库系统才能解决以上问题。数据仓库是分析型的应用,是解决复杂经营问题最合适的信息技术。但这些观点适合中国的企业生态环境吗?有没有国内的案例可以支持上述观点呢?最近上海证券中央登记结算公司和中国民航信息网络公司已成功地实施了tb级数据仓库系统,这两个案例是对中国企业、事业单位实施数据仓库必要性最有力的论证。

  陈道斌:从工商银行实施数据仓库的情况看,数据仓库技术在中国有着极大的发展前景。数据仓库本身的技术和方法体系有很多,但在建立数据仓库应用时,还应该以问题为导向而不能以方法为导向,要根据问题寻找产品和工具。在这方面失败的例子太多了,主要原因就是许多企业是先购买了数据仓库产品,觉得这个产品很好,一定要将它用起来,然后才开始建立自己的系统,这种做法已经被实践证明是不可行的。开发数据仓库应用不能急于求成,希望一次能够将所有的问题都解决是不可能的。数据仓库的建设过程要讲究方法论,要在一个大的需求框架下进行,在业务和技术人员很好沟通的情况下,一次解决一个问题。

分享到:
评论

相关推荐

    [啤酒与尿布].Bear.and.Diapers.2008.Scan-HARRISON.pdf

    啤酒与尿布是数据分析届的神话,指的是购物篮中的商品之间具有关联关系,我是本书的作者,与其让别人大肆发我的盗版,不如我自己上传

    啤酒与尿布的二维数据关联度分析

    在一家超市中,人们发现了一个特别有趣的现象:尿布与啤酒这两种风马牛不相及的商品居然摆在一起。但这一奇怪的举措居然使尿布和啤酒的稍量大幅增加了。这可不是一个笑话,而是一直被商家所津津乐道的发生在美国...

    啤酒与尿布:神奇的购物篮分析

    数据分析、挖掘方面入门书籍。通俗易懂,不错的书籍。。。。。。。

    数据挖掘 数据仓库

    在超市的一般销售当中,销售的物品种类之间可能存在某些联系,比如啤酒和尿布

    竞赛题目——啤酒和尿布.cpp

    研究“啤酒与尿布”关联的方法就是购物篮分析,购物篮分析曾经是沃尔玛秘而不宣的独门武器,购物篮分析可以帮助我们在门店的销售过程中找到具有关联关系的商品,并以此获得销售收益的增长! 商品相关性分析是购物...

    数据挖掘试题(150道)

    某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?

    数据挖掘之Apriori算法详解和Python实现代码分享

    关联规则挖掘(Association rule mining)是数据挖掘中最活跃的研究方法之一,可以用来发现事情之间的联系,最早是为了发现超市交易数据库中不同的商品之间的关系。(啤酒与尿布) 基本概念 1、支持度的定义:support...

    数据挖掘大作业结果分析报告.docx

    因为从本质上来说,数据挖掘这个技术是不能证明因果的,以一个最典型的例子来说,例如数据挖掘技术可以发现啤酒销量和尿布之间的关系,但是显然这两者之间紧密相关的关系可能在理论层面并没有多大的意义。...

    数据挖掘与数据分析论文.doc

    数据挖掘技术与应用综述 *** (**大学经管学院**班 河北 石家庄050000) 摘 要:数据挖掘能为决策者提供重要的,极有价值的信息或知识,越来越多的大中型企 业开始利用数据挖掘来分析公司的数据来辅助决策支持, 市场...

    大数据应用案例.pdf

    一、啤酒与尿布 案例背后 数据支持:购物篮数据 数据挖掘技术:关联规则挖掘(Association Rules Mining) 经典算法: Apriori FP-Growth …… 一、啤酒与尿布 案例背后 数据支持:购物篮数据 数据挖掘技术:关联...

    关于数据挖掘的若干资料

    5.洪健飞:啤酒与尿布的当代版——商品分析在电子商务中的应用 6,。李忠:R Case Study from ebay APD 7.廖明:营销分析模型及其在广告界的应用 8.林祯舜:大数据时代下电子商务及营销的机遇与挑战 9.刘成昊:模型...

    数据挖掘概念与技术原书第2版第5章 数据挖掘技术之挖掘频繁模式、关联和相关 共57页.ppt

    ---啤酒和尿布? 买了PC之后接着都会买些什么? 哪种DNA对这种新药敏感 我们能够自动的分类WEB文档吗? 应用 购物篮分析、WEB日志(点击流)分析、捆绑销售、DNA序列分析等 频繁模式挖掘的重要性 揭示数据集的内在...

    大数据时代数据挖掘与分析-讲义.pdf

    商务智能技术 三个核心技术 – 数据仓库Data Warehouse – 联机分析处理OLAP – 数据挖掘Data Mining 其他: – 数据可视化 – 计算机网络与Web技术 – 云计算 – 大数据 数据挖掘基本概念 "啤酒"和"尿布" 一则...

    数据挖掘与数据分析的区别(经典).pdf

    如我们常说的数 据挖掘案例:啤酒与尿布、安全套与巧克力等,这就是事先未知的,但又是非 常有价值的信息; (3)方法:主要采用决策树、神经网络、关联规则、聚类分析等统计学、 人工智能、机器学习等方法进行挖掘...

    数据挖掘分析报告.docx

    因为从本质上来说,数据挖掘这个技术是不能证明因果的,以一个最典型的例子来说,例如数据挖掘技术可以发现啤酒销量和尿布之间的关系,但是显然这两者之间紧密相关的关系可能在理论层面并没有多大的意义。...

    美赛三个经典案例内容分享及简要分析.docx

    内容概述:啤酒与尿布案例是美赛中一个经典的关联规则挖掘问题。某大型连锁超市发现,啤酒和尿布这两种看似毫无关联的商品,在销售数据上却呈现出高度的相关性。具体来说,在每周四,男性顾客在购买尿布的同时,往往...

    数据挖掘分析报告模板.doc

    不适合进行科学研究,因为从本质上来说,数据挖掘这个技术是不能证明因果的,以一 个最典型的例子来说,例如数据挖掘技术可以发现啤酒销量和尿布之间的关系,但是显 然这两者之间紧密相关的关系可能在理论层面并没有...

    [详细完整版]6大数据.doc

    场调查人员和分析师对这一数据挖掘结果进行调查分析,经过大量实际调查和分析,揭 示了隐藏在"尿布与啤酒"背后的美国人的一种行为模式:在美国,一些年轻的父亲下班 后经常要到超市去买婴儿尿布,而他们中有30%~40%...

    数据挖掘读书报告.docx

    数据挖掘应用到生活的各个方面,数据挖掘的十大经典算法也随着数据挖掘技术的发展而不断的改进和完善,其中Apriori算法是十大经典算法中最为经典的一种算法,该算法是一种挖掘关联规则的频繁项集算法,其核心思想是...

    大数据时代下的数据挖掘试题及答案.doc

    数据归约 2) 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖 掘的哪类问题?(A) A。 关联规则发现 B. 聚类 C. 分类 D。 自然语言处理 3) 以下两种描述分别对应哪两种对分类算法的...

Global site tag (gtag.js) - Google Analytics