使用PowerPivot建立简单的分析模型

2013-03-22

数据透视表是一个很灵活的工具,通过这个工具用户可以很容易的生成自己需要的报表。无论是对于专业的IT用户还是业务部门的用户,他们都很熟悉Excel这个工具,并且对于PowerPivot的使用方法也相当的"炉火纯青"。 传统透视表的数据来源可以是Excel工作表,也可以是分析服务中的多维数据集这两种主要的方式。相对前者由于数据是存储在Excel的工作表中,所以业务操作人员很容易上手,很适合小...

BI笔记之---合理处理SSAS数据库的几点建议

2013-03-22

今天又有朋友遇到SSAS数据库处理速度慢的情况,主要是由于数据聚合量确实很大,每次处理都要超过三十分钟,有没有什么方法能让处理的时间少一些呢? 从事BI工作有七个年头了,这样类似的问题绝对可以排在职业圈内TOP 10的FAQ当中。这样的问题往往都略有复杂,在此根据遇到过的一些场景,罗列一些自己的经验。 由于篇幅限制,这里只介绍遇到问题时的解决思路,详细的操作我会链接到我的其它随笔供大...

使用分析服务多维模式建立简单的分析模型

2013-03-22

多维数据集是一种特殊的数据库,按照默认的模式(MOLAP),它把数据仓库里事实表和维度表的数据经过聚合存储在另外一套独立的文件系统中。经过聚合的数据在统计性能上会得到提升,并且可以让用户通过很简单的前端工具,比如Excel来生成很简单的报表。 这里将介绍如何制作一个简单的多维数据集。 此篇使用的版本是SQL Server 2012,对应的Visual Studio Shell是2010,名称也改为SQL Data Tools。 ...

数据分析、数据挖掘的商业化进程

2013-03-21

需求分析:1、数据分析、数据挖掘很多学校开设了专门的学科。学会操作这些软件,和能解决实际问题,还是有很大差距的。主要的差距在于商业知识的缺乏,因为学校没教。2、另一方面,商业管理上定性向定量转变的需求十分旺盛,但是此类人才很难培养,更难找。以上两点,形成较大矛盾,因此开设本组。希望能聚集一些人气,互相提高。希望:大家能在数据分析数据挖掘方向上,问有质量的问题。尽量描述清...

细数5大免费开源的数据挖掘软件

2013-03-21

【IT168 评论】在网上看到一篇文章介绍五个免费开源的数据挖掘软件,转过来。OrangeOrange 是一个基于组件的数据挖掘和机器学习软件套装,它的功能即友好,又很强大,快速而又多功能的可视化编程前端,以便浏览数据分析和可视化,基绑定了Python以进行脚本开发。它包含了完整的一系列的组件以进行数据预处理,并提供了数据帐目,过渡,建模,模式评估和勘探的功能。其由C++和 Python开发,它的图形...

关于数据挖掘软件【转】

2013-03-21

国外部分有影响力的数据挖掘软件列表转载自:http://blogger.org.cn/blog/more.asp?name=DMman&id=24324以下介绍分别按:公司、数据挖掘工具及其特点、应用行业案例 三个方面。1、ANGOSS软件公司http://www.angoss.com/KnowledgeSTUDIO平台:NT , Windows 9X功能:CHAID算法,支持PMML,留有与SAS、S-Plus的接口,能够灵活地导入外部模型和产生规则,包含神经网络建模的能力优点:响应快,模型...

大数据时代的脚步

2013-03-20

大数据时代的脚步似乎越来越近了,可这次浪潮似乎与以往大不一样,小公司们开始焦虑,我们可不是百度、腾讯、阿里巴巴,作为我们这些仅掌握有限数据流的公司,如何参与大数据时代的竞争呢?大数据在美国的落地状况似乎一直不错,今年以来正向中间市场渗透,一些连接IT设备制造商、供应商和分销商的企业,也开始绞尽脑汁将既有数据应用到业务中去。他们致力于用大数据建立相对完美的商业模式,服务于...

开发BI系统时的需求分析研究

2013-03-20

我们知道MIS,知道ERP,知道GIS等等,这些系统在管理限制上有很多的冲突,管理和被管理,开放和限制等等,然而BI在开始就不是这样的。BI要求的就是易用还要易于扩展,首先是报表,这个是你无条件的需要去做的,其次是adhoc和analysis,同样的岗位有不同的需求,这不是权限,管理等等的需要,而是一种习惯。实施BI project的时候,我们经常遇到这样的情况:1:花少量的时间去理解客户的要求,比如repo...

大数据量下的SQL Server数据库自身优化

2013-03-20

1.1:增加次数据文件从SQL SERVER 2005开始,数据库不默认生成NDF数据文件,一般情况下有一个主数据文件(MDF)就够了,但是有些大型的数据库,由于信息很多,而且查询频繁,所以为了提高查询速度,可以把一些表或者一些表中的部分记录分开存储在不同的数据文件里由于CPU和内存的速度远大于硬盘的读写速度,所以可以把不同的数据文件放在不同的物理硬盘里,这样执行查询的时候,就可以让多个硬...

数据科学家不用太多 应该让大数据更好用

2013-03-20

大数据是今年的热门,以至于纽约时报等媒体均宣称大数据时代已经来临。挖掘大数据可以产出洞察力以及利用大数据进行知情决策和行动所需的激励和架构。而挖掘这些金矿的矿工,就是数据科学家,所以这种矿工也被冠以未来最性感职业的称号。但是,今天任何一篇有关大数据的文章最后都不可避免地得出这样一个结论,即数据科学家严重短缺。麦肯锡 2011 年被热议的一项调查就指出,许多组织普遍缺乏这类熟...