2010 Data Miner Survey
HIGHLIGHTS:
- 调查背景与参与者:
- 本次调查在上半年开始,以在线问卷方式进行;总共调查50个题目,其中部分题目为交互式问答
(2009年为40个题目)
(2008年为34个题目)
(2007年为27个题目)
- 来自60个国家地区的735位受访者,参加了2010年的调查
(2009年, 58个国家地区的710位受访者)
(2008年, 44个国家地区的348位受访者)
(2007年, 35个国家地区的314位受访者)
- 领域与目标:受访者来自相当多元化的工作背景;在过去的四年调查中,客户关系管理与营销
(CRM / Marketing)一直都是排名第一的实践领域;更适切地说,「强化对客户的了解」、「留住客户」
以及其他客户关系管理目标,是大多数受访者表达的看法
- 算法:延续过去的调查结果,判定树、回归分析以及集群分析是大多数资料探勘研究人员的
核心工作内容;然而在这次的调查中,我们也发现了受访者已经运用了相当广泛的算法。
今年的调查中,我们第一次提到所谓的「集成模型(Ensemble Model)」,而有22%的受访者正在
使用这项技巧
- 模型:大约有三分之一的受访者,表示他们的最终模型仅包含10个或者更少的变量;
相对之下,有28%的受访者表示他们的模型在建构上,往往会超过45个变数
- 工具:在过去几年的稳步上升后,开源型的数据探勘工具如R,已经成为主流的工具选择
(43%);此外,STATISTICA同时也在排名上面持续上升,目前已经是资料探勘研究人员的主要工具之一(18%)。
在软件工具的使用行为上,受访者平均使用了4.6个软件工具; STATISTICA、IBM SPSS Modeler与R,
在2009以及2010年获得了最高满意度的排名
- 技术:在本次的调查中,我们发现受访者最常在笔记本计算机或者个人计算机上
面进行数据探勘的分析工作,同时经常性地把数据储存在本机计算机上;我们
也发现,面对不同模型的比较,通常是在兼容的软件环境中进行的。对此,
我们进一步发现,相较于其他软件工具的用户,STATISTICA用户非常喜爱透
过PMML进行模型的部署
- 挑战:如同过去几年的调查结果,「数据来源本身的杂乱」、「如何向他人
解释数据探勘的应用」,以及「数据链路上的困难」仍然是数据探勘研究人
员最大的挑战;在今年的调查中,受访者也分享了从面对到克服这些挑战的
宝贵经验(注,我们将另文摘要说明)
- 未来展望:对于资料探勘在未来的实践上,资料探勘研究人员抱持着相当乐
观的态度,认为目前进行中的工作项目将会带动更多的应用,并且认为这将
是未来的主要趋势首要;但是,我们认为还有很大的提升空间:仅有13%
的受访者认为公司的分析能力「优秀(excellent)」,而且仅有8%的受访者认
为他们掌握的数据质量是「非常好(very strong)」