Ⅰ 机器学习中的数据预处理有哪些常见/重要的工具
大数据发展的挑战: 目前大数据的发展依然存在诸多挑战,包括七大方面的挑战:业务部门没有清晰的大数据需求导致数据资产逐渐流失;内部数据孤岛严重,导致数据价值不能充分挖掘;数据可用性低,数据质量差,导致数据无法利用;数据相关管理技。
机器学习之常见的数据预处理:原始数据存在的几个问题:不一致;重复;含噪声;维度高。
1.1 数据挖掘中使用的数据的原则
尽可能赋予属性名和属性值明确的含义; 去除惟一属性; 去除重复性; 合理选择关联字段。
1.2 常见的数据预处理方法
数据清洗:数据清洗的目的不只是要消除错误、冗余和数据噪音,还要能将按不同的、不兼容的规则所得的各种数据集一致起来。 数据集成:将多个数据源中的数据合并,并存放到一个一致的数据存储(如数据仓库)中。这些数据源可能包括多个数据库、数据立方体或一般文件。
数据变换:找到数据的特征表示,用维度变换来减少有效变量的数目或找到数据的不变式,包括规格化、规约、切换和投影等操作。 数据规约:是在对发现任务和数据本身内容理解的基础上,寻找依赖于发现目标的表达数据的有用特征,以缩减数据模型,从而在尽可能保持数据原貌的前提下最大限度的精简数据量,主要有两个途径:属性选择和数据抽样,分别针对数据库中的属性和记录。
二、数据清洗
2.1 缺失值处理的两种方法
删除法,根据数据处理的不同角度,删除法可分为以下4种:
(1)删除观测样本 (2)删除变量:当某个变量缺失值较多且对研究目标影响不大时,可以将整个变量整体删除 (3)使用完整原始数据分析:当数据存在较多缺失而其原始数据完整时,可以使用原始数据替代现有数据进行分析; (4)改变权重:当删除缺失数据会改变数据结构时,通过对完整数据按照不同的权重进行加工,可以降低删除数据带来的偏差。
插补法:在条件允许的情况下,找到缺失值的替代值进行插补,尽可能还原真实数据是更好的方法。常见的方法有均值插补、回归插补、二阶插补、热平台、冷平台等单一变量插补。
(1)均值法是通过计算缺失值所在变量所有非缺失观测值的均值,使用均值来代替缺失值的插补方法。 (2)均值法不能利用相关变量信息,因此会存在一定偏差,而回归模型是将需要插补变量作为因变量,其他相关变量作为自变量,通过建立回归模型预测出因变量的值对缺失变量进行插补。 (3)热平台插补是指在非缺失数据集中找到一个与缺失值所在样本相似的样本(匹配样本),利用其中的观测值对缺失值进行插补。 (4)在实际操作中,尤其当变量数量很多时,通常很难找到与需要插补样本完全相同的样本,此时可以按照某些变量将数据分层,在层中对缺失值使用均值插补,即采取冷平台插补法。
2.2 噪声数据处理
噪声是一个测量变量中的随机错误和偏差,包括错误值或偏离期望的孤立点值。
噪声检查中比较常见的方法:
(1)通过寻找数据集中与其他观测值及均值差距最大的点作为异常 (2)聚类方法检测,将类似的取值组织成“群”或“簇”,落在“簇”集合之外的值被视为离群点。 在进行噪声检查后,通常采用分箱、聚类、回归、计算机检查和人工检查结合等方法“光滑”数据,去掉数据中的噪声。
分箱:分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。
2.2.1 分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。
等深分箱法(统一权重):将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。
设定权重(箱子深度)为4,分箱后
箱1:800 1000 1200 1500
箱2:1500 1800 2000 2300
箱3:2500 2800 3000 3500
箱4:4000 4500 4800 5000
等宽分箱法(统一区间):使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。
设定区间范围(箱子宽度)为1000元人民币,分箱后
箱1:800 1000 1200 1500 1500 1800
箱2:2000 2300 2500 2800 3000
箱3:3500 4000 4500
箱4:4800 5000
用户自定义区间:用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。
如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后
箱1:800
箱2:1000 1200 1500 1500 1800 2000
箱3:2300 2500 2800 3000
箱4:3500 4000
箱5:4500 4800 5000
2.2.2 数据平滑方法
按平均值平滑 :对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。 按边界值平滑:用距离较小的边界值替代箱中每一数据。 按中值平滑:取箱子的中值,用来替代箱子中的所有数据。
三、数据集成
数据集成中的两个主要问题是:
(1)如何对多个数据集进行匹配,当一个数据库的属性与另一个数据库的属性匹配时,必须注意数据的结构; (2)数据冗余。两个数据集有两个命名不同但实际数据相同的属性,那么其中一个属性就是冗余的。
四、数据变换
数据变换策略主要包括以下几种:
光滑:去掉噪声; 属性构造:由给定的属性构造出新属性并添加到数据集中。例如,通过“销售额”和“成本”构造出“利润”,只需要对相应属性数据进行简单变换即可 聚集:对数据进行汇总。比如通过日销售数据,计算月和年的销售数据; 规范化:把数据单按比例缩放,比如数据标准化处理; 离散化:将定量数据向定性数据转化。比如一系列连续数据,可用标签进行替换(0,1);
五、数据归约
数据归约通常用维归约、数值归约方法实现。维归约指通过减少属性的方式压缩数据量,通过移除不相关的属性,可以提高模型效率。常见的维归约方法有:分类树、随机森林通过对分类效果的影响大小筛选属性;小波变换、主成分分析通过把原数据变换或投影到较小的空间来降低维数。
Ⅱ 下列市场定量预测方法中,适用于具有时间序列关系数据的有( )。
D,E
答案解析:
根据常用预测方法的特点可知,适用于具有时间序列关系数据的定量预测方法有移动平均法、指数平滑法、趋势外推法。
Ⅲ 几种常见的缺失数据插补方法
(一)个案剔除法(Listwise Deletion)
最常见、最简单的处理缺失数据的方法是用个案剔除法(listwise
deletion),也是很多统计软件(如SPSS和SAS)默认的缺失值处理方法。在这种方法中如果任何一个变量含有缺失数据的话,就把相对应的个案从分析中剔除。如果缺失值所占比例比较小的话,这一方法十分有效。至于具体多大的缺失比例算是“小”比例,专家们意见也存在较大的差距。有学者认为应在5%以下,也有学者认为20%以下即可。然而,这种方法却有很大的局限性。它是以减少样本量来换取信息的完备,会造成资源的大量浪费,丢弃了大量隐藏在这些对象中的信息。在样本量较小的情况下,删除少量对象就足以严重影响到数据的客观性和结果的正确性。因此,当缺失数据所占比例较大,特别是当缺数据非随机分布时,这种方法可能导致数据发生偏离,从而得出错误的结论。
(二)均值替换法(Mean Imputation)
在变量十分重要而所缺失的数据量又较为庞大的时候,个案剔除法就遇到了困难,因为许多有用的数据也同时被剔除。围绕着这一问题,研究者尝试了各种各样的办法。其中的一个方法是均值替换法(mean
imputation)。我们将变量的属性分为数值型和非数值型来分别进行处理。如果缺失值是数值型的,就根据该变量在其他所有对象的取值的平均值来填充该缺失的变量值;如果缺失值是非数值型的,就根据统计学中的众数原理,用该变量在其他所有对象的取值次数最多的值来补齐该缺失的变量值。但这种方法会产生有偏估计,所以并不被推崇。均值替换法也是一种简便、快速的缺失数据处理方法。使用均值替换法插补缺失数据,对该变量的均值估计不会产生影响。但这种方法是建立在完全随机缺失(MCAR)的假设之上的,而且会造成变量的方差和标准差变小。
(三)热卡填充法(Hotdecking)
对于一个包含缺失值的变量,热卡填充法在数据库中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。不同的问题可能会选用不同的标准来对相似进行判定。最常见的是使用相关系数矩阵来确定哪个变量(如变量Y)与缺失值所在变量(如变量X)最相关。然后把所有个案按Y的取值大小进行排序。那么变量X的缺失值就可以用排在缺失值前的那个个案的数据来代替了。与均值替换法相比,利用热卡填充法插补数据后,其变量的标准差与插补前比较接近。但在回归方程中,使用热卡填充法容易使得回归方程的误差增大,参数估计变得不稳定,而且这种方法使用不便,比较耗时。
(四)回归替换法(Regression Imputation)
回归替换法首先需要选择若干个预测缺失值的自变量,然后建立回归方程估计缺失值,即用缺失数据的条件期望值对缺失值进行替换。与前述几种插补方法比较,该方法利用了数据库中尽量多的信息,而且一些统计软件(如Stata)也已经能够直接执行该功能。但该方法也有诸多弊端,第一,这虽然是一个无偏估计,但是却容易忽视随机误差,低估标准差和其他未知性质的测量值,而且这一问题会随着缺失信息的增多而变得更加严重。第二,研究者必须假设存在缺失值所在的变量与其他变量存在线性关系,很多时候这种关系是不存在的。
(五)多重替代法(Multiple Imputation)
多重估算是由Rubin等人于1987年建立起来的一种数据扩充和统计分析方法,作为简单估算的改进产物。首先,多重估算技术用一系列可能的值来替换每一个缺失值,以反映被替换的缺失数据的不确定性。然后,用标准的统计分析过程对多次替换后产生的若干个数据集进行分析。最后,把来自于各个数据集的统计结果进行综合,得到总体参数的估计值。由于多重估算技术并不是用单一的值来替换缺失值,而是试图产生缺失值的一个随机样本,这种方法反映出了由于数据缺失而导致的不确定性,能够产生更加有效的统计推断。结合这种方法,研究者可以比较容易地,在不舍弃任何数据的情况下对缺失数据的未知性质进行推断。NORM统计软件可以较为简便地操作该方法
Ⅳ 简述市场调查与预测的基本步骤
所谓市场预测,是对某一特定地区某种特定产品需求量和供应量的预测。市场需求量预测可分为市场潜量预测和市场发展趋势预测。前者是分析产品在目前或近斯可能的最大需求量,后者是分析产品在今后一定时期内的需求变化趋势。 市场发展趋势预测,按时间长短可分为长期、中期和短期预测三种。长期预测,一般指5年以上的预测,应根据国民收入的增长、消费水平和购买支付能力的变化,以及生产、运输能力和科学技术等客观条件的发展变化等进行分析预测,从而确定产品长期的经营方向和发展规模。短期预测,一般指一年以内的预测,根据各季度和月份的客观变化,预测需求的季节性变化,从而具体安排生产活动。而介于二者之间的中期预测,一般指3年左右的预测。
5.1.2 市场预测方法
市场预测方法可分为定性和定量二种。 定性预测主要依靠专家经验,借助于调查、了解、直观分析的手段,对事物的未来发展作出预测,如,专家意见法、市场调查法。它比较适用于新产品以及掌握历史数据不多的产品市场供需预测,也比较适用于对那些突变型、跳跃式发展的经济事件预测。此类方法的特点是可以较好地考虑法律政策、技术变化等因素对市场行为的影响,但是缺乏定量方法的严密性。 定量预测方法主要是借助于数学方法,采用时间序列、因果分析、消费水平和最终用途分析等方式进行数学推算或估算,常用于市场经济发展趋势分析。这类方法可以识别市场发展变化的因果关系,因而能够较好地预测未来情况,尤其是预测可能的突变点。典型的预测模型有经济计量模型和工程过程模型。 应该指出,矿产市场是一个受资源、技术、经济、政治、法律、社会等众多因素影响的复杂系统,因此,对其行为的准确预测是相当困难的。即使是综合采用各种预测方法,也未必十分奏效。尽管如此,无论是厂商,或者是政府机构的决策者在制定决策时,都必须利用某种方法进行预测,别无选择。
Ⅳ 市场调研分析的定量分析方法有哪些
在市场研究中的定量分析方法 主要是采用调查问卷的方法
而定性则是以座谈会或者二手资料收集的方法进行
Ⅵ 市场调查中定量变量数据插补方法
均值,中值,众数还有回归。你可以把数据录入spss然后里面有缺失数据填补的功能、
Ⅶ 市场调查预测的方法有哪些
观察法、实验法、询问法、情况推测、问卷法等。
1、观察法
观察法是社会调查和市场调查研究的最基本的方法。它是由调查人员根据调查研究的对象,利用眼睛、耳朵等感官以直接观察的方式对其进行考察并搜集资料。例如,市场调查人员到被访问者的销售场所去观察商品的品牌及包装情况。
2、实验法
实验法是由调查人员跟进调查的要求,用实验的方式对调查的对象控制在特定的环境条件下,对其进行观察以获得相应的信息。
控制对象可以是产品的价格、品质、包装等,在可控制的条件下观察市场现象,揭示在自然条件下不易发生的市场规律,这种方法主要用于市场销售实验和消费者使用实验。
(7)常用于市场调查中的定量数据插补的方法是扩展阅读:
市场调查基本步骤:
预测应该遵循一定的程序和步骤以使工作有序化、统筹规划和协作。市场预测的过程大致包含以下的步骤:
1、确定目标
明确目的,是开展市场预测工作的第一步,因为预测的目的不同,预测的内容和项目、所需要的资料和所运用的方法都会有所不同。
明确预测目标,就是根据经营活动存在的问题,拟定预测的项目,制定预测工作计划,编制预算,调配力量,组织实施,以保证市场预测工作有计划、有节奏地进行。
2、搜集资料
进行市场预测必须占有充分的资料。有了充分的资料,才能为市场预测提供进行分析、判断的可靠依据。在市场预测计划的指导下,调查和搜集预测有关资料是进行市场预测的重要一环,也是预测的基础性工作。
Ⅷ 市场调查中的“定性”及“定量”分别指什么
定性营销研究Qualitative marketing research:最常被使用。简单来说就是从受访者的数字回答中去分析,不针对整个人口、也不会做大型的统计。常见的例子有:焦点族群focus groups、深度访谈、专案进行等。
定量营销研究Quantitative marketing research:采用假说的形式,使用任意采样、并从样品数来推断结果,这种手法经常用在人口普查、经济力调查等大型的研究。常见的例子有:大型问卷、咨询表系统questionnaires等。
(8)常用于市场调查中的定量数据插补的方法是扩展阅读
研究方法
1、文案调研
主要是二手资料的收集、整理和分析
主要的渠道来自网上资料搜索和图书馆等书籍信息搜索。
2、实地调研
实地调研可分为询问法、观察法和实验法三种。
(1)询问法:就是调查人员通过各种方式向被调查者发问或征求意见来搜集市场信息的一种方法。它可分为深度访谈、GI座谈会、问卷调查等方法,其中问卷调查又可分为电话访问、邮寄调查、留置问卷调查、入户访问、街头拦访等调查形式。
采用此方法时的注意点:所提问题确属必要,被访问者有能力回答所提问题,访问的时间不能过长,询问的语气、措词、态度、气氛必须合适。
(2)观察法:它是调查人员在调研现场,直接或通过仪器观察、记录被调查者行为和表情,以获取信息的一种调研方法。
(3)实验法:它是通过实际的、小规模的营销活动来调查关于某一产品或某项营销措施执行效果等市场信息的方法。实验的主要内容有产品的质量、品种、商标、外观、价格,促销方式及销售渠道等。它常用于新产品的试销和展销。
3、特殊调研
特殊调查有固定样本、零售店销量、消费者调查组等持续性实地调查;投影法、推测试验法、语义区别法等购买动机调查;CATI计算机调查等形式。
4、竞争对手调研
“知己知彼,百战不殆”,一句中国最古老的成语勾画出了竞争研究的重要性。在市场竞争日趋白热化的今天,不了解竞争市场情况,不认识竞争对手,就意味着没有胜算的机会。
竞争研究的根本目标是通过一切可获得的信息来查清竞争对手的状况,包括:产品及价格策略、渠道策略、营销(销售)策略、竞争策略、研发策略、财务状况及人力资源等,发现其竞争弱势点,帮助企业制定恰如其分的进攻战略,扩大自己的市场份额;另外,对竞争对手最优势的部分,需要制定回避策略,以免发生对企业的损害事件。
参考资料来源:网络-市场调查
参考资料来源:网络-市场调研