网站首页

产品中心

智能终端处理器 智能云服务器 软件开发环境

新闻中心

关于开元体育

公司概况 核心优势 核心团队 发展历程

联系开元体育

官方微信 官方微博
主页 > 产品中心 > 智能终端处理器

开元体育SPSS统计分析基础教程 第三章 变量级别的数据管理

发布时间:2024-03-20 21:50浏览次数: 来源于:网络

  变量赋值,就是指在原有数据的基础之上,根据用户的要求使用 SPSS 算术表达式及函数,对所有记录或满足 SPSS 条件表达式的某些记录进行四则运算,并将结果存入一个用户指定的变量中,该指定变量可以是一个新变量,也可以是一个已经存在的变量

  所谓变量赋值,就是指在原有数据的基础之上,根据用户的要求使用 SPSS 算术表达式及函数,对所有记录或满足 SPSS 条件表达式的某些记录进行四则运算,并将结果存入一个用户指定的变量中.该指定变量可以是一个新变量,也可以是一个已经存在的变量

  SPSS 算术表达式(Numeric Expression)是由常量、变量 、算术运算符、圆括号等组成的式子,参与运算的数据类型和最终结果均为数值型,字符型和日期型变量/常量则需要通过函数转换后参与运算

  算术表达式中的运算符由加(+)、减(-)、乘( *)、除(/)、乘方( * *)构成,运算顺序以及括号的使用均遵循四则运算法则

  根据功能和处理对象的不同,可以将 SPSS 函数分成 8 类:算术函数 、统计函数 、分布函数 、逻辑函数 、字符串函数、日期时间函数 、缺失值函数和其他函数

  圆括号中的参数可以是一个,也可以是多个;而参数的类型可以是常量(字符型常量应用一对引号引起来),也可以是变量名或算术表达式

  SPSS 函数一般也会与 SPSS 算术表达式混合出现,用于完成更加复杂的计算

  通过 SPSS 算术表达式和函数可以对所有记录进行计算,如果仅希望对部分记录进行计算,则应当利用 SPSS 的条件表达式加以指定

  据实际需要构造条件表达式之后,SPSS 会将条件表达式的值计算为一个逻辑常量(真或非真),然后从所有记录中自动挑选出满足该条件的记录,再对它们进行计算处理

  在 SPSS 中,条件表达式中常用的关系运算符有以下几种:<、>、<= 、>= 、= 、~ = ,其中最后一个符号意为“不等于”,在 SPSS 中也可以使用英文缩写

  除条件表达式外,SPSS 中还会使用到逻辑表达式,其作用和赋值类型均类似于条件表达式,常见的是以下 3 个逻辑运算符:、 、~分别表示 AND、OR 和 NOT

  在 SPSS 中,变量赋值主要是通过“计算变量”过程来实现的,选择“转换” 计算变量”菜单项

  例 3・1 CCSS 项目中的受访者年龄在 18~65 岁,他们在分析中会被分为 18~34、35 ~54、55~65 这 3 组。根据分析需求,年龄变量 S3 需要重新赋值并存储为新变量 TS3,其取值 1 、2、3分别代表上述 3 种情况

  本例实际上属于变量重编码的情形,但也可以利用数值计算过程的条件筛选方式来实现。也就是说,如果希望对全部个案生成一个新变量,但不同人群采用不同的赋值,则可以通过在设定不同筛选条件的情况下多次调用“计算变量”过程来实现

  (1) 进入“计算变量”对话框,设定目标变量名为 TS3,数字表达式为“1”,确认后即建立该新变量,取值为 1。

  (2) 重新进入“计算变量”对话框,更改数字表达式为“2,单击“如果”按钮,设定筛选条件为“S3〉= 35 S3=54,依次确认。

  (3) 重新进入“计算变量”对话框,更改数字表达式为“3”,单击“如果”按钮,设定筛选条件为“S3=55”,依次确认,操作完成。

  在数据分析中,将连续变量转换为等级变量,或者对分类变量不同的变量等级进行合并是常见的工作。这些虽然都可以利用“变量赋值”对话框来实现,但显然需要进行多次操作,比较麻烦,而变量重编码过程就可以很简洁地完成此类任务

  “重新编码为不同变量”则是根据原始变量的取值生成一个新变量来记录重编码结果

  在 SPSS 中可以将连续变量转换为离散(等级/有序)变量,重编码过程和下一节讲解的可视化分段过程都可以完成这一任务,但前者更为简单和常用

  将 S3 年龄选入“数字变量 输出变量”列表框,此时“输出变量”框组变黑,在“名称”文本框输人新变量名 TS3 并单击“变化量”按钮,可见原来的S3-?”变成了 S3-TS3,即新旧变量名间已经建立了对应关系

  注意在这里不能输入已有变量名称,即只能建立新变量,而不能替换原有变量的取值

  但需要注意所有的范围都包含端点值,虽然此时前面设定的变换会优于后面的变换,但为了避免误解 ,本例将不包括端点数值的情形均设定为小数数值( 已知 S3 均为整数)

  上述重编码过程既可以将连续变量转化成数值型或者字符型离散变量,也可将数值型字符变量转化成数值变量,只需选中“将数字字符串转换为数字”复选框即可

  重编码过程也可用于合并某个分类变量的几个变量等级为一个变量等级,如果分类变量的记录格式为数值型,则操作与例 3. 1 基本无区别

  但如果其存储格式为字符型,则需要注意默认的转换格式为数值型,如果仍希望转换为字符型,则需要选中“输出变量是字符串”复选框

  重编码过程提供了精确分组的功能,但是如果希望进行的分组比较有规律,比如说等距分组 ,或者等样本量分组,使用重编码过程进行操作就非常麻烦,而且可视化程度不高 ,此时可以考虑使用可视化过程进行分段

  可视离散化指的是在可视界面下对连续变量进行分段,该过程可以使用百分位数 、标准差范围或者等间距方式将连续变量划分为若干组段,并采用图形化操作的方式,非常直观、好用

  选择“转换 可视分箱”菜单项之后,首先弹出的对话框要求用户选择希望进行离散化的变量,选择完毕后单击“继续”按钮,则系统会对相应的变量进行数值扫描,并进入主对线) 已扫描变量列表:此处列出所有前一个对话框中所选择的变量,更改此处的变量选择,则对话框的其余内容均会按照所选中的变量状况进行更新

  (2) 左下侧“复制分箱”框组:当选择了多个变量,且其中部分变量已设定完离散化选项时可用,可以将设定好的属性复制“到其他变量”,也可以“从另一个变量”(即已定好的变量)读取相应的设定

  (3) 上部变量属性区域:列出新旧变量的名称、标签以及变量的最小值/最大值,注意其中新变量名称是必填的,否则离散化后不会生成任何新变量

  (4) 中部直方图:扫描完原变量取值情况后在此处绘制该变量的直方图,如果已设定完分割点,也会一•并显示

  (5) 下部数值标签网格:在本网格处显示所设定的分割点数值位置和相应的标签

  (7)“生成分割点”按钮:单击后弹出的子对线(b) 所示,其中可以选择使用等间距、等比例( 等样本量)或者按照指定的标准差范围 3 种方式进行分段,其中第 3 种方式显然可以用来在数据分析或质量控制中筛选异常

  (8)“生成标签”按钮:在分割点数值设定完毕后,单击该按钮可以自动生成相应的值标签

  (9)“反转刻度”复选框:默认情况下,新的离散化变量的值是从 1 到几 的升序整数、反转刻度会使得这些值成为从 几 到 1 的降序整数

  本例实际上是要求对连续变量进行统计描述中的直方图分组,由于已知年龄范围为 18~65岁,全距为 48,因此在分为 10 组的情况下,组距为 5 即可覆盖全部取值范围。当然组数、组距和第一组段下限三者是相互联系的,在对话框中一般只需要定义其中两者即可自动确定第 3 个因素的取值

  (1) 选择“转换”一>“可视分箱”菜单项,将 S3 年龄选人“要离散的变量”列表框中,单击“继续”按钮进入主对线) 单击“生成分割点”按钮,设定分割点数量为 10,宽度为 5,可见系统会自动填充第 1 个分割点的位置为 18,单击“应用”按钮回到主对线) 此时可见下部数值标签网格的“值”列已被自动填充,选中右侧“上端点”框组中的“排除复选框,然后单击“生成标签”按钮,使标签列也得到自动填充

  (4) 将“分箱化变量:名称”文本框设定为 S3New,单击“确定”按钮,系统会提示“分箱指定项将创建 1 个变量”。单击“确定”按钮后即会在数据集中生成新变量 S3New

  连续变量进行离散化的目的往往是使建模分析时的结果能够更加符合专业知识,也更加容易解释

  最优离散化就是将原有的一个或多个连续性变量按照该分类变量类间差异最大化的优化原则离散化为分类变量

  选择“转换”,最优分箱”菜单项,就会弹出相应的对线)“变量”选项卡:将需要离散化的一个或多个连续性变量选入右上方的“要分箱的变量”列表框,右下方则用于选入作为关键指示变量(一般即为模型中的因变量)的分类变量,注意这里只能选入一个分类变量

  (2)“输出”选项卡:设定在离散化结束后输出哪些统计结果,需要解释的是第3项“分箱化变量的模型嫡”,对于每个离散化输入变量,此选项会要求输出相对于关键指示变量的预测准确性的改善情况,并将其作为离散化效果的测量指标

  (3)“保存”选项卡:可在这里选择保存离散结果为新变量用于后续分析。同时,也可以将相应的 recode 语句(还是 recode 命令!)存为程序文件以便重复利用

  (4)“缺失值”选项卡:定义当数据中存在缺失值时系统的处理方式,一般不用更改

  (5)“选项”选项卡:设定当要处理的是大数据集、关键指示变量存在罕见类别(稀疏块)等情况时的处理选项,以及块的端点设定等细节,一般不用更改

  例 3.3 利用 S3 年龄对 S4 学历进行预测建模,请基于此分析目的对 S3 进行最优离散化

  有的时候,对数值进行重编码的需求比较简单,只需要重编码为新的流水号数值即可,此时使用前面介绍的重编码过程就显得过于烦琐,此类简单的需求可以使用自动重编码过程来满足,该过程自动按原变量值的大小或者字母排序生成新变量,而变量值就是原值的大小次序

  (2)“依据列表框:此处的英文是“By” ,指的是分组编秩时的分组变量。

  (3)“将秩 1 赋予”单选框组:用于选择将秩次 1 赋给最小值还是最大值;

  (4)“类型”子对话框,用于定义秩次类型,默认为最常用的 Rank(秩分数),另有其他几种选择,因为均很少被用到,这里不再详述,有兴趣的读者请参见用户手册

  (5)“绑定值”子对话框:用于定义对相同值观测量的处理方式,这在编秩中被称为结(Tie),处理方式可以是取平均秩次 、最小秩次 、最大秩次或当作一个记录处理,默认值为取平均秩次

  对个案内的值进行计数( Counl) 过程用于标示某个变量的取值中是否出现某些指定数值,可以是单个数值,也可以指定区间。并且可以给出条件,从而不必对整个数据集进行操作

  选择,,转换” 对个案中的值进行计数”菜单项,弹出对线 )“目标变量”文本框:用于输入希望生成的计数变量名称。

  (3)“要计数的值”子对话框,用于定义希望进行查找/计数的变量值范围,此处对话框设定非常类似于重编码处的子对话框,因此不再重复解释

  为 Python 扩展,使得用户可以将 Python 函数应用于活动数据集中的个案 ,并将结果保存在SPSS 数据的一个或多个变量中

  为 Python 扩展,使得用户可以将一个分类变量转换为一组哑变量用于后续分析,该功能主要是在统计建模时比较有用,在本丛书的《高级教程》中会用到该功能

  在时间序列模型,以及一些特殊方法中,个案需要按照时间顺序排列,而在分析中可能需要将相应的变量值前移或者后移,这就是所谓的数值平移。中文版中相应的菜单项则被翻译成了“变动值”。实际上,该对话框的操作等价于在程序级别调用 lag( )函数

  该过程用于设定伪随机函数的随机种子,但它对真随机函数没有任何影响。默认情况下.伪随机种子随着时间在不停改变,这样所计算出的随机数值无法重复,这在临床试验等情况中是不符合要求的。此时,可用随机数字生成器事先人为指定一个种子,以后所有的伪随机函数在计算时都会以该种子开始计算 、即结果可重现

  时间序列模型专用过程包括最下方的日期和时间向导 、创建时间序列、分解时间序列、替换缺失值等过程,由于其均专用于时间序列模型开元体育

下一篇:开元体育鼎信通讯:公司在智能电表、智能终端等用电设备的研发和生产方面具备一定优势
上一篇:智能终端_开放分类_EEPW开元体育百科

咨询我们

输入您的疑问及需求发送邮箱给我们