数据上的概括是形成概念的一种过程,可以理解为基于历史的经验,把大脑中所描述的对象中某些的特征特质抽离出来并形成一种认识,例如对女孩气质的概括。气质是基于这个女孩走路的姿势、穿衣的风格及面部表情等元素综合在一起,然后基于历史对“气质”这样一件事情的概念得出的结论。气质是不可以依靠眼睛感受的自然光线来直接获取的,而是需要收集这个人的所有细节描写的信息,形成对这个人的整体印象,然后从整体印象中抽离出“气质”这个充满概括属性的说法。
如果将概括这样的概念引入到数据分析中,最常见的就是正态分布、均匀分布等。
为了给大家一个直观的印象,均匀分布可以理解为掷一枚均匀的骰子,各个点数出现的概率是均等的,每次实验都把这些点数记录下来并计算它们出现的概率,每个数字出现的概率就服从均匀分布。
同样的正态分布可以理解为大家都趋向于中间一点的分布。(比如高中生的身高)
概括的意义在于用一两个简单的概念就能传达出大量的信息,就好像你说某某姑娘“御姐范”、“女王范”、“萝莉范”,我说这个数据服从正态分布、均匀分布、泊松分布。
从数据的描述性变量中抽取关键元素(最关键的是平均值和方差),结合已经掌握的经验知识给予数据一个概括:均值为0,方差为1的正态分布数据,同业人员听完就基本了解这组数据的特征了。
所以说概括是在具象描述的基础上抽离出的概念与总结,结合之前的描述性统计的掌握,当我们面对大量数据时我们先进行描述性统计(计算平均数与方差等),然后在基于此给出一个概括(确定数据服从哪一个分布),就把这样一组庞大的数据信息传递出来了。
到这里,基本可以看到描述与概括的意义了,在庞大繁杂的数据中我们需要一些东西来了解数据,掌握数据的特点,知悉数据的结构,才能为下一步的分析做准备。