【秋招】数分面经II

聚类和分类,回归模型评估指标,指标周期,挖掘统计区别

Posted by Zaki on July 18, 2022

聚类和分类的区别?

分类就是向事物分配标签,聚类就是将相似的事物放在一起。

分类(classification):分类任务就是通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y中。 分类是根据一些给定的已知类别标号的样本,训练某种学习机器(即得到某种目标函数),使它能够对未知类别的样本进行分类。这属于supervised learning(监督学习)。

聚类指事先并不知道任何样本的类别标号,希望通过某种算法来把一组未知类别的样本划分成若干类别,聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起,这在机器学习中被称作 unsupervised learning (无监督学习)。通常,人们根据样本间的某种距离或者相似性来定义聚类,即把相似的(或距离近的)样本聚为同一类,而把不相似的(或距离远的)样本归在其他类。 聚类的目标:组内的对象相互之间时相似的(相关的),而不同组中的对象是不同的(不相关的)。组内的相似性越大,组间差别越大,聚类就越好。

回归模型的评估指标

数据统计,挖掘和分析的区别

数据挖掘就是从海量数据中找到隐藏的规则,数据分析一般要分析的目标比较明确,数据统计则是单纯的使用样本来推断总体。

数据分析:通过对附近人口的生活习惯、业余爱好、教育背景、收入分布、家庭组成等进行全方面分析,发现很多人都习惯在收到欠费通知以后再缴费。结论就是提前发放短信提醒。

数据挖掘:通过编写机器学习聚类算法发现无法通过观察图表得出的深层次原因。发现家住在五环以外的人,由于居住环境偏远没有时间上营业厅缴费。结论就需要多设立一些营业厅或者自助缴费点。

数据统计:通过统计学推理方法组成样本的试验单元进行参数估计和假设检验,我们发现不及时缴钱人群里的贫困人口占82%。所以结论是收入低的人往往会缴费不及时。结论就需要降低资费。

指标周期

产品的生命周期分为探索期、成长期、成熟期、衰退期和退出期,每个周期可供借鉴和使用的北极星指标如下:

探索期:留存类指标,包括留存率、留存用户量、探索期内每用户平均使用次数。

成长期:注册类指标,包括每日新增用户量、有效注册用户量等。

成熟期:活跃、留存或收入类指标,包括 DAU、MAU、次日留存、次月留存或 ARPU 等。

衰退期:注册类、活跃类或收入类指标,包括有效注册用户量、DAU、MAU 或 ARPU 等。

退出期:活跃类指标,包括 DAU、MAU 等。

40亿找数面试题

给40亿个不重复的unsigned int的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那40亿个数当中?

又因为2^32为40亿多,所以给定一个数可能在,也可能不在其中;

这里我们把40亿个数中的每一个用32位的二进制来表示

假设这40亿个数开始放在一个文件中。

然后将这40亿个数分成两类:

1.最高位为0

2.最高位为1

并将这两类分别写入到两个文件中,其中一个文件中数的个数<=20亿,而另一个>=20亿(这相当于折半了);

与要查找的数的最高位比较并接着进入相应的文件再查找

再然后把这个文件为又分成两类:

1.次最高位为0

2.次最高位为1

并将这两类分别写入到两个文件中,其中一个文件中数的个数<=10亿,而另一个>=10亿(这相当于折半了);

与要查找的数的次最高位比较并接着进入相应的文件再查找。

以此类推,就可以找到了,而且时间复杂度为O(logn)

如何设计指标类

关注用户数据指标,行为数据指标,产品数据指标

用户数据指标:

用户日新增数,活跃率,留存率

行为数据指标:

PV,UV, 转发率,店铺转化率,

产品数据指标:

总量,人均指标,付费指标