用户画像是现实世界中用户的数学建模,它源于现实,高于现实,是对用户的形式化描述。用户画像是通过分析挖掘用户尽可能多的数据信息得到的,每个标签在特征空间里都是一个基向量,用户画像就是特征空间中的高维向量。
用户画像在大数据挖掘中起着关键作用,能够支撑个性化推荐、广告投放和精细化营销等产品。解决大数据挖掘中的问题,需要明确问题、追求需求和数据的匹配、明确需求以及注意数据的规模、重要特征的覆盖度等。
数据的预处理包括数据集成、数据冗余、数值冲突等问题的解决,数据采样、清洗、缺失值处理与噪声数据等也是必不可少的环节。特征的选择、提取、处理和监控等也是大数据挖掘中的重要步骤。
常用的机器学习算法包括逻辑回归、支持向量机、随机森林、GBDT(梯度提升决策树)等,这些算法可以帮助我们解决分类、回归和聚类等问题。
大数据挖掘的详细架构包括数据采集、预处理、存储、离线和实时计算、存储模型到hive/hbase/redis、针对不同问题选取不同算法、结果推送给mysql/redis、可视化输出等步骤。在大数据挖掘中,还需要注意数据的时效性和异常值等问题。
2. 特征类别处理
关于类别型特征的处理,例如用户使用的设备是三星或联想,这属于类别特征。我们可以采用0-1编码方式进行处理。
3. 数据归一化
多个特征的分析
1. 设备类型是否决定用户性别?我们可以进行相关性分析,计算相关系数来了解。
2. App的启动次数和停留时长之间是否存在强烈的正相关关系?经过分析,结果显示二者特别相关,因此在某些情况下,可以优先考虑去掉停留时长这一特征。
3. 若特征过多,可能需要进行降维处理以简化分析。
表2. 特征工程流程
1. 对于典型的文本数据,如网页内容,我们通常采用分词、去除停用词、向量化等步骤进行处理。
2. 分词环节,可以使用jieba分词库等工具。还需注意去除停用词,除了常规的停用词表外,还可以将文档频率(DF)较高的词加入停用词表,形成领域停用词。
3. 向量化通常是将文本转化为TF(词频)或TF-IDF(词频-逆文档频率)向量。
特征工程结果
数据1经过特征工程处理后的结果...
数据2经过特征工程处理后的结果...
选择算法和模型考虑因素:
训练集的大小。
特征的维度大小。
问题是否线性可分。
特征是否独立。
是否需要考虑过拟合问题。
对模型性能有何要求。
遵循奥卡姆剃刀原理,如无必要,勿增实体。
选择算法和模型:
1. 逻辑回归(LR):若问题线性可分,逻辑回归是一个不错的选择。该模型抗噪能力强,可通过L1、L2范数进行参数选择。其效率高,适用于大数据场景,并且容易实现分布式处理。
2. 集成方法(Ensemble):通过训练集训练多个分类器,然后综合多个分类器的结果做出预测。
评估方法:使用混淆矩阵进行评估,包括PR、ROC、AUC等指标。
用户画像的三个阶段:
1. 战略解读:明确用户画面平台的战略意义、目标和效果预期。结合实际需求,规定数据实体和关联关系。
2. 维度分解:根据相关性原则,对用户、商品、渠道三类数据实体进行数据维度分析和列举。
3. 应用流程:针对不同人员角色需求(如市场、销售、研发),设计实用的用户画像平台功能和应用流程。
会员画像的目的:
1. 精准营销:分析潜在用户群体,针对特定群体进行短信、邮件等营销方式。
2. 数据挖掘:构建智能推荐系统,利用关联规则计算和用户聚类分析,进行效果评估,提升服务质量。这相当于市场调研、用户调研,迅速定位服务群体,提供个性化服务。
3. 为产品或服务提供私人定制:即针对某类群体甚至每一位用户提供个性化的服务。例如,针对5-10岁儿童推出玩具时,通过用户画像分析,为新产品提供决策依据。
《构建大排档推荐系统的用户画像》
如今,每个大排档都有了其独特的向量表示,为了与之相匹配,我也需要为自己构建一个对应的向量。这个向量应体现你对三个关键元素的重视程度。
通过这样的向量,我们可以轻松地对五家大排档进行匹配并打分,从而明确哪家大排档最符合你的需求。
假设我的向量表示如下:
价格:3
种类:5
味道:5
这便是一个简单的大排档推荐系统的用户画像。计算评分时,只需将每个因素的数值相乘后求和即可。
接下来,我们围绕这个用户画像,探讨构建用户画像的两个关键因素:维度和量化。
首先是“维度”。在我这个例子中,所选取的维度包括价格、种类和味道。这些维度具有一些独特的特点。
在为每个大排档计算评分时,你可以想象自己是一台计算机。你读取用户画像中的“价格”数值为3,再获取大排档的“价格”评分,两者相乘,实现了用户画像维度和大排档“价格”的天然匹配。
值得注意的是,计算机在处理这些维度时并不理解其含义。例如,如果将大排档的维度换成“价钱”,计算机就无法进行匹配。维度的命名要具有一致性。
对于这三个维度,使用1、2、3或者a、b、c等符号进行表示并不影响计算结果的准确性,只要计算机能够正确匹配即可。
如果我们根据用户的阅读历史来挖掘阅读兴趣标签,那么就无法提前确定用户的标签,也就无法确定用户画像的维度。维度的确定并不是必须的。理论上,维度越多,画像越精细,但计算成本也会增加,需要权衡。
需要注意的是,用户画像是向量化结果,而非简单的标签化。标签化只是向量化的一种表现形式。
在实际生产系统中,用户画像每个维度的量化应由机器完成,并以推荐效果为导向进行优化。像简单的例子那样,未考虑推荐效果而先行主观量化每个维度是不恰当的。用户画像的量化与“效果”紧密相关。
构建用户画像的方法主要有三类:直接使用原始数据作为内容,如注册资料等;通过历史数据做统计工作,挖掘兴趣标签;使用机器学习方法得到不可解释的稠密向量。这些方法在推荐系统中各有其作用。
今天的内容主要介绍了如何构建大排档推荐系统的用户画像,包括其关键元素、维度、量化和构建方法。