转眼之间,自己已经从一个学生变成了一个工作一年多的西二旗的IT民工了,记得自己大一的时候懵懵懂懂,高三之前甚至连网吧都没有进过,记得高考查分数的时候,怎么查都不会,分数还是班里一个关系较好的女生给查的。       我开始接触机器学习的时候是大四,当时刚刚参加完ACM亚洲区域赛,学校里面...
通常机器学习在电商领域有三大应用:推荐、搜索、广告,这次我们聊聊三个领域里都会涉及到的商品排序问题。从业务角度,一般是在一个召回的商品集合里,通过对商品排序,追求GMV或者点击量最大化。进一步讲,就是基于一个目标,如何让流量的利用效率最高。很自然的,如果我们可以准确预估每个商品的GMV转化率或者点击...
符号()小括号 -- 分组[]中括号 -- 字符类,匹配所包含的任一字符 #注:字符集合把【】里面的内容当作普通字符!(-\^除外){}大括号 -- 限定匹配次数| 或 r'AC|D' -> AC或AD. 匹配任一字符(\ 除外)\. 匹配字符.^ 脱字符 匹配输入字符串的开始位置 # r'^...
语法语句篇除法运算(精确运算和截断运算)  在python2中,除法运算通常是截断除法。什么是截断除法:>>> 3/40 # 自动忽略小数项要是想 得到正确结果 怎么办呢?method1:>>> 3. /40.75 # 3. 表示 3.0, 表示的是浮点数me...
欠拟合和过拟合  欠拟合是指模型不能很好的捕获到数据特征,不能很好的拟合数据,学习能力底下。解决方法:增加模型的复杂度      过拟合是指模型不仅仅学习了数据集中的有效信息,也学习到了其中的噪音数据,使得模型在训练集上的表现非常好,但是对于测试集的预测效果很差。解决方案:  (1) 导致过拟合的一...
以前你有没有这样一段经历:很久之前你写过一个函数,现在你突然有了个想法就是你想看看,以前那个函数在你数据集上的运行时间是多少,这时候你可以修改之前代码为它加上计时的功能,这时候是不是还要大体读读你的代码,稍微搞清楚一点它的逻辑,才敢给它添加新的东西。这样是不是很繁琐,要是你之前写的代码足够乱做够长,...
岗位职责美团用户增长数据团队,对接市场营销的业务需求,用大数据驱动美团用户增长。工作内容:负责拥有1亿多粉丝的美团微信服务号的大数据运营系统,包括但不限于:个性化的内容推送,自动化的测试效果系统工作要求用数据说话,对数据有极强的敏感性,自觉技术NB一年以上的 Spark / Hadoop 分布式开发...
岗位职责美团用户增长数据团队,对接市场营销的业务需求,用大数据驱动美团用户增长。工作内容:负责美团广告实时数据系统的开发工作关于我们:http://tech.meituan.com/spark-streaming-es.htmlhttp://tech.meituan.com/spark-in-mei...
岗位职责美团用户增长数据团队,对接市场营销的业务需求,用大数据驱动美团用户增长。负责亿级营销预算的技术支持,对接数十个业务场景,联动10多种营销流量渠道。工作内容贴近营销业务,利用机器学习数据挖掘等方法,使数据在各个营销渠道落地产生价值。以工作结果能带来实际业务价值为使命工作要求 用数据说话,对数据...
本学习笔记参考解惑者学院Ryan机器学习课程及《word2vec中的数学原理》1 背景知识Word2vec是用来将词转换为向量的工具(word -> vector),而词向量与语言模型有着密切的关系,接下来我们将介绍语言模型方面的知识:1.1 统计语言模型语言模型通俗的将就是判断一句话是不是正...
传统的机器学习任务从开始到建模的一般流程是:获取数据 -> 数据预处理 -> 训练建模 -> 模型评估 -> 预测,分类。本文我们将依据传统机器学习的流程,看看在每一步流程中都有哪些常用的函数以及它们的用法是怎么样的。希望你看完这篇文章可以最为快速的开始你的学习任务。1. 获...
本学习笔记参考自吴恩达老师机器学习公开课和解惑者学院Ryan老师的机器学习课程 1简单模型 vs 复杂模型  对于一个崭新的机器学习的任务,在模型选取和特征向量获取上通常我们会有两种选择方式:a. 简单模型 + 复杂特征项;b. 复杂模型 + 简单特征项。这两种方式各有各的优缺点:1.1 简单模型 ...
本学习笔记参考自吴恩达老师机器学习公开课    聚类算法是一种无监督学习算法。k均值算法是其中应用最为广泛的一种,算法接受一个未标记的数据集,然后将数据聚类成不同的组。K均值是一个迭代算法,假设我们想要将数据聚类成K个组,其方法为:随机选择K个随机的点(称为聚类中心);对与数据集中的每个数据点,按照...
1. 决策树中的特征选择  分类决策树是一种描述对实例进行分类的树型结构,决策树学习本质上就是从训练数据集中归纳出一组分类规则,而二叉决策树类似于if-else规则。决策树的构建也是非常的简单,首先依据某种特征选择手段对每一特征对分类的贡献性大小排序,然后从根节点开始依次取出剩下特征中对分类贡献最大...
Python标识符命名规则:Python标识符区分大小写。可以包括英文、数字以及下划线,但不能以数字开头。以下划线开头的标识符是有特殊意义的:以单下划线开头(如_foo)的代表保护变量(protected),需要通过类提供的接口进行访问,不能用import导入。以双下划线开头(如_ _foo)代表类...
本学习笔记参考自吴恩达老师机器学习公开课和解惑者学院Ryan老师的机器学习课程          LR是一个传统的二分类模型,它也可以用于多分类任务,其基本思想是:将多分类任务拆分成若干个二分类任务,然后对每个二分类任务训练一个模型,最后将多个模型的结果进行集成以获得最终的分类结果。一般来说,可以采...
       本文所整理的机器学习书籍都来自于我平时的积累的一些资料,可能还有一些经典的机器学习书籍没有包含其中,欢迎大家留言补充,分享给大家。(本文所陈列的所有书籍电子版请链接:链接:https://pan.baidu.com/s/1qX9792c 密码:3b1s)机器学习-Tom M.Mitch...
本学习笔记参考自吴恩达老师机器学习公开课和解惑者学院Ryan老师的机器学习课程1. LR的直观表述1.1 直观表述  今天我们来深入了解一个工业界应用最多,虽然思想简单但也遮挡不住它NB光芒的绽放的一个分类预测模型,它就是LR模型。LR模型可以被认为就是一个被Sigmoid函数(logistic方程...
​前言在面试的时候,我经常会问候选人“One-Hot编码和哑变量有什么区别”,虽然是个不太难的问题,但很少遇到候选人能够给出一个较清晰且满意的解答。前些天在给机器学习课程班的同学介绍大规模离散LR模型时,介绍了One-Hot编码以及哑变量,并介绍了它们的区别和联系,以及正确运用的姿势。今天Ryan对...