利来国际最老牌     |    利来头条     |    利来娱乐     |    利来体育     |    利来财经
推荐文章
图标   日本外相透露与中国
图标   iPhone SE 2再曝:利来
图标   陈妍希自曝有二胎计
图标   克罗地亚和斯洛文尼
图标   中英贸易通“电”
图标   《十年三月三十日》
图标   2016年9月任扬州市资
图标   工作人员回应阚清子
图标   IPO审核3家企业仅1家
图标   【千万别这样转账!
图标   陌陌为何6亿美元收
图标   发起了新的地利来国
图标   受害者家属仍在w6
图标   网易娱乐2月27日利
图标   令现场观众利来国际
图标   春节档电影市场12年
图标   腾讯宣布将全面布局
图标   是生活里最珍稀、明
图标   王祖贤欢度51岁生日
图标   分散式酒店运营平台
友情链接
入门 | 极简Python带你探索分类与回归的奥秘
发表时间 :2018/02/04 23:24:59     阅读 :

入门 | 极简Python带你探索分类与回归的奥秘

2018-02-04 12:14 来源:机器之心Synced 程序设计 /人工智能 /line

原标题:入门 | 极简Python带你探索分类与回归的奥秘

选自TowardsDataScience

作者:Vihar Kurama

参与:陈韵竹、路雪

本文从分类和回归两个方面介绍了基本的监督学习方法,并用Scikit-Learn做了实例演示。

入门 | 极简Python带你探索分类与回归的奥秘

为何使用人工智能和机器学习?

地球的未来在于人工智能和机器学习。如果对这些技术一无所知,人们很快会发现自己落伍了。世界发展日新月异,每天都发生着不可思议的变化。在人工智能和机器学习中,有许多实现和技术能够解决实时问题。其中,监督学习是最常用的方法之一。

「人工智能的关键在于表示。」——Jeff Hawkins

什么是监督学习?

在监督学习中,我们首先导入包含训练属性和目标属性的数据集。监督学习算法将学习训练样本和其目标变量之间的关系,然后应用习得的关系对无目标属性的全新输入进行分类。

为了阐明监督学习如何工作,让我们考虑一个案例:根据学生的学习时长预测学生的成绩。

数学公式如下:

Y = f(X)+ C

其中,F 代表学生准备考试的时长与考试分数之间的关系。X 是输入(学习时长),Y 是输出(学生在考试中的得分)。C 代表随机误差。

监督学习算法的最终目标是:以最大的准确率预测给定新输入 X 的 Y 值。有几种方法都可以实现监督学习,我们将探索其中一些最常用的方法。

基于给定的数据集,机器学习问题将分为两类:分类和回归。如果给定数据同时具有输入(训练)值和输出(目标)值,那么它属于分类问题。如果数据集有着连续数值属性而没有任何目标标签,那么它属于回归问题。

Classification: Has the output label. Is it a Cat orDog?

Regression: How much will the house sell for?

分类问题

让我们来举例说明。一名医学研究者希望通过分析乳腺癌数据来预测患者应该接受三种治疗方式中的哪一种。这个数据分析任务属于分类,其中构建的模型或分类器需要预测类别的标签,比如「疗法 1」、「疗法 2」、「疗法 3」。

分类问题预测离散且无序的类别标签。这个过程分两个阶段:学习阶段、分类阶段。

分类方法以及如何选择最合适的方法

最常用的算法包括:

1. K 近邻

2. 决策树

3. 朴素贝叶斯

4. 支持向量机

在学习阶段,分类模型通过分析训练集来构建分类器。在分类阶段,模型会预测出给定数据的类别标签。被分析的数据集元组及其相关类别标签被分隔成训练集和测试集。我们从要分析的数据集中随机抽取部分元组构成训练集。剩下的数据自然就是测试集了,且二者相互独立,也就是说测试集不参与训练过程。

测试集用于评估分类器的预测准确率。分类器的准确率指分类器在测试集中作出正确预测的百分比。为了达到更高的准确率,最好的方法是测试不同的算法并针对每一种算法进行调参。最后通过交叉验证可以找出最佳分类器。

为了给任务选择一个好的算法,我们必须考虑不同算法的准确率、训练时间、线性度、参数数量及特殊情况。

运用 Scikit-Learn 在 IRIS 数据集上实现 KNN 算法,根据给定输入预测花的种类。

首先,我们需要深入理解、探索给定数据集,这样才能应用机器学习算法。在本例中,我们使用了从 scikit-learn 导入的 IRIS 数据集。接下来我们边看代码边分析数据集。

请确保你的电脑上已经安装了 Python。然后,请使用 PIP 安装如下程序包:

pip install pandas

pip install matplotlib

pip install scikit-learn

在下面的代码片段中,我们调用几个 Pandas 中的方法来了解 IRIS 数据集的属性。

输出:

< classsklearn.datasets.base.Bunch’>

dict_keys([‘data’, ‘target’, ‘target_names’, ‘DESCR’, ‘feature_names’])]

<classnumpy.ndarray’> <classnumpy.ndarray’>

(150, 4)

[‘setosa’ ‘versicolor’ ‘virginica’]

本文由利来国际最老牌整理发布,转载请注明出自入门 | 极简Python带你探索分类与回归的奥秘http://www.myjurong.com/news/4476.html

上一篇:移动视频“奥斯卡”:左手科技互联网,右手娱乐价值观
下一篇:支付宝蚂蚁森林浅析:科技,是这个时代最大的公益
利来头条最新相关信息
《最美的青春》孙仲秋带 (2018-02-20)
佳能推出了两款入门级单 (2018-02-27)
电影《带你騛之断片》发 (2018-01-31)
餐馆和居民区零星分布 (2018-02-26)
带你一窥谷歌母公司「 (2018-02-19)
 

利来国际最老牌 | | 网站地图