酷站(www.ku0.com)-致力于为互联网从业者提供动力!

热门关键词:  企业  as  baidu  c4rp3nt3r  美女
酷站

【云小站】新老客都返现+现金红包+瓜分60万奖池
酷站

python

旗下栏目: vbs hta htc perl DOS/BAT python VBA ColdFusion autoit PowerShell seraphzone linux shell Lua Golang Erlang ruby 游戏 远程脚本

python实现将数据分成训练集与测试集的方法

来源:互联网搜集 作者:秩名 人气: 发布时间:2019-09-13
本篇文章主要介绍了python实现将数据分成训练集与测试集的方法,对大家的学习或者工作具有一定的参考学习价值,感兴趣的小伙伴们可以参考一下,也感谢大家对酷站(ku0.com)的支持。

接下来,直接给出大家响应的代码,并对每一行进行标注,希望能够帮到大家。

需要用到的是库是。numpy 、sklearn。
 

#导入相应的库(对数据库进行切分需要用到的库是sklearn.model_selection 中的 train_test_split)
import numpy as np
from sklearn.model_selection import train_test_split
 #首先,读取.CSV文件成矩阵的形式。
my_matrix = np.loadtxt(open("xxxxxx.csv"),delimiter=",",skiprows=0)
 #对于矩阵而言,将矩阵倒数第一列之前的数值给了X(输入数据),将矩阵大最后一列的数值给了y(标签)
X, y = my_matrix[:,:-1],my_matrix[:,-1]
 #利用train_test_split方法,将X,y随机划分问,训练集(X_train),训练集标签(X_test),测试卷(y_train),
 测试集标签(y_test),安训练集:测试集=7:3的
 概率划分,到此步骤,可以直接对数据进行处理
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
 #此步骤,是为了将训练集与数据集的数据分别保存为CSV文件
 #np.column_stack将两个矩阵进行组合连接
train= np.column_stack((X_train,y_train))
 #numpy.savetxt 将txt文件保存为。csv结尾的文件
numpy.savetxt('train_usual.csv',train, delimiter = ',')
test = np.column_stack((X_test, y_test))
numpy.savetxt('test_usual.csv', test, delimiter = ',')

完整没解释的代码部分为

import numpy as np
from sklearn.model_selection import train_test_split
my_matrix = np.loadtxt(open("xxxxx.csv"),delimiter=",",skiprows=0)
X, y = my_matrix[:,:-1],my_matrix[:,-1]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
train= np.column_stack((X_train,y_train))
numpy.savetxt('train_usual.csv',train, delimiter = ',')
test = np.column_stack((X_test, y_test))
numpy.savetxt('test_usual.csv', test, delimiter = ',')

版权声明:本文内容来源于互联网或用户自行发布贡献,该文观点仅代表原作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 959677720#qq.cn(#换@) 举报,一经查实,本站将立刻删除。
原文链接:https://blog.csdn.net/u010801439/article/details/79555857

相关文章

  • TensorBoard计算图的可视化实现介绍

    TensorBoard计算图的可视化实现介绍

    简介 tensorflow 配套的可视化工具, 将你的计算图画出来. 当训练一个巨大的网络的时候, 计算图既复杂又令人困惑. TensorBoard 提供了一系列的组件, 可以看到 learning rate 的变化, 看到 objective function 的变化. tfboard 读取 tf 运......
    02-15
  • python实现连连看游戏的代码

    python实现连连看游戏的代码

    编程一直是在课余时间,放假时间自学,到现在为止也有半年了。 这是我自己用python实现的连连看,也是第一个完成的游戏。。虽然极其简陋。 思路呢,一开始是想要从一个点出发开始寻路,遇到数字就换一条路,直到找到第二个点,但是这样就......
    02-14
  • python中提高pip install速度的方法

    python中提高pip install速度的方法

    pip install命令默认是用的是python官方源,由于一些客观原因,连接速度很慢,甚至超时中断,到时很多模块安装不上,甚是苦恼! 怎么办? 使用国内镜像源,将以下命令完成拷贝出来,粘贴至记事本中,保存为bat文件,双击执行该批处理文件......
    02-14
  • pycharm设置项目的根目录

    pycharm设置项目的根目录

    clone 一个新项目,发现导包的时候出错 原因可能是 pycharm 的根目录设置不对。 设置根目录的步骤 如下 :......
    02-12
  • Python计算公交发车时间

    Python计算公交发车时间

    问题描述 公交车每天会按照一定间隔发车 , 由于不同时间段经过拥堵路段的用时不 - 样,所以给定路线下公交车每趟 ( 每车次 ) 行驶时间差异也很大,现在给出某路线某天各车次公交车离开始发站和到达终点站的时间,请求出该天耗时最长车次......
    02-12
  • python函数中的参数类型介绍

    python函数中的参数类型介绍

    1.前言 Python中函数的参数类型比较丰富,比如我们经常见到*args和**kwargs作为参数。初学者遇到这个多少都有点懵逼,今天我们来把Python中的函数参数进行分析和总结。 2.Python 中的函数参数 在Python中定义函数参数有5种类型,我们来一......
    02-11
  • Python版中国省市经纬度的实现

    Python版中国省市经纬度的实现

    一级行政区经纬度 一级行政区(省级行政区):34个(23个......
    02-11
  • windows下python安装pip的方法

    windows下python安装pip的方法

    1.前提 你要已经安装了 某个 版本的 python, (下载地址 https://www.python.org/downloads/) 安装后,需要配置python.exe 的环境变量,否则在 输入 python指令时,会出现如图错误: 配置环境变量 鼠标右键我的电脑 - 属性 - 高级系统设置......
    02-10
  • python函数定义和调用的过程

    python函数定义和调用的过程

    我们可以创建一个函数来列出费氏数列 def fib(n): # write Fibonacci series up to n... Print a Fibonacci series up to n.... a, b = 0, 1... while a n:... print(a, end= )... a, b = b, a+b... print()... # Now call the function ......
    02-10
  • python破解网站反爬虫

    python破解网站反爬虫

    最近在学爬虫时发现许多网站都有自己的反爬虫机制,这让我们没法直接对想要的数据进行爬取,于是了解这种反爬虫机制就会帮助我们找到解决方法。 常见的反爬虫机制有判别身份和IP限制两种,下面我们将一一来进行介绍。 (一) 判别身份 首先......
    02-10

最新更新