不辣的皮特_新浪博客

python控制cpu使用率

(2020-07-01 16:26)

转载▼

分类： IT

一直在找办法在python脚本里控制cpu使用率情况，然后搜到了https://recomm.cnblogs.com/blogpost/11891246。

查看文章，控制的原理其实就是简单的休眠机制。休眠时间越长，cpu占用率的降低效果越好。通过让每一个进程在处理完后作一次短暂的休眠，cpu的占用率将出现明显降低。

我的使用场景是：模型预测阶段，对预测的点的个数用计数器记录。每预测300个点后作一次短暂休眠。通过简单的处理就可以实现cpu占用率的下降。

阅读收藏

查看全文>>

hive里的模糊匹配查询

(2020-02-12 09:50)

转载▼

分类：大数据

http://blog.sina.cn/dpool/blog/s/blog_1422f3efd0102wsnx.html

由于hive会将一些特殊字符作转义处理，导致某些语句无法通过传统sql语法实现。例如要筛选某字段中所有带'a'的取值，在mysql中的条件可以写为 where col1 like '%a%'。而在hive里则会报错。

hive中的写法如下：

where col1 like concat('%','a','%')

亲测有效。

阅读收藏

查看全文>>

ftp报错vsftpd331Permissiondenied

(2019-07-09 16:59)

转载▼

分类： IT

问题描述：在windows环境，t通过cmd命令行，ftp到远端的一台linux服务器。已知两台机器路由是通的，且无防火墙的限制。但在输入用户名root后，发生如下报错：vsftpd 331 Permission denied

原因是我们 /etc/vsftpd.ftpusers 和 /etc/vsftpd.user_list 禁掉了root这个用户。这时我们需要修改远程服务器上的这两个文件。

（1）/etc/vsftpd.user_list的默认文件（则是表示具体用户）

# vsftpd userlist

# If userlist_deny=NO, only allow users in this file

# If userlist_deny=YES (default), never allow users in this file, and

# do not even prompt for a password.

# Note that the default vsftpd pam config also checks /etc/vsftpd.ftpusers

# for users that are denied.

root

bin

daemon

adm

sync

shutdown

halt

mail

news

阅读收藏

查看全文>>

脚本实现sftp

(2019-05-28 10:10)

转载▼

分类： IT

sftp使用交互命令执行任务。但如果希望通过脚本实现，则需要安装插件予以实现。sshpass则可以满足需求。

使用sshpass命令

我们首先得安装 sshpass ，这里以 CentOS 为例，运行下面的命令：

cd /etc/yum.repos.d/

wget http://download.opensuse.org/repositories/home:Strahlex/CentOS_CentOS-6/home:Strahlex.repo

yum install sshpass

如果直接yum install sshpass，可能会遇到以下的错误：

[iteblog@www.iteblog.com ~]$ sudo yum install sshpass

Loaded plugins: fastestmirror, security

Loading mirror speeds from cached hostfile

Setting up Install Process

No package sshpass available.

Error: Nothing to do

安装完 sshpass 命令之后，现在我们可以操作 sftp 里面的文件了：

#!/bin/sh

HOST=sftp.iteblog.com

USER=iteblog

PASSWD=iteblog_hadoop

阅读收藏

查看全文>>

dataframe在groupby后的操作

(2019-04-10 10:23)

转载▼

分类： python机器学习

在采用dataframe进行数据处理时，经常需要用到groupby来做分组汇总的计算。此时，得到的结果虽然也是一个dataframe,但汇总标签的取值会作为索引值保存，非常不便于后续的数据操作。如何才能使汇总标签的取值作为普通的column保存呢？

此时，仅需在groupby命令后添加 as_index=False的参数即可，表明不希望标签值作为索引：

df_a = df.groupby(['col1','col2'],as_index=False)['col3'].sum()

*************************************************************************

优雅地在dataframe中新增一行/列

新增一行：

采用append()方法，插入一个dict即可：

data = pd.DataFrame()

a = {'x':1,'y':2}

data = data.append(a,ignore_index=True)

print(data)

新增一列：

直接声明一个column,例如：

阅读收藏

查看全文>>

db2释放表空间操作

(2018-09-11 17:59)

转载▼

分类：数据库

db2虽然可执行drop table命令删表，但磁盘空间不会释放。这是因为db2的表空间仍位于高水位。具体原理则涉及到db2的系统构成及运行原理了，我也不懂，大致可以形象地看成表把db2的表空间撑大了，虽然表没了，但容量并不会自动压缩。此时需要一些指令来压缩表空间，释放磁盘空间。（以下方法适用9.7版本）

1、获取当前表空间信息

使用“db2 LIST TABLESPACES SHOW DETAIL”命令获取表空间信息，列出当前各个表空间名称及其他信息。

2、执行表空间释放语句

db2 ALTER TABLESPACE TBS1 REDUCE MAX

阅读收藏

查看全文>>

python中nan的比较

(2018-06-01 13:40)

转载▼

分类： python机器学习

在用numpy.sum等方法计算列表时，当列表中无目标元素，得到的为空值nan。然而不同于none,它无法用==进行判断。

NaN（not a number），在数学表示上表示一个无法表示的数，这里一般还会有另一个表述inf，inf和nan的不同在于，inf是一个超过浮点表示范围的浮点数（其本质仍然是一个数，只是他无穷大，因此无法用浮点数表示，比如1/0），而nan则一般表示一个非浮点数（比如无理数）

在数学上inf==inf，且inf == inf+X（X为任意浮点数），而nan != nan，因此在python中判断一个数是否是nan，可以直接判断他是否与自身相等

即：判断变量s是否为nan时，如下：

if s != s:

print('s is a nan')

else:

print('s is not a nan')

http://python.jobbole.com/87266/

https://blog.csdn.net/jpbirdy/article/details/52333301

阅读收藏

查看全文>>

db2 对大数据量作delete操作不记日志的方法

(2018-03-01 16:27)

转载▼

分类：数据库

DB2 delete大数据表中的部分数据经常会产生很大日志，造成数据库日志空间满的情况。

现总结几种解决方法如下：

阅读收藏

查看全文>>

db2的ixf格式文件导入

(2015-11-17 16:12)

转载▼

标签：

it

统计

分类：统计

list db directory

connect to 库名

import from 'E:\flj\4826\TBL_4826.ixf' of ixf modified by forcecreate commitcount 1000000 create into TBL_4826

检查表导入情况：

describe table TBL_4826

导入成功。

import 语句中，导入文件的地址和后缀一定要写全。

load和import都可以，不过load不记录日至，不检查约束，会快些，import都会进行检查，会慢些，不过能保证记录的完整。

db2的数据

阅读收藏

查看全文>>

指标选取的若干统计方法

(2015-08-01 13:34)

转载▼

看看上条博客的第一句话，整个人都不好了。后来新三板的面试也没去，感觉自己真的太任性了。如果当时去了，或许我现在应该还在人大的图书馆悠闲地看小说，或者跟梦爷还是肉球去看电影。而现实是我坐在人满为患的浦东图书馆，一个人过着自己都不知道该如何打发的周末时光。

不扯没用的，直接说主题。毕业论文导师希望我们写与信用相关的东西，于是决定有必要看一看这一类的文章。今天在看消费信贷中个人信用评价方法的论文，当中提到了一个比较重要的知识——构建模型时指标的选取。目前对于这类问题，我大概仅限于想到主成分分析这一种方法。然而在现实中，主成分分析似乎也并不是放诸四海而皆准的。以下是盘点的几个常用的方法，可以帮助开拓思路：

&nb

阅读收藏

查看全文>>