加载中…
  
博文
标签:

深度学习

室内定位

wifi指纹

分类: 数据挖掘

Low-effort place recognition with WiFi fingerprints using deep learning

1. 背景介绍

该paper主要介绍采用深度学习算法,基于wifi信号进行室内定位。即,通过给定的数据,预测具体的室内位置。
WiFi fingerprinting is also used for mobile robots, as WiFi signals are usually available indoors and can provide
rough initial position estimate or can be used together with other positioning systems.

标签:

大数据征信

分类: 数据挖掘

zestfinance大数据征信技术学习总结

学习与借鉴
(1)模型起到一定的作用,重点在于能够收集到多少用户的准确数据;因此,各个企业重点在通过各种手段,收集用户的数据;
(2)在(1)的基础之上,结合现有的数据,结合业务特点,构建不同纬度的子模型,最后通过ensemble的方法,将子模型和业务规则进行集成,生成对应的分值;
(3)数据和模型是死的,无论怎么样,都能计算个分数出来,重点是对业务的理解;
(4)银行数据才是最重要的,其他都是辅助作用。

标签:

h2o

机器学习

gbm

杂谈

分类: 数据挖掘

H2O

官网:http://www.h2o.ai/

H2o开源的机器学习框架,支持glmrf

标签:

深度学习

keras

theano

tensorflow

分类: 数据挖掘

Keras: Deep Learning library for Theano and TensorFlow

keras是一个基于python的深度学习包
​theano和tensorflow是进行科学计算的工具

基于theanotensorflow数值计算包,构建深度学习模型

特点:

(1)模块化

(2)最小化:Each module should be kept short and simple

(3)容易扩展

(4)基于python语言

​用户主要根据实际情况,设计好深度学习网络结构即可方便的开发深度学习模型

​核心代码

标签:

python

one-hot-encode

it

分类: 数据挖掘
在实际建模过程中,我们经常需要对离散型变量进行encode处理,譬如性别,类目,标签等等。通过one hot encode方法进行处理。经验表明,这些操作处理对提升预测模型性能有帮助。
http://en.wikipedia.org/wiki/One-hot
# -*- coding: utf-8 -*-
''' Small script that shows hot to do one hot encoding
    of categorical columns in a pandas DataFrame.

    See:
    http://scikit-learn.org/dev/modules/generated/sklearn.preprocessing.OneHotEncoder.html#sklearn.preprocessing.OneHotEncoder
    http://scikit-learn.org/dev/modules/generated/sklearn.feature_extraction.DictVectorizer.html
'''
import pandas
import random
import numpy
from sklearn.feature_extraction import DictVectorizer


def one_hot_dataframe(data, cols, replace=False):
    ''' Takes a datafram
标签:

hive

it

分类: 云计算
hive中使用保留关键字作为表中的列名会报错,譬如
会提示报错,sort是一个关键字
如何解决这个问题?
将关键字用反引号括起来即可,譬如
(2011-05-24 19:03)
标签:

hive

array

it

分类: 云计算
数据
afan@ubuntu:/usr/local/hadoop/hive$ cat test.txt
12,23,23,34    what,are,this
34,45,34,23,12    who,am,i,are

afan@ubuntu:/usr/local/hadoop/hive$ hive
Hive history file=/tmp/afan/hive_job_log_afan_201105240353_929616223.txt
hive> drop table t_afan_test;
OK
Time taken: 3.288 seconds
hive> create table t_afan_test
    > (
    > info1 array<int>,
    > info2 array<string>
    > )
    > ROW FORMAT DELIMITED
    > FIELDS TERMINATED BY '\t'
    > COLLECTION ITEMS TERMINATED BY ','
    > ;
OK
Time taken: 0.58 seconds
hive> LOAD DATA LOCAL INPATH 'test.txt' OVERWRITE INTO TABLE t_afan_test;
Copying data from file:/usr/local/hadoop/hive/test.txt
Copying file: fil
(2010-11-13 20:26)
标签:

it

分类: python

主成分分析
1简介
  在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数

较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可

以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的

新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。
2原理
  设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的

综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一

种方法。
3步骤
主成分分析主要步骤如下:   
1.指标数据标准化;   
2.指标之间的相关性判定;  
3.计算特征值与特征向量
4.计算主成分贡献率及累计贡献率
5.计算主成分载荷

 

python实现
#-*- coding:utf-8 -*-
from pylab import *
from numpy import *

(2010-10-24 09:15)
标签:

sas

决策树

it

分类: SAS数据挖掘

决策树

决策树主要用来描述将数据划分为不同组的规则。第一条规则首先将整个数据集划分为不同大小的子集,然后将另外的规则应用在子数据集中,数据集不同相应的规则也不同,这样就形成第二层数据集的划分。一般来说,一个子数据集或者被继续划分或者单独形成一个分组。

1问题背景

预测模型案例概述

一家金融服务公司为客户提供房屋净值贷款。该公司在过去已经拓展了数千净值贷款服务。但是,在这些申请贷款的客户中,大约有20%的人拖欠贷款。通过使用地理、人口和金融变量,该公司希望为该项目建立预测模型判断客户是否拖欠贷款。

2输入数据源

标签:

sas

分隔符

文件

分类: SAS数据挖掘

SAS 导出文件

导出到excel

PROC EXPORT DATA=Work.myfile

OUTFILE=‘C:\temp\example.xls’

DBMS=EXCEL2000

REPLACE;

SHEET=‘My Sheet’;

RUN;

导出到Access

PROC EXPORT DATA=Work.myfile

OUTTABLE=‘My ACCESS Table’

DBMS=ACCESS2000 REPLACE;

DATABASE=‘C:\temp\mydatabase.mdb’

RUN;

分隔符文件

PROC EXPORT DATA=work.myfile

OUTFILE=‘C:\temp\myfile’

DBMS=DLM;

DELIMITER=‘/’;

RUN;

DBMS选项

DBMS=

Can be ACCESS97, ACCESS2000, ACCESS2002, ACCESSCS, CSV, DBF, EXCEL4, EXCEL5, EXCEL97, EXCEL2000,JMP, PCFS, TAB, WK1, WK3, WK4

  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有