加载中…

加载中...

博文
分类: R
library(jsonlite)

ftag = '/users/chengjun/github/cjc/cases/twitter_text_test_period'

data = readLines(gzfile(paste0(ftag,'1.json.gz')))

datalist = strsplit(data, '\n')

b = sapply(datalist, fromJSON)

indx = sapply(b, length)

df = as.data.frame(do.call(rbind, lapply(b, 'length<-', max(indx))))

colnames(df) = names(b[[which.max(indx)]])
阅读  ┆ 评论  ┆ 禁止转载 ┆ 收藏 
标签:

community

分类: R

为了比较算法划分社区的结果与真实结果的差异,我们可以使用as_membership构造一个社区划分的对象。

https://github.com/igraph/rigraph/blob/dev/R/community.R​


#' Declare a numeric vector as a membership vector

#' This is useful if you want to use functions defined on

#' membership vectors, but your membership vector does not

#' come from an igraph clustering method.


g = (make_full_graph(10) + make_full_graph(10)) %>%

  rewire(each_edge(p = 0.2))

correct = rep(1:2, each = 10) %>% as_membership

fc = cluster_fast_greedy(g)

compare(correct, fc)

compare(correct, membership(fc))


阅读  ┆ 评论  ┆ 禁止转载 ┆ 收藏 
标签:

python

n = 10 #  the number of colors

color=cm.rainbow(np.linspace(0,1,n))

color


阅读  ┆ 评论  ┆ 禁止转载 ┆ 收藏 
标签:

matplotlib

分类: Python

import matplotlib.pyplot as plt

import numpy as np

x1 = np.linspace(0.0, 5.0)

x2 = np.linspace(0.0, 2.0)

y1 = np.cos(2 * np.pi * x1) * np.exp(-x1)

y2 = np.cos(2 * np.pi * x2)

def figure_label(text):

    plt.annotate(text, xy=(-1.1, 1.1), xycoords='axes fraction', fontsize=12,

                xytext=(0, 0), textcoords='offset points',

                ha='right', va='top')

    

plt.subplot(2, 1, 1)

plt.plot(x1, y1, 'yo-')

plt.title('A tale of 2 subplots')

plt.ylabel('Damped oscillation')

figure_label('A')

plt.subplot(2, 1, 2)

阅读  ┆ 评论  ┆ 禁止转载 ┆ 收藏 
标签:

r

ggplot2

reshape

分类: R

在我关于沉默的螺旋的研究中,涉及到多主体建模在不同条件下的运行结果。比如,检验人口总数量对于加速沉默的螺旋的影响,我在人口为1000, 1500, 2000条件下各模拟100次,直到90%的个体沉默,每一次运行才停止。我假设:人口总量越大,沉默得越快。

首先,读取三个数据

p1000<-read.csv('RQ5P1000.CSV',  header = T, sep = ',', stringsAsFactor=TRUE)

p1500<-read.csv('RQ5P1500.CSV',  header = T, sep = ',', stringsAsFactor=TRUE)

p2000<-read.csv('RQ5P2000.CSV',  header = T, sep = ',', stringsAsFactor=TRUE)


第二步,将宽的数据转成长的数据

使用reshape包的melt函数,非常方便。

library(reshape)

reshape_data = function(dt){

  dt$time = 1:nrow(dt)

  dt= melt(dt, id = c('time'))

  dt = subset(dt, is.na(dat$value)==FALSE

阅读  ┆ 评论  ┆ 禁止转载 ┆ 收藏 

http://stackoverflow.com/questions/2185252/reshaping-data-frame-from-wide-to-long-format


x <- read.table(textConnection('Code Country 1950 1951 1952 1953 1954 AFG Afghanistan 20,249 21,352 22,532 23,557 24,555 ALB Albania 8,097 8,986 10,058 11,123 12,246'), header=TRUE)


library(reshape)


x2 <-melt(x,id=c('Code','Country'),variable_name

阅读  ┆ 评论  ┆ 禁止转载 ┆ 收藏 
标签:

转载

1998年,Sergey Brin和Lawrence Page[1]提出了PageRank算法。该算法基于“从许多优质的网页链接过来的网页,必定还是优质网页”的回归关系,来判定网页的重要性。该算法认为从网页A导向网页B的链接可以看作是页面A对页面B的支持投票,根据这个投票数来判断页面的重要性。当然,不仅仅只看投票数,还要对投票的页面进行重要性分析,越是重要的页面所投票的评价也就越高。根据这样的分析,得到了高评价的重要页面会被给予较高的PageRank值,在检索结果内的名次也会提高

阅读  ┆ 评论  ┆ 转载原文 ┆ 收藏 
(2015-10-27 10:04)

from wordcloud import WordCloud

import jieba


#读取停用词​

stopwords = {}

def stopword(filename = ''):

    global stopwords

    f = open(filename, 'r')

    line = f.readline().rstrip()

    while line:

        stopwords.setdefault(line, 0)

        stopwords[line.decode('utf-8')] = 1

        line = f.readline().rstrip()

    f.close()

stopword(filename = '/Users/chengjun/github/datalab/stopwords.txt')  


#定义中文分词和停用词清洗

def cleancntxt(txt, stopwords):

    seg_generator = jieba.cut(txt, cut_all=False)

    s

阅读  ┆ 评论  ┆ 禁止转载 ┆ 收藏 
标签:

杂谈

iching: 一个用来算卦的Python包

使用python第三方包iching 进行蓍草卜卦。大衍之数五十,存一不用,构造天地人三者,历经三变,得到四的倍数即为一爻,算六爻要一个小时。第一次的余数是5或9,第二次的是4或8,第三次的是4或者8,剩下下的数量除以四就是结果。将四个步骤的变化过程绘制成为网络就是如上形式。显然,最终的结果是6、7、8、9。这样可以分成奇数和偶数两组。其中6和9因为是最大和最小值,所以会产生变卦。比如6对应偶数,简写成数字0或者“--”,变卦为数字1,简写为“一”。每次这样算一次得到一个爻;一卦共有六爻。不熟悉的话,至少需要一个小时。总而言之,古人构造随机数的方法太费时间啦,用python写个程序来搞吧!

我们提倡科学地看待易经和算卦,从上面的图可以清晰地看出来,易经和蓍草卜卦的逻辑隐含着很多辩证平衡的思路。比如三变之后如

阅读  ┆ 评论  ┆ 禁止转载 ┆ 收藏 
标签:

python

matrix

分类: Python

plotting results of hierarchical clustering ontop of a matrix of data in python

来源:http://stackoverflow.com/questions/2982929/plotting-results-of-hierarchical-clustering-ontop-of-a-matrix-of-data-in-python



阅读  ┆ 评论  ┆ 禁止转载 ┆ 收藏 
个人资料
黠之大者
黠之大者 新浪个人认证
  • 博客等级:
  • 博客积分:0
  • 博客访问:236,454
  • 关注人气:139
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
新浪微博
公告
废纸篓,记一些杂乱的东西。
我的网站:chengjun.github.io


好友
加载中…
搜博主文章
访客
加载中…
图片播放器
评论
加载中…
  

新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

新浪公司 版权所有