发博文
个人资料
独孤剑
独孤剑
  • 博客等级:
  • 博客积分:479
  • 博客访问:55,231
  • 关注人气:5
我去过的地方
国内 (0篇)
国外 (0篇)
友情连接

神州数码

神州数码ampon-安防监控解决方案专家

识别验证码

识别验证码-致力于普及验证码识别技术,提供相关识别定制服务-验证码识别站

访客
加载中…
好友
加载中…
评论
加载中…
留言
加载中…
博文

    在自然语言处理技术里,对于信息的准确提取是有着较高要求的,这需要能很好的去噪,这里简单写下我的一些处理步骤.本文代码以JAVA为例.要提取网页信息,首要第一步是获取网页内容,我们用httpClient直接去读就行.不过读来的信息需要进行一下编码转换,在编码转换里,我的作法是先读HTTP头信息,如果里面含有编码信息就取该编码

// 判断编码
  String charset = '';
  if (EntityUtils.getContentCharSet(entity) != '') {
   charset = EntityUtils.getContentCharSet(entity);
  }

 

如果不含有相关的编码信息,则用正则去取内容中的meta信息,这里要注意的是如果meta里取到的是gb2312我们需要将其转为GBK编码,这样能显示绝大多数信息,因为GBK的集比GB2312要大.如果经过这两项还是无法取得相关的编码,则需要UniversalDetector去探测字节的方式来获取编码,这种方法效率较慢,所以只在上面两方法都取不到的情况下才用它来取编码.取得编码后我们就可以用Jsoup去遍历节点信息.有人可能会有htmlParse或者NekoHtml,个人建议使用Jsoup,因为前两者一个是有依赖性一个是

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

杂谈

分类: 综合安全
最近服务器出现大量的TIME_WAIT状态的连接,查询资料后找到解决方法,通过修改内核的方式来优化.启用后time_wait的数目立即下降了10倍.不知道高峰时期会下降多少.写了SHELL记录了.下面将修改方式记录下.
vi /etc/sysctl.conf

编辑文件,加入以下内容:
net.ipv4.tcp_syncookies = 1
net.ipv4.tcp_tw_reuse = 1
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

杂谈

分类: 综合安全

由于网站访问量大,在高峰时期,出现网站打不开的情况,,但TOP命令查时却发现CPU占用率很低,存在大量sleep连接,仔细查了原因,分析出最大可能是网站访问超出APACEH最大连接数。于是按下面方法修改,结果问题解决了。

#vi /opt/lampp/etc/httpd.conf

找到并取消注释下面这行

#Include conf/extra/httpd-mpm.conf

#vi vi /opt/lampp/etc/extra/httpd-mpm.conf

找到


<IfModule mpm_prefork_module>
    StartServers          5
    MinSpareServers       5
    MaxSpareServers      10
    MaxClients     &nbs

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

it

分类: 综合安全

今天不知道装了什么东西,HTML文件和HTM文件的图标全没了,变成了EXE的图标,看着非常不爽,网上四处找,总算找着了解决方法,这里转载下保留.

 

具体操作:主要在注册表里确认两处默认值。一处是HKEY_CLASSES_ROOT\htmlfile\ShellEx\IconHandler,确认其右侧默认值为{42042206-2D85-11D3-8CFF-005004838597}(XP下面为此值,不保证其他系统下相同),如果不是请改回此值(包括花括号);另一处是HKEY_CLASSES_ROOT\CLSID\{42042206-2D85-11D3-8CFF-005004838597}\Old Icon\htmlfile\DefaultIcon,确认其右侧默认值是C:\Program Files\internet explorer\IEXPLORE.EXE,1(我的系统就是这个地方不对),否则请改回此值。保存,刷新,这个时候应该就OK了。

补充:做完上述几步,如果只有Html图标恢复正常,而Htm图标还是没改回来,请确认HKEY_CLASSES_ROOT\.htm右侧默认值是htmlfile,否则请改回,再保存、刷新,一切就OK了。PS:我自己补充一句,这两种文件改起来很麻烦,其他文件的图标丢失因为不修改注册表,不会太麻烦,只要在“文件夹选项”里的“文件类型”选项卡里改改就行了。

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

it

分类: 编程

运行,产生错误,错误类型:
Server 对象, ASP 0178 (0x80070005)
检查权限时,对 Server.CreateObject 的调用失败。拒绝对此对象的访问。

解决方案:
管理工具-->组件服务-->计算机-->我的电脑-->DCOM配置

选择Microsoft Excel 应用程序 -->属性

标识:选择交互式用户(这里一定要勾上,否则会没有权限)

安全:启动和激活权限-->自定义,加入InterNet来宾帐户,勾上本地启动和本地激活
 
仍然是在安全一项里,在访问权限里加入InterNet来宾帐户,勾上本地访问

 

按上面的操作就行,网上的很多都是没有自己测试过的.本人写的这个是自己亲自测试通过.肯定没有问题 也呼吁那帮所谓的高人以后整东西时不要老拿些自己没测试过的东西来忽悠当高手.

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 

今天打开EXCEL文件时突然出现一个WINDOWS正在设置office2007的框,太烦人了,于是网上一顿狂搜,总算找到了解决方法,这里分享给大家.

把你的C:\Program Files\Common Files\Microsoft Shared\web server extensions\40\bin里的fp4ault.dll这个文件替换掉,没有就去下载一个。

这里也提供一个下载地址,PCONLINE的,下载安全些.点击下载

 

 

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

杂谈

分类: 杂谈

先看下故事吧:

“我为这份工作做了很多准备,笔试和面试都很顺利,以为已是囊中之物了,可是公司突然通知我不录用了。” 上海的研究生黄同学郁闷地坐在电脑前,看着应聘公司发来的邮件,上写:“公司的企业文化不适合您”。
一个在那家公司工作的学长找到他,说公司要招一个机电自动化专业的研究生,问他是否有兴趣。黄觉得这家公司很适合自己,一番准备后,把简历发给了人事经理。来到上海,顺利地通过了笔试。老总和人事经理一起面试他之后,当场向他表达了签约意向,并告诉他回家等通知。
前天,通知来了。“哪知是这样一封拒签邮件。”他说。“笔试面试都很顺利,怎么会突然拒签呢?”他找到了学长。“我也不清楚,就去问人事经理。”学长说,“人事经理告诉我,在决定录用之后,她在网上搜索了黄的名字,查到他的人人网个人主页和微博主页。觉得他的私生活有点‘让人不太满意’,担心他进入公司后不认真工作。”
他自己也给王经理打了电话。“她说,我的人人网主页和微博主页上有太多关于夜生活和吃喝的内容,觉得我不太适合公司的工作氛围。”他承认自己的确比较喜欢出入酒吧,也喜欢和朋友出去吃饭,但只是与朋友分享自己的生活,没想到

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

qq

360

大战

杂谈

分类: 杂谈

晚上跟几个客户吃饭回来收到好友消息,说是QQ禁止装了360的用户,开始还以为是玩笑,因为那会我QQ没关,一直也正常用,还在暗自庆幸。这一回到家里就晕大了,把电脑一打开就发现问题了,QQ没上去两分钟就给我弹出一窗口

 

 

关键是你弹出是弹出吧,居然把关闭功能还禁止了,更过份的是直接将自己的窗口放在最放面,这时用户除了点退出QQ按钮外什么也做不了。奶奶的太流氓了。光这种窗口都应该认为是一种恶意软件了。

就冲这一点,本来觉得这360杀毒一般的而且还禁止了我很多东西,想着回头换的,这下好了,我决定要坚持挺下360.刚跟客户聊天时还在说这网上聊天沟通太慢,发短信沟通太慢的问题,嗯以后直接改用电话和面对面沟通吧。

没过多久,360也给我弹出了

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

小月月

事件

盛大

腾讯

杂谈

分类: 杂谈

自小月月事件发生后,一直想着写篇相关的文章,在这里我们不再去关注文中的内容,什么神马,MB,奥利奥…一切都是浮云,这里不再表述,我这里只想说下这个事件的传播方式,这一事件无疑是一次非常成功的网络营销,现在先让我们来回顾一下它的整个传播轨迹:

 

2010-10-5 11:45:00      

天涯论坛出现:感谢这样一个极品的朋友给我带来了这样一个悲情的国庆,深度八做留恋

 

贴子发出后在多个论坛进行转贴,同时利用SNS网站(校内出现N个小月月),IM进行大量转贴和分享。发起时间和相关截图没法取到。这里请各位见谅。

2010-10-6 12:43

腾讯微博“小月月”话题建立,并发了第一个贴,链接直指天涯原贴

 

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

游戏

新浪

滚动条

网易

5d

杂谈

分类: 杂谈

今天一早打开新浪,往下拉动屏幕时发现它的JS随屏滚动代码出问题了。是一个常见的小BUG,就是页面的滚动条可以无限拉长。什么也不说,上图(有图有真相)



看来这sina的技术还真是一般,听闻这几家门户里网易的技术是最好的。所言非虚啊

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
  

新浪BLOG意见反馈留言板 不良信息反馈 电话:4006900000 提示音后按1键(按当地市话标准计费) 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

新浪公司 版权所有