加载中…
个人资料
paper0023
paper0023
  • 博客等级:
  • 博客积分:0
  • 博客访问:232,066
  • 关注人气:28
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
谁看过这篇博文
加载中…
正文 字体大小:

分词操作--对原文进行分词处理

(2011-09-26 15:34:09)
标签:

文章分词

分词检索

敏感词

分类: lamp

SCWS

http://ftphp.com/scws/

http://blog.s135.com/phpcws_v100/

 

 

Sphinx

http://www.sphinxsearch.org/sphinx-realtime-api

 

 

Lucene

http://lucene.apache.org/java/docs/index.html

 

 

--------------------------------------------

敏感词处理

bbsspam

http://code.google.com/p/bbspam/

 

 

 

trie_filter  php扩展C

http://love.ulnmp.com/?p=439

http://www.imop.us/welcome/categoryview/MTU0Ng==

 

敏感词文本匹配,每行一个敏感词

http://www.seetwo.net/jishu/chengxu/2011032215.html

核心:遍历数组之后,进行匹配

$article = mb_ereg_replace($word,$replace,$article);

 

--------------------------------------------

php+mysql分词检索_拆词搜索 实现方法

http://hi.baidu.com/jinghun1999/blog/item/42e8f902a10e7af408fa93b7.html

 

 

正则表达式

$badkey = “敏感词|敏感词B|敏感词C”;
$string = “我是不含有敏感词的,我要发表”;
if(preg_match(“/$badkey/i”,$string)){
echo “对不起,含有含有敏感字符,不允许发表”;
}else{
//do something…
}

$badstring=”脏话A|脏话B|脏话C|脏话D”;
$string=”你脏话A说什么,脏话D,不是人”;
echo preg_replace(“/$badstring/i”,’,$string);

 

 

 

替换

$KeyWordsFilterAds = array(
'敏感词' => '水产',
'敏感关键词' => 'XXX',
'不健康的词' => 'XXX',
);
$content = '敏感词';
$content = strtr($content, $KeyWordsFilterAds);
echo $content;

 

 

 

敏感词写入文本,一行一个,进行每行遍历循环

<?php
$article = "在这里输入原文。";

if(isset($_POST['submit']))
{
 $words = @file_get_contents('minganci.txt');
 if(!words){
  $article = "敏感词库加载失败!";
 }else{
  $article = empty($_POST['content']) ? "" : $_POST['content'];
  if($article)
  {
     $os = (DIRECTORY_SEPARATOR=='\\')?"windows":'linux';
    if($os == "windows") 
    {
      $words = explode("\r\n",$words); 
    }
    else 
    {
     $words = explode("\n",$words);
    }
     foreach($words as $word){
      if($word != ""){
      $replace = "<span style='color:red; text-decoration:underline'>".$word."</span>";
      $article = mb_ereg_replace($word,$replace,$article);
      }
     }
   }
 }
else
{
 $article = "虾米都没有!";
}

0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有