有思俱乐部学习园地

分词


简介

  分词是比较复杂的一个模块,需要引用别人的算法,并构建分布式应用,此处只涉及技术选型,暂时不深入研究。

分词选型

  分词涉及到算法,这块慢慢做,持续更新,暂定 python+ scrapy + ElasticSearch + jieba + mysql 方案
名词解释:
  Scrapy:Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
  ElasticSearch: 是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。
  jieba: 基于Python的中文分词工具,安装使用非常方便,直接pip即可,此处采用jieba分词方案

工作人员

 
               
作者:XXX
信息录入:XXX
文案编辑:XXX
视频录制:XXX
视频编辑:XXX
图片编辑:XXX
关键字修改:陈鑫