博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
机器学习入门-提取文章的主题词 1.jieba.analyse.extract_tags(提取主题词)
阅读量:6943 次
发布时间:2019-06-27

本文共 1661 字,大约阅读时间需要 5 分钟。

1.jieba.analyse.extract_tags(text)  text必须是一连串的字符串才可以

第一步:进行语料库的读取

第二步:进行分词操作

第三步:载入停用词,同时对分词后的语料库进行停用词的去除

第四步:选取一段文本分词列表,串接成字符串,使用jieba.analyse.extract_tags提取主题词

import pandas as pdimport numpy as npimport jieba# 1.导入数据语料的新闻数据df_data = pd.read_table('data/val.txt', names=['category', 'theme', 'URL', 'content'], encoding='utf-8')# 2.对语料库进行分词操作df_contents = df_data.content.values.tolist()# list of list 结构Jie_content = []for df_content in df_contents:    split_content = jieba.lcut(df_content)    if len(split_content) > 1 and split_content != '\t\n':        Jie_content.append(split_content)# 3. 导入停止词的语料库, sep='\t'表示分隔符, quoting控制引号的常量, names=列名, index_col=False,不用第一列做为行的列名, encodingstopwords = pd.read_csv('stopwords.txt', sep='\t', quoting=3, names=['stopwords'], index_col=False, encoding='utf-8')print(stopwords.head())# 对文本进行停止词的去除def drop_stops(Jie_content, stopwords):    clean_content = []    all_words = []    for j_content in Jie_content:        line_clean = []        for line in j_content:            if line in stopwords:                continue            line_clean.append(line)            all_words.append(line)        clean_content.append(line_clean)    return clean_content, all_words# 将DateFrame的stopwords数据转换为list形式stopwords = stopwords.stopwords.values.tolist()clean_content, all_words = drop_stops(Jie_content, stopwords)print(clean_content[0])#4.  使用jieba分词器,提取文本的关键字import jieba.analyseindex = 2000content_word = ''.join(clean_content[index])content_text = ' '.join(jieba.analyse.extract_tags(content_word, topK=5, withWeight=False))print(content_word)print(content_text)

 

转载于:https://www.cnblogs.com/my-love-is-python/p/10290264.html

你可能感兴趣的文章
反向春运成时尚:家人团聚就是年
查看>>
联合国减灾办公室:2018年极端天气影响全球6000多万人
查看>>
骆文智当选深圳市人大常委会主任
查看>>
北京大兴国际机场迎来首架校验飞机
查看>>
去年中国水上交通安全形势稳定
查看>>
重庆:电力工人自制无人机喷火清障装置消灭马蜂窝
查看>>
谁将接任世行行长?白宫:特朗普女儿将助挑选
查看>>
望京“黑客”图鉴
查看>>
阿里重磅开源FESCAR,解决开发者分布式事务问题
查看>>
再见吧USB!无线激光一体机好价精选
查看>>
科幻也将成为现实 努比亚α将亮相MWC2019
查看>>
数据库两大神器【索引和锁】
查看>>
JSP第一篇【JSP介绍、工作原理、生命周期、语法、指令、行为】
查看>>
训练效能提升2-4倍!京东携SparkGBM成果亮相Spark Summit 2018
查看>>
VeeValidate在vue项目里表单校验应用案例
查看>>
源码分析之ThreadLocal
查看>>
浏览器内核渲染:重建引擎
查看>>
在互联网中,每个人都是裸体的
查看>>
根据Promise/A+规范模拟实现Promise
查看>>
一个浏览器, 三分钟搭建个人博客
查看>>