NLP Gensim 教程:从入门到精通

Gensim 是一个开源的 Python 库,专为自然语言处理(NLP)中的高效文本处理、主题建模和向量空间建模而设计。它以速度快和内存效率高而著称。通过它,我们可以用最少的资源构建词嵌入、发现隐藏的主题并分析大规模文本语料库。

  • 支持 Word2Vec、Doc2Vec 和 LDA
  • 通过流式传输和增量训练处理大规模数据集
  • 广泛应用于语义分析、主题发现和文本相似度任务

!<a href="https://media.geeksforgeeks.org/wp-content/uploads/20251213165212801083/nlpgensimlibrary.webp">nlpgensimlibraryNLP Gensim 库

目录

  • 1. 常用术语
  • 2. 安装 NLP Gensim 库
  • 3. 从给定数据集创建语料库
  • 4. 在 Gensim 中创建 TFIDF 矩阵
  • 5. 使用 Gensim 创建二元语法和三元语法
  • 6. 使用 Gensim 创建 Word2Vec 模型
  • 7. 使用 Gensim 创建 Doc2Vec 模型
  • 8. 主题建模
  • 9. 计算相似度矩阵
  • 10. 使用 Gensim 进行文本摘要
  • 11. 从文本中提取重要关键词

1. 常用术语

在继续深入之前,让我们先了解一下下面提到的这些术语的含义。

  • 语料库: 这是一个大型且结构化的文本文档集合,用于训练或分析语言模型。它的范围可以很广,从一系列文章、推文、电子邮件,到任何其他形式的文本数据都可以构成语料库。
  • 向量: 它是文本数据的数值表示形式,使机器能够处理和理解语言。
  • 模型: 它是一种机器学习或统计算法,通过从数据中学习来进行预测或提取模式。
  • 主题建模 这是一种无监督学习技术,用于在文档集合中发现抽象的主题。它假设每个文档都是由各种主题混合而成的,而每个主题又是由词语混合而成的。
  • 主题: 它是一组频繁一起出现并代表连贯思想或主题的词语。例如,“医生”、“医院”和“药”这些词可能会构成一个与健康相关的主题。

既然我们对这些术语有了基本的了解,让我们开始探索 Gensim 包的使用吧。

2. 安装 NLP Gensim 库

首先,使用以下命令安装该库。

> pip install gensim

现在,导入该库并检查版本以验证安装是否成功。

Python


CODEBLOCK_a5ba8c2a

3. 从给定数据集创建语料库

我们需要遵循以下步骤来创建语料库:

  • 加载数据集
  • 预处理数据集
  • 创建词典
  • 创建词袋模型语料库

3.1 加载数据集

我们可以将 .txt 文件作为数据集,也可以使用 Gensim Downloader API 加载数据集。在这里,我们加载了一个文本文件。

python


CODEBLOCK_4ebfc39b

Gensim Downloader API: 这是 Gensim 库中可用的一个模块,它是一个用于下载、获取信息和加载数据集/模型的 API。

python


CODEBLOCK_a6e0b1fb

在这里,我们要将包含一些文本的文本文件视为原始数据集。

3.2 预处理数据集

文本预处理: 在自然语言预处理中,文本预处理是指清理和准备文本数据的实践。为此,我们将使用 simplepreprocess( ) 函数。该函数在对列表进行分词和规范化后返回一个列表。文件作为对象加载,经过预处理得到列表,simplepreprocess 函数返回每个句子的列表。

python


CODEBLOCK_b0513822

输出

!imageOutput: tokenized

3.3 创建词典

现在我们有了预处理后的数据,可以使用 corpora.Dictionary( ) 函数将其转换为词典。这个词典是唯一令牌的映射。

python


CODEBLOCK_40cb7b2c

输出

!imagemy_dictionary

将词典保存到磁盘或作为文本文件: 您可以将词典保存/加载到磁盘上,也可以作为文本文件保存,如下所述。

python


mydictionary.save(‘mydictionar

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。如需转载,请注明文章出处豆丁博客和来源网址。https://shluqu.cn/21614.html
点赞
0.00 平均评分 (0% 分数) - 0