Gensim 是一个开源的 Python 库,专为自然语言处理(NLP)中的高效文本处理、主题建模和向量空间建模而设计。它以速度快和内存效率高而著称。通过它,我们可以用最少的资源构建词嵌入、发现隐藏的主题并分析大规模文本语料库。
- 支持 Word2Vec、Doc2Vec 和 LDA
- 通过流式传输和增量训练处理大规模数据集
- 广泛应用于语义分析、主题发现和文本相似度任务
!<a href="https://media.geeksforgeeks.org/wp-content/uploads/20251213165212801083/nlpgensimlibrary.webp">nlpgensimlibraryNLP Gensim 库
目录
- 1. 常用术语
- 2. 安装 NLP Gensim 库
- 3. 从给定数据集创建语料库
- 4. 在 Gensim 中创建 TFIDF 矩阵
- 5. 使用 Gensim 创建二元语法和三元语法
- 6. 使用 Gensim 创建 Word2Vec 模型
- 7. 使用 Gensim 创建 Doc2Vec 模型
- 8. 主题建模
- 9. 计算相似度矩阵
- 10. 使用 Gensim 进行文本摘要
- 11. 从文本中提取重要关键词
1. 常用术语
在继续深入之前,让我们先了解一下下面提到的这些术语的含义。
- 语料库: 这是一个大型且结构化的文本文档集合,用于训练或分析语言模型。它的范围可以很广,从一系列文章、推文、电子邮件,到任何其他形式的文本数据都可以构成语料库。
- 向量: 它是文本数据的数值表示形式,使机器能够处理和理解语言。
- 模型: 它是一种机器学习或统计算法,通过从数据中学习来进行预测或提取模式。
- 主题建模: 这是一种无监督学习技术,用于在文档集合中发现抽象的主题。它假设每个文档都是由各种主题混合而成的,而每个主题又是由词语混合而成的。
- 主题: 它是一组频繁一起出现并代表连贯思想或主题的词语。例如,“医生”、“医院”和“药”这些词可能会构成一个与健康相关的主题。
既然我们对这些术语有了基本的了解,让我们开始探索 Gensim 包的使用吧。
2. 安装 NLP Gensim 库
首先,使用以下命令安装该库。
> pip install gensim
现在,导入该库并检查版本以验证安装是否成功。
Python
CODEBLOCK_a5ba8c2a
3. 从给定数据集创建语料库
我们需要遵循以下步骤来创建语料库:
- 加载数据集
- 预处理数据集
- 创建词典
- 创建词袋模型语料库
3.1 加载数据集
我们可以将 .txt 文件作为数据集,也可以使用 Gensim Downloader API 加载数据集。在这里,我们加载了一个文本文件。
python
CODEBLOCK_4ebfc39b
Gensim Downloader API: 这是 Gensim 库中可用的一个模块,它是一个用于下载、获取信息和加载数据集/模型的 API。
python
CODEBLOCK_a6e0b1fb
在这里,我们要将包含一些文本的文本文件视为原始数据集。
3.2 预处理数据集
文本预处理: 在自然语言预处理中,文本预处理是指清理和准备文本数据的实践。为此,我们将使用 simplepreprocess( ) 函数。该函数在对列表进行分词和规范化后返回一个列表。文件作为对象加载,经过预处理得到列表,simplepreprocess 函数返回每个句子的列表。
python
CODEBLOCK_b0513822
输出
!imageOutput: tokenized
3.3 创建词典
现在我们有了预处理后的数据,可以使用 corpora.Dictionary( ) 函数将其转换为词典。这个词典是唯一令牌的映射。
python
CODEBLOCK_40cb7b2c
输出
!imagemy_dictionary
将词典保存到磁盘或作为文本文件: 您可以将词典保存/加载到磁盘上,也可以作为文本文件保存,如下所述。
python
“
mydictionary.save(‘mydictionar