Partage de technologie

Python lit les fichiers Word et dessine des diagrammes de nuages ​​de mots

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

1. Installez les bibliothèques nécessaires

pip install python-docx wordcloud matplotlib
  • 1

2. Code complet

import docx
from wordcloud import WordCloud
import matplotlib.pyplot as plt

# 读取Word文件内容
def read_word_file(file_path):
    doc = docx.Document(file_path)
    full_text = []
    for para in doc.paragraphs:
        full_text.append(para.text)
    return 'n'.join(full_text)

# 生成词云图
def generate_wordcloud(text):
    wordcloud = WordCloud(width=800, height=400, background_color='white').generate(text)
    
    # 显示词云图
    plt.figure(figsize=(10, 5))
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.axis('off')
    plt.show()

# 主函数
def main():
    file_path = 'your_word_file.docx'  # 替换为你的Word文件路径
    text = read_word_file(file_path)
    generate_wordcloud(text)

if __name__ == "__main__":
    main()

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31

3. Modifier les erreurs tronquées en chinois

Avis:
S'il y a des caractères chinois tronqués, vous pouvez les modifier des manières suivantes :
Insérer la description de l'image ici
Ajouter une police

wordcloud = WordCloud(width=800, height=400, background_color='white', font_path='simhei.ttf').generate(text)
  • 1

Insérer la description de l'image ici

L'effet après modification:
Insérer la description de l'image ici

4. Explication détaillée

Explication détaillée

Bibliothèque d'installation :

  • python-docx : utilisé pour lire les fichiers Word.
  • wordcloud : utilisé pour générer des diagrammes de nuages ​​de mots.
  • matplotlib : utilisé pour afficher des graphiques en nuages ​​de mots.

Lisez le contenu du fichier Word :

  • Utilisez la classe Document de python-docx pour lire les fichiers Word.
  • Parcourt les paragraphes du document, en ajoutant le texte de chaque paragraphe à une liste.
  • Combinez le texte de tous les paragraphes en une seule chaîne.

Générer un diagramme de nuage de mots :

  • Utilisez la classe WordCloud de wordcloud pour générer un graphique de nuage de mots.
  • Définissez la largeur, la hauteur et la couleur d’arrière-plan du nuage de mots.
  • Appelez la méthode generate pour générer un graphique de nuage de mots.
  • Utilisez matplotlib pour afficher des tracés de nuages ​​de mots.

Précautions

  • Assurez-vous que le chemin de votre fichier Word est correct.
  • Vous pouvez ajuster les paramètres du diagramme de nuage de mots selon vos besoins, tels que la couleur, la police, etc.
  • S'il y a beaucoup de mots courants ou de mots vides dans votre texte, vous pouvez les exclure à l'aide du paramètre mots vides de WordCloud.

Grâce aux étapes ci-dessus, vous pouvez facilement lire des fichiers Word et générer de superbes diagrammes de nuages ​​de mots.