Technologieaustausch

Python liest Word-Dateien und zeichnet Wortwolkendiagramme

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

1. Installieren Sie die erforderlichen Bibliotheken

pip install python-docx wordcloud matplotlib
  • 1

2. Vollständiger Code

import docx
from wordcloud import WordCloud
import matplotlib.pyplot as plt

# 读取Word文件内容
def read_word_file(file_path):
    doc = docx.Document(file_path)
    full_text = []
    for para in doc.paragraphs:
        full_text.append(para.text)
    return 'n'.join(full_text)

# 生成词云图
def generate_wordcloud(text):
    wordcloud = WordCloud(width=800, height=400, background_color='white').generate(text)
    
    # 显示词云图
    plt.figure(figsize=(10, 5))
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.axis('off')
    plt.show()

# 主函数
def main():
    file_path = 'your_word_file.docx'  # 替换为你的Word文件路径
    text = read_word_file(file_path)
    generate_wordcloud(text)

if __name__ == "__main__":
    main()

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31

3. Ändern Sie verstümmelte chinesische Fehler

Beachten:
Wenn verstümmelte chinesische Zeichen vorhanden sind, können Sie diese auf folgende Weise ändern:
Fügen Sie hier eine Bildbeschreibung ein
Schriftart hinzufügen

wordcloud = WordCloud(width=800, height=400, background_color='white', font_path='simhei.ttf').generate(text)
  • 1

Fügen Sie hier eine Bildbeschreibung ein

Der Effekt nach der Änderung:
Fügen Sie hier eine Bildbeschreibung ein

4. Ausführliche Erklärung

Ausführliche Erklärung

Installationsbibliothek:

  • python-docx: wird zum Lesen von Word-Dateien verwendet.
  • Wordcloud: Wird zum Generieren von Wortwolkendiagrammen verwendet.
  • matplotlib: Wird zum Anzeigen von Wortwolkendiagrammen verwendet.

Lesen Sie den Inhalt der Word-Datei:

  • Verwenden Sie die Document-Klasse von python-docx, um Word-Dateien zu lesen.
  • Durchlaufen Sie die Absätze im Dokument und fügen Sie den Text jedes Absatzes einer Liste hinzu.
  • Fassen Sie den Text aller Absätze zu einer einzigen Zeichenfolge zusammen.

Wortwolkendiagramm erstellen:

  • Verwenden Sie die WordCloud-Klasse von Wordcloud, um ein Wortwolkendiagramm zu erstellen.
  • Legen Sie die Breite, Höhe und Hintergrundfarbe der Wortwolke fest.
  • Rufen Sie die Methode „generate“ auf, um ein Wortwolkendiagramm zu erstellen.
  • Verwenden Sie matplotlib, um Wortwolkendiagramme anzuzeigen.

Vorsichtsmaßnahmen

  • Stellen Sie sicher, dass der Pfad Ihrer Word-Datei korrekt ist.
  • Sie können die Parameter des Wortwolkendiagramms nach Bedarf anpassen, z. B. Farbe, Schriftart usw.
  • Wenn Ihr Text viele gebräuchliche Wörter oder Stoppwörter enthält, können Sie diese mithilfe des Stopwords-Parameters von WordCloud ausschließen.

Mit den oben genannten Schritten können Sie ganz einfach Word-Dateien lesen und schöne Wortwolkendiagramme erstellen.