Artificial Intelligence (AI)

Topic Modelling with BERTtopic in Python | by Petr Korab | Apr, 2024

Written by smirow

Praktisches Tutorial zur Modellierung politischer Aussagen mit einem hochmodernen transformatorbasierten Themenmodell

Pierre Korab
Auf dem Weg zur Datenwissenschaft
Foto von Harryarts auf Freepik

Themenmodellierung (d. h. die Identifizierung eines Subjekts in einem Korpus von Textdaten) hat sich seitdem rasant weiterentwickelt Latente Dirichlet-Zuordnung (LDA) Modell wurde veröffentlicht. Dieses klassische thematische Modell berücksichtigt jedoch die Beziehungen zwischen Wörtern nicht ausreichend, da es auf dem statistischen Konzept einer Worttüte basiert. Basierend auf der jüngsten Integration Top2Vec Und BERThema Modelle beheben ihre Nachteile, indem sie vorab trainierte Sprachmodelle nutzen, um Themen zu generieren.

In diesem Artikel verwenden wir den von Maarten Grootendorst (2022). BERThema Identifizieren Sie Begriffe, die Themen in Transkripten politischer Reden repräsentieren. Es übertrifft die meisten traditionellen und modernen Themenmodelle in Bezug auf Themenmodellierungsmetriken für verschiedene Korpora und wird in der Wirtschaft, in der Wissenschaft (Chagnon, 2024) und im öffentlichen Sektor eingesetzt. Wir werden im Python-Code Folgendes untersuchen:

  • wie man Daten effizient vorverarbeitet
  • So erstellen Sie eine Bigram-Themenvorlage
  • wie man die häufigsten Begriffe im Laufe der Zeit erforscht.

Als Beispieldatensatz verwenden wir den Empoliticon: Datensatz zur politischen Rede – Kontext und Emotionenveröffentlicht unter der…

About the author

smirow

Leave a Comment