MHH-Bibliothek

Automated Classification of Free-Text Radiology Reports: Using Different Feature Extraction Methods to Identify Fractures of the Distal Fibula

ORCID
0000-0001-8805-2291
Affiliation
Radiologie
Dewald, Cornelia L. A.; Balandis, Alina;
Affiliation
Radiologie
Becker, Lena S.;
Affiliation
Radiologie
Hinrichs, Jan B.;
Affiliation
Radiologie
von Falck, Christian;
Affiliation
Radiologie
Wacker, Frank K.; Laser, Hans; Gerbel, Svetlana;
ORCID
0000-0001-6283-8042
Affiliation
Radiologie
Winther, Hinrich B.; Apfel-Starke, Johanna

Ziel: Radiologische Befundtexte enthalten häufig Freitext, was eine strukturierte Datenauswertung erschwert. Natural language processing (NLP)-Techniken wandeln Freitext in maschinenlesbare Dokumentenvektoren um, die für die Entwicklung zuverlässiger, skalierbarer Methoden zur Datenanalyse wichtig sind. Ziel dieser Studie war, unstrukturierte Röntgenbefunde nach Frakturen der distalen Fibula zu klassifizieren und die beste Text-Mining-Methode zu finden.

Material & Methoden: Zur Erstellung eines eigenen deutschsprachigen Befunddatensatzes wurden mittels einer dedizierten Suchmaschine Sprunggelenks-Röntgenbilder identifiziert und die entsprechenden Befunde manuell nach Frakturen der distalen Fibula sortiert. Anhand der Daten wurde eine Machine Learning Pipeline erstellt, die die Textrepräsentationsmethoden Bag-of-Words (BOW), Term Frequency-Inverse Document Frequency (TF-IDF), Principal Component Analysis (PCA), Non-Negative Matrix Factorization (NMF), Latent Dirichlet Allocation (LDA) und Document Embedding (doc2vec) implementierte. Die extrahierten Dokumentvektoren wurden zum Trainieren von neuronalen Netzen (NN), Support Vector Machines (SVM) und logistischer Regression (LR) verwendet, um distale Fibulafrakturen zu erkennen. Die Ergebnisse wurden mittels Kreuztabellen bzgl. der Accuracy (acc) und der area under the curve (AUC) verglichen. 

Ergebnisse: Insgesamt wurden 3268 Röntgenbefunde inkludiert, von denen 1076 eine distale Fibulafraktur beschrieben. Der Vergleich der Textdarstellungsmethoden zeigte, dass BOW die besten Ergebnisse erzielte (AUC=0,98; acc=0,97), gefolgt von TF-IDF (AUC=0,97; acc=0,96), NMF (AUC=0,93; acc=0,92), PCA (AUC=0,92; acc=0,9), LDA (AUC=0,91; acc=0,89) und doc2vec (AUC=0,9; acc=0,88). Im Vergleich der Klassifikatoren erwiesen sich die NN (AUC=0,91) gegenüber SVM (AUC=0,87) und LR (AUC=0,85) als überlegen.

Schlussfolgerung: Eine automatisierte Klassifikation von unstrukturierten Befunden von Sprunggelenksaufnahmen kann zuverlässig Frakturen der distalen Fibula erkennen. Eine besonders geeignete Methode zur Feature Extraction ist das BOW-Modell.

Kernaussagen: Ziel war die automatisierte Klassifizierung unstrukturierter Röntgenbefunde entsprechend distaler Fibulafrakturen.

Eine zuverlässige Detektion von distalen Fibulafrakturen ist durch das automatisierte Klassifizierungssystem gewährleistet.  

Eine besonders geeignete Methode zur Feature Extraction ist das BOW-Model.

Please note: Due to de-duplication and anonymization, the number of radiology reports published in this dataset differs from the original study dataset. The CSV file is encoded in UTF-8 with default quoting ('"'). The file may be read as intended with Python pandas version 1.4.4 read_csv method with default parameters.

 

Cite

Citation style:
Could not load citation form.

Access Statistic

Total:
Downloads:
Abtractviews:
Last 12 Month:
Downloads:
Abtractviews:

Rights

License Holder: Dr. Cornelia L.A. Dewald, Dr. Hinrich Boy Martin Winther

Use and reproduction: