Subscribe to RSS
DOI: 10.1055/a-2697-4943
Leitliniengerechte Osteoporoseversorgung durch LLMs? Ein Scoping Review zum Potenzial generativer KI
Can LLMs Bridge the Guideline Gap? A Scoping Review on Generative AI in Osteoporosis ManagementAuthors
Zusammenfassung
Hintergrund
Die leitliniengerechte Versorgung von Osteoporosepatient:innen wird im klinischen Alltag durch Komplexität und begrenzte Ressourcen häufig erschwert. Large Language Models (LLMs) wie ChatGPT könnten als digitale Entscheidungshilfe dienen.
Ziel
Dieser Scoping Review untersucht den aktuellen Forschungsstand zum Einsatz von LLMs bei der leitlinienbasierten Diagnostik, Therapieentscheidung und Kommunikation in der Osteoporoseversorgung.
Methodik
Die systematische Medline Literaturrecherche erfolgte im Juni 2025 und folgte dem PRISMA-ScR-Framework. Eingeschlossen wurden Originalstudien mit empirischen Daten zum Einsatz von LLMs in der Osteoporoseversorgung. Zwei Reviewer führten Selektion, Datenextraktion und Qualitätsprüfung durch.
Ergebnisse
Insgesamt wurden acht zwischen 2023 und 2025 publizierte Studien eingeschlossen. Untersucht wurden ChatGPT (verschiedene Versionen von 3.5 und 4), Gemini/Bard und BingAI. Anwendungsszenarien umfassten Patient:innenaufklärung, Wissenstests sowie klinische Fallbeurteilungen. ChatGPT-4 zeigte durchgehend die höchste Leitlinienkonformität, teils vergleichbar mit ärztlicher Expertise. Schwächen lagen unter anderem in veralteten Informationen, mangelnder Erklärbarkeit und Datenschutzbedenken.
Schlussfolgerung
LLMs sind ein vielversprechendes Instrument zur Unterstützung der Osteoporosebehandlung. Es fehlen jedoch noch robuste, qualitativ hochwertige klinische Studien zur Bewertung ihrer Wirksamkeit in der Praxis, die dringend benötigt werden. Zum jetzigen Zeitpunkt sollten LLMs als wertvolle Ergänzung zur klinischen Praxis betrachtet werden, aber ihre Ergebnisse müssen kritisch bewertet werden, bevor sie zur Entscheidungsfindung herangezogen werden.
Abstract
Background
Guideline-adherent osteoporosis care is often hindered by complexity and limited resources. Large Language Models (LLMs), such as ChatGPT, may serve as digital decision-support tools. Objective: This scoping review explores current evidence on the use of LLMs for diagnosis, treatment decision-making, and communication in osteoporosis care.
Methods
A systematic Medline search was conducted in June 2025. Eligible studies reported empirical data on LLMs applied to osteoporosis. Two reviewers independently screened, extracted, and assessed studies. The review followed the PRISMA-ScR framework.
Results
Eight studies, published between 2023 and 2025 were included. All studies assessed ChatGPT (various versions of 3.5 and 4); and some also evaluated Gemini/Bard or BingAI. Use cases involved patient education, guideline-based knowledge testing, and clinical decision-making. ChatGPT-4 consistently showed the highest guideline adherence (accuracy up to 91%), in some cases comparable to physician expertise. Limitations included outdated content, lack of explainability, and data privacy concerns.
Conclusion
LLMs show promise as supportive tools in osteoporosis care. However, robust, high-quality clinical trials assessing their effectiveness in real-world settings are still lacking and urgently needed. At this stage, LLMs should be considered valuable adjuncts to clinical practice, but their output must be critically assessed before use in decision-making.
Schlüsselwörter
Osteoporose - Large Language Models (LLMs) - Leitliniengerechte Versorgung - Klinische Entscheidungsunterstützung - Künstliche Intelligenz in der MedizinKeywords
Osteoporosis - Large Language Models (LLMs) - guideline-adherent care - clinical decision support - artificial intelligencePublication History
Received: 25 July 2025
Accepted: 30 August 2025
Article published online:
14 November 2025
© 2025. Thieme. All rights reserved.
Georg Thieme Verlag KG
Oswald-Hesse-Straße 50, 70469 Stuttgart, Germany
-
Literatur
- 1 Ralston KAP, Hauser B, Paskins Z. et al. Effective Communication and the Osteoporosis Care Gap. J Bone Miner Res 2022; 37: 2049-2054
- 2 Iqbal U, Tanweer A, Rahmanti AR. et al. Impact of large language model (ChatGPT) in healthcare: an umbrella review and evidence synthesis. J Biomed Sci 2025; 32: 45
- 3 Lechner F, Kuhn S, Knitza J. Harnessing Large Language Models for Rheumatic Disease Diagnosis: Advancing Hybrid Care and Task Shifting. Int J Rheum Dis 2025; 28: e70124
- 4 Bicknell BT, Butler D, Whalen S. et al. ChatGPT-4 Omni Performance in USMLE Disciplines and Clinical Skills: Comparative Analysis. JMIR Med Educ 2024; 10: e63430
- 5 Haase I, Xiong T, Rissmann A. et al. ChatSLE: consulting ChatGPT-4 for 100 frequently asked lupus questions. Lancet Rheumatol 2024; 6: e196-e199
- 6 Griewing S, Lechner F, Gremke N. et al. Proof-of-concept study of a small language model chatbot for breast cancer decision support – a transparent, source-controlled, explainable and data-secure approach. J Cancer Res Clin Oncol 2024; 150: 451
- 7 Page MJ, McKenzie JE, Bossuyt PM. et al. The PRISMA 2020 statement: an updated guideline for reporting systematic reviews. BMJ 2021; 372: n71
- 8 Cinar C. Analyzing the Performance of ChatGPT About Osteoporosis. Cureus 2023;
- 9 Erden Y, Temel MH, Bağcıer F. Artificial intelligence insights into osteoporosis: assessing ChatGPT’s information quality and readability. Arch Osteoporos 2024; 19: 17
- 10 Ghanem D, Shu H, Bergstein V. et al. Educating patients on osteoporosis and bone health: Can „ChatGPT“ provide high-quality content?. Eur J Orthop Surg Traumatol 2024; 34: 2757-2765
- 11 Liu R, Liu J, Yang J. et al. Comparative analysis of ChatGPT-4o mini, ChatGPT-4o and Gemini Advanced in the treatment of postmenopausal osteoporosis. BMC Musculoskelet Disord 2025; 26: 369
- 12 Valdez D, Bunnell A, Lim SY. et al. Performance of Progressive Generations of GPT on an Exam Designed for Certifying Physicians as Certified Clinical Densitometrists. J Clin Densitom 2024; 27: 101480
- 13 Cung M, Sosa B, Yang HS. et al. The performance of artificial intelligence chatbot large language models to address skeletal biology and bone health queries. J Bone Miner Res 2024; 39: 106-115
- 14 Tong L, Zhang C, Liu R. et al. Comparative performance analysis of large language models: ChatGPT-3.5, ChatGPT-4 and Google Gemini in glucocorticoid-induced osteoporosis. J Orthop Surg Res 2024; 19: 574
- 15 Bucak ÖF, Cinar C. The Role of ChatGPT in osteoporosis management: a comparative analysis with clinical expertise. Arch Osteoporos 2025; 20: 51
- 16 Knitza J, Gupta L, Hügle T. Rheumatology in the digital health era: status quo and quo vadis?. Nat Rev Rheumatol 2024; 20: 747-759
- 17 Ong JCL, Chang SY-H, William W. et al. Ethical and regulatory challenges of large language models in medicine. Lancet Digit Health 2024; 6: e428-e432
- 18 Schini M, Johansson H, Harvey NC. et al. An overview of the use of the fracture risk assessment tool (FRAX) in osteoporosis. J Endocrinol Invest 2024; 47: 501-511
