Πόσο καλά μπορούν τα Chatbots AI να μιμηθούν τους γιατρούς σε ένα περιβάλλον θεραπείας; Βάζουμε 5 στο τεστ

Πολλοί καταναλωτές και πάροχοι ιατρικών υπηρεσιών στρέφονται σε chatbots, που υποστηρίζονται από μεγάλα γλωσσικά μοντέλα, για να απαντήσουν σε ιατρικές ερωτήσεις και να ενημερώσουν τις επιλογές θεραπείας. Αποφασίσαμε να δούμε αν υπήρχαν σημαντικές διαφορές μεταξύ των κορυφαίων πλατφορμών όσον αφορά την κλινική τους ικανότητα.

Για να εξασφαλίσουν ιατρική άδεια στις Ηνωμένες Πολιτείες, οι επίδοξοι γιατροί πρέπει να πλοηγηθούν με επιτυχία σε τρία στάδια της Εξέτασης Ιατρικής Άδειας των ΗΠΑ (USMLE), με την τρίτη και τελευταία δόση να θεωρείται ευρέως ως η πιο απαιτητική. Απαιτεί από τους υποψηφίους να απαντήσουν σωστά περίπου το 60% των ερωτήσεων και ιστορικά, η μέση βαθμολογία επιτυχίας κυμαινόταν γύρω στο 75%.

Όταν υποβάλαμε τα κύρια μοντέλα μεγάλων γλωσσών (LLM) στην ίδια εξέταση του Βήματος 3, η απόδοσή τους ήταν αισθητά ανώτερη, επιτυγχάνοντας βαθμολογίες που ξεπέρασαν σημαντικά πολλούς γιατρούς.

Αλλά υπήρχαν κάποιες σαφείς διαφορές μεταξύ των μοντέλων.

Συνήθως λαμβάνεται μετά το πρώτο έτος διαμονής, το USMLE Step 3 μετράει εάν οι πτυχιούχοι ιατρικής μπορούν να εφαρμόσουν την κατανόησή τους για την κλινική επιστήμη στην μη εποπτευόμενη πρακτική της ιατρικής. Αξιολογεί την ικανότητα ενός νέου γιατρού να διαχειρίζεται τη φροντίδα των ασθενών σε ένα ευρύ φάσμα ιατρικών κλάδων και περιλαμβάνει ερωτήσεις πολλαπλής επιλογής και προσομοιώσεις περιπτώσεων που βασίζονται σε υπολογιστή.

Απομονώσαμε 50 ερωτήσεις από το δείγμα δοκιμής USMLE Βήμα 3 του 2023 για να αξιολογήσουμε την κλινική επάρκεια πέντε διαφορετικών κορυφαίων μεγάλων γλωσσικών μοντέλων, τροφοδοτώντας το ίδιο σύνολο ερωτήσεων σε καθεμία από αυτές τις πλατφόρμες — ChatGPT, Claude,  Google  Gemini, Grok και Llama.

Άλλες μελέτες  έχουν μετρήσει αυτά τα μοντέλα ως προς  την ιατρική τους επάρκεια , αλλά από ό,τι γνωρίζουμε, αυτή είναι η πρώτη φορά που αυτές οι πέντε κορυφαίες πλατφόρμες συγκρίνονται σε μια κατ’ ιδίαν αξιολόγηση. Αυτά τα αποτελέσματα θα μπορούσαν να δώσουν στους καταναλωτές και τους παρόχους κάποιες πληροφορίες σχετικά με το πού πρέπει να στραφούν.

Δείτε πώς σκόραραν:

  • ChatGPT-4o (Open AI) — 49/50 ερωτήσεις σωστές (98%)
  • Claude 3.5 (Anthropic) — 45/50 (90%)
  • Gemini Advanced (Google) — 43/50 (86%)
  • Grok (xAI) — 42/50 (84%)
  • HuggingChat (Llama) — 33/50 (66%)

Στο πείραμά μας, το ChatGPT-4o του OpenAI αναδείχθηκε ως η κορυφαία απόδοση, επιτυγχάνοντας βαθμολογία 98%. Παρείχε λεπτομερείς ιατρικές αναλύσεις, χρησιμοποιώντας γλώσσα που θύμιζε ιατρικό επαγγελματία. Όχι μόνο έδωσε απαντήσεις με εκτενή συλλογισμό, αλλά επίσης προσδιόρισε τη διαδικασία λήψης αποφάσεων, εξηγώντας γιατί οι εναλλακτικές απαντήσεις ήταν λιγότερο κατάλληλες.

Ο Claude, από το Anthropic, ήρθε δεύτερος με βαθμολογία 90%. Παρείχε πιο ανθρώπινες απαντήσεις με απλούστερη γλώσσα και μια δομή κουκκίδας που θα μπορούσε να είναι πιο προσιτή στους ασθενείς. Το Gemini, που σημείωσε 86%, έδωσε απαντήσεις που δεν ήταν τόσο εμπεριστατωμένες όσο το ChatGPT ή ο Claude, καθιστώντας το σκεπτικό του πιο δύσκολο να αποκρυπτογραφηθεί, αλλά οι απαντήσεις του ήταν συνοπτικές και ξεκάθαρες.

Το Grok, το chatbot από το xAI του Elon Musk, σημείωσε ένα αξιοσέβαστο 84%, αλλά δεν παρείχε περιγραφικό σκεπτικό κατά την ανάλυσή μας, καθιστώντας δύσκολο να κατανοήσουμε πώς έφτασε στις απαντήσεις του. Ενώ το HuggingChat – ένας ιστότοπος ανοιχτού κώδικα που δημιουργήθηκε από  το Meta’s  Llama – σημείωσε τη χαμηλότερη βαθμολογία με 66%, παρόλα αυτά έδειξε καλή αιτιολογία για τις ερωτήσεις που απάντησε σωστά, παρέχοντας συνοπτικές απαντήσεις και συνδέσμους προς πηγές.

Μια ερώτηση που τα περισσότερα μοντέλα έκαναν λάθος σχετικά με μια 75χρονη γυναίκα με υποθετική καρδιακή πάθηση. Η ερώτηση έθεσε στους γιατρούς ποιο ήταν το καταλληλότερο επόμενο βήμα ως μέρος της αξιολόγησής της. Ο Claude ήταν το μόνο μοντέλο που έδωσε τη σωστή απάντηση.

Μια άλλη αξιοσημείωτη ερώτηση, επικεντρώθηκε σε έναν 20χρονο άνδρα ασθενή που εμφανιζόταν με συμπτώματα σεξουαλικά μεταδιδόμενης λοίμωξης. Ρώτησε τους γιατρούς ποια από τις πέντε επιλογές ήταν το κατάλληλο επόμενο βήμα ως μέρος της εργασίας του. Το ChatGPT προσδιόρισε σωστά ότι ο ασθενής θα έπρεπε να προγραμματιστεί για ορολογικό τεστ HIV σε τρεις μήνες, αλλά το μοντέλο προχώρησε παραπέρα, συνιστώντας μια εξέταση παρακολούθησης σε μία εβδομάδα για να διασφαλιστεί ότι τα συμπτώματα του ασθενούς είχαν υποχωρήσει και ότι τα αντιβιοτικά κάλυπταν το στέλεχος της λοίμωξης. Σε εμάς, η απάντηση ανέδειξε την ικανότητα του μοντέλου για ευρύτερο συλλογισμό, επεκτείνοντας πέρα ​​από τις δυαδικές επιλογές που παρουσιάστηκαν από την εξέταση.

Αυτά τα μοντέλα δεν σχεδιάστηκαν για ιατρικούς λόγους. Είναι προϊόντα του τομέα της καταναλωτικής τεχνολογίας, κατασκευασμένα για να εκτελούν εργασίες όπως η μετάφραση γλώσσας και η παραγωγή περιεχομένου. Παρά την μη ιατρική προέλευσή τους, έχουν δείξει μια εκπληκτική ικανότητα για κλινική συλλογιστική.

Οι νεότερες πλατφόρμες κατασκευάζονται σκόπιμα για την επίλυση ιατρικών προβλημάτων.  Η Google παρουσίασε πρόσφατα το Med-Gemini , μια εκλεπτυσμένη έκδοση των προηγούμενων μοντέλων Gemini που είναι βελτιστοποιημένη για ιατρικές εφαρμογές και είναι εξοπλισμένη με δυνατότητες αναζήτησης μέσω web για τη βελτίωση της κλινικής λογικής.

Καθώς αυτά τα μοντέλα εξελίσσονται, η δεξιότητά τους στην ανάλυση πολύπλοκων ιατρικών δεδομένων, τη διάγνωση καταστάσεων και τη σύσταση θεραπειών θα οξύνεται. Μπορεί να προσφέρουν ένα επίπεδο ακρίβειας και συνέπειας που οι ανθρώπινοι πάροχοι, περιορισμένοι από την κούραση και τα σφάλματα, μπορεί μερικές φορές να δυσκολεύονται να ταιριάξουν και να ανοίξουν το δρόμο για ένα μέλλον όπου οι πύλες θεραπείας θα μπορούν να τροφοδοτούνται από μηχανήματα και όχι από γιατρούς.

Πηγή: aei.org

Σχετικά Άρθρα