Breaking News

AI mengungguli dokter dalam merangkum catatan kesehatan, menurut penelitian

Dalam penelitian terbaru yang diterbitkan dalam jurnal Nature Medicine, tim ilmuwan internasional mengidentifikasi model bahasa besar terbaik dan metode adaptasi untuk merangkum secara klinis sejumlah besar data catatan kesehatan elektronik dan membandingkan kinerja model ini dengan kinerja para ahli medis.


Latar belakang

Aspek praktik medis yang melelahkan namun penting adalah dokumentasi catatan kesehatan medis pasien yang berisi laporan kemajuan, tes diagnostik, dan riwayat pengobatan antar spesialis. Dokter sering kali menghabiskan sebagian besar waktunya untuk mengumpulkan data tekstual dalam jumlah besar, dan bahkan dengan dokter yang sangat berpengalaman, proses ini menimbulkan kemungkinan terjadinya kesalahan, yang dapat menyebabkan masalah medis dan diagnostik yang serius.

Peralihan dari catatan kertas ke catatan kesehatan elektronik tampaknya hanya memperluas beban kerja dokumentasi klinis, dan laporan menunjukkan bahwa dokter menghabiskan sekitar dua jam untuk mendokumentasikan data klinis dari interaksi mereka dengan satu pasien. Perawat menghabiskan hampir 60% waktunya dalam dokumentasi klinis, dan tuntutan sementara dari proses ini sering mengakibatkan stres dan kelelahan yang cukup besar, menurunkan kepuasan kerja di antara dokter dan pada akhirnya mengakibatkan hasil yang lebih buruk bagi pasien.

Meskipun model bahasa besar menghadirkan pilihan yang sangat baik untuk merangkum data klinis, dan model ini telah dievaluasi untuk tugas pemrosesan bahasa alami secara umum, efisiensi dan keakuratannya dalam merangkum data klinis belum dievaluasi secara luas.

 

Tentang penelitian

Dalam penelitian ini, para peneliti mengevaluasi delapan model bahasa besar dalam empat tugas ringkasan klinis, yaitu pertanyaan pasien, laporan radiologi, dialog antara dokter dan pasien, dan catatan kemajuan.

Mereka pertama-tama menggunakan metrik pemrosesan bahasa alami kuantitatif untuk menentukan model dan metode adaptasi mana yang memiliki kinerja terbaik di empat tugas peringkasan. Sepuluh dokter kemudian melakukan studi pembaca klinis di mana mereka membandingkan ringkasan terbaik dari model bahasa besar dengan ringkasan dari pakar medis berdasarkan parameter seperti keringkasan, kebenaran, dan kelengkapan.

Terakhir, para peneliti menilai aspek keselamatan untuk menentukan tantangan, seperti pemalsuan informasi dan potensi bahaya medis yang terdapat dalam ringkasan data klinis oleh pakar medis dan model bahasa besar.

Dua pendekatan pembentukan bahasa yang luas – model autoregresif dan seq2seq – digunakan untuk mengevaluasi delapan model bahasa besar. Pelatihan model seq2seq memerlukan kumpulan data berpasangan karena model tersebut menggunakan arsitektur encoder-decoder yang memetakan masukan ke keluaran. Model ini bekerja secara efisien dalam tugas-tugas yang melibatkan peringkasan dan terjemahan mesin.

Di sisi lain, model autoregresif tidak memerlukan kumpulan data berpasangan, dan model ini cocok untuk tugas-tugas seperti interaksi dialog dan tanya jawab serta pembuatan teks. Studi ini mengevaluasi model bahasa besar autoregresif dan seq2seq bersumber terbuka, serta beberapa model autoregresif berpemilik dan dua teknik untuk mengadaptasi model bahasa besar yang telah dilatih sebelumnya dan bertujuan umum untuk melakukan tugas khusus domain.

Empat bidang tugas yang digunakan untuk mengevaluasi model bahasa besar terdiri dari rangkuman laporan radiologi menggunakan data rinci analisis dan hasil radiologi, rangkuman pertanyaan dari pasien ke dalam pertanyaan ringkas, menggunakan catatan kemajuan untuk menghasilkan daftar masalah medis dan diagnosis, dan merangkum interaksi antara dokter dan pasien ke dalam paragraf tentang penilaian dan rencana.

 

Hasil

Hasilnya menunjukkan bahwa 45% ringkasan dari model bahasa besar yang paling baik diadaptasi adalah setara dan 36% di antaranya lebih unggul daripada ringkasan dari pakar medis. Selain itu, dalam studi pembaca klinis, ringkasan model bahasa besar mendapat skor lebih tinggi dibandingkan ringkasan pakar medis dalam ketiga parameter keringkasan, kebenaran, dan kelengkapan.

Selain itu, para ilmuwan menemukan bahwa 'rekayasa cepat' atau proses penyetelan atau modifikasi perintah masukan sangat meningkatkan kinerja model. Hal ini terlihat jelas, terutama pada parameter keringkasan, di mana perintah spesifik yang menginstruksikan model untuk meringkas pertanyaan pasien menjadi kueri dengan jumlah kata tertentu sangat membantu dalam memadatkan informasi secara bermakna.

Laporan radiologi adalah salah satu aspek yang tingkat keringkasannya dalam ringkasan model bahasa besar lebih rendah dibandingkan laporan ahli medis, dan para ilmuwan memperkirakan bahwa hal ini mungkin disebabkan oleh ketidakjelasan perintah masukan karena perintah untuk merangkum laporan radiologi tidak menyebutkan secara spesifik. batas kata. Namun, mereka juga percaya bahwa menggabungkan pemeriksaan dari model bahasa besar atau ansambel model lainnya, serta dari operator manusia, dapat meningkatkan keakuratan proses ini secara signifikan.

 

Kesimpulan

Secara keseluruhan, penelitian ini menemukan bahwa penggunaan model bahasa besar untuk merangkum data catatan kesehatan pasien memiliki kinerja yang sama atau lebih baik dibandingkan ringkasan data yang dilakukan oleh para ahli medis. Sebagian besar model bahasa besar ini mendapat skor lebih tinggi daripada operator manusia dalam metrik pemrosesan bahasa alami, karena merangkum data secara ringkas, benar, dan lengkap. Proses ini berpotensi diterapkan dengan modifikasi dan perbaikan lebih lanjut untuk membantu dokter menghemat waktu yang berharga dan meningkatkan perawatan pasien.

 

Journal reference:

Veen, V., Uden, V., Blankemeier, L., Delbrouck, J., Aali, A., Bluethgen, C., Pareek, A., Polacin, M., Reis, E. P., Seehofnerová, A., Rohatgi, N., Hosamani, P., Collins, W., Ahuja, N., Langlotz, C. P., Hom, J., Gatidis, S., Pauly, J., & Chaudhari, A. S. (2024). Adapted large language models can outperform medical experts in clinical text summarization. Nature Medicine. DOI: 10.1038/s41591024028555, https://www.nature.com/articles/s41591-024-02855-5

No comments