AI mengungguli dokter dalam merangkum catatan kesehatan, menurut penelitian
Dalam penelitian terbaru yang diterbitkan dalam jurnal Nature Medicine, tim ilmuwan internasional mengidentifikasi model bahasa besar terbaik dan metode adaptasi untuk merangkum secara klinis sejumlah besar data catatan kesehatan elektronik dan membandingkan kinerja model ini dengan kinerja para ahli medis.
Latar belakang
Aspek praktik medis yang melelahkan namun penting adalah
dokumentasi catatan kesehatan medis pasien yang berisi laporan kemajuan, tes
diagnostik, dan riwayat pengobatan antar spesialis. Dokter sering kali
menghabiskan sebagian besar waktunya untuk mengumpulkan data tekstual dalam
jumlah besar, dan bahkan dengan dokter yang sangat berpengalaman, proses ini
menimbulkan kemungkinan terjadinya kesalahan, yang dapat menyebabkan masalah
medis dan diagnostik yang serius.
Peralihan dari catatan kertas ke catatan kesehatan
elektronik tampaknya hanya memperluas beban kerja dokumentasi klinis, dan
laporan menunjukkan bahwa dokter menghabiskan sekitar dua jam untuk
mendokumentasikan data klinis dari interaksi mereka dengan satu pasien. Perawat
menghabiskan hampir 60% waktunya dalam dokumentasi klinis, dan tuntutan
sementara dari proses ini sering mengakibatkan stres dan kelelahan yang cukup
besar, menurunkan kepuasan kerja di antara dokter dan pada akhirnya
mengakibatkan hasil yang lebih buruk bagi pasien.
Meskipun model bahasa besar menghadirkan pilihan yang sangat
baik untuk merangkum data klinis, dan model ini telah dievaluasi untuk tugas
pemrosesan bahasa alami secara umum, efisiensi dan keakuratannya dalam
merangkum data klinis belum dievaluasi secara luas.
Tentang penelitian
Dalam penelitian ini, para peneliti mengevaluasi delapan
model bahasa besar dalam empat tugas ringkasan klinis, yaitu pertanyaan pasien,
laporan radiologi, dialog antara dokter dan pasien, dan catatan kemajuan.
Mereka pertama-tama menggunakan metrik pemrosesan bahasa
alami kuantitatif untuk menentukan model dan metode adaptasi mana yang memiliki
kinerja terbaik di empat tugas peringkasan. Sepuluh dokter kemudian melakukan
studi pembaca klinis di mana mereka membandingkan ringkasan terbaik dari model
bahasa besar dengan ringkasan dari pakar medis berdasarkan parameter seperti
keringkasan, kebenaran, dan kelengkapan.
Terakhir, para peneliti menilai aspek keselamatan untuk
menentukan tantangan, seperti pemalsuan informasi dan potensi bahaya medis yang
terdapat dalam ringkasan data klinis oleh pakar medis dan model bahasa besar.
Dua pendekatan pembentukan bahasa yang luas – model
autoregresif dan seq2seq – digunakan untuk mengevaluasi delapan model bahasa
besar. Pelatihan model seq2seq memerlukan kumpulan data berpasangan karena model
tersebut menggunakan arsitektur encoder-decoder yang memetakan masukan ke
keluaran. Model ini bekerja secara efisien dalam tugas-tugas yang melibatkan
peringkasan dan terjemahan mesin.
Di sisi lain, model autoregresif tidak memerlukan kumpulan
data berpasangan, dan model ini cocok untuk tugas-tugas seperti interaksi
dialog dan tanya jawab serta pembuatan teks. Studi ini mengevaluasi model
bahasa besar autoregresif dan seq2seq bersumber terbuka, serta beberapa model
autoregresif berpemilik dan dua teknik untuk mengadaptasi model bahasa besar
yang telah dilatih sebelumnya dan bertujuan umum untuk melakukan tugas khusus
domain.
Empat bidang tugas yang digunakan untuk mengevaluasi model
bahasa besar terdiri dari rangkuman laporan radiologi menggunakan data rinci
analisis dan hasil radiologi, rangkuman pertanyaan dari pasien ke dalam
pertanyaan ringkas, menggunakan catatan kemajuan untuk menghasilkan daftar
masalah medis dan diagnosis, dan merangkum interaksi antara dokter dan pasien
ke dalam paragraf tentang penilaian dan rencana.
Hasil
Hasilnya menunjukkan bahwa 45% ringkasan dari model bahasa
besar yang paling baik diadaptasi adalah setara dan 36% di antaranya lebih
unggul daripada ringkasan dari pakar medis. Selain itu, dalam studi pembaca
klinis, ringkasan model bahasa besar mendapat skor lebih tinggi dibandingkan
ringkasan pakar medis dalam ketiga parameter keringkasan, kebenaran, dan
kelengkapan.
Selain itu, para ilmuwan menemukan bahwa 'rekayasa cepat'
atau proses penyetelan atau modifikasi perintah masukan sangat meningkatkan
kinerja model. Hal ini terlihat jelas, terutama pada parameter keringkasan, di
mana perintah spesifik yang menginstruksikan model untuk meringkas pertanyaan
pasien menjadi kueri dengan jumlah kata tertentu sangat membantu dalam
memadatkan informasi secara bermakna.
Laporan radiologi adalah salah satu aspek yang tingkat
keringkasannya dalam ringkasan model bahasa besar lebih rendah dibandingkan
laporan ahli medis, dan para ilmuwan memperkirakan bahwa hal ini mungkin
disebabkan oleh ketidakjelasan perintah masukan karena perintah untuk merangkum
laporan radiologi tidak menyebutkan secara spesifik. batas kata. Namun, mereka
juga percaya bahwa menggabungkan pemeriksaan dari model bahasa besar atau
ansambel model lainnya, serta dari operator manusia, dapat meningkatkan
keakuratan proses ini secara signifikan.
Kesimpulan
Secara keseluruhan, penelitian ini menemukan bahwa
penggunaan model bahasa besar untuk merangkum data catatan kesehatan pasien
memiliki kinerja yang sama atau lebih baik dibandingkan ringkasan data yang
dilakukan oleh para ahli medis. Sebagian besar model bahasa besar ini mendapat
skor lebih tinggi daripada operator manusia dalam metrik pemrosesan bahasa
alami, karena merangkum data secara ringkas, benar, dan lengkap. Proses ini
berpotensi diterapkan dengan modifikasi dan perbaikan lebih lanjut untuk
membantu dokter menghemat waktu yang berharga dan meningkatkan perawatan
pasien.
Journal reference:
Veen, V., Uden, V., Blankemeier, L., Delbrouck, J., Aali,
A., Bluethgen, C., Pareek, A., Polacin, M., Reis, E. P., Seehofnerová, A.,
Rohatgi, N., Hosamani, P., Collins, W., Ahuja, N., Langlotz, C. P., Hom, J.,
Gatidis, S., Pauly, J., & Chaudhari, A. S. (2024). Adapted large language
models can outperform medical experts in clinical text summarization. Nature
Medicine. DOI: 10.1038/s41591024028555,
https://www.nature.com/articles/s41591-024-02855-5
No comments