Flazzo memiliki fokus utama untuk menambah nilai bisnis Anda.

Blog

Tantangan untuk menggunakan LLM dalam produksi

18307920-thumb.jpg
Blog

Tantangan untuk menggunakan LLM dalam produksi

[ad_1]

Model Bahasa Besar (LLM) meningkat dalam popularitas setelah rilis Chat-GPT. Model fondasi yang telah dibentuk ini memungkinkan prototyping cepat dan perusahaan ingin menggunakan teknologi yang menarik ini. Namun, sifat probabilistik mereka dan kurangnya kendala terintegrasi sering kali menyebabkan tantangan begitu mereka berada di luar mode prototipe.

Mari kita periksa contoh klasifikasi artikel pers berdasarkan konten artikel untuk membahas tantangan yang akan kita temui. LLM saat ini memiliki masalah seperti instruksi yang tidak ditambahkan, halusinasi dan mungkin meludahkan sesuatu yang tidak Anda inginkan. Artikel ini mengeksplorasi tantangan -tantangan ini dengan contoh klasifikasi artikel pers ke dalam kategori berdasarkan konten artikel dan menawarkan strategi yang dapat digunakan untuk memitigasi mereka.

Tantangan 1: Keanggotaan Kendala dalam Tamasya

Masalah: generasi kategori yang tidak terkendali

Selama klasifikasi artikel pers ke dalam kategori, LLM dapat mengklasifikasikannya dalam daftar kategori yang besar, yang membuat kategorisasi tidak efektif. Mereka dapat mengklasifikasikan artikel seperti Sports dan artikel serupa lainnya yang terkait dengan olahraga sebagai hiburan. Ini dapat mengarah pada daftar kategori yang besar.

Solusi awal: label yang telah ditentukan dan ember “lainnya”

Solusi umum adalah membatasi hasil pada daftar yang telah ditentukan seperti “olahraga” atau “hiburan”, dengan kategori “lain” untuk semua artikel yang tidak dapat diklasifikasikan dalam kategori yang telah ditentukan sebelumnya. Ini dapat diperlakukan menggunakan Rapid Engineering, yang merupakan proses merancang dan menyempurnakan entri untuk memandu LLM dalam produksi pintu keluar yang diinginkan.

Dalam contoh ini, prompt dapat diperbarui untuk menghasilkan output dengan memilih nilai dalam daftar kategori yang telah ditentukan. Meskipun ini dapat bekerja dalam tes kecil, dalam skala besar, ini dapat menyebabkan hasil yang terputus -putus tanpa menghormati instruksi yang disediakan dalam petunjuk. LLM dapat mengklasifikasikan artikel sebagai “ilmu politik” meskipun instruksi eksplisit untuk memilih dari kategori yang telah ditentukan. Ini merusak konsistensi, terutama dalam sistem berdasarkan taksonomi tetap. Selain itu, ember kategori “lain” sering kali balon karena:

  • Kemenduaan. Artikel dapat tumpang tindih beberapa kategori.
  • Model Upopularitas. Model ini dapat memiliki kepercayaan diri yang rendah dalam kategori tertentu, oleh karena itu wajib membuat pilihan kategori.
  • Tepian kasus. Beberapa subjek baru mungkin tidak dicakup oleh kategori yang ada.

Pendekatan yang ditingkatkan: Lapisan validasi pada tahap pasca-pemrosesan

Alih -alih hanya mengandalkan petunjuk, terapkan sistem validasi dua tingkat:

Gunakan kombinasi pasca pemrosesan deterministik dan probabilistik. Gunakan tabel pencarian untuk memeriksa apakah kendala penghargaan output yang dihasilkan. Lepaskan permintaan yang sama ke LLM lagi jika jawabannya tidak menghormati kendala dan melemparkan hasilnya jika jawaban dalam upaya kedua juga tidak menghormati kendala. Dengan rekayasa cepat yang baik dan pasca pemrosesan dua tingkat ini, kejadian hasil yang tidak menghormati kendala akan turun secara signifikan.

Ini mengurangi retensi rekayasa cepat yang berlebihan untuk menegakkan kendala dan menjamin ketepatan yang lebih besar.

Défi 2: Tamas Turki dalam Kebenaran

Masalah: halusinasi dan manufaktur

LLM tidak memiliki pengetahuan intrinsik tentang kebenaran tanah, yang mengarah pada pembuatan respons alih -alih mengakui bahwa mereka tidak tahu jawabannya. Sebagai contoh, selama klasifikasi artikel ilmiah, model dapat dengan buruk memberi label dengan buruk konten spekulatif sebagai penilaian rekan -rekan berdasarkan model linguistik saja.

Solusi: Peningkatan dengan Generasi Pemulihan (RAG)

Generasi (RAG) pemulihan (RAG) adalah proses kombinasi prompt pengguna dengan informasi eksternal yang relevan untuk membentuk prompt baru yang diperbesar untuk LLM. Memberi LLM semua informasi yang dia butuhkan untuk menjawab pertanyaan memungkinkannya untuk memberikan jawaban pada subjek yang belum dilatih dan mengurangi kemungkinan halusinasi.

Solusi kain yang efektif harus dapat menemukan informasi yang relevan untuk prompt pengguna dan memberi mereka LLM. Penelitian vektor adalah pendekatan yang paling umum digunakan untuk menemukan data yang relevan untuk disediakan dalam prompt model.

Mengintegrasikan kain dengan output jangkar ke dalam data terverifikasi:

  • Langkah 1: Pulihkan konteks yang relevan (misalnya, database nama surat kabar yang diketahui oleh rekan atau identifikasi penulis).
  • Langkah 2: Undang LLM untuk melintasi -referensi klasifikasi dengan data yang dipulihkan.

Ini memaksa model untuk menyelaraskan hasil dengan sumber kepercayaan, mengurangi halusinasi.

Tantangan 3: Penyaringan Konten Film

Masalah: tamasya beracun atau sensitif

Bahkan LLM “aman” dapat menghasilkan konten berbahaya atau mengungkapkan data sensitif dari entri (misalnya, pengidentifikasi pribadi dalam artikel kesehatan). LLM telah mengintegrasikan cek untuk mencegah hal ini, dan kontrol ini bervariasi dari satu model ke model lainnya. Memiliki pagar di luar model akan membantu mengisi celah yang dapat dimiliki model, dan pagar ini dapat digunakan dengan LLM apa pun.

Solusi: pagar lapisan

  1. Disinfeksi masuk. Anonimisasi atau membersihkan data sensitif (misalnya, nomor kartu kredit) dalam entri sebelum memberikannya ke model.
  2. Disinfeksi output. Disinfeksi output model untuk menghilangkan kalimat beracun atau informasi sensitif
  3. AJalur udit. Catat semua input / output untuk pemberitahuan kepatuhan.

Sebagian besar hiperscaler menyediakan layanan yang dapat digunakan untuk desinfeksi data. Misalnya, rabe-body rabe Amazon yang berbatu dapat menerapkan jaminan untuk aplikasi perantara Anda yang menghasilkan sesuai dengan kasus pengguna Anda dan kebijakan AI yang bertanggung jawab.

Menandai

Semoga model menjadi kritiknya sendiri. Untuk contoh ini, paksa model untuk memberikan penalaran dengan masing -masing label atributnya. Menyediakan sebagai input ke model yang sama atau lainnya untuk memberikan skor pada skala yang telah ditentukan. Pantau metrik ini untuk memahami konsistensi dan ketepatan model. Skor ini dapat digunakan untuk menolak label yang ditugaskan jika skornya kurang dari analisis nilai yang telah ditentukan dan pengembangan ulang untuk menghasilkan label baru. Skor ini juga dapat digunakan untuk melakukan tes A / B untuk bereksperimen dengan beberapa tamu

Praktik Terbaik Untuk Sistem LLM Kualitas Produksi

  1. Validasi multilayer. Gabungkan rekayasa cepat, pasca pemrosesan dan notasi hasil untuk memvalidasi hasil yang dihasilkan.
  2. Pengamplasan khusus untuk domain. Gunakan kain untuk akurasi faktual untuk mengurangi frekuensi halusinasi model.
  3. Rel penitipan anak dan pengawasan terus -menerus. Ikuti langkah -langkah seperti yang lain dalam contoh ini, skor kualitas hasil dan layanan railing untuk menyediakan layanan siap untuk layanan produksi.

Kesimpulan

Para pengembang dapat memindahkan LLM dari prototipe ke produksi dengan menerapkan validasi pasca perawatan, kain dan pengawasan untuk mengelola kendala, halusinasi, dan keamanan.

[ad_2]