Berbagi teknologi

Aplikasi model bahasa besar--implementasi rekayasa AI

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Pesatnya perkembangan AI dalam beberapa tahun terakhir memang membawa dampak yang besar. Namun nyatanya AI belum sepenuhnya melampaui batas dan masih hanya “promosi diri” di kalangan kecil.Tapi ini sangat berbeda dari sebelumnya.
Artikel ini akan fokus pada status model besar saat ini dan membicarakan hal-hal yang berkaitan dengan implementasi teknik. Hal ini juga didasarkan pada inspirasi dan ringkasan.

Saya tidak akan membahas terlalu banyak detail tentang AI itu sendiri di sini, tetapi lebih fokus pada aplikasi tingkat atas.

Ikhtisar model bahasa besar

Ketika kita berbicara tentang model bahasa besar, yang kita maksud adalah perangkat lunak yang dapat "berbicara" dengan cara yang mirip dengan bahasa manusia.Model-model ini luar biasa – mereka mampu mengambil konteks dan menghasilkan tanggapan yang tidak hanya koheren tetapi juga terasa seperti berasal dari manusia nyata.
Model bahasa ini bekerja dengan menganalisis sejumlah besar data teks dan pola pembelajaran dalam penggunaan bahasa.Mereka mengeksploitasi pola-pola ini untuk menghasilkan teks yang hampir tidak dapat dibedakan dari apa yang dikatakan atau ditulis manusia.
Jika Anda pernah mengobrol dengan asisten virtual atau berinteraksi dengan agen layanan pelanggan AI, Anda mungkin pernah berinteraksi dengan model bahasa besar tanpa menyadarinya! Model ini memiliki beragam aplikasi, mulai dari chatbot, terjemahan bahasa, hingga konten penciptaan dan banyak lagi

Apa yang dimaksud dengan model bahasa besar

  • definisi : Large Language Model (LLM) adalah model pemrosesan bahasa alami (NLP) terlatih, biasanya dengan miliaran atau bahkan ratusan miliar parameter, yang mampu memahami dan menghasilkan teks bahasa alami.Data pelatihan untuk model bahasa besar yang matang sangat besar.
  • Fungsi: Model bahasa besar dapat melakukan berbagai tugas bahasa, seperti klasifikasi teks, analisis sentimen, terjemahan mesin, peringkasan teks, sistem tanya jawab, dll.
  • landasan teknis: Berdasarkan arsitektur Transformer, menggunakan mekanisme Self-Attention untuk memproses data urutan
  • mengembangkan: Dari RNN awal dan LSTM hingga model saat ini seperti BERT dan GPT, jumlah parameter dan performa terus meningkat.

Apa itu pembelajaran mesin

  • definisi: Pembelajaran mesin adalah cabang kecerdasan buatan yang memungkinkan sistem komputer belajar dari data dan membuat keputusan atau prediksi tanpa diprogram secara eksplisit
  • jenis: Termasuk pembelajaran yang diawasi, pembelajaran tanpa pengawasan, pembelajaran semi-supervisi dan pembelajaran penguatan
  • aplikasi: Banyak digunakan dalam pengenalan gambar, pengenalan suara, sistem rekomendasi, analisis prediktif dan bidang lainnya
  • Konsep-konsep kunci: Pemilihan fitur, pelatihan model, overfitting dan underfitting, evaluasi model, dll.

Apa itu pembelajaran mendalam

  • definisi: Pembelajaran mendalam adalah bagian dari pembelajaran mesin yang menggunakan struktur jaringan saraf yang mirip dengan otak manusia untuk mempelajari pola data yang kompleks melalui transformasi nonlinier multi-lapis (dalam).
  • komponen inti: Lapisan jaringan saraf, fungsi aktivasi, fungsi kerugian, algoritma optimasi.
  • Arsitektur: Termasuk jaringan saraf konvolusional (CNN), jaringan saraf berulang (RNN), jaringan memori jangka pendek (LSTM) dan transformator (Transformer), dll.
  • aplikasi: Kemajuan revolusioner telah dicapai di bidang pengenalan gambar dan ucapan, pemrosesan bahasa alami, mengemudi otonom, dll.

Memahami model bahasa besar

Mengapa saya perlu membuka bab terpisah untuk "memahami" model bahasa besar setelah melihat gambaran umum model bahasa besar di atas? Karena ini akan memungkinkan Anda untuk lebih mengetahui apa itu model bahasa besar, memahami batas atasnya, dan juga Bisa memudahkan kita mengerjakan layer aplikasi dengan lebih baik.
Pertama-tama, kita dapat mengatakan secara umum bahwa pembelajaran mesin adalah menemukan "fungsi" kompleks khusus yang dapat mengubah masukan kita menjadi keluaran yang diinginkan. Misalnya, jika kita mengharapkan masukan 1 dan keluaran 5; menjadi masukan 2 dan keluaran 10, maka fungsi ini mungkin y=2*x.Atau jika kita memasukkan gambar kucing, saya ingin mengeluarkan kata "kucing", atau jika saya memasukkan "hai" maka akan keluar "halo", dll.

Sebenarnya ini bisa dikatakan sebagai soal matematika pada hakikatnya. Tentu saja soal sebenarnya akan jauh lebih rumit dari contoh di atas.

Sejarah

1. Pada awalnya, orang-orang selalu ingin membuat mesin berpikir seperti manusia. Pada saat itu, orang-orang terutama mempromosikan "sekolah terbang burung". Berdasarkan bionik, ketika orang melihat burung terbang, mereka belajar terbang dengan mengepakkannya sayap. Kemudian mereka berharap membuat mesin melakukan hal yang sama. Tapi efek ini tidak terlalu bagus. Tidak ada "pengetahuan dunia" (pengetahuan dunia adalah pengetahuan default di otak Anda yang terkenal dan naluriah tanpa berpikir). sangat besar, dan sulit untuk memecahkan masalah banyak makna dalam satu kata.Secara umum, meniru otak manusia terlalu rumit, dan sulit untuk mencapainya hanya dengan menggunakan kode dan fungsi.

2. Era Kecerdasan Buatan 2.0: penerapan “kecerdasan buatan berbasis statistik” yang berbasis data. Mengapa segala macam model besar bermunculan seperti jamur setelah hujan setelah munculnya GPT3? Faktanya, sebagian besar perusahaan telah lama meneliti AI, namun pada awalnya, semua orang menyeberangi sungai dengan merasakan batunya. Meski banyak rencana dan pemikiran, mereka tidak berani meningkatkan investasinya pada pejantan, dan semuanya berada dalam lingkup penelitian yang terbatas. Munculnya GPT3 memungkinkan semua orang untuk melihat bahwa metode tertentu dapat dilakukan, yaitu menggunakan data dalam jumlah besar untuk menghitung statistik. Perubahan penggunaan menyebabkan perubahan kualitatif mulai Tingkatkan investasi dan ambil jalan ini

3. Data besar dapat membuat tingkat kecerdasan mesin melonjak; arti terbesar dari penggunaan data dalam jumlah besar adalah memungkinkan komputer menyelesaikan hal-hal yang sebelumnya hanya dapat dilakukan oleh manusia.

  • Ide inti: Berdasarkan informasi statistik dalam sejumlah besar data, "latih parameter" agar sesuai dengan hasil (intinya adalah "statistik" dan bukan "bionik")
  • Keuntungan utama: Seiring dengan bertambahnya jumlah data, sistem akan terus berkembang dan menjadi lebih baik dan lebih baik lagi;
  • Elemen inti: “big data”, big data yang masif, multidimensi, dan komprehensif
  • "Pembelajaran hafalan" berdasarkan data besar yang masif, multidimensi dan komprehensif;
    Melalui kecerdasan buatan statistik, "masalah intelijen" diubah menjadi "masalah data", sehingga menghasilkan komputasi
    Mesin dapat memecahkan “masalah yang tidak pasti” melalui pembelajaran dari data besar

Yang penting

Jadi kunci masalahnya menjadi pertanyaan tentang probabilitas. Saat ini, model besar menghitung probabilitas dari data yang sangat besar untuk menentukan probabilitas tertinggi dari teks berikutnya atau paragraf teks tertentu di tengah, dan kemudian mengeluarkannya.Padahal hakikatnya bukan menghasilkan hal-hal baru, melainkan menalar.

Misalnya, tanyakan padanya di mana ibu kota Tiongkok?Kata kunci yang diekstraksi melalui algoritma ini adalah ibu kota Cina
Kemudian model besar menghitung dari data yang sangat besar bahwa ibu kota Tiongkok adalah kata yang paling mungkin diikuti oleh Beijing, sehingga akan menghasilkan hasil yang benar.

Model besar mengandalkan "hafalan" sejumlah besar data untuk mencapai kemampuan saat ini.
Oleh karena itu, kualitas data untuk melatih model besar juga sangat penting. Pada saat yang sama, kita hampir dapat memikirkan batas atas model besar.

sistem AIGC

AIGC, atau Artificial Intelligence Generated Content, adalah teknologi yang menggunakan algoritma pembelajaran mesin untuk secara otomatis menghasilkan berbagai jenis konten, termasuk teks, gambar, audio, dan video. Dengan menganalisis data dalam jumlah besar, sistem AIGC mempelajari pola bahasa, visual, dan audio untuk membuat konten baru yang serupa atau bahkan tidak dapat dibedakan dari konten buatan manusia.
Semua pekerjaan digital kemungkinan besar akan ditumbangkan oleh "model besar"
Sebagian besar pekerjaan lapisan aplikasi kami saat ini adalah milik sistem AIGC
Setelah GPT3.5, model besar sudah dapat menggunakan alat.
• Plug-in dan jaringan: menutupi kekurangan memori model besar itu sendiri, menandai dimulainya pembelajaran LLM secara resmi dalam menggunakan alat
• Fungsi: LLM belajar memanggil API untuk menyelesaikan tugas-tugas kompleks, yang merupakan tugas utama para insinyur back-end (memberikan instruksi kepada Gorilla akan secara otomatis memanggil difusi dan model lain untuk mengimplementasikan tugas-tugas multi-modal seperti menggambar dan dialog)
• Biarkan model "berpikir": memandu model besar agar memiliki kemampuan logis, intinya terletak pada: "Alat Memori Perencanaan"

Implementasi proyek rekayasa AI

Faktanya, implementasi proyek AI sama dengan proyek biasa. Inti dari pendirian proyek awal harus memahami dengan jelas masalah inti yang ingin diselesaikan oleh proyek tersebut, dan kemudian memperluas pemikirannya, dan kemudian melaksanakannya. analisis permintaan, pemilihan teknologi, dll.Kami tidak pandai merancang model besar untuk penelitian pada lapisan aplikasi. Kami biasanya langsung memanggil API atau menerapkan model besar sumber terbuka lokal.

Cara mendarat

Proyek Cepat (Fase 1)

Siapa pun yang pernah sedikit terpapar AI mungkin tahu petunjuknya. Pada tahun 2022-2023, penelitian awal tentang AI akan tetap didasarkan pada hal ini, yaitu bagaimana mengajukan pertanyaan agar AI lebih memahami maksud Anda, perhatikan kunci Anda. poin dan kemudian memberikan jawaban yang lebih berkualitas
Ambang batasnya relatif rendah, dan sebagian besar aplikasi model besar dirancang dengan Prompt.Mampu memenuhi beberapa kebutuhan bergantung pada kemampuan model dasarnya

Pencarian RAG (tahap kedua)

RAG (Retrieval-Augmented Generation) merupakan teknologi kecerdasan buatan yang menggabungkan model retrieval dan model generasi. Hal ini meningkatkan kemampuan menjawab model bahasa besar (LLM) dengan mengambil informasi yang relevan dari basis pengetahuan atau database dan menggabungkannya dengan pertanyaan pengguna. Teknologi RAG dapat meningkatkan akurasi dan relevansi aplikasi AI, terutama dalam skenario yang berhubungan dengan pengetahuan domain tertentu atau memerlukan informasi terkini.
Prinsip kerja RAG terutama mencakup dua langkah:

  1. Pengambilan: Berdasarkan permintaan pengguna, RAG menggunakan model pengambilan untuk mencari dan mengekstrak informasi atau dokumen paling relevan dalam basis pengetahuan.
  2. Pembuatan: Informasi yang diambil digunakan sebagai masukan ke model pembuatan, bersama dengan kueri pengguna, yang darinya model pembuatan menghasilkan jawaban atau konten.
    Keunggulan teknologi RAG adalah:
    • Pembaruan pengetahuan: Kemampuan untuk mengakses informasi terkini, bukan hanya pengetahuan selama pelatihan model
    • Mengurangi halusinasi: Mengurangi kecenderungan LLM untuk menghasilkan informasi yang tidak akurat atau salah melalui bantuan sumber pengetahuan eksternal
    • Keamanan data: Memungkinkan bisnis menggunakan data pribadi tanpa mengunggahnya ke platform pihak ketiga
    • Hemat biaya: RAG memberikan solusi yang lebih ekonomis dibandingkan pelatihan ulang atau penyempurnaan model besar
Melatih model khusus fungsi (Fase 3)

Namun, ambang batas ini relatif tinggi, dan terdapat persyaratan tertentu untuk daya komputasi, data, dan algoritme.

Desain bisnis yang diterapkan

Langkah Pertama: Ide dan Eksplorasi

Sasaran: Melakukan verifikasi kelayakan, merancang prototipe berdasarkan kebutuhan bisnis, dan membangun PromptFlow untuk menguji asumsi utama

  • Masukan Inti: Tujuan Bisnis yang Jelas
  • Keluaran utama: Verifikasi apakah model bahasa besar (LLM) dapat memenuhi persyaratan tugas, menetapkan atau menolak asumsi utama
  • Rencana aksi utama:
    • Definisikan kasus penggunaan bisnis dengan jelas
    • Pilih model besar dasar yang sesuai dan siapkan data yang diperlukan untuk penyempurnaan berikutnya (SFT) atau penggunaan lainnya
    • Rancang dan bangun PromptFlow, rumuskan dan uji hipotesis kelayakan
Langkah 2: Bangun dan Tingkatkan

Sasaran: Mengevaluasi kekokohan solusi pada kumpulan data yang lebih luas dan meningkatkan performa model melalui teknik seperti fine-tuning (SFT) dan retrieval-augmented generation (RAG)

  • Masukan inti: Tujuan bisnis dikombinasikan dengan rencana awal (hasil dari langkah 1)
  • Output Utama: Solusi bisnis yang matang, siap diterapkan ke sistem produksi
  • Rencana aksi utama:
    • Verifikasi efektivitas PromptFlow pada data sampel
    • Evaluasi dan optimalkan PromptFlow serta jelajahi petunjuk dan alat yang lebih baik
    • Jika tujuan yang diharapkan tercapai, perluas kumpulan data yang lebih besar untuk pengujian, dan tingkatkan lebih lanjut efeknya melalui SFT, RAG, dan teknologi lainnya.
Langkah 3: Lanjutkan operasi

Sasaran: Memastikan pengoperasian sistem AIGC yang stabil, mengintegrasikan sistem pemantauan dan alarm, serta mencapai integrasi berkelanjutan dan penerapan berkelanjutan (CI/CD)

  • Input inti: sistem AIGC yang mampu memecahkan masalah tertentu
  • Keluaran Utama: Prosedur tingkat produksi yang mengintegrasikan sistem pemantauan dan peringatan, serta proses CI/CD.
  • Rencana aksi utama:
    • Menerapkan sistem AIGC
    • Integrasikan kemampuan pemantauan dan peringatan untuk memastikan kemampuan sistem tertanam dalam aplikasi
    • Menetapkan mekanisme operasi aplikasi, termasuk iterasi, penerapan, dan pembaruan berkelanjutan
      Melalui proses ini, kami memastikan bahwa setiap langkah mulai dari pembuktian konsep hingga penerapan produksi dilakukan secara tepat, terkendali, dan didorong oleh tujuan bisnis.

Teknologi yang cepat

1. Peran pendorong dari fragmen konten utama

Cuplikan konten utama adalah landasan tekstual yang digunakan bersama dengan instruksi untuk meningkatkan efektivitasnya secara signifikan.

  1. Definisi konten utama:
    • Konten utama adalah teks inti pemrosesan atau transformasi model, biasanya dipasangkan dengan instruksi untuk mencapai tujuan tertentu.
  2. Contoh aplikasi:
    • Contoh 1: Berikan sepotong teks [teks] Wikipedia dengan instruksi "Tolong rangkum konten di atas".
    • Contoh 2: Diberikan tabel yang berisi informasi bir [teks], instruksinya adalah "Cantumkan semua bir di tabel dengan kadar kurang dari 6 derajat."

2. Strategi penerapan konten utama

Metode khusus untuk mencapai isi utama, antara lain:

  • Contoh: Memungkinkan model secara mandiri menyimpulkan tindakan yang perlu dilakukan dengan memberikan contoh cara menyelesaikan tugas, bukan instruksi langsung.
  • Isyarat: Gunakan instruksi dengan petunjuk untuk memandu model bernalar langkah demi langkah untuk sampai pada jawabannya.
  • Templat: Menyediakan resep cepat yang dapat digunakan kembali dengan placeholder, memungkinkan penyesuaian untuk kasus penggunaan tertentu.

3. Kekuatan contoh (Contoh)

Dengan menunjukkan kepada model bagaimana menghasilkan keluaran berdasarkan instruksi yang diberikan, model tersebut mampu menyimpulkan pola keluaran, apakah pembelajaran zero-shot, one-shot, atau multiple-shot.

  • komponen:
    • Deskripsi misi secara keseluruhan.
    • Contoh rentang keluaran yang diinginkan.
    • Panduan untuk contoh-contoh baru yang berfungsi sebagai titik awal untuk tugas-tugas selanjutnya.

4. Peran pemandu dari petunjuk (Isyarat)

Dengan memberikan petunjuk kepada model besar untuk membimbing mereka dalam penalaran logis ke arah yang jelas, hal ini serupa dengan memberikan rumus langkah demi langkah untuk membantu model secara bertahap mendapatkan jawabannya.

5. Nilai kustomisasi template (Template)

Nilai templat terletak pada pembuatan dan penerbitan perpustakaan petunjuk untuk area aplikasi tertentu yang telah dioptimalkan untuk konteks atau contoh aplikasi tertentu.

  • Kiat pengoptimalan: Jadikan respons lebih relevan dan akurat bagi kelompok pengguna target Anda.
  • Referensi sumber daya: Halaman contoh OpenAI API menyediakan banyak sumber daya templat.
  • Penetapan peran model: Tingkatkan pemahaman model tentang relevansi tugas dengan menentukan peran identitas model (seperti sistem, pengguna, asisten, dll.).

Contoh cepat tingkat lanjut

# 职位描述:数据分析助手
## 角色
我的主要目标是为用户提供专家级的数据分析建议。利用详尽的数据资源,告诉我您想要分析的股票(提供股票代码)。我将以专家的身份,为您的股票进行基础分析、技
术分析、市场情绪分析以及宏观经济分析。
## 技能
### 技能1:使用Yahoo Finance的'Ticker'搜索股票信息
### 技能2:使用'News'搜索目标公司的最新新闻
### 技能3:使用'Analytics'搜索目标公司的财务数据和分析
## 工作流程
询问用户需要分析哪些股票,并按顺序执行以下分析:
**第一部分:基本面分析:财务报告分析
*目标1:对目标公司的财务状况进行深入分析。
*步骤:
1. 确定分析对象: