Condivisione della tecnologia

Applicazione di modelli linguistici di grandi dimensioni: implementazione dell'ingegneria dell'intelligenza artificiale

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Il rapido sviluppo dell’intelligenza artificiale negli ultimi anni ha effettivamente avuto un grande impatto. Tuttavia, in realtà, l’intelligenza artificiale non ha completamente oltrepassato il confine e si sta ancora “autopromuovendo” solo in una piccola cerchia.Ma è molto diverso da prima.
Questo articolo si concentrerà sullo stato attuale dei modelli di grandi dimensioni e parlerà di aspetti relativi all'implementazione tecnica. Si basa anche su ispirazione e riepilogo.

Non entrerò troppo nei dettagli sull’intelligenza artificiale stessa qui, ma mi concentrerò maggiormente sulle applicazioni di livello superiore.

Panoramica dei grandi modelli linguistici

Quando parliamo di modello linguistico di grandi dimensioni, ci riferiamo a un software in grado di "parlare" in modo simile al linguaggio umano.Questi modelli sono sorprendenti: sono in grado di prendere contesto e generare risposte che non solo sono coerenti ma sembrano provenire da esseri umani reali
Questi modelli linguistici funzionano analizzando grandi quantità di dati testuali e modelli di apprendimento nell'uso della lingua.Sfruttano questi modelli per generare testo quasi indistinguibile da ciò che gli esseri umani dicono o scrivono.
Se hai mai chattato con un assistente virtuale o interagito con un agente del servizio clienti AI, probabilmente hai interagito con un modello linguistico di grandi dimensioni senza nemmeno rendertene conto. Questi modelli hanno una vasta gamma di applicazioni, dai chatbot alla traduzione linguistica ai contenuti! creazione e altro ancora

Che cos'è un modello linguistico di grandi dimensioni

  • definizione : Large Language Model (LLM) è un modello di elaborazione del linguaggio naturale (NLP) pre-addestrato, solitamente con miliardi o addirittura centinaia di miliardi di parametri, in grado di comprendere e generare testo in linguaggio naturale.I dati di addestramento per un modello linguistico di grandi dimensioni maturo sono enormi.
  • Funzione: I modelli linguistici di grandi dimensioni possono eseguire una varietà di compiti linguistici, come classificazione del testo, analisi del sentiment, traduzione automatica, riepilogo del testo, sistemi di domande e risposte, ecc.
  • fondamento tecnico: Basato sull'architettura Transformer, utilizza il meccanismo di Self-Attenzione per elaborare i dati della sequenza
  • sviluppare: Dai primi RNN e LSTM ai modelli attuali come BERT e GPT, il numero di parametri e le prestazioni hanno continuato a migliorare.

Cos'è l'apprendimento automatico

  • definizione: L'apprendimento automatico è una branca dell'intelligenza artificiale che consente ai sistemi informatici di apprendere dai dati e prendere decisioni o previsioni senza essere esplicitamente programmati
  • tipo: Incluso l'apprendimento supervisionato, l'apprendimento non supervisionato, l'apprendimento semi-supervisionato e l'apprendimento per rinforzo
  • applicazione: Ampiamente utilizzato nel riconoscimento delle immagini, nel riconoscimento vocale, nei sistemi di raccomandazione, nell'analisi predittiva e in altri campi
  • Concetti chiave: Selezione delle caratteristiche, addestramento del modello, overfitting e underfitting, valutazione del modello, ecc.

Cos'è l'apprendimento profondo

  • definizione: Il deep learning è un sottoinsieme dell'apprendimento automatico che utilizza una struttura di rete neurale simile al cervello umano per apprendere modelli complessi di dati attraverso trasformazioni non lineari multistrato (profonde).
  • componenti principali: Strati di rete neurale, funzioni di attivazione, funzioni di perdita, algoritmi di ottimizzazione.
  • Architettura: Inclusa la rete neurale convoluzionale (CNN), la rete neurale ricorrente (RNN), la rete di memoria a lungo termine (LSTM) e il trasformatore (Trasformatore), ecc.
  • applicazione: Sono stati compiuti progressi rivoluzionari nei campi del riconoscimento delle immagini e del parlato, dell'elaborazione del linguaggio naturale, della guida autonoma, ecc.

Comprendere i modelli linguistici di grandi dimensioni

Perché devo aprire un capitolo separato per "comprendere" i modelli linguistici di grandi dimensioni dopo aver avuto una panoramica dei modelli linguistici di grandi dimensioni sopra perché questo ti consentirà di sapere meglio cos'è un modello linguistico di grandi dimensioni, comprenderne il limite superiore e anche farlo? rende più semplice per noi migliorare il livello dell'applicazione.
Innanzitutto possiamo dire in modo generale che l'apprendimento automatico consiste nel trovare una speciale "funzione" complessa in grado di trasformare il nostro input nell'output desiderato. Ad esempio, se prevediamo l'input 1 e l'output 5; l'input 2 e l'output 10, allora questa funzione potrebbe essere y=2*x.Oppure, se inseriamo l'immagine di un gatto, voglio che venga emessa la parola "gatto", oppure se inserisco "ciao" verrà restituito "ciao", ecc.

In effetti, questo può essere considerato essenzialmente un problema matematico. Naturalmente, il problema reale sarà molto più complicato dell'esempio precedente.

Storia

1. All'inizio, le persone volevano sempre che le macchine pensassero come le persone. A quel tempo, le persone promuovevano principalmente la "scuola di volo degli uccelli" basata sulla bionica, quando le persone vedevano un uccello volare, imparavano a volare sbattendolo ali. Quindi speravano di far sì che la macchina pensasse come un essere umano. Ma questo effetto non è molto buono. Non esiste una "conoscenza del mondo" (la conoscenza del mondo è la conoscenza predefinita nel tuo cervello che è ben nota e istintiva senza pensare). Ad esempio, "l'acqua scorre verso il basso". è enorme ed è difficile risolvere il problema dei significati multipli in una parola.In generale, è troppo complesso imitare il cervello umano, ed è difficile realizzarlo semplicemente utilizzando codici e funzioni.

2. Era dell’intelligenza artificiale 2.0: implementazione basata sui dati dell’“intelligenza artificiale basata sulle statistiche”. Perché tutti i tipi di modelli di grandi dimensioni sono spuntati come funghi dopo la pioggia dopo l'emergere di GPT3? In effetti, la maggior parte delle aziende ricerca l'intelligenza artificiale da molto tempo, ma all'inizio tutti attraversavano il fiume sentendo le pietre. Sebbene ci fossero molti piani e pensieri, non osavano aumentare i loro investimenti nello stallone rientravano tutti in un ambito di ricerca limitato. L'emergere di GPT3 ha permesso a tutti di vedere che un certo metodo è fattibile, ovvero utilizzare enormi quantità di dati per calcolare le statistiche. I cambiamenti nell'utilizzo portano a cambiamenti qualitativi. Quindi, nei casi di successo, tutti sapevano che questo metodo era fattibile iniziato Aumentare gli investimenti e intraprendere questa strada

3. I Big Data possono far fare un balzo in avanti al livello dell’intelligenza artificiale; il significato più grande dell’utilizzo di grandi quantità di dati è quello di consentire ai computer di completare cose che solo gli esseri umani potevano fare in passato.

  • Idea centrale: sulla base di informazioni statistiche contenute in una grande quantità di dati, "addestrare i parametri" per adattarli ai risultati (l'essenza è "statistica" piuttosto che "bionica")
  • Principali vantaggi: Man mano che la quantità di dati si accumula, il sistema continuerà a migliorare e a diventare sempre migliore;
  • Elementi fondamentali: “big data”, big data massivi, multidimensionali e completi
  • "Apprendimento meccanico" basato su big data massivi, multidimensionali e completi;
    Attraverso l'intelligenza artificiale statistica, i "problemi di intelligenza" si trasformano in "problemi di dati", rendendo l'informatica
    Le macchine possono risolvere “problemi incerti” imparando dai big data

L'essenziale

Quindi la chiave del problema diventa una questione di probabilità. Attualmente, i modelli di grandi dimensioni calcolano una probabilità da grandi quantità di dati per determinare la probabilità più alta del testo successivo o di un determinato paragrafo di testo nel mezzo, e quindi generarlo.L’essenziale, infatti, non è generare cose nuove, ma ragionare.

Ad esempio, chiedigli dov'è la capitale della Cina?La parola chiave estratta tramite l'algoritmo è che la capitale della Cina è
Quindi il modello di grandi dimensioni calcola, sulla base dell'enorme quantità di dati, che la capitale della Cina è la parola più probabile seguita da Pechino, quindi restituirà il risultato corretto.

I modelli di grandi dimensioni si basano sull’apprendimento meccanico di enormi quantità di dati per raggiungere le capacità attuali.
Pertanto, anche la qualità dei dati per l'addestramento di modelli di grandi dimensioni è molto critica. Allo stesso tempo, possiamo quasi pensare al limite superiore dei modelli di grandi dimensioni.

Sistema AIGC

AIGC, o Artificial Intelligence Generated Content, è una tecnologia che utilizza algoritmi di apprendimento automatico per generare automaticamente vari tipi di contenuti, inclusi testo, immagini, audio e video. Analizzando grandi quantità di dati, i sistemi AIGC apprendono modelli linguistici, visivi e audio per creare nuovi contenuti simili o addirittura indistinguibili dai contenuti creati dall’uomo.
Tutto il lavoro digitale rischia di essere sovvertito dai “grandi modelli”
La maggior parte del nostro attuale lavoro a livello di applicazione appartiene al sistema AIGC
Dopo GPT3.5, i modelli di grandi dimensioni possono già utilizzare gli strumenti.
• Plug-in e networking: compensano la mancanza di memoria del grande modello stesso, segnando l'inizio ufficiale dell'apprendimento dell'utilizzo degli strumenti LLM
• Funzione: LLM impara a chiamare le API per completare attività complesse, che è il lavoro principale degli ingegneri back-end (dare istruzioni a Gorilla chiamerà automaticamente la diffusione e altri modelli per implementare attività multimodali come disegno e dialogo)
• Lascia che il modello "pensi": guida modelli di grandi dimensioni affinché abbiano capacità logiche, il nucleo sta in: "Planning Memory Tool"

Implementazione di progetti di ingegneria AI

In effetti, l'implementazione dei progetti di intelligenza artificiale è la stessa di quella dei progetti ordinari. Il nucleo dell'istituzione iniziale del progetto deve essere quello di comprendere chiaramente i problemi fondamentali che il progetto intende risolvere, quindi espandere il pensiero e quindi realizzare. analisi della domanda, selezione della tecnologia, ecc.Non siamo molto bravi a progettare modelli di grandi dimensioni per la ricerca a livello di applicazione. Di solito chiamiamo direttamente le API o distribuiamo modelli di grandi dimensioni open source locali.

Come atterrare

Progetto rapido (Fase 1)

Chiunque abbia avuto una piccola esposizione all'intelligenza artificiale potrebbe conoscere i suggerimenti. Nel 2022-2023, la ricerca iniziale sull'intelligenza artificiale sarà ancora basata su questo, ovvero su come porre domande per far comprendere meglio il significato dell'intelligenza artificiale, prestare attenzione alla chiave. punti e quindi fornire risposte di qualità migliore
La soglia è relativamente bassa e la maggior parte delle applicazioni modello di grandi dimensioni sono progettate con Prompt.La capacità di soddisfare alcune esigenze dipende dalle capacità del modello base

Ricerca RAG (seconda fase)

RAG (Retrieval-Augmented Generation) è una tecnologia di intelligenza artificiale che combina modelli di recupero e modelli di generazione. Migliora le capacità di risposta dei modelli linguistici di grandi dimensioni (LLM) recuperando informazioni rilevanti da una base di conoscenza o da un database e combinandole con le query degli utenti. La tecnologia RAG può migliorare la precisione e la pertinenza delle applicazioni IA, soprattutto in scenari che trattano conoscenze di dominio specifiche o richiedono le informazioni più recenti.
Il principio di funzionamento di RAG prevede principalmente due fasi:

  1. Recupero: in base alla query dell'utente, RAG utilizza il modello di recupero per cercare ed estrarre le informazioni o i documenti più rilevanti nella knowledge base.
  2. Generazione: le informazioni recuperate vengono utilizzate come input per il modello di generazione, insieme alla query dell'utente, da cui il modello di generazione genera risposte o contenuti.
    I vantaggi della tecnologia RAG sono:
    • Aggiornamento delle conoscenze: possibilità di accedere alle informazioni più recenti, non solo alla conoscenza durante l'addestramento del modello
    • Ridurre le allucinazioni: ridurre la tendenza del LLM a generare informazioni inaccurate o false attraverso l'assistenza di fonti di conoscenza esterne
    • Sicurezza dei dati: consente alle aziende di utilizzare dati privati ​​senza caricarli su piattaforme di terze parti
    • Conveniente: RAG fornisce una soluzione più economica rispetto alla riqualificazione o alla messa a punto di modelli di grandi dimensioni
Modelli specifici per le funzioni formative (Fase 3)

Tuttavia, questa soglia è relativamente alta ed esistono determinati requisiti in termini di potenza di calcolo, dati e algoritmi.

Progettazione aziendale implementata

Fase uno: Ideazione ed esplorazione

Obiettivo: condurre verifiche di fattibilità, progettare prototipi in base ai requisiti aziendali e creare PromptFlow per testare i presupposti chiave

  • Input principale: obiettivi aziendali chiari
  • Risultati chiave: verificare se il modello linguistico di grandi dimensioni (LLM) può soddisfare i requisiti dell'attività, stabilire o negare i presupposti chiave
  • Piani d'azione chiave:
    • Definire chiaramente i casi d'uso aziendali
    • Selezionare un modello di base di grandi dimensioni adatto e preparare i dati necessari per la successiva messa a punto (SFT) o altri usi
    • Progettare e costruire PromptFlow, formulare e testare ipotesi di fattibilità
Passaggio 2: costruire e migliorare

Obiettivo: valutare la robustezza delle soluzioni su una gamma più ampia di set di dati e migliorare le prestazioni del modello attraverso tecniche come il fine tuning (SFT) e la generazione aumentata con recupero (RAG)

  • Input principale: obiettivi aziendali combinati con il piano preliminare (risultati della fase 1)
  • Risultato chiave: una soluzione aziendale matura, pronta per essere implementata in un sistema di produzione
  • Piani d'azione chiave:
    • Verificare l'efficacia di PromptFlow sui dati campione
    • Valuta e ottimizza PromptFlow ed esplora prompt e strumenti migliori
    • Se gli obiettivi attesi vengono raggiunti, espandere a un set di dati più ampio per i test e migliorare ulteriormente l'effetto attraverso SFT, RAG e altre tecnologie.
Passaggio 3: continuare le operazioni

Obiettivo: garantire il funzionamento stabile del sistema AIGC, integrare i sistemi di monitoraggio e di allarme e ottenere l'integrazione e l'implementazione continue (CI/CD)

  • Input principale: un sistema AIGC in grado di risolvere un problema specifico
  • Risultati principali: procedure a livello di produzione che integrano sistemi di monitoraggio e allarme e processi CI/CD.
  • Piani d'azione chiave:
    • Implementare il sistema AIGC
    • Integra funzionalità di monitoraggio e avviso per garantire che le funzionalità del sistema siano integrate nelle applicazioni
    • Stabilire il meccanismo operativo dell'applicazione, inclusi l'iterazione continua, la distribuzione e l'aggiornamento
      Attraverso questo processo, garantiamo che ogni passaggio, dalla prova del concetto alla distribuzione in produzione, sia preciso, controllabile e guidato dagli obiettivi aziendali

Tecnologia tempestiva

1. Il ruolo trainante dei principali frammenti di contenuto

Gli snippet di contenuto principale sono la base testuale utilizzata insieme alle istruzioni per aumentarne significativamente l'efficacia.

  1. Definizione del contenuto principale:
    • Il contenuto principale è il testo centrale dell'elaborazione o trasformazione del modello, solitamente abbinato a istruzioni per raggiungere obiettivi specifici.
  2. Esempi di applicazione:
    • Esempio 1: Fornisci un pezzo di testo di Wikipedia [testo] con l'istruzione "Riassumi il contenuto di cui sopra".
    • Esempio 2: data una tabella contenente informazioni sulla birra [testo], l'istruzione è "Elenca tutte le birre nella tabella con un grado inferiore a 6 gradi".

2. Strategia di implementazione dei contenuti principali

Metodi specifici per realizzare i contenuti principali, tra cui:

  • Esempio: consente al modello di dedurre autonomamente le azioni che devono essere eseguite fornendo esempi di come completare un'attività anziché istruzioni dirette.
  • Spunto: utilizzare istruzioni con indizi per guidare il modello a ragionare passo dopo passo per arrivare alla risposta.
  • Modelli: fornisce ricette prompt riutilizzabili con segnaposto, consentendo la personalizzazione in casi d'uso specifici.

3. Il potere degli esempi (Esempio)

Mostrando al modello come generare output in base a istruzioni fornite, il modello è in grado di dedurre modelli di output, sia che si tratti di apprendimento zero-shot, one-shot o two-shot.

  • componente:
    • Descrizione generale della missione.
    • Un esempio di un intervallo di output desiderato.
    • Una guida a nuovi esempi che servono come punto di partenza per le attività successive.

4. Il ruolo guida degli indizi (Cue)

Fornendo indizi a modelli di grandi dimensioni per guidarli nel ragionamento logico in una direzione chiara, è come fornire una formula passo passo per aiutare il modello a ottenere gradualmente la risposta.

5. Valore di personalizzazione dei template (Template)

Il valore dei modelli risiede nella creazione e nella pubblicazione di librerie di prompt per aree applicative specifiche che sono state ottimizzate per il contesto o l'esempio specifico dell'applicazione.

  • Suggerimento per l'ottimizzazione: rendi le risposte più pertinenti e precise per il tuo gruppo di utenti target.
  • Riferimento alle risorse: la pagina di esempio dell'API OpenAI fornisce numerose risorse di modelli.
  • Assegnazione dei ruoli del modello: migliora la comprensione del modello della pertinenza delle attività specificando i ruoli di identità del modello (come sistema, utente, assistente, ecc.).

Esempi di prompt avanzati

# 职位描述:数据分析助手
## 角色
我的主要目标是为用户提供专家级的数据分析建议。利用详尽的数据资源,告诉我您想要分析的股票(提供股票代码)。我将以专家的身份,为您的股票进行基础分析、技
术分析、市场情绪分析以及宏观经济分析。
## 技能
### 技能1:使用Yahoo Finance的'Ticker'搜索股票信息
### 技能2:使用'News'搜索目标公司的最新新闻
### 技能3:使用'Analytics'搜索目标公司的财务数据和分析
## 工作流程
询问用户需要分析哪些股票,并按顺序执行以下分析:
**第一部分:基本面分析:财务报告分析
*目标1:对目标公司的财务状况进行深入分析。
*步骤:
1. 确定分析对象: