Suuri kielimallisovellus - AI Engineering Implementation

Laaja kielimallisovellus - AI-tekniikan toteutus

2024-07-11

Artikkelihakemisto

Tekoälyn nopea kehitys viime vuosina on todellakin tuonut mukanaan suuren vaikutuksen. Itse asiassa tekoäly ei ole kuitenkaan täysin ylittänyt rajaa ja on edelleen vain "itseään edistävä" pienessä ympyrässä.Mutta se on hyvin erilainen kuin ennen.
Tämä artikkeli keskittyy suurten mallien nykytilanteeseen ja puhuu suunnitteluun liittyvistä asioista. Se perustuu myös inspiraatioon ja yhteenvetoon.

En mene tässä liian yksityiskohtiin itse tekoälystä, vaan keskityn enemmän ylemmän tason sovelluksiin.

Yleiskatsaus suuriin kielimalleihin

Kun puhumme suuresta kielimallista, tarkoitamme ohjelmistoa, joka voi "puhua" samalla tavalla kuin ihmisen kieli.Nämä mallit ovat hämmästyttäviä – ne pystyvät ottamaan kontekstin ja luomaan vastauksia, jotka eivät ole vain johdonmukaisia, vaan myös tuntuvat olevan peräisin oikeilta ihmisiltä.
Nämä kielimallit toimivat analysoimalla suuria määriä tekstidataa ja oppimismalleja kielenkäytössä.He hyödyntävät näitä malleja luodakseen tekstiä, joka on lähes erottamaton siitä, mitä ihmiset sanovat tai kirjoittavat.
Jos olet joskus keskustellut virtuaalisen avustajan kanssa tai ollut vuorovaikutuksessa tekoälyn asiakaspalvelun kanssa, olet luultavasti ollut vuorovaikutuksessa suuren kielimallin kanssa tietämättäsi. Näissä malleissa on laaja valikoima sovelluksia chatboteista kielten kääntämiseen sisältöön luominen ja paljon muuta

Mikä on suuri kielimalli

määritelmä : Large Language Model (LLM) on esiopetettu luonnollisen kielen käsittelymalli (NLP), jossa on yleensä miljardeja tai jopa satoja miljardeja parametreja ja joka pystyy ymmärtämään ja luomaan luonnollisen kielen tekstiä.Kypsän suuren kielimallin koulutusdata on valtava.
Toiminto: Suuret kielimallit voivat suorittaa erilaisia kielitehtäviä, kuten tekstin luokittelua, tunneanalyysiä, konekäännöstä, tekstin yhteenvetoa, kysymys- ja vastausjärjestelmiä jne.
tekninen perusta: Perustuu Transformer-arkkitehtuuriin, jossa käytetään Self-Attention-mekanismia sekvenssitietojen käsittelyyn
kehittää: Varhaisista RNN:stä ja LSTM:stä nykyisiin malleihin, kuten BERT ja GPT, parametrien määrä ja suorituskyky ovat edelleen parantuneet.

Mitä on koneoppiminen

määritelmä: Koneoppiminen on tekoälyn haara, jonka avulla tietokonejärjestelmät voivat oppia tiedoista ja tehdä päätöksiä tai ennusteita ilman, että niitä on erikseen ohjelmoitu
tyyppi: Sisältää ohjatun oppimisen, ohjaamattoman oppimisen, puoliohjatun oppimisen ja vahvistusoppimisen
sovellus: Käytetään laajasti kuvantunnistuksessa, puheentunnistuksessa, suositusjärjestelmissä, ennustavassa analysoinnissa ja muilla aloilla
Keskeiset käsitteet: Ominaisuuden valinta, mallikoulutus, yli- ja alasovitus, mallin arviointi jne.

Mitä on syväoppiminen

määritelmä: Deep learning on koneoppimisen osajoukko, joka käyttää ihmisaivojen kaltaista hermoverkkorakennetta monimutkaisten datamallien oppimiseen monikerroksisten (syvien) epälineaaristen muunnosten avulla.
ydinkomponentit: Neuraaliverkkokerrokset, aktivointifunktiot, häviöfunktiot, optimointialgoritmit.
Arkkitehtuuri: Sisältää konvoluutiohermoverkon (CNN), toistuvan hermoverkon (RNN), pitkän lyhytaikaisen muistiverkon (LSTM) ja muuntajan (Transformer) jne.
sovellus: Vallankumouksellista edistystä on tapahtunut kuvan- ja puheentunnistuksen, luonnollisen kielen käsittelyn, autonomisen ajamisen jne.

Suurten kielimallien ymmärtäminen

Miksi minun pitää avata erillinen luku suurten kielimallien "ymmärtämiseksi", kun olen saanut yleiskatsauksen suurista kielimalleista, koska sen avulla tiedät paremmin, mikä suuri kielimalli on, ymmärrät sen ylärajan ja osaat myös helpottaa sovelluskerroksen tekemistä paremmin.
Ensinnäkin voimme sanoa yleisesti, että koneoppimisen tarkoituksena on löytää erityinen monimutkainen "toiminto", joka voi muuttaa syötteemme halutuksi tuotokseksi. Jos esimerkiksi odotamme syöttävän tulon 1 ja lähdön 5 tuloon 2 ja ulostuloon 10, tämä funktio voi olla y=2*x.Tai jos syötämme kuvan kissasta, haluan sen kirjoittavan sanan "kissa", tai jos syötän "hei", se tulostaa "hei" jne.

Itse asiassa tätä voidaan pitää pohjimmiltaan matemaattisena ongelmana. Varsinainen ongelma on tietysti paljon monimutkaisempi kuin yllä oleva esimerkki.

Historia

1. Alkuaikoina ihmiset halusivat aina saada koneet ajattelemaan ihmisten tavoin. Tuolloin ihmiset mainostivat lähinnä "lintulentokoulua". Sitten he toivoivat saavansa koneet ajattelemaan samoin. Mutta tämä vaikutus ei ole kovin hyvä. "Maailmatieto on oletustietoa aivoissasi, joka on tunnettua ja vaistomaista, esimerkiksi "vesi virtaa alaspäin". on massiivinen, ja useiden merkityksien ongelmaa on vaikea ratkaista yhdellä sanalla.Yleisesti ottaen se on liian monimutkaista jäljittelemään ihmisaivoja, ja sitä on vaikea saavuttaa pelkällä koodilla ja funktioilla.

2. Tekoäly 2.0:n aikakausi: "tilastopohjaisen tekoälyn" datalähtöinen toteutus. Miksi kaikenlaisia suuria malleja on syntynyt kuin sieniä sateen jälkeen GPT3:n syntymisen jälkeen? Itse asiassa suurin osa yrityksistä on tutkinut tekoälyä pitkään, mutta alkuaikoina kaikki ylittivät joen kiviä tuntemalla. Vaikka suunnitelmia ja ajatuksia oli monia, he eivät uskaltaneet lisätä investointejaan studiin ne kaikki olivat rajoitetun tutkimuksen piirissä. GPT3:n syntyminen antoi kaikille mahdollisuuden nähdä, että tietty menetelmä on käyttökelpoinen, eli valtavien tietomäärien käyttäminen tilastojen laskemiseen. Määrän muutokset johtavat siis laadullisiin muutoksiin Aloitti Lisää investointeja ja valitse tämä tie

3. Big data voi tehdä koneälyn tason harppauksen eteenpäin suurten tietomäärien käytön suurin merkitys on sallia tietokoneiden suorittaa asioita, joita vain ihmiset pystyivät aiemmin tekemään.

Ydinidea: Perustuu suureen tietomäärään sisältyviin tilastotietoihin, "harjoitetaan parametrit" tulosten mukaisiksi (olemus on "tilastot" "bionisten" sijaan)
Tärkeimmät edut: Tietomäärän kasvaessa järjestelmä paranee ja paranee jatkuvasti;
Ydinelementit: "big data", massiivinen, moniulotteinen ja kattava big data
"Rote learning", joka perustuu massiiviseen, moniulotteiseen ja kattavaan big dataan;
Tilastollisen tekoälyn avulla "älyongelmat" muuttuvat "tietoongelmiksi", mikä tekee tietojenkäsittelystä
Koneet voivat ratkaista "epävarmoja ongelmia" oppimalla isosta datasta

Olennaiset

Joten ongelman avaimesta tulee todennäköisyyskysymys. Tällä hetkellä suuret mallit laskevat todennäköisyyden massiivisista tiedoista määrittääkseen suurimman todennäköisyyden seuraavalle tekstille tai tietylle tekstikappaleelle keskellä, ja tulostavat sen sitten.Itse asiassa ydin ei ole luoda uusia asioita, vaan järkeä.

Kysy häneltä esimerkiksi missä on Kiinan pääkaupunki?Algoritmin avulla poimittu avainsana on, että Kiinan pääkaupunki on
Sitten suuri malli laskee massiivisista tiedoista, että Kiinan pääkaupunki on todennäköisin sana, jota seuraa Peking, joten se antaa oikean tuloksen.

Suuret mallit luottavat valtavien tietomäärien "rote-oppimiseen" nykyisten ominaisuuksien saavuttamiseksi.
Siksi myös suurten mallien koulutuksessa datan laatu on erittäin kriittinen. Samalla voimme melkein ajatella suurten mallien ylärajaa.

AIGC järjestelmä

AIGC tai tekoälyn luoma sisältö on tekniikka, joka käyttää koneoppimisalgoritmeja luomaan automaattisesti erityyppistä sisältöä, mukaan lukien tekstiä, kuvia, ääntä ja videota. Analysoimalla suuria tietomääriä AIGC-järjestelmät oppivat kieltä, visuaalisia ja äänimalleja luodakseen uutta sisältöä, joka on samanlaista tai jopa erottamatonta ihmisen luomasta sisällöstä.
"Isot mallit" kumoavat todennäköisesti kaiken digitaalisen työn
Suurin osa nykyisestä sovelluskerrostyöstämme kuuluu AIGC-järjestelmään
GPT3.5:n jälkeen isot mallit voivat jo käyttää työkaluja.
• Laajennukset ja verkostoituminen: korjaa itse suuren mallin muistin puute, mikä merkitsee työkalujen käytön oppimisen virallista alkua.
• Toiminto: LLM oppii kutsumaan sovellusliittymiä monimutkaisten tehtävien suorittamiseen, mikä on tausta-insinöörien päätehtävä (anna Gorillalle ohjeita ja se kutsuu automaattisesti malleja, kuten diffuusiota, toteuttaakseen multimodaalisia tehtäviä, kuten piirtämistä ja dialogia)
• Anna mallin "ajatella": ohjaa suuria malleja saamaan loogisia ominaisuuksia, ydin on: "Planning Memory Tool"

Tekoälysuunnitteluprojektien toteuttaminen

Itse asiassa tekoälyprojektien toteuttaminen on samaa kuin tavallisten projektien perustamisen ytimenä on oltava se, että ymmärretään selkeästi ydinongelmat, jotka projektilla on tarkoitus ratkaista, ja sitten laajentaa ajattelua ja sitten toteuttaa. kysyntäanalyysi, teknologian valinta jne.Emme ole kovin hyviä suunnittelemaan suuria malleja sovelluskerrokseen. Kutsumme yleensä suoraan API:ita tai otamme käyttöön paikallisia avoimen lähdekoodin suuria malleja.

Kuinka laskeutua

Pikaprojekti (vaihe 1)

Jokainen, joka on ollut vähänkin tekemisissä tekoälyn kanssa, saattaa tietää, että vuosina 2022-2023 alustava tekoälytutkimus perustuu edelleen tähän, eli kuinka tehdä kysymyksiä, jotta tekoäly ymmärtäisi paremmin, kiinnitä huomiota avaimeen. pisteitä ja anna sitten laadukkaampia vastauksia
Kynnys on suhteellisen matala, ja useimmat suuret mallisovellukset on suunniteltu kehotteen avulla.Joidenkin tarpeiden täyttäminen riippuu perusmallin kyvyistä

RAG-haku (toinen vaihe)

RAG (Retrieval-Augmented Generation) on tekoälyteknologia, joka yhdistää hakumalleja ja sukupolvimalleja. Se parantaa suurten kielimallien (LLM) vastausominaisuuksia hakemalla oleellista tietoa tietokannasta tai tietokannasta ja yhdistämällä sen käyttäjien kyselyihin. RAG-teknologia voi parantaa tekoälysovellusten tarkkuutta ja relevanssia erityisesti skenaarioissa, jotka koskevat tiettyä verkkotuntia tai vaativat uusinta tietoa.
RAG:n toimintaperiaate sisältää pääasiassa kaksi vaihetta:

Haku: RAG käyttää hakumallia käyttäjän kyselyn perusteella tärkeimpien tietojen tai asiakirjojen etsimiseen ja poimimiseen tietokannasta.
Generation: Haettua tietoa käytetään syötteenä sukupolvimalliin yhdessä käyttäjän kyselyn kanssa, josta sukupolvimalli tuottaa vastauksia tai sisältöä.
RAG-tekniikan edut ovat:
- Tietojen päivitys: Mahdollisuus käyttää uusimpia tietoja, ei vain tietoa mallikoulutuksen aikana
- Vähennä hallusinaatioita: Vähennä LLM:n taipumusta tuottaa epätarkkoja tai vääriä tietoja ulkopuolisten tietolähteiden avulla
- Tietoturva: Antaa yritysten käyttää yksityisiä tietoja lataamatta niitä kolmannen osapuolen alustoille
- Kustannustehokas: RAG tarjoaa edullisemman ratkaisun kuin suurten mallien uudelleenkoulutus tai hienosäätö

Harjoittelutoimintokohtaiset mallit (vaihe 3)

Tämä kynnys on kuitenkin suhteellisen korkea, ja laskentateholle, datalle ja algoritmeille on tiettyjä vaatimuksia.

Toteutettu yrityssuunnittelu

Vaihe yksi: Ideointi ja tutkiminen

Tavoite: Suorita toteutettavuuden todentaminen, suunnittele prototyyppi liiketoimintavaatimusten perusteella ja rakenna PromptFlow testataksesi keskeisiä oletuksia

Ydinpanos: selkeät liiketoimintatavoitteet
Avaintulos: Tarkista, pystyykö suuri kielimalli (LLM) täyttämään tehtävän vaatimukset, vahvista tai hylkää keskeiset oletukset
Keskeiset toimintasuunnitelmat:
- Määrittele selkeästi yrityskäyttötapaukset
- Valitse sopiva iso perusmalli ja valmistele tarvittavat tiedot myöhempää hienosäätöä (SFT) tai muuta käyttöä varten
- Suunnittele ja rakenna PromptFlow, muotoile ja testaa toteutettavuushypoteesia

Vaihe 2: Rakenna ja paranna

Tavoite: Arvioi ratkaisujen kestävyyttä suuremmassa valikoimassa tietojoukkoja ja paranna mallin suorituskykyä tekniikoilla, kuten hienosäätö (SFT) ja haku lisätty sukupolvi (RAG)

Ydinpanos: Liiketoiminnan tavoitteet yhdistettynä alustavaan suunnitelmaan (vaiheen 1 tulokset)
Keskeinen tulos: Kypsä liiketoimintaratkaisu, joka on valmis otettavaksi käyttöön tuotantojärjestelmässä
Keskeiset toimintasuunnitelmat:
- Tarkista PromptFlown tehokkuus näytetiedoista
- Arvioi ja optimoi PromptFlow ja tutki parempia kehotteita ja työkaluja
- Jos odotetut tavoitteet saavutetaan, laajenna suurempi tietojoukko testausta varten ja paranna vaikutusta edelleen SFT:n, RAG:n ja muiden teknologioiden avulla.

Vaihe 3: Jatka toimintoja

Tavoite: Varmistaa AIGC-järjestelmän vakaan toiminnan, integroida valvonta- ja hälytysjärjestelmät sekä saavuttaa jatkuva integrointi ja jatkuva käyttöönotto (CI/CD)

Ydinsyöttö: AIGC-järjestelmä, joka pystyy ratkaisemaan tietyn ongelman
Keskeiset tulokset: Tuotantotason menettelyt, jotka yhdistävät valvonta- ja hälytysjärjestelmät sekä CI/CD-prosessit.
Keskeiset toimintasuunnitelmat:
- Ota käyttöön AIGC-järjestelmä
- Integroi valvonta- ja hälytysominaisuudet varmistaaksesi, että järjestelmäominaisuudet on upotettu sovelluksiin
- Luo sovelluksen toimintamekanismi, mukaan lukien jatkuva iterointi, käyttöönotto ja päivitys
  Tämän prosessin avulla varmistamme, että jokainen vaihe konseptin todistamisesta tuotannon käyttöönottoon on tarkkaa, hallittavissa ja liiketoimintatavoitteiden ohjaama.

Nopea tekniikka

1. Pääsisältöfragmenttien ohjaava rooli

Pääsisältökatkelmat ovat tekstiperustaa, jota käytetään yhdessä ohjeiden kanssa niiden tehokkuuden lisäämiseksi.

Pääsisällön määritelmä:
- Pääsisältö on mallin käsittelyn tai muuntamisen ydinteksti, johon yleensä liitetään ohjeita tiettyjen tavoitteiden saavuttamiseksi.
Sovellusesimerkkejä:
- Esimerkki 1: Anna pala Wikipedia-tekstiä [teksti], jossa on ohjeet "Tee yhteenveto yllä olevasta sisällöstä".
- Esimerkki 2: Kun on annettu taulukko, joka sisältää oluttiedot [teksti], ohje on "Lista kaikki taulukon oluet, joiden aste on alle 6 astetta."

2. Pääsisällön toteutusstrategia

Erityiset menetelmät pääsisällön saavuttamiseksi, mukaan lukien:

Esimerkki: Antaa mallin itsenäisesti päätellä suoritettavat toiminnot antamalla esimerkkejä tehtävän suorittamisesta suorien ohjeiden sijaan.
Vihje: Käytä ohjeita vihjeineen ohjataksesi mallia askel askeleelta, jotta saat vastauksen.
Mallit: Tarjoaa uudelleenkäytettäviä pikareseptejä paikkamerkeillä, mikä mahdollistaa mukauttamisen tiettyihin käyttötapauksiin.

3. Esimerkkien voima (esimerkki)

Näyttämällä mallille, kuinka tuotos muodostetaan annettujen ohjeiden perusteella, malli pystyy päättelemään tuloskuvioita, olivatpa ne nolla-, kerta- tai muutaman otoksen oppimista.

komponentti:
- Tehtävän kokonaiskuvaus.
- Esimerkki halutusta lähtöalueesta.
- Opas uusiin esimerkkeihin, jotka toimivat lähtökohtana tuleville tehtäville.

4. Vihjeiden ohjaava rooli (Cue)

Antamalla vihjeitä suurille malleille, jotka ohjaavat niitä loogiseen päättelyyn selkeään suuntaan, se on samanlainen kuin vaiheittaisen kaavan tarjoaminen, joka auttaa mallia vähitellen saamaan vastauksen.

5. Mallien muokkausarvo (Malli)

Mallien arvo on kirjastojen luomisessa ja julkaisemisessa tietyille sovellusalueille, jotka on optimoitu tiettyä kontekstia tai sovelluksen esimerkkiä varten.

Optimointivinkki: Tee vastauksista osuvampia ja tarkempia kohdekäyttäjäryhmällesi.
Resurssiviite: OpenAI API -mallisivu tarjoaa runsaasti malliresursseja.
Mallin roolin määritys: Paranna mallin ymmärrystä tehtävän merkityksestä määrittämällä mallin identiteettirooleja (kuten järjestelmä, käyttäjä, avustaja jne.).

Kehittyneitä esimerkkejä

# 职位描述：数据分析助手
## 角色
我的主要目标是为用户提供专家级的数据分析建议。利用详尽的数据资源，告诉我您想要分析的股票（提供股票代码）。我将以专家的身份，为您的股票进行基础分析、技
术分析、市场情绪分析以及宏观经济分析。
## 技能
### 技能1：使用Yahoo Finance的'Ticker'搜索股票信息
### 技能2：使用'News'搜索目标公司的最新新闻
### 技能3：使用'Analytics'搜索目标公司的财务数据和分析
## 工作流程
询问用户需要分析哪些股票，并按顺序执行以下分析：
**第一部分：基本面分析：财务报告分析
*目标1：对目标公司的财务状况进行深入分析。
*步骤：
1. 确定分析对象：

Teknologian jakaminen