14:13 | 06.03.25 | Հոդվածներ | 1269

Gemini. ամենը Google-ի գեներատիվ AI մոդելների մասին

Gemini-ն Google-ի նոր սերնդի գեներատիվ AI մոդելների ընտանիքն է, որը մշակվել է Google-ի AI հետազոտական լաբորատորիաներ DeepMind-ում եւ Google Research-ում, հասանելի է չորս տարբերակով.

•    Gemini Ultra. շատ մեծ մոդել
•    Gemini Pro. մեծ մոդել, բայց ավելի փոքր, քան Ultra-ն: Վերջին տարբերակը՝ Gemini 2.0 Pro Experimental, համարվում է Google-ի առաջատար մոդելը:
•    Gemini Flash. ավելի արագացված, «թորման» ենթարկված Pro տարբերակ: Ունի նաեւ Gemini Flash-Lite՝ փոքր եւ ավելի արագ տարբերակ, ինչպես նաեւ Gemini Flash Thinking Experimental, որն ունի reasoning (տրամաբանող) ունակություններ:
•    Gemini Nano. երկու փոքր մոդել` Nano-1 եւ ավելի հզոր Nano-2, որը նախատեսված է աշխատել անցանց ռեժիմում:

Բոլոր Gemini մոդելները ստեղծվել են որպես բազմամոդալ համակարգեր, այսինքն՝ կարողանում են աշխատել ոչ միայն տեքստային, այլեւ` աուդիո, պատկերների, վիդեոների հետ: Google-ը նշում է, որ մոդելները նախապես ուսուցանվել եւ բարելավվել են տարբեր հանրային, սեփական եւ լիցենզավորված տվյալների հիման վրա, ներառյալ կոդային շտեմարաններ եւ տարբեր լեզուներով տեքստեր։

Սա Gemini-ն առանձնացնում է, օրինակ, Google-ի սեփական LaMDA մոդելից, որը բացառապես տեքստային տվյալների հիման վրա է ուսուցանվել եւ չի կարող մշակել այլ տեսակի ինֆորմացիա։

Այնուամենայնիվ, հարկ է նշել, որ AI մոդելների ուսուցման համար հանրային տվյալների օգտագործման էթիկական եւ իրավական կողմերը դեռեւս վիճահարույց են։ Google-ն ունի AI իրավական պաշտպանություն (indemnification policy)՝ որոշակի Google Cloud հաճախորդներին պաշտպանելու համար հնարավոր դատական հայցերից, սակայն այս քաղաքականությունն ունի որոշակի սահմանափակումներ։ Հատկապես զգուշավոր պետք է լինել, եթե նախատեսում եք Gemini-ն օգտագործել կոմերցիոն նպատակներով։

Ի՞նչ տարբերություն կա Gemini հավելվածների եւ Gemini մոդելների միջեւ

Gemini-ն տարբերվում է վեբ եւ բջջային Gemini հավելվածներից (նախկինում՝ Bard):

Gemini հավելվածները հանդիսանում են հաճախորդային ծրագրեր, որոնք միանում են տարբեր Gemini մոդելներին եւ ստեղծում չատբոտի նման ինտերֆեյս: Դրանք կարելի է համեմատել ChatGPT-ի կամ Anthropic-ի Claude հավելվածների հետ։

•    Վեբ տարբերակը հասանելի է այստեղ:
•    Android համակարգում Gemini հավելվածը փոխարինում է Google Assistant-ին։
•    iOS-ում Google եւ Google Search հավելվածները ծառայում են Gemini-ի հաճախորդային տարբերակ։

Android-ում հնարավոր է Gemini-ի ներդրված ինտերֆեյսը բացել ցանկացած հավելվածի վրա եւ հարցեր ուղղել՝ հիմնված էկրանի վրա ցուցադրվող բովանդակության վրա (օրինակ՝ YouTube-ի տեսանյութի մասին հարց տալու համար): Դրա համար պետք է պահել սմարթֆոնի power կոճակը կամ ասել "Hey Google", ինչից հետո Gemini-ի վահանակը կբացվի։

photo © Google


Gemini հավելվածները կարող են ընդունել պատկերներ, ձայնային հրամաններ եւ տեքստ, ինչպես նաեւ աշխատել PDF ֆայլերի, շուտով՝ վիդեոների հետ (վերբեռնված կամ Google Drive-ից ներմուծված): Բջջային տարբերակում սկսած խոսակցությունները հասանելի են նաեւ վեբ տարբերակում, եթե երկու տեղում էլ նույն Google հաշիվն է օգտագործվում։

Gemini Advanced

Gemini հավելվածները միակ միջոցը չեն Gemini մոդելների հնարավորություններից օգտվելու համար։ Դրանց գործառույթները աստիճանաբար ինտեգրվում են նաեւ Google-ի հիմնական ծառայություններում, ինչպիսիք են Gmail-ը եւ Google Docs-ը։

Դրանցից օգտվելու համար անհրաժեշտ է Google One AI Premium փաթեթը, որն արժե $20 ամսական։

Այն թույլ է տալիս Gemini-ն ինտեգրել Google Workspace-ի Docs, Maps, Slides, Sheets, Drive եւ Meet գործիքներում։ Gemini Advanced-ը թույլ է տալիս մուտք գործել ավելի բարդ մոդելներ եւ ստանալ առաջնահերթ հասանելիություն նոր գործառույթներին։

photo © Google


Gemini Advanced-ն ունի երկար հիշողություն եւ վերլուծություն կատարելու ունակություն։

Gemini Advanced-ը կարող է հիշել մոտ 750,000 բառ (կամ 1,500 էջ փաստաթուղթ)՝ համեմատած ստանդարտ Gemini-ի 24,000 բառի (կամ 48 էջի)։

Այն կարող է տրամաբանական կապեր ստեղծել ավելի մեծ ծավալի տվյալների միջեւ։

Խորը հետազոտության գործառույթն (Deep Research) օգտագործում է առաջադեմ վերլուծություն եւ երկար համատեքստի հնարավորություններ, որպեսզի ստեղծի բազմափուլային հետազոտական պլան՝ հիմնվելով հարցման վրա։

Gemini-ն ձեր հրահանգի (prompt) հիման վրա մի քանի րոպեում որոնում է իրականացնում համացանցում եւ ստեղծում զեկույց։ Այն կարող է պատասխանել բարդ հարցերին, օրինակ՝ «Կարո՞ղ ես օգնել ինձ վերափոխել իմ խոհանոցը»։

Gemini Advanced-ը կարող է օգտագործել ձեր նախորդ խոսակցությունները՝ ընթացիկ քննարկումներին համատեքստ հաղորդելու համար։ Բացի այդ, այն հնարավորություն է տալիս ավելի մեծ ծավալի տվյալներ մշակել NotebookLM հավելվածում, որը PDF ֆայլերը վերածում է AI-ով ստեղծված փոդքասթների։

Gemini 2.0 Pro Experimental-ը (Google-ի առաջատար մոդելը) օպտիմիզացված է բարդ ծրագրավորման եւ մաթեմատիկական խնդիրների համար։ Gemini Advanced-ի օգտատերերը կարող են Python կոդ գրել, փոփոխել եւ գործարկել հենց Gemini-ի ներսում։

Gemini Advanced-ը կարող է ստեղծել անձնական ճանապարհորդական պլաններ՝ հիմնվելով ձեր Gmail-ի տոմսերի վրա, ձեր սննդային նախասիրությունների, Google Maps-ի տվյալների, ինչպես նաեւ տարբեր տեսարժան վայրերի միջեւ հեռավորությունների վրա։ Ճանապարհորդական պլանները ինքնաբար թարմացվում են, եթե փոփոխություններ են լինում (օրինակ՝ չվերթի ժամի փոփոխություն)։

Google-ն առաջարկում է Gemini-ի կորպորատիվ տարբերակներ․ Gemini Business-ը $6 ամսական վճարով յուրաքանչյուր օգտատիրոջ համար (Google Workspace-ի հավելում) եւ Gemini Enterprise-ը, որը ներառում է ավտոմատացված հանդիպումների գրառումներ, թարգմանված ենթագրեր, փաստաթղթերի դասակարգում եւ պիտակավորում։ Enterprise տարբերակի գինը կախված է բիզնեսի կարիքներից եւ պահանջում է տարեկան բաժանորդագրություն։

Gemini-ն Gmail-ում, Docs-ում, Chrome-ում, ծրագրավորման գործիքներում եւ ավելին

Gmail-ում Gemini-ն տեղադրված է կողային վահանակում, որը կարող է գրել նամակներ եւ ամփոփել հաղորդագրությունները: Նույն վահանակը կգտնեք նաեւ Docs-ում, որտեղ այն օգնում է գրել եւ բարելավել բովանդակությունը, ինչպես նաեւ նոր գաղափարներ առաջարկել: Gemini-ն Slides-ում ստեղծում է սլայդներ եւ հարմարեցված պատկերներ: Google Sheets-ում այն հետեւում է տվյալներին եւ կազմակերպում դրանք՝ ստեղծելով աղյուսակներ եւ բանաձեւեր:

photo © Google


Google-ի AI չատբոտը վերջերս հայտնվել է նաեւ Maps-ում, որտեղ Gemini-ն կարող է ամփոփել սրճարանների վերաբերյալ կարծիքները կամ խորհուրդ տալ, թե ինչպես անցկացնել մի ամբողջ օր օտար քաղաքում:

Gemini-ն հասանելի է նաեւ Drive-ում, որտեղ կարող է ամփոփել ֆայլերը եւ թղթապանակները, ինչպես նաեւ արագ տեղեկատվություն տրամադրել նախագծերի մասին: Meet-ում այն թարգմանում է ենթագրերը լրացուցիչ լեզուներով:

Gemini-ն վերջերս հայտնվել է նաեւ Google Chrome դիտարկչում՝ որպես գրելու AI գործիք: Կարող եք դրանով նոր տեքստ գրել կամ գոյություն ունեցող տեքստը վերաշարադրել: Google-ը նշել է, որ այն հաշվի կառնի տվյալ կայքը, որի վրա աշխատում եք ու կառաջարկի համապատասխան տարբերակներ:

Gemini-ն նաեւ ներգրավված է Google-ի տվյալների շտեմարաններում, ամպային անվտանգության գործիքներում եւ հավելվածների մշակման հարթակներում, ներառյալ՝ Firebase-ը եւ Project IDX-ը: Այն նաեւ օգտագործվում է Google Photos-ում՝ բնական լեզվի միջոցով որոնման համար, YouTube-ում՝ վիդեո գաղափարներ առաջարկելու համար, եւ NotebookLM-ում՝ որպես նշումներ վարելու օգնական:

Google-ի ծրագրավորման գործիքների՝ Code Assist-ի (նախկինում՝ Duet AI for Developers) հիմքում այժմ գտնվում է Gemini-ն, որը օգնում է կոդի լրացման եւ գեներացման հարցերում: Նույնը վերաբերում է նաեւ Google-ի անվտանգության Gemini in Threat Intelligence գործիքին, որն ունակ է վերլուծել կասկածելի կոդի մեծ հատվածներ եւ տրամադրել բնական լեզվով որոնման հնարավորություններ՝ սպառնալիքների կամ վտանգների դեպքում:

Gemini Extensions եւ Gems

2024 թվականի Google I/O միջոցառման ժամանակ հայտարարվեց, որ Gemini Advanced օգտատերերը կարող են ստեղծել Gems՝ անհատականացված չատբոտեր, որոնք կառավարվում են Gemini-ի մոդելներով: Օրինակ՝ կարող եք ստեղծել չատբոտ, որը կլինի Ձեր վազքի մարզիչը եւ կտրամադրի օրական վազքի պլաններ:

Gems-ը 150 երկրում հասանելի է բազմաթիվ լեզուներով աշխատասեղանին եւ բջջային սարքերում: Google-ը նախատեսում է, որ ապագայում դրանք կհամակցվեն Google Calendar-ի, Tasks-ի, Keep-ի եւ YouTube Music-ի հետ՝ օգտատերերին ավելի հարմարեցված առաջադրանքներ տրամադրելու համար:

Gemini հավելվածները ինտեգրվում են նաեւ Google ծառայությունների հետ՝ օգտագործելով այն, ինչ Google-ը կոչում է «Gemini extensions»: Ներկայում Gemini-ն համակցված է Google Drive-ի, Gmail-ի եւ YouTube-ի հետ՝ հնարավորություն տալով պատասխանել, օրինակ, «Կարո՞ղ եք ամփոփել իմ վերջին երեք նամակները» հարցին: Ինտեգրում կլինի նաեւ Google Calendar-ի, Keep-ի, Tasks-ի, YouTube Music-ի եւ Android-ի որոշ գործառույթների հետ:

Gemini Live՝ ձայնային զրույցներ

Gemini Live-ը թույլ է տալիս օգտատերերին «խորացված» ձայնային զրույցներ վարել Gemini-ի հետ: Այն հասանելի է Gemini հավելվածներում բջջային սարքերում եւ Pixel Buds Pro 2 ականջակալներում։

Gemini Live-ի միջոցով կարող եք ընդհատել Gemini-ի խոսքը եւ հստակեցնող հարցեր տալ: Բացի այդ, այն կկարողանա տեսողական ընկալում ունենալ՝ պատասխանելով Ձեր շրջապատի հետ կապված հարցերին, օրինակ՝ նկարների կամ վիդեոների միջոցով:

Live-ը նաեւ նախատեսված է որպես վիրտուալ մարզիչ, որն օգնում է նախապատրաստվել հարցազրույցների, հանրային ելույթների եւ այլ միջոցառումների: Օրինակ՝ այն կարող է խորհուրդ տալ, թե ինչ հմտություններ ընդգծել աշխատանքային հարցազրույցում:

Imagen 3-ով պատկերների գեներացում

Gemini-ի օգտատերերը կարող են ստեղծել պատկերներ Google-ի ներկառուցված Imagen 3 մոդելով:

Google-ը պնդում է, որ Imagen 3-ն ավելի լավ է հասկանում տեքստային հրահանգները, քան իր նախորդը՝ Imagen 2-ը եւ ստեղծում է ավելի «ստեղծագործ եւ դետալային» պատկերներ: 2024-ի փետրվարին Google-ը ժամանակավորապես դադարեցրեց մարդկանց պատկերներ ստեղծելու հնարավորությունը՝ պատմական անճշտությունների պատճառով, սակայն 2024-ի օգոստոսին այն կրկին ներդրվեց որոշ օգտատերերի համար, որոնք բաժանորդագրված են վճարովի Gemini պլաններին:

Gemini-ի առանձնահատկությունները պատանիների համար

2024-ի հունիսին Google-ը ներկայացրեց Gemini-ի հատուկ տարբերակ՝ նախատեսված դպրոցականների համար, որոնք կարող են մուտք գործել իրենց Google Workspace for Education հաշիվներով:

Այս տարբերակը ներառում է լրացուցիչ անվտանգային միջոցառումներ, ինչպես նաեւ «AI գրագիտության ուղեցույց», որն օգնում է պատանիներին պատասխանատու կերպով օգտագործել արհեստական բանականությունը:

Gemini-ն խելացի տանը

Google-ի տարբեր սարքեր արդեն օգտագործում են Gemini-ն՝ ավելի լավ աշխատանք ապահովելու համար: Դրանց թվում են Google TV Streamer-ը, Pixel 9 եւ 9 Pro հեռախոսները, ինչպես նաեւ Nest Learning Thermostat-ը:

Google TV Streamer-ում Gemini-ն առաջարկում է բովանդակության անհատականացված առաջարկներ եւ ամփոփում ֆիլմերի ու սերիալների ակնարկները:
Nest խելացի սարքերում (ներառյալ բարձրախոսները, տեսախցիկները, եւ էկրանները) Google Assistant-ը կստանա նոր հնարավորություններ՝ զրույցներն ավելի բնական դարձնելու համար:

Gemini-ի մոդելների կարողությունները

Քանի որ Gemini-ի մոդելները բազմաձեւ են, դրանք կարող են կատարել բազմաթիվ առաջադրանքներ՝ սկսած խոսքի տառադարձումից մինչեւ իրական ժամանակում պատկերների եւ վիդեոների նկարագրություն:

Gemini Ultra մոդելը, օրինակ, կարող է օգնել ֆիզիկայի տնային հանձնարարությունների կատարման հարցում՝ քայլ առ քայլ բացատրելով խնդրի լուծման ընթացքը:

Gemini Pro 2.0-ը ներկայում Google-ի ամենահզոր մոդելն է կոդավորման եւ բարդ հարցումների համար: Այն կարող է վերլուծել մինչեւ 1.4 միլիոն բառ, 2 ժամ վիդեո կամ 22 ժամ աուդիո տվյալներ:

Gemini Flash 2.0 մոդելը ավելի թեթեւ է, սակայն արագ եւ հզոր՝ նախատեսված բարձր հաճախականությամբ AI առաջադրանքների համար, ինչպիսիք են ամփոփումները, զրույցները եւ տվյալների վերլուծությունը:

Gemini Nano-ն, իր հերթին, բավականին փոքր է, որպեսզի աշխատի անմիջապես որոշակի սմարթֆոնների վրա՝ առանց ամպային հաշվարկների: Այն ապահովում է, օրինակ, Pixel 8 Pro-ում «Summarize in Recorder» հնարավորությունը եւ Gboard-ի «Smart Reply» գործառույթը:

photo © Google


Google-ը շարունակում է ընդլայնել Gemini-ի հնարավորությունները։

Gemini մոդելների արժեքը

Gemini 1.5 Pro, 1.5 Flash, 2.0 Flash եւ 2.0 Flash-Lite մոդելները հասանելի են Google-ի Gemini API-ի միջոցով՝ հավելվածներ եւ ծառայություններ կառուցելու համար: Բոլոր  տարբերակներն անվճար են, սակայն սահմանափակումներ ունեն՝ օգտագործման քանակի վրա եւ չեն ներառում որոշակի հնարավորություններ, օրինակ՝ կոնտեքստի պահպանում (context caching) եւ խմբակային մշակում (batching)։

Gemini մոդելները գործում են pay-as-you-go (վճար՝ ըստ օգտագործման) սկզբունքով։ Ահա հիմնական գնագոյացումը (առանց հավելյալ ծառայությունների, օրինակ՝ կոնտեքստի պահպանում):

Gemini 1.5 Pro

•    $1.25՝ 1 միլիոն մուտքային թոքենի համար (128 հազար թոքեն սահմանաչափով հրամանների դեպքում)։
•    $2.50՝ 1 միլիոն մուտքային թոքենի համար (եթե հրամանը գերազանցում է 128 հազար թոքենը)։
•    $5՝ 1 միլիոն ելքային թոքենի համար (128 հազար թոքեն սահմանաչափով հրամանների դեպքում)։
•    $10՝ 1 միլիոն ելքային թոքենի համար (եթե հրամանը գերազանցում է 128 հազար թոքենը)։

Gemini 1.5 Flash

•    $0.075՝ 1 միլիոն մուտքային թոքենի համար (128 հազար թոքեն սահմանաչափով)։
•    $0.15՝ 1 միլիոն մուտքային թոքենի համար (ավելի քան 128 հազար թոքեն)։
•    $0.30՝ 1 միլիոն ելքային թոքենի համար (128 հազար թոքեն սահմանաչափով)։
•    $0.60՝ 1 միլիոն ելքային թոքենի համար (ավելի քան 128 հազար թոքեն)։

Gemini 2.0 Flash

•    $0.10՝ 1 միլիոն մուտքային թոքենի համար։
•    $0.40՝ 1 միլիոն ելքային թոքենի համար։
•    Աուդիոյի դեպքում՝ $0.70՝ 1 միլիոն մուտքային թոքենի համար։ $0.40՝ 1 միլիոն ելքային թոքենի համար։

Gemini 2.0 Flash-Lite

•    $0.075՝ 1 միլիոն մուտքային թոքենի համար։
•    $0.30՝ 1 միլիոն ելքային թոքենի համար։

Թոքենները տվյալների փոքր հատվածներ են, օրինակ՝ «fan», «tas» եւ «tic»՝ «fantastic» բառի մեջ։ 1 միլիոն թոքենը մոտավորապես համարժեք է 700,000 բառի։

•    Մուտքային թոքենները մոդելին մատակարարվող տվյալներն են,
•    Ելքային թոքենները մոդելի գեներացրած պատասխաններն են։

Gemini 2.0 Pro-ի գնագոյացումը դեռեւս չի հայտարարվել, իսկ Nano-ն դեռ գտնվում է վաղ հասանելիության փուլում։

Ի՞նչ փուլում է Project Astra-ն

Project Astra-ն Google DeepMind-ի նախաձեռնությունն է՝ իրական ժամանակում, բազմամոդալ արհեստական բանականության (AI) հավելվածներ եւ «գործակալներ» ստեղծելու ուղղությամբ։ Դեմո տարբերակներում Google-ը ցույց է տվել, թե ինչպես է AI մոդելը կարողանում միաժամանակ մշակել ուղիղ հեռարձակվող տեսանյութ եւ աուդիո։

Google-ը դեկտեմբերին փորձնական հավելված է թողարկել Project Astra-ի համար՝ սահմանափակ թվով վստահելի օգտատերերի համար, բայց այս պահին լայն հասանելիության պլաններ չկան։

Կորպորացիան ցանկանում է Project Astra-ն տեղադրել խելացի ակնոցների մեջ։ Դեկտեմբերին Google-ը մի քանի վստահելի փորձարկողների տրամադրել է Project Astra-ով եւ ընդլայնված իրականության (AR) հնարավորություններով խելացի ակնոցի նախատիպ։ Սակայն այս պահին չկա վերջնականացված արտադրանք, եւ պարզ չէ, թե երբ այն կարող է պաշտոնապես թողարկվել։

Project Astra-ն դեռեւս նախագիծ է, այլ ոչ թե ամբողջական արտադրանք, սակայն այն ցույց է տալիս, թե Google-ն ինչպիսի ապագա է պատկերացնում իր AI տեխնոլոգիաների համար։

Gemini-ն հասանելի կլինի՞ iPhone-ում

Apple-ը հայտնել է, որ բանակցություններ է վարում Gemini-ն եւ այլ երրորդ կողմի մոդելները Apple Intelligence ծառայության մեջ ներառելու վերաբերյալ։ WWDC 2024-ի հիմնական ելույթից հետո Apple-ի ավագ փոխնախագահ Քրեյգ Ֆեդերիգին հաստատել է, որ ընկերությունը նախատեսում է աշխատել Gemini-ի հետ, բայց հավելյալ մանրամասներ չի հայտնել։