photo © Getty Images

DeepSeek. այն ամենը, ինչ պետք է իմանալ չինական AI չատբոտի մասին

Չինական DeepSeek-ի Android հավելվածը զբաղեցրել է առաջին տեղը Google Play Store-ում՝ ընդամենը մի քանի օր անց, երբ ընկերության չատբոտի հավելվածը զբաղեցրել էր առաջին տեղը Apple App Store-ում:

DeepSeek-ի AI մոդելները, որոնք մշակվել են հաշվողական արդյունավետ տեխնիկայի օգտագործմամբ, ստիպել են Ուոլ Սթրիթի վերլուծաբաններին եւ տեխնոլոգներին հարցականի տակ դնել, թե արդյոք ԱՄՆ-ն կարող է պահպանել առաջատար դիրքը AI մրցավազքում եւ արդյոք AI չիպերի պահանջարկը կպահպանվի։ Բայց որտեղի՞ց հայտնվեց DeepSeek-ը, եւ ինչպե՞ս այդքան արագ հասավ միջազգային ճանաչման։

DeepSeek-ի առեւտրային ծագումը

DeepSeek-ը հովանավորում է չինական High-Flyer Capital Management հեջ ֆոնդը, որն օգտագործում է AI-ն իր առեւտրային որոշումները կայացնելու համար։

AI էնտուզիաստ Լիանգ Վենֆենգը հիմնադրել է High-Flyer-ը 2015 թվականին։ Վենֆենգը, ով առեւտրով սկսել է զբաղվել դեռ Չժեցզյան համալսարանում ուսանելու ժամանակ, 2019 թվականին հիմնել է High-Flyer Capital Management-ը որպես հեջ ֆոնդ, որը կենտրոնացած է AI ալգորիթմների մշակման եւ կիրառման վրա։ 2023 թվականին High-Flyer-ը հիմնել է DeepSeek-ը որպես լաբորատորիա, որը նվիրված էր AI գործիքների հետազոտմանը։

Ի սկզբանե, DeepSeek-ը կառուցել է սեփական տվյալների կենտրոնի կլաստերները իր մոդելների ուսուցման համար։ Բայց ինչպես Չինաստանի այլ AI ընկերությունները, այնպես էլ DeepSeek-ը տուժել է ԱՄՆ-ի կողմից սարքավորումների արտահանման արգելքներից։ Վերջին մոդելներից մեկը մշակելու համար ընկերությունն ստիպված է եղել օգտագործել Nvidia H800 չիպերը՝ ավելի թույլ տարբերակը, քան H100-ն է, որը հասանելի է ԱՄՆ ընկերություններին։

TechCrunch-ի փոխանցմամբ՝ DeepSeek-ի տեխնիկական թիմը կազմված է երիտասարդ հետազոտողներից։ Ընկերությունը չինական լավագույն համալսարաններից ագրեսիվորեն հավաքագրում է AI հետազոտությամբ զբաղվող գիտաշխատողների։ DeepSeek-ը նաեւ վարձում է մարդկանց՝ առանց համակարգչային գիտության որեւէ հիմքի, որպեսզի օգնի իր տեխնոլոգիաներին ավելի լավ հասկանալ թեմաների լայն շրջանակներ, գրում է The New York Times-ը:

DeepSeek-ի հզոր մոդելների առանձնահատկությունները

DeepSeek-ը 2023-ի նոյեմբերին ներկայացրել է իր առաջին մոդելների հավաքածուն՝ DeepSeek Coder-ը, DeepSeek LLM-ն ու DeepSeek Chat-ը։ Բայց միայն անցյալ գարնանը, երբ ստարտափը թողարկեց իր հաջորդ սերնդի DeepSeek-V2 մոդելների ընտանիքը, AI ոլորտի խաղացողները սկսեցին ուշադրություն դարձնել ընկերության գործունեությանը։

Ընդհանուր նպատակային տեքստ եւ պատկեր վերլուծող համակարգ DeepSeek-V2-ը լավ արդյունքներ էր ցույց տվել տարբեր AI ստուգատեսներում եւ շատ ավելի էժան էր աշխատեցնել, քան համանման մոդելներն այդ ժամանակ։ Այն ստիպեց DeepSeek-ի ներքին մրցակիցներին, ներառյալ ByteDance-ին եւ Alibaba-ին, կրճատել իրենց որոշ մոդելների օգտագործման գները եւ մյուսները դարձնել լիովին անվճար։

DeepSeek-V3-ը, որը թողարկվեց 2024 թվականի դեկտեմբերին, միայն ավելացրեց DeepSeek-ի հռչակը։

Ըստ DeepSeek-ի ներքին ստուգատեսային թեստավորման, DeepSeek V3-ը գերազանցում է եւ՛ բաց կոդով հասանելի մոդելներին, ինչպիսին է Meta-ի Llama-ն, եւ՛ «փակ» մոդելներին, որոնք հասանելի են միայն API-ի միջոցով, ինչպիսին է OpenAI-ի GPT-4o-ն։

Հավասարապես տպավորիչ է հունվարին թողարկված DeepSeek-ի R1 «դատողության» մոդելը։ Ընկերությունը պնդում է, որ R1-ը նույնքան լավ է աշխատում, որքան OpenAI-ի o1 մոդելը հիմնական ստուգատեսներում։

Լինելով դատողության մոդել՝ R1-ը արդյունավետորեն սեփական փաստերի ստուգում է իրականացնում, ինչն օգնում է խուսափել որոշ թակարդներից, որոնք սովորաբար խանգարում են նման մոդելներին։ Դատողության մոդելները մի փոքր դանդաղ եւ ավելի երկար են աշխատում՝ վայրկյաններից մինչեւ րոպեներ։ Դրական կողմն այն է, որ դրանք սովորաբար ավելի հուսալի են ֆիզիկայի, գիտության եւ մաթեմատիկայի ոլորտներում։

Այնուամենայնիվ, R1-ի, DeepSeek V3-ի եւ DeepSeek-ի այլ մոդելները մշակվում են Չինաստանում եւ ենթակա են Չինաստանի ինտերնետ կարգավորողի ստուգմանը՝ համոզվելու, որ պատասխանները «մարմնավորում են հիմնական սոցիալիստական արժեքները»։

DeepSeek-ի ազդեցությունն AI մրցավազքում

DeepSeek-ի բիզնես մոդելը դեռեւս պարզ չէ։ Ընկերությունը գնագոյացնում է իր պրոդուկտները եւ ծառայությունները շուկայական արժեքից շատ ցածր եւ անվճար։

Ինչպես DeepSeek-ն է ասում, ծայրահեղ արդյունավետ ծախսերը թույլ են տվել պահպանել մրցունակությունը։ Սակայն որոշ փորձագետներ վիճարկում են ընկերության տրամադրած թվերը։

Մշակողները հակված են կիրառել DeepSeek-ի մոդելները, որոնք բաց աղբյուրով չեն եւ հասանելի են առեւտրային օգտագործումը թույլատրող լիցենզիաներով։ Ըստ Hugging Face-ի գլխավոր տնօրեն Կլեմ Դելանգի, որը DeepSeek-ի մոդելները հոսթինգ անող հարթակներից մեկն է, Hugging Face-ի մշակողները ստեղծել են R1-ի ավելի քան 500 «ածանցյալ» մոդել, որոնք միասին հավաքել են 2.5 միլիոն ներբեռնում։

DeepSeek-ի հաջողությունը ավելի մեծ եւ ավելի հաստատված մրցակիցների դեմ նկարագրվել է որպես «AI-ի անկում» եւ «AI պայքարի նոր դարաշրջանի» սկիզբ։ Ընկերության հաջողությունը գոնե մասամբ պատասխանատու էր երկուշաբթի Nvidia-ի բաժնետոմսերի գնի 18%-ով անկման եւ OpenAI-ի գործադիր տնօրեն Սեմ Ալթմանի կողմից հանրային արձագանք առաջացնելու համար:

Այնուամենայնիվ DeepSeek-ի ապագան դեռ պարզ չէ։ Բարելավված մոդելները թողարկված են։ ԱՄՆ կառավարությունը, թվում է, աճող անհանգստություն է ցուցաբերում վնասակար արտաքին ազդեցությունների վերաբերյալ։