Жаңылыктар - Сактагыч моделди окутууда негизги тоскоолдук болуп калышына жол бербеңиз

Технологиялык компаниялар же GPU үчүн күрөшүп жатышат же аларды сатып алуу жолунда деп айтылып жүрөт.Апрель айында Tesla компаниясынын башкы директору Илон Маск 10 000 GPU сатып алып, компания NVIDIAдан көп сандагы GPU сатып алууну улантарын билдирген.Ишкана тарабында, IT персоналы дагы GPU'лар инвестициянын кайтарымдуулугун жогорулатуу үчүн дайыма колдонулушун камсыз кылуу үчүн катуу аракет кылып жатышат.Бирок, кээ бир компаниялар GPU саны көбөйүп, ал эми GPU бош туруп калуусу оор болуп калат деп табышы мүмкүн.

Тарых бизге жогорку өндүрүмдүүлүктөгү эсептөөлөр (HPC) жөнүндө эч нерсе үйрөткөн болсо, анда бул сактоо жана тармактык эсепке өтө көп көңүл буруунун эсебинен курмандыкка чалынбашы керек.Эгерде сизде дүйнөдөгү эң көп GPU бар болсо да, сактагыч эсептөө бирдиктерине маалыматтарды эффективдүү өткөрө албаса, сиз оптималдуу эффективдүүлүккө жете албайсыз.

Small World Big Data компаниясынын аналитиги Майк Матчетттин айтымында, кичине моделдер эстутумда (RAM) аткарылышы мүмкүн, бул эсептөөлөргө көбүрөөк көңүл бурууга мүмкүндүк берет.Бирок, миллиарддаган түйүндөрү бар ChatGPT сыяктуу чоңураак моделдер кымбат болгондуктан, эстутумда сакталышы мүмкүн эмес.

"Сиз миллиарддаган түйүндөрдү эс тутумга батыра албайсыз, андыктан сактоо дагы маанилүү болуп калат" дейт Матчетт.Тилекке каршы, пландоо процессинде маалыматтарды сактоо көп учурда көңүл сыртында калат.

Жалпысынан алганда, колдонуу учуруна карабастан, моделдик окутуу процессинде төрт жалпы пункт бар:

1. Үлгү окутуу
2. Корутундуну колдонуу
3. Маалыматтарды сактоо
4. Ылдамдатылган эсептөө

Моделдерди түзүүдө жана жайылтууда, көпчүлүк талаптар концепцияны тез далилдөө (POC) же моделди окутууну баштоо үчүн тестирлөө чөйрөсүнө артыкчылык беришет, мында маалыматтарды сактоого өзгөчө көңүл бурулбайт.

Бирок, кыйынчылык окутуу же корутундуларды жайылтуу айларга, атүгүл жылдарга созулушу мүмкүн экендигинде.Көптөгөн компаниялар бул убакыттын ичинде моделдин өлчөмдөрүн тездик менен кеңейтет жана инфраструктура өсүп келе жаткан моделдерди жана маалымат топтомдорун жайгаштыруу үчүн кеңейиши керек.

Google компаниясынын миллиондогон ML окуу жүктөмдөрү боюнча изилдөөсү окуу убактысынын орто эсеп менен 30% киргизүү маалымат түтүгүнө сарпталарын көрсөттү.Өткөн изилдөөлөр окутууну тездетүү үчүн GPUларды оптималдаштырууга багытталганы менен, маалымат түтүкчөлөрүнүн ар кандай бөлүктөрүн оптималдаштырууда дагы эле көптөгөн кыйынчылыктар бар.Сизде олуттуу эсептөө күчү болгондо, натыйжаларды алуу үчүн маалыматтарды эсептөөлөргө канчалык тез киргизе ала турганыңыздын чыныгы кыйынчылыгы болуп калат.

Тактап айтканда, маалыматтарды сактоо жана башкаруудагы кыйынчылыктар маалыматтардын өсүшүн пландаштырууну талап кылат, бул сизге прогресске жараша маалыматтардын баалуулугун үзгүлтүксүз чыгарып турууга мүмкүндүк берет, айрыкча терең үйрөнүү жана нейрон тармактары сыяктуу өнүккөн колдонуу учурларына киришкенде. кубаттуулугу, өндүрүмдүүлүгү жана масштабдуулугу боюнча сактоо.

Өзгөчө:

Масштабдуулук
Машиналарды үйрөнүү чоң көлөмдөгү маалыматтарды иштетүүнү талап кылат жана берилиштердин көлөмү көбөйгөн сайын моделдердин тактыгы да жакшырат.Бул ишканалар күн сайын көбүрөөк маалыматтарды чогултуп, сактоо керек дегенди билдирет.Сактоо масштабы мүмкүн болбогондо, маалыматты көп талап кылган жумуш жүктөрү тоскоолдуктарды жаратып, иштин майнаптуулугун чектеп, GPU бош убактысынын кымбаттыгына алып келет.

ийкемдүүлүк
Бир нече протоколдор үчүн ийкемдүү колдоо (анын ичинде NFS, SMB, HTTP, FTP, HDFS жана S3) чөйрөнүн бир түрү менен чектелбестен, ар кандай системалардын муктаждыктарын канааттандыруу үчүн зарыл.

Кечигип калуу
Киргизүү/чыгаруу күтүү убактысы моделдерди түзүү жана колдонуу үчүн маанилүү, анткени маалыматтар бир нече жолу окулат жана кайра окулат.Киргизүү/чыгаруу күтүү убактысын кыскартуу моделдердин машыгуу убактысын күн же айга кыскарта алат.Моделди тезирээк иштеп чыгуу бизнестин чоң артыкчылыктарына түздөн-түз которулат.

Өткөрүү
Сактоо тутумдарынын өткөрүү жөндөмдүүлүгү моделди натыйжалуу окутуу үчүн абдан маанилүү.Окутуу процесстери чоң көлөмдөгү маалыматтарды камтыйт, адатта саатына терабайт.

Параллель мүмкүндүк алуу
Жогорку өткөрүү жөндөмдүүлүгүнө жетүү үчүн окутуу моделдери иш-аракеттерди бир нече параллелдүү тапшырмаларга бөлөт.Бул көбүнчө машина үйрөнүү алгоритмдери бир эле учурда бир нече процесстерден (бир нече физикалык серверлерде) бир эле файлдарга кире тургандыгын билдирет.Сактоо системасы аткарууну бузбастан, бир убактагы талаптарды аткарышы керек.

Төмөнкү кечигүү, жогорку өткөрүү жөндөмдүүлүгү жана ири масштабдуу параллелдүү киргизүү/чыгаруудагы эң сонун мүмкүнчүлүктөрү менен Dell PowerScale GPU тездетилген эсептөөлөр үчүн идеалдуу сактоочу кошумча болуп саналат.PowerScale көп терабайттык берилиштер топтомун үйрөткөн жана сынаган талдоо моделдери үчүн талап кылынган убакытты эффективдүү кыскартат.PowerScale толук флеш сактагычында өткөрүү жөндөмдүүлүгү 18 эсеге көбөйүп, киргизүү/чыгаруудагы тоскоолдуктарды жок кылат жана структураланбаган маалыматтардын чоң көлөмүнүн маанисин тездетүү жана ачуу үчүн учурдагы Isilon кластерлерине кошууга болот.

Мындан тышкары, PowerScaleдин көп протоколдорго кирүү мүмкүнчүлүктөрү иш жүктөмдөрүн иштетүү үчүн чексиз ийкемдүүлүктү камсыз кылып, маалыматтарды бир протоколдун жардамы менен сактоого жана башка протоколду колдонуу менен кирүүгө мүмкүндүк берет.Тактап айтканда, PowerScale платформасынын күчтүү өзгөчөлүктөрү, ийкемдүүлүгү, масштабдуулугу жана ишкана деңгээлиндеги функционалдуулугу төмөнкү көйгөйлөрдү чечүүгө жардам берет:

- моделдик окуу циклин кыскартуу менен инновацияны 2,7 эсеге чейин тездетүү.

- Киргизүү/чыгаруу тоскоолдуктарын жоюу жана моделди тезирээк окутууну жана валидациялоону, жакшыртылган моделдин тактыгын, маалымат илиминин өндүрүмдүүлүгүн жогорулатууну жана ишкана деңгээлиндеги өзгөчөлүктөрдү, жогорку өндүрүмдүүлүктү, параллелдүүлүктү жана масштабдуулукту пайдалануу аркылуу эсептөө инвестицияларынын максималдуу кирешелүүлүгүн камсыз кылыңыз.Бир кластерде 119 ПБга чейин эффективдүү сактоо сыйымдуулугун колдонуу менен тереңирээк, жогорку дааналыктагы маалымат топтомдору менен моделдин тактыгын жогорулатыңыз.

- Кичинекей жана өз алдынча масштабдуу эсептөө менен сактоону баштоо менен масштабда жайылтууга жетишиңиз, ишенимдүү маалыматты коргоо жана коопсуздук варианттарын сунуштаңыз.

- Тезирээк, аз тобокелдикти жайылтуу үчүн жеринде аналитика жана алдын ала валидацияланган чечимдер менен маалымат илиминин өндүрүмдүүлүгүн жогорулатыңыз.

- NVIDIA DGX тутумдары менен NVIDIA GPU тездетүү жана маалымдама архитектураларын кошкондо, эң мыкты технологиялардын негизинде далилденген конструкцияларды колдонуу.PowerScaleдин жогорку өндүрүмдүүлүгү жана параллелдүүлүгү машинаны үйрөнүүнүн ар бир этабында, маалыматтарды алуудан жана даярдоодон баштап, моделди окутууга жана жыйынтык чыгарууга чейин сактагыч өндүрүмдүүлүгүнүн талаптарына жооп берет.OneFS операциялык тутуму менен бирге бардык түйүндөр бир эле OneFS башкарган кластердин ичинде үзгүлтүксүз иштей алат, ишкана деңгээлиндеги функциялар, мисалы, өндүрүмдүүлүктү башкаруу, маалыматтарды башкаруу, коопсуздук жана маалыматтарды коргоо, бул бизнес үчүн моделди окутууну жана текшерүүнү тезирээк бүтүрүүгө мүмкүндүк берет.

Посттун убактысы: 03-03-2023