Veľké dáta Nastal čas “- GULP

Rozhovor s Sergejom Rysevom, vedúcim vývoja softvéru a správy systému v spoločnosti GULP

GULP združuje nielen odborníkov a spoločnosti, ale zamestnáva aj samotných vývojárov softvéru. Medzi jej úlohy patrí údržba a vývoj technológie, ktorá stojí za zhruba 90 000 profilmi nezávislých pracovníkov, viac ako 200 000 dopytmi po projektoch ročne a každých tisíc pracovných miest a ponúk projektov každý deň. Sergey Rysev, vedúci vývoja softvéru a správy systému v spoločnosti GULP, a jeho tím podporujú interných kolegov v spoločnosti GULP pri hľadaní správnych odborníkov v tomto obrovskom dátovom fonde a ich spájaní so spoločnosťou presne na mieru. Pre našu sériu Big Data sme ho požiadali o posúdenie súčasného stavu vývoja a otázku, čo by mal priniesť špecialista na Big Data.

nastal

GULP: Ako v súčasnosti hodnotíte súčasný vývoj veľkých dát?

Sergey Rysev: Množstvo dát exploduje v najrôznejších oblastiach nášho života: nespočetné množstvo údajov zo senzorov v našich automobiloch, transakcie zákazníkov, informácie o nákupoch pomocou zľavových kariet, presun údajov z našich smartphonov a oveľa viac. Spoločnosť produkuje čoraz viac údajov, takže ich už nemožno vyhodnotiť klasickými metódami, dokonca ani s najlepšou databázou Oracle.

Základné koncepty spracovania veľkých dát sú známe už dlho, ale doteraz jednoducho chýbali technické podmienky na uplatnenie teórie v praxi. Za posledných pár rokov zaznamenali technológie úložiska a výpočtovej techniky obrovský skok a zlacneli, takže sa to musí zmeniť.

Veľké IT spoločnosti ako Google, IBM a Amazon Web Services tu vykonali dôležitú priekopnícku prácu. Stále viac a viac prinášajú na trh voľne dostupné „vedľajšie produkty“ svojho vlastného vývoja, vďaka ktorým sú Big Data čoraz vhodnejšie pre masy. Príkladom sú Amazon Machine Learning, IBM Watson alebo Lex od Amazonu, ktorý poskytuje základné funkcie Alexa pre svoje vlastné aplikácie.

Často uvádzaná veta je: „Dáta sú nový olej.“ A to je presne to, čo sú: údaje sú surovinou pre mnoho aplikácií. Samotná ropa má však stále relatívne malé využitie; musí sa najskôr spracovať, aby sa mohla použiť napríklad ako palivo alebo plast. Napriek tomu: Kto vlastní údaje alebo ropu, má rozhodujúcu výhodu. Robia rýchlejšie a lepšie rozhodnutia v porovnaní s tými, ktorí ich nerobia. Napríklad vie lepšie, čo sa týka zákazníkov a kde možno nájsť potenciálnych zákazníkov.

GULP: Aký je rozdiel medzi veľkým dátovým projektom a normálnym IT projektom?

Sergey Rysev: Najmä keď sú projekty veľkých dát pripravené od nuly, majú výskumnejší charakter, pretože zatiaľ neexistuje toľko overených metód a prístupov. Viete ešte menej ako v tradičných projektoch, čo môžete čakať a aký bude konečný výsledok.

Bodom, ktorý by sa nemal zanedbávať, je téma: Od koho údaje pochádzajú, kto ich má na starosti a ako je možné ich riadiť a odovzdávať členom projektového tímu s príslušnými prístupovými právami? Kľúčom tu nie je len vytvorenie technicky vhodných rozhraní, ale aj získanie každého na palube.

GULP: Čo majú odborníci na veľké dáta so sebou?

Sergey Rysev: Veľa skúseností a intuície. Musia byť schopní posúdiť, či z dostupných údajov môžu čerpať cenné alebo relevantné informácie. Alebo, ak to tak nie je, ako „geológ“ pri hľadaní ropy - v odbornom žargóne: „sprostredkovateľ údajov“. Vedia, kde sú zaujímavé údaje, interne aj externe, napríklad na Federálnom štatistickom úrade, Eurostate atď. A vedia, ktoré údaje sú relevantné. Odborníci na veľké dáta tiež potrebujú určitého ducha výskumu so všetkými súvisiacimi vlastnosťami: zvedavosť, ochota učiť sa, húževnatosť a vytrvalosť.

A z čisto technického hľadiska: TECHNOLÓGIA big data neexistuje, pretože existuje veľa rôznych prístupov k realizácii projektov big data. Obzvlášť dôležité sú jazyky ako Python a R, ako aj databázové systémy noSQL okolo Hadoop, ako sú Cassandra, HBase alebo MongoDB. Záujemcovia o veľké dáta by sa tiež mali zaoberať nástrojmi pre dotazy SQL na klastroch Hadoop, napríklad Hive, Impala alebo Phoenix. (Poznámka redakcie: Zručnosti pre veľké dáta sa budeme zaoberať v samostatnom článku.)