Andmete kaevandamise töö hõlmab veebi indekseerimist, kasutades selliseid vahendeid nagu Nutch ja muu asjakohane tarkvara.
Töö hõlmab ka palju veebikraapimist, kasutades pythoni ja muid sellega seotud tööriistu, hoolitsedes erinevate olukordade eest - veebisaidil kasutatakse skripte nagu javascripts või ajax.
Selle töö hulka kuulub ka suurte andmete analüüs, kasutades näiteks selliseid vahendeid nagu Hadoop.
Me kasutame MongoDB andmebaasi enamiku meie andmete salvestamise eesmärgil. Seetõttu on nõue, et andmekaevanduse arendajal on head teadmised MongoDB eraldiseisva kasutamise ja teiste programmidega integreerimise kohta.
Lisaks teistele MongoDB-le hõlmab see töö ka teisi suurandmete andmebaase, mis on probleemide lahendamiseks vajalikud.
Andmete kaevandamise töö hõlmab ka kolmanda osapoole API dokumentatsiooni lugemist ja seejärel ettevõtte omandis oleva programmi funktsionaalsuse integreerimist.
Töö hõlmab ka statistilistel mõistetel põhinevat kirjutamise kodeerimist, nii et andmete kaevandamise arendajal peaks statistikat hästi tundma.
Veel üks nõue, et iga kandidaat taotleb seda tööd, on teadmised versioonikontrolli tarkvarast nagu Git ja sellega seotud teemad, kuna neid kasutatakse laialdaselt.
Ubuntu Linuxi versiooni kasutatakse meie ettevõttes kogu tarkvaraarenduse jaoks. Seetõttu eeldatakse, et kasutate seda väga hästi.
Te ei pea teadma kõiki ülalmainitud teemasid. Aga teil oleks pidanud olema vähemalt python-kooder mõnda aega, et veenduda, et olete tõesti kirglik andmete hankimise arendajana.
Kui ülaltoodud meie kaevandustööde avamise kirjeldus huvitab teid, siis palun taotle seda allpool.