Date mare - Big data

Creșterea și digitalizarea capacității globale de stocare a informațiilor

Big data este un domeniu care tratează modalități de a analiza, extrage în mod sistematic informații din, sau de a trata în alt mod seturi de date care sunt prea mari sau complexe pentru a putea fi tratate de software-ul tradițional de aplicații de procesare a datelor . Datele cu multe câmpuri (coloane) oferă o putere statistică mai mare , în timp ce datele cu complexitate mai mare (mai multe atribute sau coloane) pot duce la o rată de descoperire falsă mai mare . Provocările legate de analiza datelor mari includ captarea datelor , stocarea datelor , analiza datelor , căutarea, partajarea , transferul , vizualizarea , interogarea , actualizarea, confidențialitatea informațiilor și sursa de date. Big data a fost inițial asociată cu trei concepte cheie: volum , varietate și viteză . Analiza datelor mari prezintă provocări în eșantionare, permițând astfel doar observații și eșantionare. Prin urmare, big data include adesea date cu dimensiuni care depășesc capacitatea software-ului tradițional de a procesa într-un timp și o valoare acceptabile .

Utilizarea actuală a termenului de big data tinde să se refere la utilizarea analizei predictive , a comportamentului utilizatorului sau a altor metode avansate de analiză a datelor care extrag valoare din big data și rareori la o anumită dimensiune a setului de date. "Nu există nicio îndoială că cantitățile de date disponibile acum sunt într-adevăr mari, dar aceasta nu este cea mai relevantă caracteristică a acestui nou ecosistem de date". Analiza seturilor de date poate găsi noi corelații pentru „detectarea tendințelor de afaceri, prevenirea bolilor, combaterea criminalității și așa mai departe”. Oamenii de știință, directorii de afaceri, medicii, publicitatea și guvernele întâmpină în mod regulat dificultăți cu seturi mari de date în domenii, inclusiv căutări pe internet , fintech , analize medicale, sisteme de informații geografice, informatică urbană și informatică de afaceri . Oamenii de știință întâmpină limitări în activitatea e-Science , inclusiv meteorologia , genomica , conectomica , simulările fizice complexe, biologia și cercetarea mediului.

Dimensiunea și numărul seturilor de date disponibile au crescut rapid pe măsură ce datele sunt colectate de dispozitive precum dispozitive mobile , dispozitive ieftine și numeroase de detectare a informațiilor Internet de obiecte , antene ( teledetecție ), jurnale software, camere , microfoane, identificare prin radiofrecvență Cititoare (RFID) și rețele de senzori fără fir . Capacitatea tehnologică mondială pe cap de locuitor de a stoca informații s-a dublat aproximativ la fiecare 40 de luni din anii 1980; începând cu 2012, în fiecare zi sunt generate 2,5 exabytes (2,5 × 2 60 bytes) de date. Pe baza unei previziuni a raportului IDC , volumul global de date a fost prevăzut să crească exponențial de la 4,4 zettabytes la 44 zettabytes între 2013 și 2020. Până în 2025, IDC prezice că vor exista 163 zettabytes de date. O întrebare pentru întreprinderile mari este determinarea cine ar trebui să dețină inițiative de date mari care afectează întreaga organizație.

Sistemele de gestionare a bazelor de date relaționale și pachetele software statistice desktop utilizate pentru vizualizarea datelor au deseori dificultăți în procesarea și analizarea datelor mari. Procesarea și analiza datelor mari pot necesita „programe software paralele masive care rulează pe zeci, sute sau chiar mii de servere”. Ceea ce se califică drept „big data” variază în funcție de capacitățile celor care îl analizează și de instrumentele lor. În plus, capacitățile extinse fac din Big Data o țintă în mișcare. "Pentru unele organizații, confruntarea cu sute de gigaocteți de date pentru prima dată poate declanșa necesitatea reconsiderării opțiunilor de gestionare a datelor. Pentru altele, ar putea dura zeci sau sute de terabyți înainte ca dimensiunea datelor să devină o considerație semnificativă."

Definiție

Termenul big data a fost utilizat încă din anii 1990, unii acordându-i meritul lui John Mashey pentru popularizarea termenului. Big data include, de obicei, seturi de date cu dimensiuni dincolo de capacitatea instrumentelor software utilizate în mod obișnuit pentru a capta , curata , gestiona și prelucra datele într-un timp scurs tolerabil. Filozofia Big Data cuprinde date nestructurate, semi-structurate și structurate, totuși accentul principal se pune pe datele nestructurate. „Dimensiunea” datelor mari este o țintă în mișcare constantă; începând din 2012 variind de la câteva zeci de terabyte la multe zettabytes de date. Big data necesită un set de tehnici și tehnologii cu noi forme de integrare pentru a dezvălui informații din seturi de date care sunt diverse, complexe și la scară masivă.

„Varietatea”, „veridicitatea” și alte „V-uri” sunt adăugate de unele organizații pentru a o descrie, o revizuire contestată de unele autorități din industrie. Vs-urile Big Data au fost adesea denumite „trei V-uri”, „patru V-uri” și „cinci V-uri”. Au reprezentat calitățile datelor mari în volum, varietate, viteză, veridicitate și valoare. Variabilitatea este adesea inclusă ca o calitate suplimentară a datelor mari.

Într-o definiție din 2018 se spune „Big data este locul în care sunt necesare instrumente de calcul paralel pentru a gestiona datele” și notează: „Aceasta reprezintă o schimbare distinctă și clar definită în informatica utilizată, prin teorii de programare paralelă și pierderi ale unora dintre garanții și capabilitățile realizate de modelul relațional al lui Codd . "

Într-un studiu comparativ al seturilor de date mari, Kitchin și McArdle au constatat că niciuna dintre caracteristicile considerate în mod obișnuit ale datelor mari nu apare în mod constant în toate cazurile analizate. Din acest motiv, alte studii au identificat redefinirea dinamicii puterii în descoperirea cunoștințelor ca trăsătură definitorie. În loc să se concentreze asupra caracteristicilor intrinseci ale datelor mari, această perspectivă alternativă împinge înainte o înțelegere relațională a obiectului, susținând că ceea ce contează este modul în care datele sunt colectate, stocate, puse la dispoziție și analizate.

Big data vs. business intelligence

Maturitatea crescândă a conceptului definește mai clar diferența dintre „big data” și „ business intelligence ”:

  • Business intelligence folosește instrumente matematice aplicate și statistici descriptive cu date cu densitate mare de informații pentru a măsura lucrurile, a detecta tendințele etc.
  • Big data folosește analize matematice, optimizare, statistici inductive și concepte din identificarea sistemului neliniar pentru a deduce legi (regresii, relații neliniare și efecte cauzale) din seturi mari de date cu densitate scăzută a informațiilor pentru a dezvălui relații și dependențe sau pentru a efectua predicții ale rezultate și comportamente.

Caracteristici

Afișează creșterea caracteristicilor principale ale volumului, vitezei și varietății datelor mari

Datele mari pot fi descrise prin următoarele caracteristici:

Volum
Cantitatea de date generate și stocate. Mărimea datelor determină valoarea și perspectivele potențiale și dacă acestea pot fi considerate big data sau nu. Dimensiunea datelor mari este de obicei mai mare decât terabyte și petabytes.
varietate
Tipul și natura datelor. Tehnologiile anterioare, cum ar fi RDBMS, erau capabile să gestioneze datele structurate în mod eficient și eficient. Cu toate acestea, schimbarea tipului și naturii de la structurat la semi-structurat sau nestructurat a provocat instrumentele și tehnologiile existente. Tehnologiile de date mari au evoluat cu intenția primordială de a captura, stoca și prelucra datele semi-structurate și nestructurate (varietate) generate cu viteză mare (viteză) și dimensiuni imense (volum). Ulterior, aceste instrumente și tehnologii au fost explorate și utilizate și pentru manipularea datelor structurate, dar de preferat pentru stocare. În cele din urmă, prelucrarea datelor structurate a fost încă păstrată ca opțională, fie folosind date mari, fie RDBMS tradiționale. Acest lucru ajută la analizarea datelor către o utilizare eficientă a informațiilor ascunse expuse din datele colectate prin intermediul rețelelor de socializare, fișiere jurnal, senzori, etc. Datele mari extrag din text, imagini, audio, video; plus că completează piesele lipsă prin fuziunea datelor .
Viteză
Viteza la care datele sunt generate și procesate pentru a răspunde cerințelor și provocărilor care stau pe calea creșterii și dezvoltării. Big data este adesea disponibilă în timp real. Comparativ cu datele mici , datele mari sunt produse mai continuu. Două tipuri de viteză legate de big data sunt frecvența de generare și frecvența de manipulare, înregistrare și publicare.
Veridicitatea
Veridicitatea sau fiabilitatea datelor, care se referă la calitatea datelor și la valoarea datelor. Big data nu trebuie să aibă dimensiuni mari, ci trebuie să fie și fiabile pentru a obține valoare în analiza acestora. Calitatea datelor captate poate varia foarte mult, afectând o analiză precisă.
Valoare
Valoarea informațiilor care pot fi obținute prin prelucrarea și analiza seturilor de date mari. De asemenea, valoarea poate fi măsurată printr-o evaluare a celorlalte calități ale datelor mari. Valoarea poate reprezenta, de asemenea, profitabilitatea informațiilor care sunt preluate din analiza datelor mari.
Variabilitate
Caracteristica schimbării formatelor, structurii sau surselor de date mari. Big data poate include date structurate, nestructurate sau combinații de date structurate și nestructurate. Analiza datelor mari poate integra date brute din mai multe surse. Prelucrarea datelor brute poate implica, de asemenea, transformări ale datelor nestructurate în date structurate.

Alte caracteristici posibile ale datelor mari sunt:

Exhaustiv
Dacă întregul sistem (adică = toate) este capturat sau înregistrat sau nu. Big data poate include sau nu toate datele disponibile din surse.
Cu granulație fină și lexical unic
Respectiv, proporția de date specifice din fiecare element pe element colectat și dacă elementul și caracteristicile acestuia sunt indexate sau identificate în mod corespunzător.
Relațional
Dacă datele colectate conțin câmpuri comune care ar permite o conexiune sau meta-analiză a diferitelor seturi de date.
Extensional
Dacă câmpurile noi din fiecare element al datelor colectate pot fi adăugate sau modificate cu ușurință.
Scalabilitate
Dacă dimensiunea sistemului de stocare a datelor mari se poate extinde rapid.

Arhitectură

Depozite de date mari au existat în multe forme, adesea construite de corporații cu o nevoie specială. În anii 1990, vânzătorii comerciali au oferit sisteme paralele de gestionare a bazelor de date pentru big data. De mulți ani, WinterCorp a publicat cel mai mare raport de baze de date.

Teradata Corporation a comercializat în 1984 sistemul de procesare paralelă DBC 1012 . Sistemele Teradata au fost primele care au stocat și analizat 1 terabyte de date în 1992. Unitățile de hard disk au fost de 2,5 GB în 1991, astfel încât definiția datelor mari evoluează continuu conform legii lui Kryder . Teradata a instalat primul sistem bazat pe RDBMS din clasa petabyte în 2007. Începând din 2017, există câteva zeci de baze de date relaționale Teradata din clasa petabyte instalate, dintre care cea mai mare depășește 50 PB. Până în 2008, sistemele erau date relaționale 100% structurate. De atunci, Teradata a adăugat tipuri de date nestructurate, inclusiv XML , JSON și Avro.

În 2000, Seisint Inc. (acum LexisNexis Risk Solutions ) a dezvoltat o platformă distribuită bazată pe C ++ pentru procesarea și interogarea datelor, cunoscută sub numele de platforma HPCC Systems . Acest sistem partiționează, distribuie, stochează și furnizează automat date structurate, semi-structurate și nestructurate pe mai multe servere de marfă. Utilizatorii pot scrie conducte și interogări de procesare a datelor într-un limbaj de programare declarativ al fluxului de date numit ECL. Analiștii de date care lucrează în ECL nu sunt obligați să definească schemele de date în avans și se pot concentra mai degrabă pe problema particulară, remodelând datele în cel mai bun mod posibil pe măsură ce dezvoltă soluția. În 2004, LexisNexis a achiziționat Seisint Inc. și platforma lor de procesare paralelă de mare viteză și a folosit cu succes această platformă pentru a integra sistemele de date ale Choicepoint Inc. când au achiziționat acea companie în 2008. În 2011, platforma sistemelor HPCC a fost deschisă sub licența Apache v2.0.

CERN și alte experimente de fizică au colectat seturi de date mari timp de mai multe decenii, de obicei analizate prin calcule de mare viteză, mai degrabă decât prin arhitecturi de reducere a hărții, de obicei înțelese de mișcarea actuală de „date mari”.

În 2004, Google a publicat o lucrare despre un proces numit MapReduce care utilizează o arhitectură similară. Conceptul MapReduce oferă un model de procesare paralel, iar o implementare asociată a fost lansată pentru a procesa cantități uriașe de date. Cu MapReduce, interogările sunt împărțite și distribuite pe noduri paralele și procesate în paralel (pasul „hartă”). Rezultatele sunt apoi colectate și livrate (pasul „reduce”). Cadrul a fost foarte reușit, așa că alții au dorit să reproducă algoritmul. Prin urmare, o implementare a cadrului MapReduce a fost adoptată de un proiect open source Apache numit „ Hadoop ”. Apache Spark a fost dezvoltat în 2012 ca răspuns la limitările din paradigma MapReduce, deoarece adaugă capacitatea de a seta multe operații (nu doar harta urmată de reducere).

MIKE2.0 este o abordare deschisă a gestionării informațiilor care recunoaște necesitatea revizuirilor din cauza implicațiilor de date mari identificate într-un articol intitulat „Ofertă de soluții de date mari”. Metodologia abordează tratarea datelor mari în termeni de permutări utile ale surselor de date, complexitate în relații și dificultăți în ștergerea (sau modificarea) înregistrărilor individuale.

Studiile din 2012 au arătat că o arhitectură cu mai multe straturi a fost o opțiune pentru a aborda problemele pe care le prezintă datele mari. O arhitectură paralelă distribuită distribuie date pe mai multe servere; aceste medii de execuție paralele pot îmbunătăți dramatic viteza de procesare a datelor. Acest tip de arhitectură introduce date într-un SGBD paralel, care implementează utilizarea cadrelor MapReduce și Hadoop. Acest tip de cadru urmărește să facă puterea de procesare transparentă pentru utilizatorul final utilizând un server de aplicații front-end.

Lacul de date permite o organizație să se concentreze trecerea de la control centralizat la un model partajat pentru a răspunde la dinamica schimbare de management al informației. Acest lucru permite segregarea rapidă a datelor în lacul de date, reducând astfel timpul suplimentar.

Tehnologii

Un raport al Institutului Global McKinsey din 2011 caracterizează principalele componente și ecosistemul Big Data după cum urmează:

Datele mari multidimensionale pot fi, de asemenea, reprezentate ca cuburi de date OLAP sau, matematic, ca tensori . Sistemele de baze de date matriciale și- au propus să ofere suport de stocare și interogare la nivel înalt pentru acest tip de date. Tehnologiile suplimentare aplicate big data includ calcule eficiente bazate pe tensori, cum ar fi învățarea sub- spațială multiliniară , baze de date cu procesare masivă paralelă ( MPP ), aplicații bazate pe căutare , exploatarea datelor , sisteme de fișiere distribuite, cache distribuită (de exemplu, buffer de rafală și Memcached ), baze de date distribuite , infrastructură bazată pe cloud și HPC (aplicații, resurse de stocare și calcul) și Internet. Deși au fost dezvoltate multe abordări și tehnologii, rămâne dificil să se efectueze învățarea automată cu date mari.

Unele baze de date relaționale MPP au capacitatea de a stoca și gestiona petabytes de date. Implicit este capacitatea de a încărca, monitoriza, face copii de rezervă și optimiza utilizarea tabelelor mari de date din RDBMS .

DARPA e topologică Analiza datelor programului urmărește structura fundamentală a seturilor de date masive și în 2008 , tehnologia a mers publice cu lansarea unei companii numite «Ayasdi».

Practicanții proceselor de analiză a datelor mari sunt, în general, ostili față de stocarea partajată mai lentă, preferând stocarea directă ( DAS ) în diferitele sale forme, de la unitatea SSD ( SSD ) la discul SATA de mare capacitate îngropat în nodurile de procesare paralele. Percepția arhitecturilor de stocare partajată - rețea de stocare (SAN) și stocare atașată la rețea (NAS) - este că acestea sunt relativ lente, complexe și costisitoare. Aceste calități nu sunt în concordanță cu sistemele de analiză a datelor mari, care se dezvoltă în funcție de performanța sistemului, infrastructura produselor și costurile reduse.

Furnizarea de informații în timp real sau aproape în timp real este una dintre caracteristicile definitorii ale analizei de date mari. Prin urmare, latența este evitată ori de câte ori și ori de câte ori este posibil. Datele din memoria sau discul atașat direct sunt bune - datele din memorie sau disc la celălalt capăt al unei conexiuni FC SAN nu sunt. Costul unui SAN la scara necesară pentru aplicațiile de analiză este mult mai mare decât alte tehnici de stocare.

Aplicații

Autobuz împachetat cu date mari SAP parcate în afara IDF13 .

Big data a crescut cererea specialiștilor în gestionarea informațiilor, atât de mult încât Software AG , Oracle Corporation , IBM , Microsoft , SAP , EMC , HP și Dell au cheltuit peste 15 miliarde de dolari pentru firme de software specializate în gestionarea și analiza datelor. În 2010, această industrie valora mai mult de 100 de miliarde de dolari și creștea cu aproape 10% pe an: cam de două ori mai rapid decât afacerea cu software în ansamblu.

Economiile dezvoltate utilizează din ce în ce mai multe tehnologii care utilizează date. În întreaga lume există 4,6 miliarde de abonamente la telefoane mobile și între 1 miliard și 2 miliarde de persoane accesează internetul. Între 1990 și 2005, peste 1 miliard de oameni din întreaga lume au intrat în clasa de mijloc, ceea ce înseamnă că mai mulți oameni au devenit mai alfabetizați, ceea ce a dus la creșterea informației. Capacitatea efectivă a lumii de a face schimb de informații prin rețelele de telecomunicații a fost de 281 petabytes în 1986, 471 petabytes în 1993, 2,2 exabytes în 2000, 65 exabytes în 2007 și previziunile au pus cantitatea de trafic pe internet la 667 exabytes anual până în 2014. Conform unei estimări, o treime din informațiile stocate la nivel global sunt sub formă de date alfanumerice de text și imagini statice, care este formatul cel mai util pentru majoritatea aplicațiilor de date mari. Aceasta arată, de asemenea, potențialul datelor încă neutilizate (adică sub formă de conținut video și audio).

În timp ce mulți furnizori oferă produse de marcă pentru big data, experții promovează dezvoltarea de sisteme personalizate personalizate, dacă compania are suficiente capacități tehnice.

Guvern

Utilizarea și adoptarea datelor mari în cadrul proceselor guvernamentale permite eficiență în termeni de cost, productivitate și inovație, dar nu vine fără defectele sale. Analiza datelor necesită adesea mai multe părți ale guvernului (central și local) pentru a lucra în colaborare și a crea procese noi și inovatoare pentru a obține rezultatul dorit. O organizație guvernamentală comună care folosește big data este Administrația Națională de Securitate ( NSA ), care monitorizează în mod constant activitățile de pe Internet, în căutarea unor potențiale tipare de activități suspecte sau ilegale pe care sistemul lor le poate prelua.

Înregistrarea civilă și statisticile vitale (CRVS) colectează toate certificatele de stare de la naștere până la deces. CRVS este o sursă de date mari pentru guverne.

Dezvoltare internațională

Cercetările privind utilizarea eficientă a tehnologiilor informaționale și de comunicare pentru dezvoltare (cunoscută și sub denumirea de „ICT4D”) sugerează că tehnologia big data poate aduce contribuții importante, dar poate prezenta și provocări unice dezvoltării internaționale . Progresele în analiza datelor mari oferă oportunități eficiente din punct de vedere al costurilor pentru a îmbunătăți luarea deciziilor în domenii critice de dezvoltare, cum ar fi asistența medicală, ocuparea forței de muncă, productivitatea economică , criminalitatea, securitatea și gestionarea dezastrelor naturale și a resurselor. În plus, datele generate de utilizatori oferă noi oportunități de a da voce celor nemaiauziți. Cu toate acestea, provocările de lungă durată pentru regiunile în curs de dezvoltare, precum infrastructura tehnologică inadecvată și lipsa resurselor economice și umane, agravează preocupările existente cu date mari, cum ar fi confidențialitatea, metodologia imperfectă și problemele de interoperabilitate. Provocarea „datelor mari pentru dezvoltare” evoluează în prezent către aplicarea acestor date prin învățarea automată, cunoscută sub numele de „inteligență artificială pentru dezvoltare (AI4D).

Beneficii

O aplicație practică majoră a datelor mari pentru dezvoltare a fost „combaterea sărăciei cu date”. În 2015, Blumenstock și colegii săi au estimat sărăcia și bogăția prezise din metadatele telefoanelor mobile, iar în 2016 Jean și colegii au combinat imagini prin satelit și învățare automată pentru a prezice sărăcia. Folosind datele de urmărire digitală pentru a studia piața muncii și economia digitală din America Latină, Hilbert și colegii săi susțin că datele de urmărire digitală au mai multe beneficii, cum ar fi:

  • Acoperire tematică: inclusiv zone care anterior erau dificil sau imposibil de măsurat
  • Acoperire geografică: sursele noastre internaționale au furnizat date considerabile și comparabile pentru aproape toate țările, inclusiv multe țări mici, care de obicei nu sunt incluse în inventarele internaționale
  • Nivel de detaliu: furnizarea de date cu granulație fină cu multe variabile corelate și aspecte noi, cum ar fi conexiunile de rețea
  • Actualitatea și intervalele de timp: graficele pot fi produse în câteva zile de la colectare

Provocări

În același timp, lucrul cu date de urmărire digitale în loc de date de sondaj tradiționale nu elimină provocările tradiționale implicate atunci când se lucrează în domeniul analizei cantitative internaționale. Prioritățile se schimbă, dar discuțiile de bază rămân aceleași. Printre principalele provocări se numără:

  • Reprezentativitate. În timp ce statisticile tradiționale de dezvoltare se referă în principal la reprezentativitatea eșantioanelor de sondaj aleatorii, datele de urmărire digitală nu sunt niciodată un eșantion aleatoriu.
  • Generalizabilitate. În timp ce datele observaționale reprezintă întotdeauna foarte bine această sursă, ele reprezintă doar ceea ce reprezintă și nimic mai mult. Deși este tentant să generalizăm de la observații specifice ale unei platforme la setări mai largi, acest lucru este adesea foarte înșelător.
  • Armonizare. Datele digitale de urmărire necesită în continuare armonizarea internațională a indicatorilor. Se adaugă provocarea așa-numitei „fuziuni de date”, armonizarea diferitelor surse.
  • Suprasolicitare date. Analiștii și instituțiile nu sunt folosiți pentru a face față eficient unui număr mare de variabile, ceea ce se realizează eficient cu tablourile de bord interactive. Practicienilor le lipsește încă un flux de lucru standard care să le permită cercetătorilor, utilizatorilor și factorilor de decizie să efectueze în mod eficient și eficient.

Sănătate

Analiza Big Data a fost utilizată în asistența medicală prin furnizarea de medicamente personalizate și analize prescriptive, intervenții clinice asupra riscului și analize predictive, reducerea variației deșeurilor și îngrijirii, raportare automată externă și internă a datelor pacienților, termeni medicali standardizați și registre de pacienți. Unele domenii de îmbunătățire sunt mai aspiraționale decât implementate efectiv. Nivelul de date generate în cadrul sistemelor de sănătate nu este banal. Odată cu adoptarea suplimentară a mHealth, eHealth și tehnologii portabile, volumul de date va continua să crească. Aceasta include date electronice de evidență medicală , date de imagistică, date generate de pacient, date de senzori și alte forme de date dificil de procesat. Acum este o nevoie și mai mare ca astfel de medii să acorde o atenție mai mare calității datelor și informațiilor. „Big data înseamnă foarte des„ date murdare ”, iar fracțiunea de inexactități a datelor crește odată cu creșterea volumului de date.” Inspecția umană la scară mare a datelor este imposibilă și există o nevoie disperată în serviciile de sănătate de instrumente inteligente pentru controlul exactității și credibilității și tratarea informațiilor ratate. În timp ce informațiile extinse în domeniul asistenței medicale sunt acum electronice, acestea se încadrează sub umbrela de date mari, deoarece majoritatea sunt nestructurate și dificil de utilizat. Utilizarea datelor mari în domeniul sănătății a ridicat provocări etice semnificative, de la riscuri pentru drepturile individuale, confidențialitate și autonomie , până la transparență și încredere.

Big data în cercetarea sănătății este deosebit de promițătoare în ceea ce privește cercetarea biomedicală exploratorie, deoarece analiza bazată pe date poate avansa mai repede decât cercetarea bazată pe ipoteze. Apoi, tendințele văzute în analiza datelor pot fi testate în cercetarea biologică tradițională, urmărită de ipoteze, și în cele din urmă clinică.

O sub-zonă de aplicații conexe, care se bazează puternic pe big data, în domeniul asistenței medicale este cea a diagnosticului asistat de computer în medicină. De exemplu, pentru monitorizarea epilepsiei este obișnuit să creați zilnic 5-10 GB de date. În mod similar, o singură imagine necomprimată a tomosintezei mamare are în medie 450 MB de date. Acestea sunt doar câteva dintre numeroasele exemple în care diagnosticul asistat de computer utilizează date mari. Din acest motiv, datele mari au fost recunoscute drept una dintre cele șapte provocări cheie pe care trebuie să le depășească sistemele de diagnostic asistate de computer pentru a atinge următorul nivel de performanță.

Educaţie

Un studiu al Institutului Global McKinsey a constatat o lipsă de 1,5 milioane de profesioniști și manageri de date cu înaltă pregătire și o serie de universități, inclusiv Universitatea din Tennessee și UC Berkeley , au creat programe de masterat pentru a satisface această cerere. Tabere private de boot au dezvoltat, de asemenea, programe care să satisfacă această cerere, inclusiv programe gratuite precum Incubatorul de date sau programe cu plată precum Adunarea Generală . În domeniul specific al marketingului, una dintre problemele subliniate de Wedel și Kannan este că marketingul are mai multe subdomenii (de exemplu, publicitate, promoții, dezvoltare de produse, branding) care utilizează toate tipuri diferite de date.

Mass-media

Pentru a înțelege modul în care mass-media folosește big data, este mai întâi necesar să furnizați un anumit context în mecanismul utilizat pentru procesul media. Nick Couldry și Joseph Turow au sugerat că practicienii din mass-media și publicitate abordează big data cu cât mai multe puncte de informații care pot fi acționate despre milioane de persoane. Industria pare să se îndepărteze de abordarea tradițională a utilizării unor medii media specifice, precum ziare, reviste sau emisiuni de televiziune și, în schimb, accesează consumatorii cu tehnologii care ajung la persoane vizate în momente optime în locații optime. Scopul final este de a difuza sau transmite un mesaj sau un conținut care este (statistic vorbind) în conformitate cu mentalitatea consumatorului. De exemplu, mediile de publicare adaptează din ce în ce mai mult mesajele (reclamele) și conținutul (articolele) pentru a atrage consumatorii care au fost colectați exclusiv prin diferite activități de extragere a datelor .

  • Direcționarea către consumatori (pentru publicitate de către comercianți)
  • Captarea datelor
  • Jurnalism de date : editorii și jurnaliștii folosesc instrumente de date mari pentru a oferi informații și infografii unice și inovatoare .

Channel 4 , radiodifuzorul de televiziune de serviciu public britanic , este un lider în domeniul Big Data și analiza datelor .

Asigurare

Furnizorii de asigurări de sănătate colectează date despre „factorii determinanți ai sănătății” sociale, cum ar fi consumul de alimente și televizoare , starea civilă, mărimea îmbrăcămintei și obiceiurile de cumpărare, din care fac previziuni privind costurile de sănătate, pentru a identifica problemele de sănătate ale clienților lor. Este controversat dacă aceste predicții sunt utilizate în prezent pentru stabilirea prețurilor.

Internetul obiectelor (IoT)

Big data și IoT funcționează împreună. Datele extrase de pe dispozitivele IoT oferă o cartografiere a inter-conectivității dispozitivelor. Astfel de mapări au fost utilizate de industria media, de companii și de guverne pentru a-și viza mai precis publicul și pentru a spori eficiența mass-media. IoT este, de asemenea, adoptat din ce în ce mai mult ca mijloc de colectare a datelor senzoriale, iar aceste date senzoriale au fost utilizate în contexte medicale, de fabricație și de transport.

Kevin Ashton , expertul în inovare digitală care este creditat cu inventarea termenului, definește Internetul lucrurilor în acest citat: „Dacă am avea computere care știau tot ce trebuie să știe despre lucruri - folosind datele pe care le-au adunat fără niciun ajutor de la noi - noi ar fi capabil să urmărească și să numere totul și să reducă foarte mult deșeurile, pierderile și costurile. Am ști când lucrurile trebuie înlocuite, reparate sau reamintite și dacă au fost proaspete sau au trecut de cele mai bune. "

Tehnologia de informație

Mai ales din 2015, big data a devenit importantă în cadrul operațiunilor comerciale ca instrument pentru a ajuta angajații să lucreze mai eficient și să eficientizeze colectarea și distribuția tehnologiei informației (IT). Utilizarea datelor mari pentru rezolvarea problemelor informatice și de colectare a datelor într-o întreprindere se numește analiza operațiunilor IT (ITOA). Prin aplicarea principiilor big data în conceptele de inteligență a mașinilor și de calcul profund, departamentele IT pot prezice potențiale probleme și le pot preveni. Companiile ITOA oferă platforme pentru gestionarea sistemelor care reunesc silozurile de date și generează informații din întregul sistem, mai degrabă decât din buzunarele izolate de date.

Studii de caz

Guvern

China

  • Platforma integrată de operațiuni comune (IJOP, 一体化 联合 作战 平台) este utilizată de guvern pentru a monitoriza populația, în special uigurii . Biometria , inclusiv probele de ADN, sunt colectate printr-un program de materiale fizice gratuite.
  • Până în 2020, China intenționează să ofere tuturor cetățenilor săi un scor personal de „credit social” pe baza comportamentului lor. Sistemul de credit social , care este acum pilotat în mai multe orașe chinezești, este considerat o formă de supraveghere în masă care utilizează tehnologia de analiză a datelor mari.

India

  • Analiza datelor mari a fost încercată pentru ca BJP să câștige alegerile generale indiene din 2014.
  • Guvernul indian folosește numeroase tehnici pentru a stabili modul în care electoratul indian răspunde la acțiunile guvernamentale, precum și idei pentru sporirea politicilor.

Israel

  • Tratamentele personalizate pentru diabetici pot fi create prin intermediul soluției Big Data GlucoMe.

Regatul Unit

Exemple de utilizări ale datelor mari în serviciile publice:

  • Date privind medicamentele eliberate pe bază de rețetă: conectând originea, localizarea și ora fiecărei rețete, o unitate de cercetare a reușit să exemplifice întârzierea considerabilă dintre eliberarea oricărui medicament dat și o adaptare la nivelul Marii Britanii a Institutului Național pentru Excelență în Sănătate și Îngrijire instrucțiuni. Acest lucru sugerează că medicamentele noi sau cele mai actualizate necesită ceva timp pentru a trece la pacientul general.
  • Îmbinarea datelor: o autoritate locală a combinat date despre servicii, cum ar fi rotații cu șlefuire rutieră, cu servicii pentru persoanele expuse riscului, cum ar fi Mese pe roți . Conectarea datelor a permis autorității locale să evite orice întârziere legată de vreme.

Statele Unite

  • În 2012, administrația Obama a anunțat Inițiativa de cercetare și dezvoltare Big Data, pentru a explora modul în care Big Data ar putea fi utilizată pentru a aborda problemele importante cu care se confruntă guvernul. Inițiativa este compusă din 84 de programe big data diferite, răspândite în șase departamente.
  • Analiza datelor mari a jucat un rol important în campania de succes a alegerilor din 2012 a lui Barack Obama .
  • Guvernul federal al Statelor Unite detine cinci dintre cele mai puternice zece supercalculatoare din lume.
  • Data Center Utah a fost construit de Statele Unite ale Americii Agenția de Securitate Națională . La finalizare, instalația va putea gestiona o cantitate mare de informații colectate de ANS pe internet. Cantitatea exactă de spațiu de stocare este necunoscută, dar surse mai recente susțin că va fi de ordinul câtorva exabytes . Acest lucru a ridicat probleme de securitate cu privire la anonimatul datelor colectate.

Cu amănuntul

  • Walmart gestionează peste 1 milion de tranzacții ale clienților în fiecare oră, care sunt importate în baze de date estimate să conțină mai mult de 2,5 petabytes (2560 terabytes) de date - echivalentul a 167 de ori mai mare decât informațiile conținute în toate cărțile din Biblioteca Congresului SUA .
  • Windermere Real Estate folosește informații despre locație de la aproape 100 de milioane de șoferi pentru a ajuta noii cumpărători de case să își determine timpul de conducere tipic de la și de la locul de muncă în diferite momente ale zilei.
  • Sistemul de detectare a cardurilor FICO protejează conturile din întreaga lume.

Ştiinţă

  • De Large Hadron Collider experimente reprezintă aproximativ 150 de milioane de senzori de livrare de date de 40 de milioane de ori pe secundă. Există aproape 600 de milioane de coliziuni pe secundă. După filtrare și abținerea de la înregistrarea a mai mult de 99,99995% din aceste fluxuri, există 1.000 de coliziuni de interese pe secundă.
    • Ca rezultat, lucrând doar cu mai puțin de 0,001% din datele fluxului senzorilor, fluxul de date din toate cele patru experimente LHC reprezintă o rată anuală de 25 de petabiți înainte de replicare (începând cu 2012). Acest lucru devine aproape 200 de petabytes după replicare.
    • Dacă toate datele senzorului ar fi înregistrate în LHC, fluxul de date ar fi extrem de greu de lucrat. Fluxul de date ar depăși rata anuală de 150 de milioane de petabytes, sau aproape 500 de exabytes pe zi, înainte de replicare. Pentru a pune numărul în perspectivă, acest lucru este echivalent cu 500 de quintilioane (5 × 10 20 ) de octeți pe zi, de aproape 200 de ori mai mult decât toate celelalte surse combinate din lume.
  • Piața Kilometre Array este un telescop radio construit de mii de antene. Se așteaptă să fie operațional până în 2024. În mod colectiv, aceste antene ar trebui să adune 14 exabytes și să stocheze un petabyte pe zi. Este considerat unul dintre cele mai ambițioase proiecte științifice întreprinse vreodată.
  • Când Sloan Digital Sky Survey (SDSS) a început să colecteze date astronomice în 2000, a acumulat mai mult în primele sale săptămâni decât toate datele colectate în istoria astronomiei anterior. Continuând cu o rată de aproximativ 200 GB pe noapte, SDSS a acumulat peste 140 de terabyți de informații. Când Large Synoptic Survey Telescope , succesorul SDSS, intră online în 2020, designerii săi se așteaptă să achiziționeze acea cantitate de date la fiecare cinci zile.
  • Decodarea genomului uman a durat inițial 10 ani pentru procesare; acum se poate realiza în mai puțin de o zi. Secvențierii ADN au împărțit costul secvențierii la 10.000 în ultimii zece ani, ceea ce este de 100 de ori mai ieftin decât reducerea costului prevăzută de legea lui Moore .
  • NASA Centrul de Simulare climatice (CNMF) stochează 32 petabytes de observații climatice și simulări pe cluster -ul de procesare rapida Discover.
  • DNAStack de la Google compilează și organizează probe de ADN de date genetice din întreaga lume pentru a identifica boli și alte defecte medicale. Aceste calcule rapide și exacte elimină orice „puncte de frecare” sau erori umane care ar putea fi făcute de unul dintre numeroșii experți în știință și biologie care lucrează cu ADN-ul. DNAStack, o parte din Google Genomics, le permite oamenilor de știință să folosească un eșantion vast de resurse de pe serverul de căutare Google pentru a scala experimentele sociale care ar dura de obicei ani, instantaneu.
  • 23andMe e baza de date cu ADN - ul conține informația genetică a peste 1.000.000 de oameni din întreaga lume. Compania explorează vânzarea „datelor genetice agregate anonime” către alți cercetători și companii farmaceutice în scopuri de cercetare, dacă pacienții își dau consimțământul. Ahmad Hariri, profesor de psihologie și neuroștiințe la Universitatea Duke, care folosește 23andMe în cercetările sale din 2009, afirmă că cel mai important aspect al noului serviciu al companiei este acela că face cercetarea genetică accesibilă și relativ ieftină pentru oamenii de știință. Un studiu care a identificat 15 site-uri de genom legate de depresie în baza de date 23andMe a condus la o creștere a cererilor de acces la depozit, 23andMe prezentând aproape 20 de cereri de acces la datele privind depresia în cele două săptămâni de la publicarea lucrării.
  • Dinamica computațională a fluidelor ( CFD ) și cercetarea turbulenței hidrodinamice generează seturi de date masive. Baza de date Johns Hopkins Turbulence ( JHTDB ) conține peste 350 de terabyți de câmpuri spațio-temporale din simulări numerice directe ale diferitelor fluxuri turbulente. Astfel de date au fost dificil de partajat folosind metode tradiționale, cum ar fi descărcarea fișierelor de ieșire de simulare plană. Datele din cadrul JHTDB pot fi accesate folosind „senzori virtuali” cu diverse moduri de acces, de la interogări directe de browser web, acces prin programe Matlab, Python, Fortran și C care se execută pe platformele clienților, pentru a decupa serviciile de descărcare a datelor brute. Datele au fost utilizate în peste 150 de publicații științifice.

Sport

Datele mari pot fi utilizate pentru a îmbunătăți antrenamentul și înțelegerea concurenților, utilizând senzori sportivi. De asemenea, este posibil să se prezică câștigătorii într-un meci folosind analiza big data. Performanța viitoare a jucătorilor ar putea fi prezisă, de asemenea. Astfel, valoarea și salariul jucătorilor sunt determinate de datele colectate pe tot parcursul sezonului.

În cursele de Formula 1, mașinile de curse cu sute de senzori generează terabyți de date. Acești senzori colectează puncte de date de la presiunea anvelopelor până la eficiența consumului de combustibil. Pe baza datelor, inginerii și analiștii de date decid dacă trebuie făcute ajustări pentru a câștiga o cursă. În plus, folosind big data, echipele de curse încearcă să prezică timpul în care vor termina cursa în prealabil, pe baza simulărilor folosind datele colectate pe parcursul sezonului.

Tehnologie

  • eBay.com folosește două depozite de date la 7,5 petabytes și 40PB, precum și un cluster Hadoop de 40PB pentru căutare, recomandări ale consumatorilor și merchandising.
  • Amazon.com gestionează în fiecare zi milioane de operațiuni back-end, precum și întrebări de la mai mult de jumătate de milion de vânzători terți. Tehnologia de bază care menține Amazonul în funcțiune se bazează pe Linux și începând din 2005 aveau cele mai mari trei baze de date Linux din lume, cu capacități de 7,8 TB, 18,5 TB și 24,7 TB.
  • Facebook gestionează 50 de miliarde de fotografii de la baza sa de utilizatori. În iunie 2017, Facebook a ajuns la 2 miliarde de utilizatori activi lunar .
  • Google a gestionat aproximativ 100 de miliarde de căutări pe lună din august 2012.

COVID-19

În timpul pandemiei COVID-19 , datele mari au fost ridicate ca o modalitate de a minimiza impactul bolii. Aplicațiile semnificative ale datelor mari au inclus minimizarea răspândirii virusului, identificarea cazurilor și dezvoltarea tratamentului medical.

Guvernele au folosit date mari pentru a urmări persoanele infectate pentru a minimiza răspândirea. Printre primii adoptatori au fost China, Taiwan, Coreea de Sud și Israel.

Activități de cercetare

Căutarea criptată și formarea clusterelor în date mari au fost demonstrate în martie 2014 la Societatea Americană de Inginerie Educațională. Gautam Siwach s-a implicat în abordarea provocărilor Big Data de către Laboratorul MIT de Informatică și Inteligență Artificială și Amir Esmailpour de la Grupul de Cercetare UNH au investigat caracteristicile cheie ale datelor mari, precum formarea clusterelor și interconectările acestora. S-au concentrat pe securitatea datelor mari și orientarea termenului către prezența diferitelor tipuri de date într-o formă criptată la interfața cloud, oferind definiții brute și exemple în timp real în cadrul tehnologiei. Mai mult, au propus o abordare pentru identificarea tehnicii de codificare pentru a avansa către o căutare rapidă peste text criptat care să ducă la îmbunătățirea securității în big data.

În martie 2012, Casa Albă a anunțat o „Inițiativă Big Data” națională, care consta din șase departamente și agenții federale care angajează peste 200 de milioane de dolari pentru proiecte de cercetare a datelor mari.

Inițiativa a inclus o subvenție „Expeditions in Computing” a Fundației Naționale a Științei în valoare de 10 milioane de dolari pe parcursul a cinci ani către AMPLab de la Universitatea din California, Berkeley. AMPLab a primit, de asemenea, fonduri de la DARPA și peste o duzină de sponsori industriali și folosește date mari pentru a ataca o gamă largă de probleme, de la prezicerea congestiei traficului până la combaterea cancerului.

Inițiativa Big Data de la Casa Albă a inclus, de asemenea, un angajament al Departamentului Energiei de a furniza finanțare de 25 de milioane de dolari pe parcursul a cinci ani pentru a înființa Institutul de gestionare, analiză și vizualizare a datelor scalabile (SDAV), condus de Laboratorul Național Lawrence Berkeley al Departamentului Energiei . Institutul SDAV își propune să reunească expertiza a șase laboratoare naționale și șapte universități pentru a dezvolta noi instrumente pentru a ajuta oamenii de știință să gestioneze și să vizualizeze datele de pe supercomputerele departamentului.

Statul american Massachusetts a anunțat Inițiativa Big Data din Massachusetts în mai 2012, care oferă finanțare din partea guvernului de stat și a companiilor private unei varietăți de instituții de cercetare. Massachusetts Institute of Technology găzduiește Știință și Tehnologie Intel pentru Big Data în MIT Computer Science and Artificial Intelligence Laboratory , combinand eforturile guvernului, și finanțarea instituțională corporativă și de cercetare.

Comisia Europeană finanțează forumul public privat privat Big Data, care durează doi ani, prin intermediul celui de-al șaptelea program cadru, pentru a implica companii, cadre universitare și alte părți interesate în discutarea problemelor legate de big data. Proiectul își propune să definească o strategie în termeni de cercetare și inovare pentru a ghida acțiunile de sprijin din partea Comisiei Europene în implementarea cu succes a economiei de date mari. Rezultatele acestui proiect vor fi utilizate ca input pentru Orizont 2020 , următorul lor program-cadru .

Guvernul britanic a anunțat în martie 2014 fondarea Institutului Alan Turing , numit după pionierul computerului și întrerupătorul de cod, care se va concentra pe noi modalități de colectare și analiză a unor seturi mari de date.

La Universitatea din Waterloo Stratford Campus , Ziua de inspirație a datelor deschise canadiene (CODE), participanții au demonstrat cum utilizarea vizualizării datelor poate crește înțelegerea și atracția seturilor de date mari și comunică povestea lor lumii.

Științe sociale computaționale  - Oricine poate folosi interfețe de programare a aplicațiilor (API-uri) furnizate de deținătorii de date mari, precum Google și Twitter, pentru a face cercetări în științele sociale și comportamentale. Adesea aceste API-uri sunt furnizate gratuit. Tobias Preis și colab. a folosit datele Google Trends pentru a demonstra că utilizatorii de internet din țări cu un produs intern brut (PIB) pe cap de locuitor sunt mai predispuși să caute informații despre viitor decât informații despre trecut. Rezultatele sugerează că poate exista o legătură între comportamentele online și indicatorii economici din lumea reală. Autorii studiului au examinat jurnalele de interogări Google făcute în funcție de raportul dintre volumul căutărilor din anul următor (2011) și volumul căutărilor din anul precedent (2009), pe care îl numesc „ indicele orientării viitoare ”. Ei au comparat indicele de orientare viitor cu PIB-ul pe cap de locuitor al fiecărei țări și au găsit o tendință puternică pentru țările în care utilizatorii Google solicită mai multe informații despre viitor să aibă un PIB mai mare.

Tobias Preis și colegii săi Helen Susannah Moat și H. Eugene Stanley au introdus o metodă de identificare a precursorilor online pentru mișcările de pe piața bursieră, folosind strategii de tranzacționare bazate pe datele privind volumul de căutare furnizate de Google Trends. Analiza lor a volumului de căutare Google pentru 98 de termeni cu relevanță financiară variabilă, publicată în Scientific Reports , sugerează că creșterea volumului de căutare pentru termenii de căutare relevanți din punct de vedere financiar tind să preceadă pierderi mari pe piețele financiare.

Seturile de date mari vin cu provocări algoritmice care anterior nu existau. Prin urmare, unii văd că este nevoie să se schimbe fundamental modalitățile de procesare.

Atelierele de lucru despre algoritmi pentru seturi de date masive moderne (MMDS) reunesc informaticieni, statistici, matematicieni și practicieni în analiza datelor pentru a discuta provocările algoritmice ale datelor mari. În ceea ce privește datele mari, astfel de concepte de mărime sunt relative. După cum se afirmă „Dacă trecutul este de orice îndrumare, atunci datele mari de astăzi cel mai probabil nu vor fi considerate ca atare în viitorul apropiat”.

Eșantionarea datelor mari

O întrebare de cercetare care se pune despre seturile de date mari este dacă este necesar să se analizeze datele complete pentru a trage anumite concluzii cu privire la proprietățile datelor sau dacă este un eșantion suficient de bun. Numele Big Data în sine conține un termen legat de dimensiune și aceasta este o caracteristică importantă a Big Data. Dar eșantionarea permite selectarea punctelor de date corecte din cadrul setului de date mai mare pentru a estima caracteristicile întregii populații. La fabricarea diferitelor tipuri de date senzoriale, cum ar fi acustica, vibrațiile, presiunea, curentul, tensiunea și datele controlerului sunt disponibile la intervale scurte de timp. Pentru a prezice timpii morțiți, este posibil să nu fie necesar să se analizeze toate datele, dar un eșantion poate fi suficient. Datele mari pot fi defalcate pe diferite categorii de puncte de date, cum ar fi date demografice, psihografice, comportamentale și tranzacționale. Cu seturi mari de puncte de date, specialiștii în marketing pot crea și utiliza segmente de consumatori mai personalizate pentru direcționare mai strategică.

S-au făcut unele lucrări în eșantionarea algoritmilor pentru big data. A fost elaborată o formulare teoretică pentru eșantionarea datelor Twitter.

Critică

Criticile paradigmei big data vin în două variante: cele care pun sub semnul întrebării implicațiile abordării în sine și cele care pun la îndoială modul în care se face în prezent. O abordare a acestei critici este domeniul studiilor de date critice .

Critici ale paradigmei big data

„O problemă crucială este că nu știm prea multe despre microprocesele empirice care stau la baza apariției caracteristicilor tipice ale rețelei Big Data.” În critica lor, Snijders, Matzat și Reips subliniază că adesea se fac presupuneri foarte puternice cu privire la proprietățile matematice care poate să nu reflecte deloc ceea ce se întâmplă cu adevărat la nivelul microproceselor. Mark Graham a formulat critici ample la afirmația lui Chris Anderson conform căreia big data va reprezenta sfârșitul teoriei: concentrându-se în special pe noțiunea că big data trebuie întotdeauna contextualizată în contextele lor sociale, economice și politice. Chiar dacă companiile investesc sume de opt și nouă cifre pentru a obține informații din fluxul de informații de la furnizori și clienți, mai puțin de 40% dintre angajați au procese și abilități suficient de mature pentru a face acest lucru. Pentru a depăși acest deficit de perspectivă, datele mari, oricât de cuprinzătoare sau de bine analizate, trebuie să fie completate de o „mare judecată”, potrivit unui articol din Harvard Business Review .

În aceeași linie, s-a subliniat că deciziile bazate pe analiza datelor mari sunt inevitabil „informate de lume așa cum a fost în trecut sau, în cel mai bun caz, așa cum este în prezent”. Alimentați de un număr mare de date despre experiențele anterioare, algoritmii pot prezice dezvoltarea viitoare dacă viitorul este similar cu trecutul. Dacă dinamica sistemului viitorului se schimbă (dacă nu este un proces staționar ), trecutul poate spune puțin despre viitor. Pentru a face predicții în medii în schimbare, ar fi necesar să avem o înțelegere aprofundată a dinamicii sistemelor, care necesită teorie. Ca răspuns la această critică, Alemany Oliver și Vayre sugerează să utilizeze „raționamentul abductiv ca prim pas în procesul de cercetare pentru a aduce contextul urmelor digitale ale consumatorilor și a face să apară noi teorii”. În plus, s-a sugerat combinarea abordărilor de date mari cu simulări pe computer, cum ar fi modele bazate pe agenți și sisteme complexe . Modelele bazate pe agenți devin din ce în ce mai bune în prezicerea rezultatului complexităților sociale ale scenariilor viitoare chiar necunoscute prin simulări pe computer care se bazează pe o colecție de algoritmi reciproc interdependenți. În cele din urmă, utilizarea metodelor multivariate care analizează structura latentă a datelor, cum ar fi analiza factorială și analiza clusterelor , s-au dovedit utile ca abordări analitice care depășesc cu mult abordările bi-variate (file transversale) utilizate de obicei cu date mai mici seturi.

În sănătate și biologie, abordările științifice convenționale se bazează pe experimentare. Pentru aceste abordări, factorul limitativ sunt datele relevante care pot confirma sau infirma ipoteza inițială. Un nou postulat este acceptat acum în bioștiințe: informațiile furnizate de date în volume imense ( omici ) fără ipoteze anterioare sunt complementare și uneori necesare abordărilor convenționale bazate pe experimentare. În abordările masive, formularea unei ipoteze relevante pentru a explica datele este factorul limitativ. Logica de căutare este inversată și trebuie luate în considerare limitele inducerii („Gloria științei și scandalul filosofiei”, CD Broad , 1926).

Avocații confidențialității sunt preocupați de amenințarea la adresa confidențialității reprezentată de creșterea stocării și integrării informațiilor de identificare personală ; grupurile de experți au lansat diverse recomandări de politici pentru a se conforma practicii cu așteptările de confidențialitate. Utilizarea greșită a datelor mari în mai multe cazuri de către mass-media, companii și chiar guvernul a permis abolirea încrederii în aproape fiecare instituție fundamentală care susține societatea.

Nayef Al-Rodhan susține că va fi necesar un nou tip de contract social pentru a proteja libertățile individuale în contextul marilor date și al corporațiilor gigantice care dețin cantități mari de informații și că utilizarea datelor mari ar trebui să fie monitorizată și mai bine reglementată la nivelul la nivel național și internațional. Barocas și Nissenbaum susțin că o modalitate de a proteja utilizatorii individuali este de a fi informați despre tipurile de informații colectate, cu care sunt partajate, în ce constrângeri și în ce scopuri.

Critici ale modelului „V”

Modelul „V” de date mari este îngrijorător, deoarece se concentrează în jurul scalabilității computaționale și lipsește de o pierdere în ceea ce privește perceptibilitatea și înțelegerea informațiilor. Acest lucru a condus la cadrul Big Data cognitiv , care caracterizează aplicațiile Big Data în funcție de:

  • Completitatea datelor: înțelegerea neevidentului din date
  • Corelarea datelor, cauzalitatea și predictibilitatea: cauzalitatea nu este o cerință esențială pentru realizarea predictibilității
  • Explicabilitate și interpretabilitate: oamenii doresc să înțeleagă și să accepte ceea ce înțeleg, acolo unde algoritmii nu fac față acestui lucru
  • Nivelul de luare a deciziilor automatizate: algoritmi care sprijină luarea automată a deciziilor și auto-învățarea algoritmică

Critici de noutate

Seturi mari de date au fost analizate de mașini de calculat de mai bine de un secol, inclusiv analiza recensământului SUA efectuată de mașinile de punch-card ale IBM , care au calculat statistici, inclusiv mijloacele și variațiile populațiilor de pe întregul continent. În deceniile mai recente, experimentele științifice, cum ar fi CERN, au produs date la scări similare cu „big data” comercială actuală. Cu toate acestea, experimentele științifice au avut tendința de a-și analiza datele folosind clustere și grile de calcul specializate de înaltă performanță (supercomputere), personalizate, mai degrabă decât nori de computere ieftine de marfă ca în valul comercial actual, implicând o diferență atât în ​​cultură, cât și în tehnologie. grămadă.

Critici privind executarea datelor mari

Ulf-Dietrich Reips și Uwe Matzat au scris în 2014 că big data a devenit un „moft” în cercetarea științifică. Cercetătorul danah boyd și- a exprimat îngrijorarea cu privire la utilizarea datelor mari în știință, neglijând principiile, cum ar fi alegerea unui eșantion reprezentativ, fiind prea preocupat de gestionarea cantităților uriașe de date. Această abordare poate duce la rezultate care au o părtinire într-un fel sau altul. Integrarea între resurse de date eterogene - unele care ar putea fi considerate big data și altele nu - prezintă provocări logistice și analitice formidabile, dar mulți cercetători susțin că astfel de integrări reprezintă probabil cele mai promițătoare noi frontiere din știință. În articolul provocator „Întrebări critice pentru Big Data”, autorii denumesc big data o parte a mitologiei : „seturile mari de date oferă o formă mai înaltă de inteligență și cunoaștere [...], cu aura adevărului, obiectivității și acurateței. ". Utilizatorii de date mari sunt adesea „pierduți din volumul mare de numere” și „lucrul cu Big Data este încă subiectiv, iar ceea ce cuantifică nu are neapărat o pretenție mai strânsă asupra adevărului obiectiv”. Dezvoltările recente în domeniul BI, cum ar fi raportarea pro-activă vizează în special îmbunătățirile în ceea ce privește gradul de utilizare a datelor mari, prin filtrarea automată a datelor nefolositoare și a corelațiilor . Structurile mari sunt pline de corelații false, fie din cauza coincidențelor non-cauzale ( legea numărului cu adevărat mare ), exclusiv naturii aleatoriei mari ( teoria Ramsey ), fie a existenței unor factori neincluși, deci speranța, a experimentatorilor timpurii de a crea baze de date mari de numere „vorbesc de la sine” și revoluționează metoda științifică, este pusă la îndoială.

Analiza datelor mari este adesea superficială în comparație cu analiza seturilor de date mai mici. În multe proiecte de date mari, nu există nicio analiză mare de date, dar provocarea este extragerea, transformarea, încărcarea unei părți din prelucrarea prealabilă a datelor.

Big data este un cuvânt la modă și un „termen vag”, dar în același timp o „obsesie” față de antreprenori, consultanți, oameni de știință și mass-media. Vitrine de date mari precum Google Flu Trends nu au reușit să furnizeze predicții bune în ultimii ani, supraestimând focarele de gripă cu un factor de doi. În mod similar, premiile Academiei și predicțiile electorale bazate exclusiv pe Twitter au fost mai des oprite decât la țintă. Big data reprezintă adesea aceleași provocări ca și datele mici; adăugarea mai multor date nu rezolvă problemele de părtinire, dar poate sublinia alte probleme. În special sursele de date precum Twitter nu sunt reprezentative pentru populația generală, iar rezultatele obținute din astfel de surse pot duce apoi la concluzii greșite. Google Translate - care se bazează pe analiza statistică a datelor de tip big data - face o treabă bună la traducerea paginilor web. Cu toate acestea, rezultatele din domenii specializate pot fi distorsionate dramatic. Pe de altă parte, datele mari pot introduce, de asemenea, probleme noi, cum ar fi problema comparațiilor multiple : testarea simultană a unui set mare de ipoteze este probabil să producă multe rezultate false care în mod eronat par semnificative. Ioannidis a susținut că „cele mai multe rezultate ale cercetărilor publicate sunt false” din cauza în esență a aceluiași efect: atunci când multe echipe științifice și cercetători efectuează fiecare multe experimente (adică procesează o cantitate mare de date științifice; deși nu cu tehnologia de date mari), probabilitatea unei rezultatul „semnificativ” fiind fals crește rapid - cu atât mai mult, când sunt publicate doar rezultate pozitive. În plus, rezultatele analizei de date mari sunt la fel de bune ca și modelul pe care se bazează. Într-un exemplu, datele mari au participat la încercarea de a prezice rezultatele alegerilor prezidențiale din 2016 din SUA cu diferite grade de succes.

Critici de poliție și supraveghere a datelor mari

Datele mari au fost utilizate în poliție și supraveghere de către instituții precum forțele de ordine și corporațiile . Datorită naturii mai puțin vizibile a supravegherii bazate pe date în comparație cu metodele tradiționale de poliție, sunt mai puțin susceptibile să apară obiecții la poliția big data. Potrivit supravegherii Big Data: caz de poliție a lui Sarah Brayne, poliția big data poate reproduce inegalitățile societale existente în trei moduri:

  • Plasarea criminalilor suspectați sub supraveghere sporită prin utilizarea justificării unui algoritm matematic și, prin urmare, imparțial
  • Creșterea domeniului de aplicare și a numărului de persoane supuse urmăririi aplicării legii și exacerbarea supra-reprezentării rasiale existente în sistemul de justiție penală
  • Încurajarea membrilor societății să abandoneze interacțiunile cu instituțiile care ar crea o urmă digitală, creând astfel obstacole în calea incluziunii sociale

Dacă aceste probleme potențiale nu sunt corectate sau reglementate, efectele poliției big data pot continua să modeleze ierarhiile societale. Utilizarea conștientă a poliției big data ar putea împiedica prejudecățile la nivel individual să devină prejudecăți instituționale, mai notează Brayne.

În cultura populară

Cărți

  • Moneyball este o carte non-ficțiune care explorează modul în care Oakland Athletics a folosit analiza statistică pentru a depăși echipele cu bugete mai mari. În 2011 afost lansatăo adaptare cinematografică cu Brad Pitt .

Film

Vezi si

Referințe

Lecturi suplimentare

linkuri externe

  • Medii legate de Big Data la Wikimedia Commons
  • Definiția dicționarului de date mari la Wikționar