#
I statistik och datavetenskap avser begreppet stora data - "stora mängder data" - generiskt en samling informationsdata som är så stor i volym, hastighet och variation att det krävs särskild teknik och analysmetoder för att utvinna värde eller kunskap. I litteraturen förklaras alltså vad stora data är och vad de är till för, med hjälp av termer som kan låta alltför tekniska för den oinvigde. Det är i själva verket en av de mest djupgående och genomgripande utvecklingarna i den digitala världen, som är avsedd att bestå över tid och att i hög grad påverka vårt dagliga liv och företagens produktiva verksamhet.
Detta är ett inflytande som kan kännas varje dag och som praktiskt taget har förändrat många av de grundläggande aktiviteterna i vår tillvaro radikalt. Liksom vår omvärld. Det är därför som vi, särskilt under de senaste tjugo åren, har hört mer och mer om megadata i tryckt press och onlinepress, och ännu mer på sidor som ägnas åt marknadsföring och IT. I den här guiden kommer vi att upptäcka deras värde, vad de används till och var stora data kan komma ifrån.
Gigantiska data: vad de är och vad de används till
Gigantiska data är en trend som inte bara är kraftfull, utan som vi redan har nämnt också avsedd att hålla i sig över tid. Dessutom förbättras den ständigt ur tillämpningssynpunkt. Begreppet används, som ni säkert har förstått, i samband med förmågan att analysera, extrapolera och relatera en mycket stor mängd heterogena uppgifter, strukturerade och ostrukturerade, som är en del av datavetenskapen. Allt tack vare sofistikerade statistiska metoder och databehandlingsmetoder som syftar till att upptäcka kopplingar och korrelationer mellan olika fenomen och därmed förutsäga framtida fenomen.
För att ge några exempel kan stora datamängder ur affärssynpunkt användas för olika ändamål, bland annat för att mäta en organisations eller en affärsprocess prestanda. För att fullt ut förstå vad stora datamängder är kan vi dock tänka på när vi interagerar på sociala nätverk, när vi navigerar på en webbplats eller på de modernaste smarttelefonerna som praktiskt taget alltid är sammankopplade, utan att glömma kreditkorten som används för att handla, tv:n, lagringsutrymmen som behövs för datortillämpningar, smarta stadsinfrastrukturer och sensorer som är monterade på byggnader och offentliga och privata transporter.
I alla dessa fall står vi inför en imponerande mängd genererade data, som är mycket större än för några årtionden sedan. Idag kan stora data analyseras i realtid. Dessutom har människor med tiden blivit källor till data, precis som en inte obetydlig mängd data skapas längs värdekedjan i alla branscher. Teradata uppgav 2011 att "ett system för stora data överskrider/överträffar/överträffar de hård- och mjukvarusystem som vanligen används för att samla in, hantera och bearbeta data inom en rimlig tidsram för en gemenskap/population av användare, även om den är stor".
Ett annat förslag för att karakterisera stora data gavs av McKinsey Global Institute: "Ett system för stora data avser datamängder vars storlek/volym är så stor att den överstiger kapaciteten hos relationella databassystem för att samla in, lagra, hantera och analysera". I själva verket räcker inte enbart definitionen av stora data för att ge en fullständig och optimal bild av ett sådant relevant fenomen. Det innebär faktiskt inte att man begränsar sig till att tala om stora datamängder: processen för insamling och hantering av data har också förändrats, och tekniken som stöder datalivscykeln och utnyttjandet av data har utvecklats.
Den stora revolutionen som vi hänvisar till när vi talar om stora datamängder är därför framför allt förmågan att använda all denna information för att bearbeta, analysera och hitta objektiva bevis i olika frågor. Det handlar om vad som kan göras med alla dessa mängder data, dvs. algoritmer som kan hantera så många variabler på kort tid och dessutom med få tillgängliga datorresurser - kanske bara en enkel bärbar dator för att få tillgång till den plattform som ska analyseras. Big data, för att uttrycka det enklare, förutsätter nya och mer raffinerade möjligheter att länka samman information för att ge en verkligt visuell syn på data, vilket ger förslag på mönster och tolkningsmodeller som hittills varit otänkbara.
Big data definieras alltså i allmänhet av tre V:n. Den första, som är mycket stora data, är volym, dvs. mängden data (strukturerade eller ostrukturerade) som genereras varje sekund från heterogena källor - för att nämna några kan vi tänka på sensorer, loggar, e-post, GPS, sociala medier och traditionella databaser. Vi har också Variety, som avser de olika typer av data som genereras, ackumuleras och används, följt av Velocity - eftersom stora data produceras i realtid. Med tiden infördes ett fjärde V, sanningsenlighet, och sedan ett femte, värde.
De olika användningsområdena för Big Data
Analysen av stora mängder data gör det möjligt att generera ny kunskap som är användbar för att fatta mer välgrundade beslut, inte bara inom affärsområdet. Nu när vi vet vad big data är och vad det används till är det lika viktigt att vara medveten om hur det används inom olika sektorer. Allt detta är möjligt och helt överkomligt tack vare teknik som gör det möjligt att hantera ostrukturerade data och behandla stora datamängder i realtid, men också tack vare spridningen av mer sofistikerade algoritmer och mycket innovativa analysmetoder.
Dessa verktyg kan och bör självständigt extrapolera den information som finns dold i data. I själva verket kan de användas i oändliga mängder, som är synliga varje dag i den moderna världen. Megadata har sin mest användbara och utbredda användning först och främst inom marknadsföringen, där de används i stor utsträckning för att konstruera så kallade rekommendationsmetoder, t.ex. de metoder som används av underhållnings- och e-handelsjättar - Netflix och Amazon, för att nämna några - för att ge inköpsförslag som bygger på en specifik kunds intressen jämfört med miljontals andra kunders intressen. Upptäckten och den efterföljande minskningen av bedrägerier är ett annat exempel på hur stora datamängder kan användas dagligen för att skapa produktivt värde och förbättra alla typer av upplevelser för användarna av en tjänst eller plattform. Ledande kreditkortsföretag som Visa och American Express analyserar, vilket inte är förvånande, miljarder transaktioner varje dag från hela världen för att identifiera ovanliga rörelser och mönster och på så sätt avsevärt minska antalet bedrägerier och deras förekomst i realtid.
Det är också viktigt att använda sig av så kallat förutsägbart underhåll. Denna term avser företag som använder data som samlas in om verksamheten för att analysera prestanda och förutse framtida problem innan de uppstår. Experter har konstaterat att företag som är ledande inom big data kan generera i genomsnitt 12 procent högre vinst än företag som inte utnyttjar värdet av vår tids datastjärnor.
I den offentliga sfären finns det många andra typer av tillämpningar för stora datamängder: Under de senaste åren har polisen använt stora mängder realtidsdata för att förutse var och hur många brott som är mest sannolika att inträffa, mer exakta studier har genomförts av de sammanslutningar som ansvarar för sambandet mellan hälsa och luftkvaliteten i luften vi andas, det finns också möjlighet att genomföra genomisk analys för att förbättra risgrödors motståndskraft mot torka eller till och med skapa modeller för att analysera data från levande varelser inom biologiska vetenskaper och medicinsk forskning, både diagnostisk och farmakologisk.
Självklart är det på alla dessa områden absolut nödvändigt att den legitima användningen av stora datamängder regleras på grund av dess otroliga värde. Olaglig eller alltför påträngande användning av uppgifter kan i mindre allvarliga fall undergräva kundernas förtroende för företagen. I allvarligare fall kan det dock skada medborgarna - som kan vara patienter, väljare och konsumenter - som definieras som den svagaste länken i värdekedjan. För att garantera detta skydd måste de berörda statliga myndigheternas kontroll- och sanktionsverksamhet stärkas och anpassas med hjälp av mer avancerade rättsliga och finansiella verktyg.