DANSK

Big Data week in review: Integrerede funktioner regel

200

I denne uge var fuld af Store Data, nyheder, herunder nye udgivelser, et helt nyt produkt, en ny erhvervelse og en opdatering til en af de store Hadoop-distributioner. Lad os få en undersøgelse af hvad der blev annonceret, og så se om vi ikke kan drage en konklusion eller to.

En stor drivkraft for mange af de nyheder er i denne uge ‘ s Amazon Web Services re:Opfinde konference, der giver en mulighed for Amazon at afsløre nye ting, og for partnere, der udstiller på den vis til at gøre det samme. Nogle af de nyheder fandt sted uden for den re:Opfinde kredsløb, men lad os starte der alligevel.

Læs også: Amazon Web Services opfylder hybrid verden

Athena
Måske Amazon ‘ s største data-relaterede meddelelse, var den Generelle Tilgængelighed af Amazon Athena, giver mig hvad jeg vil kalde “SQL-på-S3-as-a-Service”, som jeg tror ville producere acronym SS3aaS. Mens min nomenklatur kan være lidt kostbare, det er også temmelig selvforklarende. Med Athena du kan, på en temmelig ad hoc-basis, forespørgsel fladskærms-fil, som du måske har liggende rundt i en S3 bucket, ved hjælp af standard-SQL.

Læs også: Disse analytiske og AI-tjenester fra AWS vil være store hits. Her er hvorfor

Athena viser sig at være baseret på Presto, en open source SQL-motor, der kan søge mange forskellige data, som butikkerne. De ting om Athena er, at det er serverless…i virkeligheden, det er clusterless. Så for at køre en Athena forespørgsel, du ikke spin op en Elastisk MapReduce (EMR) klynge, eller endda en EC2 virtuel maskine, men i stedet leder til management console på https://console.aws.amazon.com/athena at oprette et “bord” ved at pege på en fil i S3, angive dens format (CSV, TSV, brugerdefineret afgrænset, JSON, og kolonneformat formater, Parket og ORC) og dens skema, for derefter at forespørge væk.

Jeg fik Athena, der arbejder i omkring to minutter at læse en sekvens fil fra den (ganske vist simpelt) output fra Ordoptælling Hadoop prøve, som jeg kørte for længe siden på en gammel EMR klynge.

Lav friktion, for det meste
Mens det er irriterende, at jeg er nødt til at angive formatet og skema (for mange filer, der let kan påvises, og Athena kunne have givet et standard-skema, der for mig at acceptere eller redigere), var det stadig super-nemt at bruge, med en ellers gnidningsfri start.

At evnen til at forespørge data, du allerede har, med næsten ingen opsætning eller omtanke, er essensen af Amazon ‘ s positionering for Athena. Ideen her er, at mens du kan allerede finde tilsvarende kapaciteter i kan lide af EMR eller Rødforskydning, de tjenester, der kræver mindst en planlægning samt opsætning og opstart.

Læs også: Amazon annoncerer “Rødforskydning” cloud data warehouse, med Jaspersoft støtte

Måske er der ramte en nerve, noget, med Bob Muglia, den administrerende DIREKTØR for Snowflake Design, som har et data warehouse som en service tilbyder som også sker for at køre på Amazons cloud. Muglia, mens at se den positive side af Athena som validering for databehandling i skyen, var måske en smule forsigtig med at slå til lyd for en fuld data warehouse, snarere end bare en tilfældig forespørge værktøj, siger: “Selv da antallet af databehandling muligheder i cloud formere sig, behovet for en ægte data warehouse er vokset eksponentielt.” Som et værktøj til at forespørge det er dog god, og meddelte Amazon, at både sin egen QuickSight BI tilbud, samt Tableau, er kompatible.

Læs også: Cloud-data warehouse race varmer op
Læs også: Snefnug introducerer multi-klynge af data warehouse

Amazon havde andre meddelelser for, ligesom det faktum, at Aurora, sin MySQL-kompatibel lykkedes relationel database service, er nu PostgreSQL-kompatible så godt. Det er også annonceret tre nye AI-tjenester: Lex, for naturligt sprog; Polly, for indlæg og samtaler via tale eller tekst, og Rekognition, for ansigtet, objekt og scene anerkendelse.

Læs også: Amazon vs Oracle database krig
Læs også: Amazon bringer sin AI ekspertise til AWS kunder

Skjult Skat
Treasure Data, som havde en stand på re:Opfinde, brugte begivenheden til at annoncere sin nye Skat Workflow facilitet. De arbejdsgange, der er i dette produkt håndtere data rørledninger, herunder have-sort-ekstrakter såvel som et væld af API-baseret overførsel af data fra programmer. Ikke kun kan Skat trække Data data fra de store SaaS-applikationer, men andre, med hvem Treasure Data har indgået et samarbejde, kan proaktivt at skubbe data i produktet.

Denne teknik også arbejder med Web og mobile apps, der er udviklet af Treasure Data er kunderne selv, med injektion af simpel kode, som “telefoner hjem” og aktier, der er relevante data. Dette giver Skat oplysningerne en Application Performance Management (APM) spin.

Ikke alle nyheder opholdt sig i Vegas
Ud over den verden af Amazon, MapR annonceret udgivelsen af en ny “Økosystem Pack,” tilføjer understøttelse i MapR Vandløb, for Kafka REST API og Kafka Forbinde kompatibilitet; tilsætning af Spark 2.0.1 og Bor 1.9; og Installer Strofer, som gør det muligt API-drevet installation af MapR klynger på stedet eller i skyen.

En Birst af nye funktioner
Cloud BI-udbyder Birst annonceret sin nye Birst 6 udgivelse. Denne udgivelse følger en vigtig tendens på markedet: integration af data forberedelse funktionalitet inde i en core-BI-produkt. Der henvises til som “Tilsluttet Data Prep,” Birst tilbyder en self-service-tilgang, der opdeler arbejdet i tre trin, som virksomheden har kaldt “Forbindelse,” “Prep”, og “hænger sammen”, og som omfatter machine learning-assisteret transformation og slutter.

Læs også: Birst-ing i det almene: Machine Learning opfylder Semantik i en netværksforbundet verden

Og machine learning stopper ikke der; i virkeligheden Birst har tilføjet “Machine Learning Automation” til det produkt, der indeholder præskriptive analytics, og hvad Birst kalder “One-click forudsigelse” kapaciteter. Birst har også tilføjet forskellige performance forbedringer inden for rammerne af, hvad selskabet kalder “Cloud-Skala Arkitektur.”

Og mere konsolidering
Sidst, men på ingen måde mindst, den Store Data verden varslede en ny erhvervelse. Big Data ETL-orienteret Syncsort ‘ (som selv var blevet opkøbt af private equity-selskab Clearlake Capital i oktober sidste år) har bebudet sin erhvervelse af kvaliteten af data specialist Trillium Software.

Læs også: 14 Big Data opkøb, og hvorfor de skete

Lige som BI-leverandør Birst har integreret data prep ind i sit produkt, ville det være her, at vi har en sælger, der er specialiseret i industriel styrke ETL og data prep bevæger sig for at integrere data kvalitet kapaciteter i sin egen suite af produkter. Det er klart, siloed funktionalitet er på retur, og integrerede kapaciteter er på fremmarch.

Alle sammen nu
I virkeligheden, hvis du tager et kig på Amazon ‘ s meddelelser, du vil se tilslutning til, at samme tendens: af, effektivt, herunder SQL-forespørgsler kapaciteter i sin S3 cloud storage, og tilføje Postgres kompatibilitet til Aurora, Amazon forsøger at holde dig beskæftiget ved ikke at gøre dig gå et nyt sted for den kapacitet, du søger.

Hvorfor gå til spin op en EMR klynge, brand op, Hive og skrive din egen CREATE TABLE kommandoen, når du bare kunne skifte til Athena management console, og klik derefter pege, klikke og forespørgsel? Hvorfor gå til en særskilt tjeneste til at få en selvforvaltende Postgres eksempel op at køre (eller gør det selv på en EC2 virtual machine), når Aurora (som også kan integreres med S3) har fået du dækket, og på en SaaS grundlag.

Dette er, hvordan data bliver magtfulde. Når stien til at forespørge det og analysere det er kort, og kan blive gennemløbes på indfald. Brugerne får mere “indsigt”, når de stille flere spørgsmål. Og når det virker hæmmende i forhold til at stille de spørgsmål, der smelter væk, flere spørgsmål bliver stillet. Det er virkelig så simpelt.