Big Data vecka i review: Integrerade funktioner regel

0
227

Denna vecka var full av Big Data nyheter, bland annat nya versioner, en helt ny produkt, ett nytt förvärv och en uppdatering till en av de stora Hadoop-distributioner. Låt oss få en undersökning av vad som tillkännagavs och sedan se om vi inte kan dra en slutsats eller två.

En stor drivkraft för mycket av nyheterna var denna veckas Amazon Web Services re:Invent konferensen, vilket ger en möjlighet för Amazon att visa nya saker, och för partners som ställer ut på mässan för att göra detsamma. Några av de nyheter som ägde rum utanför re:Invent bana men låt oss börja där i alla fall.

Läs också: Amazon Web Services uppfyller hybrid världen

Athena
Kanske Amazons största data-relaterade tillkännagivandet var den Allmänna Tillgången på Amazon, Athena, som ger vad jag skulle kalla för “SQL-på-S3-as-a-Service” vilket jag antar skulle producera acronym SS3aaS. Medan min nomenklaturen kan vara lite dyrbar, det är också ganska självförklarande. Med Athena kan du på ad hoc-basis, fråga platt fil med data som du kan ha liggande i en S3 bucket, med hjälp av standarden SQL.

Läs också: Dessa analytiska och AI tjänster från AWS kommer att bli stora hits. Här är varför

Athena visar sig vara baserat på Presto, ett open source-SQL-motor som kan användas för många olika uppgifter butiker. Den sak om Athena är, det är serverlösa…i själva verket är det clusterless. Så att köra en Athena fråga, du behöver inte snurra upp en Elastic MapReduce (EMR) kluster, eller ens en EC2 virtuell maskin, men istället gå till management console på https://console.aws.amazon.com/athena ställ upp en “tabell” genom att peka på en fil i S3, med angivande av dess format (CSV, TSV, egna avgränsade, JSON, och pelar-format, Parkett och ORC) och dess schema, då fråga bort.

Jag fick Athena arbeta i ungefär två minuter, läsa en sekvens fil från den (visserligen enkel) utgång från Wordcount Hadoop prov som jag sprang så länge sedan på en gammal EMR-kluster.

amazonathena.png

Snabb och Smutsig: använda Athena för att fråga Wordcount utgång

Kredit: Andrew Brust

Låg friktion, mestadels
Även om det är irriterande att jag måste ange format och schema (för många filer som enkelt kan upptäckas, och Athena kunde ha gett ett standardschema för mig att acceptera eller redigera), det var fortfarande super-enkelt att använda, med en annars friktionsfri start.

Att förmågan att söka data du redan har, med nästan ingen setup eller eftertanke, är kontentan av Amazons positionering för Athena. Tanken här är att du redan nu kan hitta liknande funktioner i liknande av EMR eller Rödförskjutning, dessa tjänster kräver att åtminstone en del planering samt installation och start tid.

Läs också: Amazon lanserar “Rödförskjutning” cloud data warehouse, med stöd Jaspersoft

Kanske som träffat en nerv, något, med Bob Muglia, VD Snöflinga Computing, som har ett data warehouse som en tjänst att erbjuda som också råkar köra på Amazons moln. Muglia, samtidigt se upp för Athena som validering för databehandling i molnet, var kanske lite försiktig med att verka för en fullständig data warehouse, snarare än bara en avslappnad fråga verktyg, säger: “Även om antalet data processing alternativ i molnet föröka sig, det måste för en sann datalager har ökat exponentiellt.” Som ett begreppsmässigt verktyg är det bra om, och Amazon meddelade att både sin egen QuickSight BI erbjuder, liksom Tablån, är kompatibla.

Läs också: Cloud data warehouse ras värmer upp
Läs också: Snowflake introducerar flera kluster data warehouse

Amazon hade andra meddelanden också, liksom det faktum att Aurora, dess MySQL-kompatibel lyckades relational database service, är nu PostgreSQL-kompatibel. Det meddelade också tre nya AI tjänster: Lex, för naturliga språk, Polly, för tal och samtal via röst eller text, och Rekognition, för ansikts -, objekt-och motividentifiering.

Läs också: Amazon vs Oracle: en databas krig
Läs också:
Amazon ger sin AI-kompetens till AWS kunder

Gömda Skatter
Skatt Data, som hade en monter på re:Invent, för den händelse att presentera sin nya Skatten Arbetsflöde anläggning. Arbetsflöden i denna produkt hantera data rörledningar, inklusive trädgård-sort extrakt samt en mängd API-baserade överföringar av personuppgifter från applikationer. Inte bara kan Skatten Data för att hämta data från stora SaaS-applikationer, men andra, med vilken Skatt Data samarbetar, kan proaktivt driva data i produkten.

Denna teknik fungerar också med Webb-och mobil-appar som utvecklats av Skatt Data är kunder själva, med injektion av enkel kod som “telefoner hemma” och aktier relevanta data. Detta ger Treasure Uppgifter en Ansökan Performance Management (APM) spin.

Inte alla nyheter stannade i Vegas
Bortom den värld av Amazon, MapR lanserar en nya “Ekosystem-Pack,” lägga till stöd i MapR Strömmar, för Kafka REST API och Kafka Ansluta kompatibilitet, förutom Spark 2.0.1 och Borra 1.9, och Installationsprogrammet Strofer, som gör det möjligt för API-driven installation av MapR kluster på lokaler eller i molnet.

En Birst av nya funktioner
Cloud BI leverantör Birst meddelade sin nya Birst 6 release. Denna utgåva följer en viktig trend på marknaden: integration av data förberedelser funktionalitet inne i en kärna-BI-produkt. Hänvisat till som “” i samband Data Prep,” Birst erbjuder en self-service-strategi som delar in arbetet i tre steg, där företaget har som heter “Kontakt,” “Prep” och “Avser”, och som innehåller maskininlärning-assisterad omvandling och går.

Läs också: Birst-ing i den vanliga: Machine Learning uppfyller Semantik i en värld av nätverk

Och maskininlärning inte slut där; i själva verket Birst har lagt till “Machine Learning Automation” till den produkt som innehåller normativa analyser och vad Birst kallar “One-click förutsägelse” kapacitet. Birst har också lagt till olika prestanda förbättringar inom ramen för vad företaget kallar “Cloud Skala Arkitektur.”

Och mer konsolidering
Förra, och inte på något sätt minst, Big Data världen förebådade ett nytt förvärv. Big Data ETL-orienterade Syncsort ‘ (vilket i sig förvärvades av private equity-bolaget Clearlake Capital i oktober förra året) har meddelat förvärvet av data quality specialist Trillium Programvara.

Läs också: 14 Big Data förvärv och varför de hände

Precis som BI säljaren Birst har integrerat data prep i sin produkt, det verkar här som vi ha en leverantör som är specialiserade på industriell styrka ETL och data prep flytta för att integrera data kvalitet och kapacitet i sin egen serie av produkter. Klart, skarpt avgränsade funktioner är på tillbakagång, och integrerade funktioner är på uppgång.

Alla tillsammans nu
I själva verket, om du tar en titt på Amazons meddelanden, kommer du att se anslutning till att samma trend: genom att, på ett effektivt sätt, inklusive querying SQL-funktioner i sina S3 moln lagring, och lägga till Postgres kompatibilitet till Aurora, Amazon försöker hålla er engagerade genom att inte göra att du går någonstans ny för de möjligheter du söker.

Varför gå till spin upp ett EMR kluster, brand upp Kupan och skriva din egen CREATE TABLE-kommando, då kan du bara byta till Athena management console och peka, klicka och fråga? Varför gå till en separat tjänst för att få en self-managed Postgres exempel upp och kör (eller gör det själv på en EC2 virtual machine) när Aurora (som också integrerar med S3) har du täckning, och på en SaaS-grund.

Detta är hur data blir kraftfull. När vägen till att skicka frågor och analysera det är kort, och kan passeras på skoj. Användarna får mer “insikter” när de ställa fler frågor. Och när den avskräckande att ställa dessa frågor smälter bort, fler frågor får ställas. Det är verkligen så enkelt.