Big Data week in review: Geïntegreerde functies regel

0
146

Deze week was vol van Big Data, nieuws, waaronder nieuwe uitgaven, een nieuw product, een nieuwe aanwinst en een update naar een van de belangrijkste Hadoop distro ‘ s. Laten we een overzicht van wat aangekondigd was en dan zien als wij het niet kunnen trekken van een conclusie of twee.

Een grote drijfveer voor een groot deel van het nieuws werd deze week is de Amazon Web Services re:Uitvinden conferentie, die een kans voor Amazon te onthullen nieuwe spullen, en voor partners aanwezig zijn op de show te doen. Sommige van het nieuws vond plaats buiten het re:het Uitvinden van een baan, maar laten we beginnen er toch.

Lees ook: Amazon Web Services voldoet aan de hybride wereld

Athena
Misschien Amazon is de grootste data-gerelateerde aankondiging was de Algemene Beschikbaarheid van Amazon Athena, het verstrekken van wat me zou kunnen noemen “SQL-op-S3-as-a-Service’, wat ik denk dat zou produceren de afkorting SS3aaS. Terwijl mijn nomenclatuur kunnen worden een beetje kostbaar, het is ook vrij vanzelfsprekend. Met Athena kunt u, op een nogal ad hoc query flatscreen-bestand de gegevens die u zou kunnen hebben rondslingeren in een S3 bucket, met behulp van standaard-SQL.

Lees ook: Deze analyse en AI diensten van AWS worden grote hits. Hier is waarom

Athena blijkt te zijn gebaseerd op Presto, een open source SQL engine die query veel verschillende gegevens bewaart. Het ding over Athena is, het is serverloze…in feite, het is clusterless. Dus voor het uitvoeren van een Athena-query, kunt u geen spin-up van een Elastische MapReduce (EMR) – cluster, of zelfs een EC2 virtuele machine, maar in plaats van het hoofd tot de management console op https://console.aws.amazon.com/athena, het opzetten van een “tabel” door te verwijzen naar een bestand in S3, het opgeven van het formaat (CSV, TSV, aangepaste gescheiden, JSON, en in kolom indelingen, Parket en ORC) en het schema, dan is het opvragen van afstand.

Ik heb Athena werken in ongeveer twee minuten, het lezen van een reeks bestand van de (weliswaar eenvoudige) – uitvoer van de Wordcount Hadoop voorbeeld dat ik liep lang geleden op een oude EMR-cluster.

amazonathena.png

Quick and Dirty: met behulp van Athena query ‘ Wordcount uitgang

Credit: Andrew Brust

Lage wrijving, vooral
Terwijl het is vervelend dat ik moet opgeven indeling en het schema (voor veel bestanden die gemakkelijk waarneembaar, en Athena had een standaard schema voor me om te accepteren of te bewerken), was het toch super-eenvoudig te gebruiken, met een anders wrijving-minder opstarten.

De mogelijkheid om een query voor de gegevens die u al hebt, met bijna geen setup of vooruit denken, is de kern van Amazon ‘ s positionering voor Athena. Het idee hier is dat terwijl je al een vergelijkbare mogelijkheden in de wil van de EMR of Roodverschuiving, die diensten vereisen ten minste een planning alsmede het inrichten en opstarten.

Lees ook: Amazon kondigt “Roodverschuiving” cloud data warehouse, met Jaspersoft ondersteuning

Misschien dat raakte een zenuw, enigszins, met Bob Muglia, de CEO van Sneeuwvlok Computing, die heeft een data warehouse gebruiken als een service aanbieden dat gebeurt ook om te draaien op Amazon ‘ s cloud. Muglia, terwijl het zien van de kop van Athena als validatie voor de verwerking van gegevens in de cloud, was misschien wel een beetje voorzichtig om te pleiten voor een volledig data warehouse, in plaats van alleen een casual query tool, zeggende: “Zelfs als het aantal van de verwerking van gegevens opties in de cloud toeneemt, de behoefte aan een ware data warehouse is exponentieel gegroeid.” Als een query tool het is goed hoor, en Amazon kondigde aan dat zowel zijn eigen QuickSight BI bieden, evenals een Tableau, compatibel zijn.

Lees ook: Cloud data warehouse race warmt op
Lees ook: Snowflake introduceert multi-cluster data warehouse

Amazon had andere aankondigingen, zoals het feit dat de Aurora, de MySQL-compatibele beheerd relationele database-service, is nu PostgreSQL-compatibel. Ook kondigt drie nieuwe AI diensten: Lex, voor natuurlijke taal, Polly, voor spraak en gesprekken via spraak of tekst; en Rekognition, voor gezichts -, object-en scene recognition.

Lees ook: Amazon vs Oracle: een database oorlog
Lees ook:
Amazon brengt de AI expertise AWS klanten

Verborgen Schat
Schat van Gegevens, die had een stand op de re:Uitvinden, gebruikt het evenement aan te kondigen van de nieuwe Schat Workflow faciliteit. De workflows in dit product voor het beheren van gegevens pijpleidingen, met inbegrip van tuin-diverse extracten evenals een gastheer van API-gebaseerde data-transfers van toepassingen. Niet alleen kan een Schat van Gegevens trek gegevens van belangrijke SaaS-applicaties, maar anderen, met wie Schat van Gegevens is een samenwerkingsverband aangegaan, kan proactief push gegevens in het product.

Deze techniek werkt ook met het Web en mobiele apps ontwikkeld door Schat van Gegevens van de klanten zelf, met de injectie van eenvoudige code die “telefoons home” en deelt relevante gegevens. Dit geeft een Schat van Gegevens een Application Performance Management (APM) spin.

Niet alle nieuws verbleef in las Vegas
Buiten de wereld van de Amazone, MapR de introductie aangekondigd van een nieuw ‘ Ecosysteem Pack,” het toevoegen van ondersteuning in MapR Stromen, voor Kafka REST API en Kafka Sluit compatibiliteit; de toevoeging van een Vonk 2.0.1 en Boor 1.9; en Installateur stanza ‘ s, die het mogelijk maken API-aangedreven installatie van MapR clusters on-premise of in de cloud.

Een Birst van nieuwe functies
Cloud BI-provider Birst aangekondigd haar nieuwe Birst 6 release. Deze release volgt een belangrijke trend op de markt: opname van gegevens voorbereiding van de functionaliteit binnen een kern BI-product. Aangeduid als “Aangesloten Data-Prep,” Birst biedt een self-service aanpak verdeelt het werk in drie stappen, die het bedrijf heeft met de naam “Connect” “Prep” en “Houden” en die is voorzien van machine learning-assisted transformatie en joins.

Lees ook: Birst-ing in mainstream: Machine Learning voldoet aan de Semantiek in een genetwerkte wereld

En de machine learning niet het einde is er; in feite Birst is toegevoegd “Machine Learning Automatisering” om het product bevat prescriptive analytics en wat Birst gesprekken “met Één klik voorspelling” mogelijkheden. Birst heeft ook nog diverse verbeteringen in de prestaties onder de paraplu van wat het bedrijf is het aanroepen van de “Cloud Schaal Architectuur.”

En nog veel meer consolidatie
De laatste, en niet de minste, de Big Data-wereld de voorbode is van een nieuwe aanwinst. Big Data ETL-georiënteerde Syncsort (die zelf werd overgenomen door investeringsmaatschappij Clearlake Capital in oktober van vorig jaar) heeft aangekondigd dat de overname van data quality specialist Trillium Software.

Lees ook: 14 Big Data overnames en waarom ze gebeurde

Net als BI-leverancier van Birst is geïntegreerd data-prep in haar product, het lijkt hier dat we een leverancier gespecialiseerd in industriële kracht van ETL en data prep bewegen te integreren kwaliteit van gegevens, de mogelijkheden in de eigen suite van producten. Duidelijk, gescheiden functionaliteit is op zijn retour, en de geïntegreerde mogelijkheden zijn op de stijging.

Allen samen nu
In feite, als u een kijkje nemen op Amazon ‘s aankondigingen, u zult zien dat de naleving van diezelfde trend: door, effectief, met inbegrip van SQL query-mogelijkheden in de S3 cloud-opslag, en het toevoegen van Postgres compatibiliteit te Aurora, Amazon’ s proberen te houden je bezig door niet te maken gaat u naar een nieuwe plaats voor de mogelijkheden van je naar op zoek bent.

Waarom gaan om te draaien tot een EMR-cluster -, brand-up van de Bijenkorf en het schrijven van je eigen opdracht CREATE TABLE, toen kon je gewoon naar de Athena management console en dan is het punt, klik en query? Waarom gaan naar een aparte dienst voor het ophalen van een self-managed Postgres aanleg up and running (of doe het zelf op een EC2 virtuele machine) als Aurora (die ook worden geïntegreerd met S3) heeft u gedekt, en op SaaS-basis.

Dit is hoe de gegevens krijgt krachtig. Wanneer u het pad naar het opvragen en analyseren van het kort, en kan worden afgelegd op de gril. Gebruikers krijgen meer “inzichten” als ze meer vragen te stellen. En wanneer de belemmering om die vragen te stellen smelt weg, meer vragen worden gesteld. Het is echt zo eenvoudig.