Diese Woche war voll von Großen Daten, news, darunter neue releases, ein neues Produkt, eine neue Akquisition und ein update zu einer der wichtigsten Hadoop-Distributionen. Lasst uns eine Umfrage, was angekündigt wurde und dann sehen, ob wir nicht ein Schluss ziehen-oder auch zwei.
Ein großer Treiber für einen Großteil der news wurde diese Woche von Amazon Web Services re:Invent-Konferenz bietet damit die Gelegenheit, Amazon zu zeigen, neue Sachen, und für Partner, Aussteller auf der show ebenfalls zu tun. Einige der Nachrichten, fand außerhalb der re:Invent orbit aber beginnen wir dort sowieso.
Lesen Sie auch: Amazon Web Services erfüllt die hybrid-Welt
Athena
Vielleicht ist Amazon der größte Daten-bezogene Ankündigung der Allgemeinen Verfügbarkeit von Amazon Athena, die das bieten, was Sie mich nennen könnte “SQL-auf-S3-as-a-Service”, was ich denke, würde die Produktion der Akronym SS3aaS. Während meiner Nomenklatur kann ein wenig kostbar, es ist auch ziemlich selbsterklärend. Mit Athena können Sie, auf einer eher ad-hoc-Abfrage-flat-file-Daten, die Sie haben könnten, herumliegen in einem S3-bucket, mit standard-SQL.
Lesen Sie auch: Diese Analyse-und AI-services von AWS werden riesige hits. Hier ist, warum
Athena stellt sich heraus zu sein, basiert auf Presto, ein open-source-SQL-engine, die Abfragen können viele verschiedene Daten speichert. Die Sache über Athena ist, es ist die serverlose…in der Tat, es ist clusterless. So führen Sie eine Athena-Abfrage, die Sie nicht spin up, ein Elastic MapReduce (EMR) – cluster oder auch eine EC2 virtuelle Maschine, aber statt den Kopf auf die management-Konsole an https://console.aws.amazon.com/athena richten Sie eine “Tabelle” durch den Verweis auf eine Datei im S3, die Angabe format (CSV, TSV, benutzerdefinierte Trennzeichen -, JSON-und columnar-Formate, Parkett-und ORC) und seine schema, dann ist die Abfrage Weg.
Ich habe Athena arbeiten in etwa zwei Minuten, das Lesen einer Sequenz-Datei aus der (zugegebenermaßen einfachen) Ausgabe aus dem Hadoop Wordcount-Beispiel, ich lief vor langer Zeit auf einem alten EMR-cluster.

Quick and Dirty: mit Athena Abfrage Wordcount-Ausgang
Credit: Andrew Brust
Low-friction, meist
Es ist zwar ärgerlich, dass ich angeben, format und schema (für viele Dateien, die leicht detektierbar ist, und Athena, könnte ein Standard-schema für mich zu akzeptieren oder zu Bearbeiten), es war trotzdem super-einfach zu bedienen, mit einem sonst die Reibung-weniger startup.
Die Fähigkeit zum Abfragen von Daten Sie bereits haben, mit fast keine setup-oder Kalkül, ist der Kern von Amazon Positionierung für Athena. Die Idee hier ist, dass, während Sie können bereits ähnliche Funktionen in den gleichen von EMR oder die Rotverschiebung, diese Dienste erfordern zumindest etwas Planung sowie das setup und die Startzeit.
Lesen Sie auch: Amazon kündigt “Rotverschiebung” cloud-data-warehouse mit Jaspersoft unterstützen
Vielleicht traf einen Nerv, etwas, mit Bob Muglia, der CEO von Schneeflocke Computing, die ein data warehouse als ein service-Angebot, das auch geschieht, führen Sie auf die Amazon-cloud. Muglia, sehen, während der Kopf der Athena als Validierung für die Verarbeitung von Daten in der cloud, war vielleicht ein bisschen zu vorsichtig, um sich für eine vollständige data warehouse, vielmehr als nur ein casual-Abfrage-tool, zu sagen: “Auch wenn die Anzahl der Daten-Verarbeitung-Optionen in der cloud, vermehren sich die Notwendigkeit für eine echte data-warehouse-exponentiell gewachsen.” Als Abfrage-tool, es ist zwar gut, und Amazon angekündigt, dass beide Ihre eigenen QuickSight BI-Angebot, sowie Tableau, kompatibel sind.
Lesen Sie auch: Cloud-data-warehouse-Rennen heizt
Lesen Sie auch: Schneeflocke stellt multi-cluster-data warehouse
Amazon hatte andere Ankündigungen, wie die Tatsache, dass Aurora, seine MySQL-kompatible verwaltete relationale Datenbank-service, ist nun PostgreSQL-kompatibel als auch. Er kündigte außerdem drei neue KI-Dienstleistungen: Lex, für Natürliche Sprache; Polly, für Rede und Gespräche über voice-oder text; und Rekognition, für Gesichts -, Objekt-und Szenenerkennung.
Lesen Sie auch: Amazon vs Oracle: a database Krieg
Lesen Sie außerdem: Amazon bringt sein AI-know-how für AWS-Kunden
Verborgener Schatz
Schatz Daten, die hatten einen Stand auf der re:Invent, nutzte die Veranstaltung, bekannt zu geben, seinen neuen Schatz Workflow-facility. Die workflows, die in diesem Produkt für die Verwaltung von Daten-pipelines, einschließlich Garten-Vielfalt-Extrakten sowie einer Vielzahl von API-basierten Datenübertragungen von Anwendungen. Kann nicht nur Schatz-Daten ziehen die Daten aus den wichtigsten SaaS-Anwendungen, aber andere, mit dem Schatz von Daten arbeitet, kann proaktiv push-Daten in das Produkt.
Diese Technik funktioniert auch mit Web-und mobile apps, entwickelt von Treasure Daten der Kunden selbst, mit der Injektion von einfachen code, der “phones home” und Aktien relevanten Daten. Dieser Schatz gibt Daten ein Application Performance Management (APM) spin.
Nicht alle Nachrichten blieben in Vegas
Außerhalb der Welt von Amazon, MapR angekündigt, die Veröffentlichung eines neuen “Ökosystems Pack,” hinzufügen von Unterstützung für MapR-Streams, für die Kafka-REST-API und Kafka Verbinden Kompatibilität; die Ergänzung der Spark-2.0.1 und Drill 1.9; und Installer Strophen, mit denen API-driven installation von MapR-Cluster lokal oder in der cloud.
Ein Birst von neuen features
Cloud-BI-Anbieter Birst angekündigt, seine neue Birst 6 release. Diese Version folgt ein wichtiger Markt-trend: Integration von Daten Vorbereitung der Funktionalität im inneren ein Kern-BI-Produkt. Bezeichnet als “Connected Data Prep” Birst bietet ein self-service-Ansatz, teilt sich die Arbeit in drei Schritte, die das Unternehmen mit dem Namen “Connect,” “Prep” und “Beziehen,” und das auch machine-learning-unterstützte transformation und Verknüpfungen.
Lesen Sie auch: Birst-ing in die mainstream: Machine Learning meets Semantik in einer vernetzten Welt
Und die Maschine, die das lernen noch nicht zu Ende; in der Tat Birst hat Hinzugefügt, dass “Machine-Learning-Automation”, um das Produkt enthält präskriptiven analytics und was Birst Anrufe “One-click-Vorhersage” – Funktionen. Birst hat auch Hinzugefügt, die verschiedene performance-Verbesserungen, unter dem Dach, was das Unternehmen ruft “Cloud-Scale-Architektur.”
Und mehr Konsolidierung
Letzte, nicht zuletzt, die Big-Data-Welt kündeten von einem neuen Erwerb. Big-Data-ETL-orientierte Syncsort (was selbst erworben wurde, die von private-equity-Firma Clearlake Capital im Oktober letzten Jahres) hat angekündigt, den Erwerb von data-quality-Spezialist Trillium Software.
Lesen Sie auch: 14 Big-Data-Akquisitionen und warum Sie passiert sind
Gerade als BI-Anbieter Birst hat integrierte Daten-prep in sein Produkt, würde es scheinen, dass wir hier einen Anbieter, spezialisiert in Industrie-Stärke, ETL und data prep verschieben zu integrieren data-quality-Funktionen in eigene suite von Produkten. Klar, isolierte Funktionalität ist auf dem Rückzug, und die integrierten Funktionen sind auf dem Vormarsch.
Und jetzt alle zusammen
In der Tat, wenn man sich bei Amazon die Ansagen, du wirst sehen, festhalten, dass derselbe trend zu beobachten: durch die, effektiv, einschließlich der SQL-Abfragefunktionen in Ihrer S3 cloud-storage, und die Zugabe von Postgres-Kompatibilität zu Aurora, Amazon versucht zu halten Sie beschäftigt, nicht machen Sie gehen irgendwo neu für die Funktionen, die Sie suchen.
Warum gehen Sie zu drehen bis einem EMR cluster -, Feuer-up-Struktur und schreiben Sie Ihre eigenen CREATE TABLE-Befehl, wenn Sie nur könnten-Schalter, um die Athena management console und dann zeigen, klicken und Abfrage? Warum gehen einige separate-service um eine self-managed-Postgres-Instanz laufen (oder mache es selbst auf eine EC2 virtuelle Maschine), wenn der Aurora (die auch die Integration mit S3) hat Sie bedeckt, und auf einer SaaS-basis.
Dies ist, wie Daten zu mächtig wird. Wenn der Pfad zum Abfragen und analysieren, es ist kurz, und kann durchquert werden, nach Lust. Die Nutzer bekommen mehr “Einblicke”, wenn Sie mehr Fragen stellen. Und wenn die abgeschreckt werden, diese Fragen zu stellen schmilzt, mehr Fragen gestellt bekommen. Es ist wirklich ganz einfach.