Big Data bilan de la semaine: les fonctionnalités Intégrées de la règle

0
188

Cette semaine a été pleine de Grands volumes de Données nouvelles, y compris les nouvelles versions, un tout nouveau produit, une nouvelle acquisition et une mise à jour de l’une des principales distributions Hadoop. Nous allons obtenir un aperçu de ce qui a été annoncé, et ensuite voir si nous ne pouvons pas tirer une conclusion ou deux.

Un grand pilote pour une grande partie de la nouvelle a été cette semaine, Amazon Web Services re:Inventer de conférence, offrant ainsi l’occasion d’Amazon pour révéler de nouvelles choses, et pour les partenaires participant au salon, à faire de même. Certaines de ces nouvelles ont eu lieu à l’extérieur de la re:Inventer orbite, mais nous allons commencer par là de toute façon.

Lire aussi: Amazon Web Services se réunit le monde hybride

Athena
Peut-être Amazon plus de données liées à l’annonce de la Disponibilité Générale de Amazon Athena, fournissant de ce que je pourrait appeler “SQL-sur-S3-as-a-Service”, qui, j’imagine, serait de produire de l’acronyme SS3aaS. Alors que mon nomenclature peut-être un peu précieux, il est aussi très explicites. Avec Athena, vous pouvez, sur un lieu ad hoc, les requêtes de données de fichier plat que vous pourriez avoir qui traînent dans un compartiment S3, en utilisant la norme SQL.

A lire aussi: Ces outils d’analyse et les services d’IA à partir d’AWS sera énorme succès. Voici pourquoi

Athéna s’avère être basé sur Presto, open source du moteur SQL qui permet d’interroger de nombreuses différentes banques de données. La chose à propos d’Athena, c’est sans serveur…en fait, c’est clusterless. Donc, pour exécuter une Athéna de requête, vous ne tournent pas une Elastic MapReduce (EMR) de cluster, ou même un EC2 de la machine virtuelle, mais au lieu de la tête à la console de gestion à https://console.aws.amazon.com/athena, mettre en place un “tableau” en pointant sur un fichier dans la S3, en précisant son format (CSV, TSV, séparateur personnalisé, JSON, et en colonnes les formats, Parquet et ORCS) et son schéma, puis à interroger.

J’ai eu Athena de travail dans environ deux minutes, la lecture d’un fichier de séquence à partir de la (certes simple) de sortie de la Wordcount Hadoop échantillon que j’ai couru il y a longtemps, sur une ancienne cluster EMR.

amazonathena.png

Rapide et Sale: à l’aide d’Athéna à la requête Wordcount de sortie

Crédit: Andrew Brust

Faible coefficient de frottement, surtout
Alors qu’il est ennuyeux que j’ai pour spécifier le format et le schéma (pour le nombre de fichiers que est facilement détectable, et Athéna aurait pu fournir un schéma par défaut pour moi d’accepter ou de modifier), il était super facile à utiliser, avec un frottement de moins de démarrage.

Cette capacité d’interroger les données que vous avez déjà, avec presque pas d’installation ou de prévoyance, est l’essentiel de Amazon de positionnement pour Athéna. L’idée ici est que, bien que vous pouvez déjà trouver des fonctionnalités similaires dans les goûts de DME ou Redshift, ces services nécessitent au moins un peu de planification ainsi que le programme d’installation et le temps de démarrage.

Lire aussi: Amazon annonce le “Redshift” nuage d’entrepôt de données, avec Jaspersoft soutien

Peut-être que frappé un nerf, un peu, avec Bob Muglia, le chef de la direction de Flocon de neige de l’Informatique, qui dispose d’un entrepôt de données de l’offre de services qui fonctionnent sur Amazon cloud. Muglia, tout en voyant l’envers d’Athéna comme de validation pour le traitement des données dans le cloud, a été peut-être un peu prudent à plaider pour une pleine entrepôt de données, plutôt que de simplement occasionnel de l’interrogation de l’outil, en disant: “de Même que le nombre d’options de traitement de données dans le cloud se multiplient, la nécessité d’un véritable entrepôt de données a augmenté de façon exponentielle.” Comme une interrogation de l’outil c’est si bon, et Amazon a annoncé que deux de ses propres QuickSight BI offre, ainsi que de Tableau, sont compatibles.

Lire aussi: Nuage d’entrepôt de données course se réchauffe
Lire aussi: Flocon de neige introduit multi-cluster d’entrepôts de données

Amazon avait d’autres annonces de trop, comme le fait que l’Aurore, ses MySQL-compatible géré le service de données relationnelles, est maintenant PostgreSQL-compatible. Il a également annoncé trois nouveaux services d’IA: Lex, pour le langage naturel; Polly, de discours et de conversations par la voix ou le texte; et Rekognition, pour le visage, de l’objet et de reconnaissance de scène.

Lire aussi: Amazon vs Oracle: une base de données de guerre
Lire aussi:
Amazon apporte son IA de l’expertise pour les clients AWS

Trésor Caché
Trésor de Données, qui avait un stand au re:Invent, de l’évènement pour annoncer son nouveau Trésor de Flux de travail facilité. Le flux de travail dans ce produit de gérer les données de pipelines, y compris de jardin-variété des extraits ainsi qu’une foule d’API basée sur les transferts de données entre les applications. Non seulement peuvent Trésor de Données à extraire des données à partir de grandes applications SaaS, mais d’autres, avec lesquels Trésor de Données s’est associée, de manière proactive push de données dans le produit.

Cette technique fonctionne aussi avec les applications Web et mobiles développé par Treasure Données clients eux-mêmes, avec l’injection de code simple que “les téléphones à la maison” et de partage de données. Cela donne Trésor de Données d’une Application Performance Management (APM) de spin.

Pas toutes les nouvelles resté à las Vegas
Au-delà du monde de l’Amazonie, MapR a annoncé la sortie d’un nouvel “Écosystème Pack, ajout de prise en charge dans MapR les Ruisseaux, pour Kafka API REST et Kafka se Connecter compatibilité; l’ajout d’Étincelle 2.0.1 et Percer 1.9; et Installateur de Strophes, qui permettent d’API-driven installation de MapR de clusters sur le site ou dans le cloud.

Un Birst de nouvelles fonctionnalités
Cloud BI fournisseur de Birst a annoncé son nouveau Birst la version 6. Cette version fait suite à une tendance de marché importante: l’inclusion de la préparation des données, des fonctionnalités à l’intérieur d’un noyau BI produit. Dénommé “Données Connectée Prep,” Birst offre un libre-service approche qui divise le travail en trois étapes, dont la société a nommé “se Connecter”, “Prep” et “Trait” et qui comprend l’apprentissage de la machine assistée de transformation et de jointures.

Lire aussi: Birst-ing dans les courants principaux: l’Apprentissage de la Machine répond à la Sémantique dans un monde en réseau

Et l’apprentissage de la machine ne s’arrête pas là; en fait Birst a ajouté que “l’Apprentissage de la Machine d’Automation” pour le produit, qui comprend normative analytics et ce Birst appelle “l’Un-cliquez sur la prédiction de capacités”. Birst a également ajouté diverses améliorations de performances sous l’égide de ce que la société appelle “Cloud à l’Échelle de l’Architecture.”

Et plus de la consolidation
Dernier, et en aucune façon moins, le Big Data monde annoncé une nouvelle acquisition. Big Data ETL orientée Syncsort (qui lui-même a été acquis par la société de capital-investissement Clearlake Capital en octobre de l’année dernière) a annoncé l’acquisition du spécialiste de la qualité des données, Trillium Software.

Lire aussi: 14 Big Data acquisitions et pourquoi ils sont là

Tout comme BI vendeur Birst a intégré les données de la ppre dans son produit, il semblerait ici que nous avons un fournisseur spécialisé en puissance industrielle ETL données et de prep en mouvement pour intégrer des fonctionnalités de qualité de données dans sa propre gamme de produits. Clairement, cloisonnées fonctionnalité est sur le déclin, et des capacités intégrées sont à la hausse.

Tous ensemble maintenant
En fait, si vous jetez un oeil à d’Amazon annonces, vous verrez l’adhésion à cette tendance: d’ici, de manière efficace, y compris SQL capacités d’interrogation dans son S3 stockage en nuage, et l’ajout de Postgres compatibilité à Aurora, Amazon essaie de vous garder engagé par pas vous faire aller quelque part nouvelle pour les fonctionnalités que vous recherchez.

Pourquoi aller à faire tourner un système de DME de cluster, le feu jusqu’à la Ruche et à écrire votre propre commande CREATE TABLE, où vous pouviez juste passer à l’Athéna de la console de gestion, puis de pointer, cliquer et de la requête? Pourquoi aller à un service pour obtenir un auto-géré Postgres instance et en cours d’exécution (ou de le faire vous-même sur un EC2 de la machine virtuelle) lors de l’Aurora (qui s’intègre également avec la S3) a pensé à vous, et sur une base SaaS.

C’est la façon dont les données devient puissant. Quand le chemin de l’interrogation et l’analyse, il est court, et peut être parcouru sur un coup de tête. Les utilisateurs d’obtenir plus de “insights” quand ils posent plus de questions. Et quand le dissuader de poser ces questions de fond, plus les questions posées. C’est vraiment simple.