Vous ne pouvez pas le réaliser, mais Hadoop a déjà été autour depuis 10 ans. Même maintenant, avec la plupart des organisations ayant d’une manière ou d’une autre l’a adopté, pas tout, c’est évident et clair. Mais quand il est arrivé à partir de Yahoo en 2006, Dave Mariani, AtScale co-fondateur et chef de la direction, a été l’un des premiers à l’utiliser et de réaliser son potentiel.
Il était au bon endroit au bon moment: Mariani était en train de faire des analyses dans Yahoo, la fourniture de données de lecteur de perspectives d’affaires et de la publicité sur les actifs de la société. DW et les cubes ont été à peu près le seul jeu en ville pour analytics, et un grand jeu trop. Mariani, un cube de données vétéran avec de nombreuses implémentations sous sa ceinture, a mentionné que “un seul de ces cubes à Yahoo pourrait générer des revenus dans la zone de 50 millions de dollars”.
Mariani, comme la plupart des experts de l’industrie d’aujourd’hui, réalisé que Hadoop pourrait révolutionner les données de l’industrie en raison de ses propriétés: une architecture ” shared nothing qui signifie qu’il peut évoluer dans un fluide, de façon efficace, un cadre sur lequel ETL et de la transformation d’emplois peut fonctionner, et à la fin de la liaison / schéma de lecture. Il a réalisé que plus tôt que la plupart, ou, au moins, il a agi plus tôt.
Dans Yahoo, ainsi que dans Klout qui Mariani a rejoint après Yahoo, Hadoop a été très utilisé, mais le BI paysage était ce qu’il avait toujours été: fragmenté, en utilisant une pléthore d’outils allant de la Excel de MicroStrategy. À l’époque, la seule façon pour ces outils pour être en mesure d’utiliser les données stockées dans Hadoop a été de prendre les données de Hadoop et de le stocker dans un DW. SQL-sur-Hadoop, Cloudera mis à la libération de l’Impala, Mariani a été recruté, et le reste est l’histoire.
Finalement, Mariani entrepris de mettre en œuvre sa propre vision: pour permettre aux utilisateurs d’accéder à des données dans Hadoop comme le plus délicatement possible. Le véhicule a été AtScale, avec Yahoo et Cloudera bord des investisseurs et des clients. AtScale délibérément abstenu d’offrir des données de navigation et de visualisation de la couche. Leur pensée était qu’ils ne pouvaient et ne serait pas déplacer les outils déjà utilisés à cette fin. Au lieu de cela, ils ont choisi d’agir comme un fournisseur neutre middleware pour faciliter l’accès aux données stockées dans Hadoop sur SQL et MDX. Cette architecture est basée sur 3 piliers.

AtScale architecture est conçu pour permettre aux utilisateurs d’accéder à des données dans les systèmes back-end de façon transparente, à l’aide de leur BI outil de choix. Image: AtScale
La Conception, La Mise En Cache De Requêtes
Tout d’abord, le Centre de Design. AtScale décrit cela comme la toile pour la peinture cubes virtuels. Cet outil permet aux utilisateurs de naviguer dans les données stockées dans Hadoop et de définir les métadonnées qui peuvent à leur tour être utilisés pour définir des dimensions pour virtuel des cubes OLAP. C’est une collaboration, multi-utilisateur de l’outil, de sorte que les utilisateurs peuvent se compléter les uns des autres connaissances.
En outre efficacement en agissant comme une définition de schéma de mécanisme, il prend également en charge de la gouvernance des données par le biais de règles d’accès et de sécurité. AtScale appelle cela un Universel Couche Sémantique dans lequel la logique d’entreprise peut être définie de manière centralisée et déployé instantanément, quel que soit ce que des outils de BI.
Les cubes virtuels l’air cool, mais quid des performances? Il ya une raison pourquoi les cubes traditionnels DW sont pré-calculées, après tout. C’est là que l’adaptation du Cache. La 2ème couche dans AtScale architecture du mécanisme de mise en cache qui fonctionne en appliquant des stratégies intelligentes non seulement pour tenir le plus récemment et très utilisée de données à stocker pour accélérer les accès ultérieurs, mais aussi de prédire les données plus susceptibles d’être utilisés dans l’avenir et de manière préventive les récupérer.
AtScale fait valoir que même physique cubes de commencer à briser pour les grandes cardinalités / dimensions, et les revendications cubes virtuels effectuer tout aussi bien ou même mieux. Ils ne citer qu’un exemple, dans lequel une requête sur un cube virtuel avec plus de 500 Milliards de dollars de lignes extraites des résultats en moins de quelques secondes.
Dernier mais non le moins, la plus proche AtScale arrive à un utilisateur face de l’interface: le bien nommé Hybride de Requête de Service (QG), qui offre une couche de requête qui prend en charge SQL et MDX. QG prend en charge de JDBC, ce qui signifie qu’effectivement tout ANSI-SQL client peut se connecter via AtScale plus de JDBC pour interroger des données résidant dans Hadoop. AtScale partenariats et les certifications en place pour les produits tels que Tableau, Qlik et PowerBI, en fonction de l’utilisateur de la base et les exigences, ainsi que toutes les grandes distribution Hadoop fournisseurs.
Comme AtScale du chef de la direction de Dave Mariani met, “Si personne ne peut interagir avec votre cluster Hadoop est juste un éléphant blanc.” Maintenant, l’éléphant est hors de la boîte, un rouleau à la fois.
Hors de la boîte de Hadoop
Ce qui est nouveau, c’est que maintenant AtScale va au-delà de Hadoop (dans le cloud ou sur site), offrant un soutien pour Teradata data warehouse, Google Dataproc et BigQuery. Selon AtScale fondateurs, cela faisait partie de leur vision tout au long et les clients ont demandé pour elle aussi. Cette vision fut d’abord accueillie avec scepticisme alors que la levée de capitaux pour AtScale de Série A, mais les choses ont été beaucoup plus facile maintenant que la société a récemment été en mesure de compléter une Série B d’environ 11 millions de dollars US.
AtScale de la stratégie d’agir comme l’homme du milieu semble avoir porté ses fruits, car elle permet de capitaliser sur les développements de la SQL moteurs de laquelle il dépend. Ces moteurs ont été prise à l’aise, ayant été mesurée à offrir un 2-3 fois l’amélioration des performances par rapport aux versions antérieures.
AtScale a appliqué la “découpler tout” paradigme qui Hadoop apporté à l’entreposage du monde, en ajoutant sa propre définition de données et l’optimisation de la requête couche de stockage, Hadoop ou d’autres, comme la feuille de route inclut le support pour encore plus de moteurs de stockage.
Est-ce l’histoire de CRAPAUD jouer dans la brave Hadoop monde et de l’au-delà? Comme le CRAPAUD, AtScale a commencé avec un modeste vision pour améliorer la vie des gens qui travaillent avec des données plus facile, sur Oracle et Hadoop, respectivement. Comme le CRAPAUD, AtScale a été voir adoption croissante (liste des clients comme macy’s, Comcast et GlaxoSmithKline) et est en pleine expansion au-delà de sa première niche.
CRAPAUD et AtScale même se recouvrir d’une certaine manière, maintenant, comme le CRAPAUD de l’offre de prise en charge de SQL-sur-Hadoop trop – bien que sans tous les extras qui AtScale apporte à la table. Ressemble Hadoop est hors de la zone, et dans la convergence de la base de données mondiale, qui devrait venir en tant qu’aucune surprise.