FRANÇAIS

Databricks ne joue plus David et Goliath

185

Zero

L’Imitation étant la forme la plus sincère de flatterie résume assez bien les difficultés de l’exécution d’un logiciel open source d’entreprise. Au cours de la dernière 4 – 5 ans, Apache Spark a pris le big data analytics monde par la tempête (pour les fans de streaming, pas de jeu de mots). Que la société dont les fondateurs ont créé et continuent de mener l’Apache Spark projet, Databricks se distingue comme l’entreprise qui peut vous donner le plus performant, jusqu’à ce jour, une Étincelle dans le nuage plate-forme de service.

Dans l’intervalle, la Spark a continue d’être la plus active Apache projet open source basé sur la taille de la communauté (plus d’un millier de collaborateurs de plus de 250 organisations) et le volume des contributions. Sa prétention à la célébrité a été simplifiée de calcul du modèle (par rapport à MapReduce ou d’autres de calcul parallèle des cadres), lourd de levier de calcul dans la mémoire, et de la disponibilité des centaines de packages tiers et les bibliothèques.

Spark est devenu le standard de facto intégré compute engine pour les outils d’effectuer tout ce qui est lié à la transformation des données. IBM a donné au projet une étreinte de l’ours qu’il a redémarré ses analytique suite avec Spark.

Mais comme une mesure de sa maturité, il y a maintenant une véritable concurrence. La plupart de la compétition a été avec les bibliothèques et paquets, où R et Python pour les programmeurs avaient leurs propres préférences. Il y a aussi la concurrence pour le streaming d’où un mélange de open source et propriétaires des alternatives soutenu vrai streaming, tandis que l’Étincelle de Streaming lui-même était basé sur microbatch (qui est en train de changer). Plus récemment, une Étincelle, c’est de voir renouvelée de la concurrence sur le calcul à l’avant, que l’émergence de solutions de rechange, comme Apache Faisceau (qui alimente Google Cloud Dataflow) se positionnent comme le onramp de streaming et de haute performance de calcul.

Ironiquement, alors qu’un grand proportion d’Étincelle charges de travail ont été exécutés pour la transformation de données, de son origine prétention à la célébrité, centré sur l’apprentissage de la machine. Le ouvrante notion de Databricks est que vous pouvez obtenir un accès rapide à l’Allumage et facilement profiter de MLlib bibliothèques sans avoir à configurer un cluster Hadoop.

Depuis, Amazon, Microsoft Azure, Google et d’autres offrent maintenant de cloud computing services spécialisés pour l’apprentissage de la machine — avec Amazon SageMaker un tir à travers l’arc pour la machine à faire de l’apprentissage accessible sans nécessiter un degré avancé. À l’autre extrémité du spectre, la Spark bibliothèques DLL sont encore des travaux en cours; pour l’apprentissage en profondeur, TensorFlow et MxNet sont actuellement voler Étincelle du tonnerre, bien que certes, elles peuvent être déployées à exécuter sur la Spark.

Databricks la stratégie est passée de “démocratiser analytics” à livrer “le unifiée de la plate-forme d’analyse.” Il propose un cloud Platform-as-a-Service (PaaS) offrant ciblées sur des données scientifiques qui est officieusement est positionné comme le go-to source pour obtenir l’Étincelle emplois vite avec la plus actuelle de la source de la technologie.

Mais là encore, vous n’avez pas besoin Databricks pour exécuter Étincelle. Vous pouvez exécuter sur n’importe quelle plate-forme Hadoop, et grâce à des connecteurs, sur pratiquement toutes analytique ou de données opérationnelles de la plateforme. Et dans le cloud, vous pouvez facilement exécuter sur Amazon EMR ou de tout autre nuage Hadoop service. Et si vous êtes fortement attaché aux bibliothèques Python, il y a toujours l’Anaconda Cloud.

Databricks promesses de simplicité. Vous pouvez exécuter Étincelle sans les frais de fonctionnement d’un cluster Hadoop ou de se soucier de la configuration de la bonne combinaison de Hadoop liées à des projets. Vous obtenez un natif de l’Étincelle d’exécution et ne pas s’inquiéter de déploiement de vos modèles en travaillant dans un Databricks propriétaire ordinateur portable où vous pouvez faire de votre sortie exécutable sans trouver vos modèles perdu dans la traduction une fois qu’ils ont été remis à vos données d’ingénieurs. Eh bien, vous n’avez plus à vous soucier de dimensionnement de votre calcul en spécifiant le nombre de “travailleurs”. Chacun des principaux fournisseurs de services en nuage offrant sans serveur de calcul des services (où vous écrire du code sans se soucier de calcul), l’été dernier, Databricks a lancé sa propre sans serveur option.

La société a une énorme balle dans le bras, l’été dernier, avec un frais de $140 millions venture ronde qui menace de faire de l’entreprise une autre licorne (son financement cumulatif désormais supérieur à 250 millions de dollars). Et il est maintenant déployant ses ailes avec plusieurs importantes initiatives en matière de produits.

Databricks Delta ajoute le chaînon manquant de la persistance des données. Jusqu’à présent, la Databricks service de attire des données, principalement de stockage en nuage, et a donné des résultats qui pourraient être visualisés ou post-traitées par le biais de BI outils en libre-service. Ironiquement, l’un des plus fréquents Étincelle de la charge de travail est la transformation de données, Databricks ne fournit pas directement un moyen de conserver les données pour une utilisation ultérieure, sauf par l’intermédiaire de tiers plates-formes de données en aval. Delta comble la lacune en ajoutant la possibilité de conserver les données en colonnes Parquet fichiers.

À première vue, Databricks Delta ressemble à sa réponse basée sur le cloud services de stockage de données qui persistent données, l’utilisation de l’Étincelle, et d’interroger directement les données à partir de S3, comme Amazon Redshift Spectre. En réalité, Parquet est tout simplement un système de fichier qui stocke les données dans le format de colonne; il n’est pas une base de données. Donc, il est destiné à des données scientifiques qui ont tendance à travailler avec le schéma-sur-mode lecture et voulez une option pour la persistance des données. De cette façon, ils peuvent travailler dans l’Databricks service sans avoir à compter sur Redshift ou d’autres entrepôts de données, dans le cloud ou sur site, pour la réutilisation des données qu’ils ont tout de correction.

Éclipsant cette annonce a été la présentation récente d’Azur Databricks. Jusqu’à maintenant, Databricks a couru comme un service géré sur AWS, mais comme un prestataire de service avec un bras de longueur relation. Pour Azure, Databricks a disparu entièrement native. Disponible via le portail Azure, d’Azur, à Databricks s’exécute sur Azure conteneurs, a haute vitesse d’accès à Azure Blob Storage et d’Azur de Données de Lac, peut être exécuté à travers l’Azur de la console, et est intégré avec PowerBI pour la requête avec une variété d’Azur bases de données (Base de données SQL Azure, SQL Azure Entrepôt de Données, et le Cosmos DB) en aval, de la réutilisation des résultats.

Comme l’Azur natif de service, Databricks pourrait potentiellement être mêlées à d’autres services, tels qu’Azure Machine Learning, d’Azur, à l’Ido, les Données de l’Usine et d’autres. Qui pourraient accroître considérablement Databricks’ marché adressable. Plus au point, avec Azure de Microsoft OEM, Databricks gains d’un partenaire stratégique qui n’a plus fait un David à tout le monde de Goliath.

Rubriques Connexes:

Cloud

Transformation Numérique

La robotique

L’Internet des objets

L’Innovation

Des Logiciels D’Entreprise