Le traitement des séries temporelles de données: Quelles sont les options?

0
214

Zero

Google ne permet pas toujours de faire les choses, ou d’obtenir à tout d’abord. Mais quand Google jette son dévolu sur quelque chose, vous savez que quelque chose est sur le point d’attirer l’intérêt. Avec Google, juste après avoir annoncé son Nuage d’Inférence de l’API afin de découvrir des idées à partir des données de séries chronologiques, c’est un bon moment pour vérifier les options pour le traitement des séries temporelles de données.

Une série chronologique est une série de points de données indexées (ou de la liste ou de graphique) dans l’ordre du temps. Le plus souvent, par une série chronologique est une séquence de prises à des points également espacés dans le temps. C’est donc une séquence de temps discret de données. Exemples de séries chronologiques sont de hauteurs de marées, les nombres de taches solaires et la valeur de clôture de l’indice Dow Jones Industrial average.

Aussi: Volume, vélocité et variété: Comprendre les trois V du big data

C’est la façon dont Wikipédia définit le temps de la série, et de par cette définition, la plupart des données se lance à la recherche comme le temps de la série. C’est pourquoi le temps de la série de traitement de données est important, et le deviendra encore plus important à l’avenir: Si vous gardez l’enregistrement de valeurs pour la même chose, à chaque fois, ce que vous avez est un moment de la série.

Streaming cadres de, cloud, et le temps de la série des bases de données

Si cela semble familier, c’est parce que les applications en temps réel sont les prémisses de quelque chose que nous avons été couvrant beaucoup: des Cadres pour les streaming en temps réel, le traitement des données. Si vous souhaitez acquérir des données en temps réel, et d’appliquer des transformations et des règles de processus à la volée, streaming cadres peuvent aider.

Et avec de l’ACIDE capacités pour le streaming ayant tout juste d’être ajoutée, cela devient une alternative viable à des bases de données classiques. Mais même si le streaming est de gagner de l’adoption, le monde n’a pas le streaming de traitement en place, ou est prêt à l’adopter tout de suite. Que même les dirigeants en streaming point, cela nécessite un changement de mentalité et de l’infrastructure logicielle.

Aussi: Big Data 2018: Le stockage dans le Cloud devient, de facto, le lac des données

Donc, si vous avez vos séries en place d’une certaine manière, et vous êtes à la recherche pour l’analyser afin de mieux comprendre, a posteriori, comment pouvez-vous faire cela en plus de streaming les cadres?

Avec le nuage de devenir de facto le stockage pour une grosse partie de nouvelles séries de données chronologiques, d’avoir un moyen de traiter des données dans le nuage, où il vit viendrait dans maniable. C’est ce qui explique Google annonce récente, ainsi que le fait que les deux AWS et Azure de Microsoft ont leurs propres offres.

Le Cloud n’est pas la seule option, cependant. Le temps de la série des bases de données est une autre, qui peut également être utilisé dans le nuage. C’est une classe de solutions de base de données conçu pour gérer le stockage et le traitement des données de séries chronologiques.

Il existe de nombreuses alternatives à choisir, mais pas tous ceux qui sont construites sur mesure de gérer le temps de la série. Un couple de haut ceux répondu à ZDNet demande de commentaires sur l’état de l’union sur la série de temps de traitement.

cloudgrowth.jpg

Comme toutes les données de séries chronologiques de données en direct dans le cloud, ces jours-ci. Image: maxsattana, Getty Images/iStockphoto

Navdeep Sidhu, InfluxData chef de produit marketing, est très encouragés par ce que nous avons vu à partir de Google offre:

“Nous sommes excités à l’idée qu’ils sont de voir la plate-forme soient adoptés et comment il évolue à mesure que l’utilisation réelle des modèles émergent. De Google sur le marché de la présence et de la perspicacité technique fera en sorte que cette plate-forme sera largement utilisé.

Nous pensons qu’avoir une forte stockage de données et d’analyse de la couche qui est conçu pour l’Ido capteur de l’ingestion de données, d’analyse en temps réel, et la connaissance est un élément clé de toute l’Ido plate-forme.”

James Corcoran, vice-président de des produits, des solutions et de l’innovation au Kx, le vendeur derrière kdb+, pense qu’il est trop tôt pour commenter l’annonce de Google, mais suivra avec un grand intérêt.

Aussi: Amazon Deeplens veut relancer l’apprentissage de la machine CNET

Ajay Kulkarni, PDG et co-fondateur de TimescaleDB, a dit qu’il aime l’innovation dans l’analyse de données, et il est heureux que Google est en prenant le temps de la série de données très au sérieux:

“Nous serions d’accord que la construction d’un système qui peut l’échelle est un défi, et que l’analyse des données piles sont devenus tellement complexes que la simplification est une bonne chose.

Cela dit, l’offre se sent toujours très tôt. Je crois que leur seule citation est celle d’un ingénieur qui a dit qu’il regarde ” prometteur?’ De côté à partir de l’échéance, quelque chose d’autre le projet semble manque, c’est un vrai langage de requête. Ce que personne ne veut, c’est encore une autre requête de la langue à apprendre. C’est pourquoi l’analyse des données de l’industrie commence à re-normaliser le retour sur SQL”.

Les principales exigences pour la série de temps de traitement

Mais quelles sont les principales exigences pour les séries chronologiques de traitement de données? De par sa nature, le temps de la série de données est toujours en cours d’ajout, de sorte qu’il est très important qu’une solution technique est en mesure de gérer une combinaison de streaming, en temps réel et des données historiques, dit Corcoran:

“Le temps de la série de données a tendance à être grand, de sorte que les performances et l’évolutivité sont cruciales. Les principales exigences pour travailler avec des données de séries chronologiques sont les capacités d’analyse et synthétise les données très, très rapidement.

kdb+, avec un bâti de haute performance langage de programmation appelé q, est le mieux placé pour travailler efficacement avec les données de séries chronologiques. kdb+, et notre Kx suite de produits intégrés sur kdb+, ont été les technologies de choix pour l’industrie des services financiers à grande échelle, critique de négociation des applications et des applications de la recherche depuis plus de 20 ans.”

Kulkarni a souligné l’échelle, performance, fiabilité, facilité d’utilisation, et SQL:

“TimescaleDB échelles à 100 to avec performant requêtes (c’est à dire, les requêtes qui peuvent pouvoir un véritable tableau de bord en temps). Il hérite de la fiabilité et de la facilité d’utilisation de PostgreSQL. Et est toujours le seul open source de série de temps de la base de données à l’appui de l’ensemble du SQL, ce qui est important non seulement pour l’utilisateur final, mais aussi pour que l’utilisateur de partager des données à l’échelle de l’organisation.”

digital-transformation.jpg

L’intégration et out-of-the-box support pour les fonctionnalités pour créer des applications sur certaines exigences clés de série de temps de traitement. Image: Getty Images/iStockphoto

Sidhu estime qu’il existe trois principales exigences pour le traitement des données de la plateforme pour l’Ido:

“Tout d’abord, il doit être conçu pour le temps réel. L’ido et les données du capteur est sans pitié et en temps réel le volume est élevé. La plate-forme doit fournir des fonctionnalités pour identifier les tendances, prédire l’avenir, les systèmes de contrôle, et d’obtenir de l’information sur ce flux de données en continu pour fournir la valeur de l’entreprise en temps réel.

Les données doivent être disponibles et queryable dès qu’il est écrit, permettant la construction de l’auto-guérison et de lumières dynamiques d’automatisation.

Deuxièmement, elle doit être biaisée pour l’action. La surveillance de base est trop passive pour l’Ido, qui exige la présence d’un type de données pour vous donner bonne observabilité dans vos systèmes. Vous ne pouvez pas gérer ce que vous ne comprenez pas, et la combinaison de données de séries chronologiques et les progrès dans l’apprentissage de la machine et de l’analytique rendre l’automatisation et de l’auto-régulation des actions d’une réalité.

Un IoT système doit être en mesure de déclencher des actions, de réaliser automatiquement des fonctions de contrôle, d’auto-régulation, et de fournir la base pour effectuer des actions en fonction prédictive des tendances.

Troisièmement, elle doit être évolutive. Le monde demande des systèmes qui sont disponibles 24/7/365 et peut automatiquement à l’échelle en haut et en bas en fonction de la demande. Ils doivent pouvoir être déployées à travers les différentes infrastructures sans trop de complexité.

Ils ont besoin de faire une utilisation optimale des ressources, par exemple en ne gardant que ce qui est nécessaire dans la mémoire, la compression de données sur le disque si nécessaire, et le déplacement de moins de données pertinentes pour le stockage à froid pour une analyse ultérieure. Ils doivent traiter avec des millions de points de données par seconde.”

Le temps de la série de base de données et dans le monde: de l’intégration et de fonctionnalités

Quelles sont les autres options pour la série de temps de traitement? Corcoran a dit qu’ils ont vu un grand nombre de technologies d’aller et venir au cours des dernières années, y compris NoSQL et Hadoop-applications, mais la plupart de ces solutions fonctionnent mal avec les séries chronologiques de données à grande échelle.

Kulkarni a également reconnu il ya beaucoup d’options aujourd’hui de stocker des données de séries chronologiques. Certains d’entre eux, comme les entrepôts de données et des lacs, dit-il, sont construits pour l’échelle, mais au détriment des performances. D’autres, il a ajouté, d’une échelle, mais le sacrifice de la fiabilité ou de la facilité d’utilisation pour y arriver.

Aussi: Big data architecture: Naviguer dans la complexité TechRepublic

Sidhu a noté qu’ils ont vu les implémentations de SQL et NoSQL magasins de données, tels que Cassandra, MongoDB, et HDFS. Mais il est allé à ajouter qu’ils sont tous trop à usage général pour gérer les exigences uniques du nouveau type de haut-volume, flux de données émis à partir de capteurs.

Lorsque les opinions partie des moyens est sur le langage de requête. En effet, le langage de requête est une fonctionnalité importante pour toute base de données. Alors que Corcoran a noté comment kdb+ langage de programmation permet aux utilisateurs d’effectuer une analyse puissante sans avoir à écrire beaucoup de code, Kulkarni a souligné le soutien pour la géo-spatiale de données et SQL. InfluxDB a son propre langage de requête, InfluxQL.

whysql.png

Comme dans toute autre base de données, langage de requête est un aspect important de la série chronologique des bases de données.

Un autre point important est l’intégration, et out-of-the-box ” pour des fonctionnalités qui aident à la construction d’applications, telles que la détection d’anomalies. Kulkarni a noté que TimescaleDB ressemble PostgreSQL sur l’extérieur, mais est conçu pour des séries chronologiques à l’intérieur:

“Cela signifie que tout ce qui fonctionne avec PostgreSQL va travailler avec TimescaleDB hors de la boîte. Cela comprend les connecteurs pour Apache Kafka, Apache Spark, Tableau, et beaucoup plus. Parce que l’utilisation et l’exploitation de TimescaleDB est juste comme PostgreSQL, il est facile de construire une variété d’applications sur le dessus.”

Corcoran noté kdb+ a open-source les interfaces et les plugins les plus couramment utilisés solutions de messagerie, y compris Kafka et de la bougie, et propose également des pilotes les plus populaires de la statistique et de la modélisation des produits tels que R, Matlab et Python:

“Kdb+ est connu pour sa capacité à capturer, analyser et stocker à haute fréquence des données de séries chronologiques, par exemple à partir de milliers de Tes capteurs, l’exécution d’algorithmes en temps réel afin de comparer les données en continu avec l’historique des instantanés pour la détection d’anomalies.”

Sidhu mentionné Telegraf, InfluxDB open-source de plugin technologie qui peut source de métriques et d’événements à partir de plus de 200 types de points de terminaison: “DBs, les journaux, le réseau les statistiques, le système de stats, etc. Facilement les bouchons dans Kafka – et de susciter des sources, ainsi que des flux de données dans InfluxDB pour l’ingestion et des analyses et d’alerte,” Sidhu dit.

L’avenir de la série chronologique des bases de données

C’est tout beau et du bien, mais si le temps de la série le stockage et le traitement est donc important, cela pose également la question suivante: le temps de la série de systèmes de traitement ont un avenir de leur propre, ou vont-ils finissent par devenir une partie de l’offrande de toutes les bases de données et systèmes de traitement des données, comme nous nous dirigeons vers des applications en temps réel?

Aussi: Que faire quand le big data devient trop grande TechRepublic

En d’autres termes, le temps de la série des bases de données éventuellement être absorbée par d’autres fournisseurs, comme notre ZDNet co-facteur Tony Baer a prédit qui va se passer avec GPU bases de données par exemple?

“Comme nous nous dirigeons vers plus de systèmes en temps réel, le temps de la série de traitement deviendra de plus en plus courant, et de plus en plus central pour les applications. Avoir la capacité de combiner des séries chronologiques de données avec d’autres types de données seront vital,” dit Corcoran, lorsque demandé.

opera-snapshot2018-09-27124209db-engines-com.png

Le temps de la série les bases de données sont à prendre de l’élan. Mais combien d’entre eux peuvent avoir un avenir de leur propre? Image: DB-Moteurs

Sidhu a souligné la hausse des intérêts sur DB-Moteurs de suggérer que le temps de la série les bases de données sont là pour rester et gagner en popularité:

“Cela s’explique par le passage à l’instrumentation en physique et monde virtuel. L’histoire regorge d’exemples de nouvelles technologies et plates-formes en cours de création en raison de l’évolution des charges de travail.

Des bases de données classiques ont pas encore été adaptées afin de soutenir correctement les données de séries chronologiques à la base. L’ajout d’horodatage des données de soutien aux plates-formes existantes ne seront jamais fournir l’évolutivité et la facilité d’utilisation nécessaire pour ces nouvelles applications.”

Kulkarni croit que toutes les données sont fondamentalement les données de séries chronologiques, et que la base de données et de traitement des données de marché finira par être absorbé par le temps de la série des outils d’analyse:

“Cela peut sembler fou au premier abord, mais si vous pensez à ce sujet, chaque point de données est un timestamp et l’analyse de données dans l’ensemble de ces horodatages vous permet de voir comment vos données sont en train de changer. En d’autres termes, le temps de la série est de la plus haute fidélité de données on peut capturer. Donc, si vous n’êtes pas stocker les données dans ses premières séries chronologiques format, vous lancez des informations précieuses à l’écart”.

C’est une déclaration audacieuse, en effet. Pour notre part, notons que seulement quelques entrées dans la liste des bases de données des fournisseurs commerciaux et de soutien derrière eux. Beaucoup d’entre eux sont des projets open source.

Aussi: Comment construire une architecture d’entreprise pour votre big data TechRepublic

Alors que, souvent, ces projets sont le résultat d’années de développement, le fait que la majorité ne semble pas avoir entités commerciales derrière eux peut être un indicateur de la marge de ce marché, en vue de la croissance indépendante. En tout cas, la série de temps de traitement est ici pour rester. Exactement comment il va se dérouler? Seul le temps le dira.

Précédente et de la couverture liée:

Il n’est pas un rôle pour les IA ou les données de la science: c’est un effort d’équipe

“Comment quote-to-cash travaux dans un ERP n’est pas quelque chose que vous pouvez enseigner à un data scientist dans deux jours.”

IA: Le point de vue du Chef du Bureau de la Science des Données

Il est difficile d’obtenir des données scientifiques où vous en avez besoin. Et si vous êtes à la gestion d’une IA de projet, mieux vaut être prêt pour la manipulation des cibles en mouvement. Ces sont quelques-uns des résultats d’une enquête de chef de données scientifiques et d’analyse des agents que nous avons récemment conclu.

La connaissance des graphes au-delà de la hype: de la connaissance et de sortir des graphiques et des bases de données

Quels sont exactement les connaissances graphiques, et ce avec tout le battage médiatique à propos d’eux? Apprendre à distinguer l’exagération de la réalité, la définition de différents types de graphiques, et de choisir les bons outils et base de données pour votre cas d’utilisation est essentiel si vous voulez être comme les Airbnbs, des Amazones, Googles, et LinkedIns du monde.

Que faire avec ces données? L’évolution des plates-formes de données dans un post big data monde

Leader d’opinion Esteban Kolsky prend sur la grande question: Qu’en sera-plates-formes de données maintenant que les grandes données du battage médiatique est plus et le big data “solutions” sont à portée de main?

Articles connexes:

Le passé, le présent et l’avenir du streaming: Flink, une Étincelle, et le gangHortonworks dévoile la feuille de route pour rendre Hadoop sur le cloud nativeArcadia de Données apporte une requête en langage naturel pour les données lakeThis de démarrage pense qu’il sait comment faire pour accélérer l’analytique en temps réel sur des tonnes de données

Rubriques Connexes:

Big Data Analytics

L’Innovation

CXO

L’Intelligence Artificielle

Des Logiciels D’Entreprise

De stockage

0