Snel, Microsoft partner op real-time analytics met Azure Data Explorer

0
104
adx-query.png

Een Azure Data Explorer KQL query, en gevisualiseerd resultaten

Bron: Microsoft

Snel is een rand cloud platform provider die het zegt, processen ongeveer 10% van alle aanvragen op het Internet. Azure Data Explorer (ADX — voorheen project “Kusto”) is een op de cloud gebaseerde big data analytics-platform van Microsoft. ADX is nog steeds in public preview, maar Snel heeft toch samen met Microsoft om het creëren van een klantgerichte oplossing voor real-time analyse op de high-volume click-stream gegevens, gebaseerd op de ADX.

Ik had al vertrouwdheid met Azure Data Explorer, maar een gesprek met Lee Chen, Snel het Hoofd van de Strategische Partnerschappen (en haar voormalige Hoofd van het Product), heeft mij geholpen te begrijpen waarom de Snel-ADX oplossing is innovatief. Ook de achtergrond hielp me begrijpen beter wat ADX zelf is alles over. Dat was erg nuttig inzicht, omdat, om eerlijk te zijn, de Azure Data Explorer naam — en de dienst marketing zo ver — kan laten klinken als een generieke analytics biedt.

Wat het is en wat het kan

ADX is niet een generieke service al, ondanks de naam. Het werkt met de gegevens snel, maar het is geen streaming data platform per se –de Azuurblauwe Evenement Hubs dienst neemt aan dat de werkbelasting, zoals Azure, HDInsight Kafka clusters. Zoals weergegeven in de afbeelding op de bovenkant van deze post, ADX maakt ook het opvragen en bekijken van de gegevens met een SQL-achtige taal genoemd KQL (Kusto Query Language). Maar ADX is niet een streaming analytics of data visualisatie platform of — Azure Stream Analytics, Azure Databricks en de Kracht van BI in dienst genomen.

Integendeel, ADX zet samen met deze mogelijkheden, samen met de tijd-serie analytics-functies voor het uitvoeren van query ‘ s over enorme hoeveelheden gegevens — met response tijden vergelijkbaar met die van een BI-platform over kleine relatief kleine datasets. Microsoft beweert dat ADX kan “query miljarden records in seconden.” En Microsoft zelf gebruikt ADX om de macht van de Azure Monitor en Azure Tijd Serie Insights services.

Deze mogelijkheden stellen Fastly, die verzamelt al die gegevens aan de rand van de locaties over het Internet, te laat klanten graag Taboola het analyseren van hun data in de buurt van real-time, of zo veel als de voorafgaande 7 (binnenkort 30) dagen van historische gegevens. Dit is geen geringe prestatie, gezien het feit dat Taboola genereert 22 miljard records van de rand van levering logs — 17 TB aan data — per dag. Ondanks deze data volumes, Snel op de levering van alle log-gegevens in real-time vanaf de rand van het netwerk rechtstreeks naar de Azure Blob Storage, gecombineerd met ADX-functie is ingesteld, laat de oplossing monitor site performance en problemen op te lossen als ze zich voordoen.

Wat het betekent

Microsoft biedt goede detail op de ADX/Fastly oplossing in een blog post. Taboola beschrijft de oplossing in zijn eigen post. Eerlijk gezegd, beide posten zijn meer dan een beetje promotie. Maar afgezien van de marketing, zijn er een aantal interessante afhaalrestaurants van deze oplossing. Ten eerste, de combinatie van een kolom-opslag en indexering (beide worden uitgevoerd door ADX) kan verbluffende resultaten opleveren. Ten tweede, tijdreeks analyses op echt big data kan eigenlijk eenvoudig.

Maar private oplossingen zoals ADX nodig om er te komen. Terwijl je zou kunnen tekenreeks samen een oplossing op maat-aan de hand van de wil van, zeg, Apache Kafka en de Vonk Streamen onderdeel van Apache Vonk — dergelijke oplossingen zal gepaard gaan met veel complexiteit en vereisen een verscheidenheid van vaardigheden, plus een actief beheer op de schaal van de infrastructuur, als dat nodig is. Maar ADX kunnen worden geleverd op aanvraag, automatisch geschaald en vaardigheden-wise, het vergt weinig meer dan het leren van de query taal. De opgegeven waarde is er enorm. En omdat de bron gegevens kan leven in de cloud storage, het is nog steeds de vraag-in staat van open source technologieën zoals Hadoop en Vonk.

Lock-in, of rock?

Uiteindelijk, als je doet alles met open source-oplossingen, uitgevoerd in Kubernetes clusters, hebt u veel van de overdraagbaarheid van de publieke clouds en in corporate datacenters. Maar time-to-market/waarde en het succes van een project kan veel meer uitdagend, puur open source oplossingen. Dit kristalliseert de data in de cloud analytics trade-off. Ariel Pisetzky, VP Information Technology in Taboola zei: “Azure Data Explorer, samen met een Hard real-time logging, die beter presteert dan de vorige oplossing met een snellere update-tijd en een intuïtieve interactieve interface. Plus, het was zo eenvoudig dat we up and running in een week, inname en het analyseren van 17 TB data per dag.”

Dat de calculus niet zal werken voor iedereen, dat wel. Je team zal moeten wegen gemak van implementatie vs. lock-in zorgen en kies een oplossing. Geen kwestie wat, maar het is goed om te weten dat de cloud en nieuwere gegevens technologieën zetten oplossingen, zoals de Fastly een binnen handbereik.

Verwante Onderwerpen:

Cloud

Digitale Transformatie

Robotica

Het Internet van Dingen

Innovatie

Enterprise Software