Noll

Big Data välta ekonomi och arkitektoniska metoder för enterprise data warehouse-genom att inte bara göra det kostnadseffektivt att lagra och behandla mer data och mer varierande former av det, men också att främja nya mönster som trycks analytics datorer och data tiers tillsammans.
Nu molnet är föranledde en förändring av pendeln tillbaka på andra sätt. Genom att frikoppla data från compute cloud Big Data-tjänster dra nytta av objektet lagring, vilket är mycket billigare än HDFS fil lagring och beräkning kan göras elastisk. Medan Amazon EMR ger kunderna möjlighet att använda HDFS, mest EMR kunder har anammat S3. Nyligen, Amazon kund FINRA samarbetat för att hamnen AWS är HBase service till S3.
Men paradoxalt nog, få ett datalager har fullt utnyttjat moln arkitektur. Medan Snöflinga har att leda reda på framsidan med en elastisk data warehouse, Amazons egna Rödförskjutning har tills nyligen uteslutande förlitat sig på lokala lagring. Resonemanget är att cloud object storage är inte optimerad för den typ av prestanda som full-blooded databaser leverera, eftersom data är optimerad för hållbarhet snarare än tillgänglighet.
Icke desto mindre, även om cloud lagring var inte utformad för prestanda eller tillgänglighet, det är ekonomiskt och praktiskt. Med flera nya erbjudanden, Amazon nu gör S3 tillgängliga för sökning med eller utan hjälp av Rödförskjutning. Athena är en serverlösa erbjudande som låter dig köra SQL-frågor för (att använda Presto distribueras motorn) för att fråga S3, medan Rödförskjutning Spektrum behandlar S3 som externa tabeller för en sammanslagen fråga strategi.
Dessa erbjudanden fungera fint om du använder AWS, men vad händer om du arbetar i hybrid-läge, med dina mest känslig personlig information data på lokaler och data från mindre känsliga källor lagring och köra i molnet? Det är den möjlighet till vad vi brukade kalla data integration middleware för att gå in i strid.
Ange Alation, som erbjuder en katalog för data sjöar som är byggd med hjälp av crowdsourcing, behandling av naturligt språk, och lärande tekniker för att hjälpa användare att upptäcka och optimera hur de fråga big data. Till exempel, Alation låter användare söka via vanlig verksamhet det gäller att hitta rätt bord eller ämnen, och optimerar sedan byggandet av SQL-frågor för att få data. Alation redan sökningar Kupan, och har integration med Microsoft för att optimera sammanslagen fråga till Hadoop, och med Trifacta för att samordna katalogisering och data gräl (även känd som data preparation).
Denna vecka, Alation är att lägga direkt tillgång till Hadoop HDFS filsystem, Amazon S3 moln lagring, och Kylo data sjön management open source-projekt utvecklat Teradata ThinkBig konsultverksamhet. Och som kommer ovanpå senaste stöd för KSQL, SQL-gränssnitt nyligen öppen källkod av Utväxta för att göra Kafka Strömmar tillgänglig för SQL-utvecklare.
Den gemensamma nämnaren bakom dessa tillägg är att de öppnar sig tillgång till uppgifter som tidigare hade krävt högre duktiga utvecklare med hjälp av programmatiska strategier via Java eller någon av maskinen för att lära sig språk som Python eller R. För oss, S3 tillkännagivandet är den som sover; men som en data-katalog, Alation överlappar med Amazon Lim, det ger en bro till hybrid miljöer för externa frågor som spänner över S3 på förutsättningen kluster. Medan Alation saknar ETL kapacitet av Lim, det kan ge en gemensam bild som spänner över molnet och på lokaler kluster, för att inte nämna den högre nivån SQL-gränssnittet saknar KSQL.
Det är en av de bitar som gör det möjligt för organisationer att utnyttja den bekvämlighet och ekonomier av moln lagring (och räkna) utan att behöva köra alla sina data sjön i molnet.
0