Uber graf ekspert bærer ar af milliarder af ture

0
115

Uber er i Mellemøsten for at blive, køber vigtigste rival
Uber erhverver Mellemøsten ride-signalsystemet service Careem i $3.1 millioner aftale.

“Jeg har virkelig prøvet at forestille mig, hvis jeg deltog i denne konference for to år siden, hvad slags tyve minutters tale, ville have været mest værdifuld,” sagde Josua Shinavier, en forsker ved ride-deling giant Uber.

“Jeg valgte et lidt andet format, mindre af en teknisk snak,” konkluderede han. Og der kom masser af praktiske erfaringer fra håndtering af tonsvis af data på Uber.

Tale onsdag morgen i løbet af dag to af en to-dages konference om “viden grafer,” hosted ved Columbia University ‘ s School of Professional Studies, Shinavier fælles indsigter om, hvordan du bruger håndholdte værktøjer til at styre enheder og relationer til de enorme data management opgaver på Uber.

Hans tale, besluttede han, ville være lidt mindre tekniske, fordi selv om mange mennesker kender “graf query sprog,” fokus i hans diskussion blev i stedet, hvordan der er “en masse organisatoriske udfordringer” i opbygningen af en graf i et firma.

Også: Viden grafer ud over den hype: at Få viden i og ud af kurver og databaser

Omfanget af data, i dette tilfælde, er ganske stort. Shinavier beskrevet, hvordan Uber har 200,000 enkelte “managed data sæt,” og det efter at have passeret “ti-millioner-tur” – mærket i rides serveres sidste år, at selskabet er på en daglig basis samle “lav-tusindvis af enheder”, der er nødt til at være inkluderet i sin viden graf.

Shinavier sætte op en slide som viser et glas vand, som selvfølgelig dukkede op enten er halvt fuldt eller halvt tomt. Hans mening var at opfordre sine kolleger data forskere til at prøve kræfter med virkeligheden. “Virkelige data er rodet,” sagde han, “men faktum er, at hvis du ønsker at opbygge en virksomhed, viden graf, du er nødt til at beskæftige sig med det.”

Eller, sagt på en anden måde, “livet giver dig citroner, og tusindvis af skemaet, og du er nødt til at behandle.”

Data er rodet på grund af de ting som Uber drivere manuelt at indtaste data i deres telefoner, bemærkede han.

uber-graph-theory-talk-may-8th-2019.jpg

Uber forsker Joshua Shinavier samtaler praktiske spørgsmål af viden grafer på Columbia University School of Professional Studies Viden Graf Conference, 8. Maj 2019.

×

uber-graph-theory-talk-may-8th-2019.jpg

Blandt kloge ord til publikum, Shinavier bemærkes, at “ingen kan virkelig godt lide RDF,” database query sprog, der bruges til at hente struktureret information, “det er hårdt at sælge.” Hans rådgivning, hvis du ønsker at bruge RDF: “Enten marshal alle de argumenter du kan til fordel for det, eller andre gør det diskret, hvilket er, hvad jeg gjorde,” han tilstod, at fremkalde megen latter fra publikum.

En anden lære blev til “pas på den hype cycle”, fordi “viden grafer er masser af andre ting under et andet navn,” sagde han, plejer at lægge på plads, fordi, “der er Nogen i ledelsen fik fejlen [for grafer], og hyrer en flok af mennesker” til at gå ud og gøre dem.

Første skridt, sagde han, i at udvikle en viden graf, der indebærer oprettelse af “en form for system til et fælles ordforråd,” sagde han, og tilføjer: “det er meget vigtigt for mig.”

Også: Salesforce Forskning: Viden grafer og machine learning til magten Einstein

Uber gjort mindre brug af off-the-shelf værktøjer til grafer, fordi der er en masse dedikeret infrastruktur og dedikerede teams i virksomheden, både som bør tages fordel af, sagde han.

En anden perle af visdom, var til at “passe data model til data,” fordi data kan være temmelig enestående i en given virksomhed. For eksempel, “de Fleste af vores data er ikke i form af en ejendom graf — det er i relationelle skemaer — vi havde brug for noget, der passer til det,” sagde han. “Du er nødt til at beskæftige sig med alarmer og meddelelser, og vandringer og andre ting….”

Shinavier raslede ud af nogle tekniske detaljer, som tre-lag-kage af den viden grafen på Uber. Et niveau er en “OLTP graf”, der gør brug af open-source Cassandra data butik. Så, der er en anden plan, en “analytics-baseret graf”, der bruger Hadoop-fil system, med Cypher og Apache Gnist. Og for det tredje, at der er “graf embeddings,” men han tilføjede hurtigt, “spørg mig ikke for meget om grafen embeddings, det er ikke mit område.”

Da han kom til den side, der er mærket “Risiko og Sikkerhed Knowledge Graph,” det var med vilje efterladt tom “for at gemme entropi,” i betragtning af, at, som Shinavier sagde, “der er sådan en ting som er dårlige skuespillere, der er ikke dum”, hvilket betyder, at mennesker, der kunne få ideer til fortræd.

Blandt de aktuelle udfordringer på Uber er nødt til at have solide politikker til at beskytte privatlivets fred for brugerne af data, især i lyset af den Europæiske “GDPR” lovgivning om privatlivets fred. Men, ting er vanskelige, fordi “det er temmelig svært at definere” hvad der udgør data, der skal holdes privat, sagde han. “Slutning er forpligtet til at vide, om det er brugeren af data, der skal beskyttes,” sagde han.

Skal læse

Hvad er AI? Alt hvad du behøver for at knowWhat er dyb læring? Alt hvad du behøver for at knowWhat er machine learning? Alt hvad du behøver for at knowWhat er cloud computing? Alt, hvad du behøver at vide

Afrunding ud af hans tale, Shinavier rørt kort på “de sjove ting”, der foregår på Uber, som er noget, der hedder “algebraiske ejendom grafer,” der trækker på sæt teori og kategori teori. Indsatsen er at danne en “fælles datamodel for RPC, opbevaring og viden repræsentation” på Uber. Det er på linje med en W3C forsøg på at definere “ejendom graf skema” og også ved at blive udviklet med øje for noget, der hedder “Universal Struktur” af Apache TinkerPop4 projekt. TinkerPop er en computing ramme for graf databaser.

At arbejdet er planlagt til udgivelse i en kommende papir, sagde han.

I Q&A, der fulgte Shinavier ‘ s tale, blev han spurgt, om det er bedre at starte med infrastrukturen, før indsamling af data, eller hvis det er bedst at indsamle data og derefter bygge. Hans svar foreslog begge måder havde fortjenester. Det er bedst at indsamle data først, og derefter tune infrastruktur, der passer til det, var hans første svar på spørgsmål. Men så tilføjede han, at det ikke var en dårlig idé at oprette en solid infrastruktur på forhånd.

Uber er sat til at gå forbudt på New York Stock Exchange denne fredag.

Arbejder du med viden grafer i din virksomhed? Lad mig vide hvad du synes dem i kommentarfeltet.

Kunstig Intelligens

MIT endelig giver et navn til summen af alle AI-frygt

Grunden til, at virksomhederne bliver nødt til at revidere algoritmer, AI og hensyn til risiko

Microsoft er klar AI-drevet Azure digitale rentegning service

Vodafone tegn fem-årig aftale med IBM om cloud, analytics og AI

Facebook: Nye AI-tech pletter hadefuld tale hurtigere (CNET)

16 bøger om AI, robotteknologi og automatisering (TechRepublic)

Relaterede Emner:

Big Data Analytics

Digital Transformation

CXO

Tingenes Internet

Innovation

Virksomhedens Software