Apple, Alibaba, Amazon, og den bande fremme state of the art i AI og Viden Opdagelse med Grafer

0
114

Udnyttelse af evolution med AI
Tonya Hall og Dr. James Felt, grundlægger og CEO for LabGenius, snak om processen med at udnytte udviklingen i kraft af AI til at oprette brugerdefinerede DNA-molekyler.

Anchorage er måske ikke den mest vel-tilsluttet placering i verden. Men da det viser sig, når mennesker, og data er godt tilsluttet, kan følge. Ankerpladsen var vært for SIGKDD ‘ s Konference om Opdagelse af ny Viden og Data Mining i 2019 eller KDD som det er almindeligt kendt. Konferencen er organiseret af the Association for Computing Machinery (ACM)’s Special Interest Group on Opdagelse af ny Viden og Data Mining (SIGKDD).

KDD er en af de mest kendte og populære begivenheder for data videnskab og AI, der tiltrækker omkring 3.500 forskere i 2018 i London. Selv om beslutningen om at være vært KDD 2019 i Anchorage forårsaget nogle bekymringer, deltagelse ikke rigtig slip.

25 inkarnation af KDD var en “hvem er hvem” i data videnskab og AI. KDD blev sat op af folk, der har været i data videnskab og AI, før de fik deres nuværende monikere, og tiltrak stor opmærksomhed.

KDD er et mødested for forskning og industri. Mennesker, der viser deres arbejde i KDD ofte gå gennem de roterende døre, med nogle af dem iført begge hatte på samme tid. Sag i punkt, KDD anvendt data videnskab inviterede foredragsholdere spor, med data forskere fra kan lide af Airbnb, Alibaba, Amazon, Apple, Facebook, Google, NASA, LinkedIn og Microsoft.

Målet var at invitere meget indflydelsesrige talere, der direkte har bidraget til en vellykket data mining programmer inden for deres respektive områder. Ser man på de emner, som er udvalgt af de højttalere, samt KDD sag, et tema, der er begyndt at dukke op.

En af de ting, der synes at være top of mind, for disse mennesker er at flytte grænserne for dyb læring. Denne form for machine learning har opnået store resultater i de sidste par år. Mange AI-forskere mener, dybt at lære på egen hånd, vil aldrig blive meget mere end sofistikeret mønster anerkendelse: Great for facial anerkendelse eller oversættelse, men det korte af sand intelligens.

Apple integrerer domæne viden i dyb læring

Ruslan Salakhutdinov, direktør for AI forskning på Apple og professor i datalogi på institut for machine learning på Carnegie Mellon University (CMU), fokuserer på dette emne i sin præsentation: Integration af Domæne Viden i Dyb Læring.

Den præsentation, der er baseret på Salakhutdinov noter fra CMU, undersøgt måder at indarbejde domæne viden inden for machine learning model arkitekturer og algoritmer. Tre klasser af domæne viden blev taget i betragtning: relationel, logisk og videnskabelig viden.

Logisk viden refererer til det, der er formelt kaldet propositionelle og første-ordens logik, eller i enkle vendinger, rule-based reasoning: E. g., hvis et objekt har en vinge og et næb, det er en fugl. Den videnskabelige viden, som Newtons Love for Bevægelse, der er kodet i mere komplekse måder, som delvis og stokastiske differentialligninger.

Relationel viden refererer til enkle relationer mellem enheder, såsom (far, Bob, Alice). Denne type af viden er tilgængelig via relationelle databaser eller viden grafer. Det kan være den enkleste, i forhold til en logisk og videnskabelig viden, men som ikke gør det enkelt at optage i machine learning.

En del af Salakhutdinov ‘ s præsentation med fokus på læseforståelse og natural language processing (NLP). Den nuværende state of the art i NLP kombinerer teknikker, der handler om ustrukturerede data (tekst) med teknikker til at omdanne det til strukturerede data (viden grafer).

Embeddings er en af de teknikker, der oprindeligt blev anvendt til teksten, nu også udvidet og tilpasset til grafer. Ideen i embeddings er at repræsentere en højere-ordens struktur, som machine learning algoritmer ikke kan behandle direkte, til en lavere orden, vektor struktur, som kan bruges af machine learning.

Der er mange måder at gøre dette på, men i sidste instans i teksten, som i grafer, målet er at kortlægge tilsvarende indgange til samme vektor af værdier. Arbejde, der er præsenteret i KDD af IBM ‘ s Forsknings-og Huawei var beregnet til at rykke state of the art i grafen embeddings.

Alibaba bygger en samlet graf neurale netværk platform

En anden oplægsholder for KDD var Hongxia Yang, Ledende Medarbejdere Data Forsker og Direktør i Alibaba-Gruppen. Yang ‘ s præsentation fokuseret på AliGraph, en Omfattende Graf Neurale Netværk Platform.

Som nævnt i Alibaba ‘ s arbejde, et stigende antal af machine learning opgaver kræver beskæftiger sig med en stor graf datasæt, som opsamling rige og komplekse relationer blandt potentielt milliarder af elementer. Graf Neurale Netværk (GNN) blevet en effektiv måde at håndtere den graf læring problem.

GNNs er neurale netværk, der opererer direkte på Grafer. En typisk anvendelse af GNN er node klassifikation: Hver knude i grafen er forbundet med en etiket, og målet er at forudsige label af de knuder uden grund-sandhed. At arbejde med GNNs, data forskere først nødt til at konvertere grafik til adjacency matricer, holder både strukturelle og ejendom information intakt så meget som muligt.

media-users-user-38794-project-341526-images-x2.png

Alibaba har bygget AliGraph, en Omfattende Graf Neurale Netværk Platform, der giver det mest avancerede infrastruktur for at køre graf-baserede dyb læring applikationer. Billede: Alibaba

Men, der giver effektiv graf opbevaring og beregning kapaciteter til at lette GNN uddannelse og muliggør udvikling af nye GNN algoritmer er udfordrende. Yang præsenteret AliGraph, en omfattende graf neurale netværk-system, som består af distribuerede graf opbevaring, optimeret prøvetagning operatører, og runtime.

Systemet er i øjeblikket udstationeret på Alibaba at støtte en bred vifte af erhvervs-scenarier, herunder produktvalg og personlig søgning på Alibaba ‘ s E-Handel platform. Det kan være en effektiv støtte ikke kun eksisterende populære GNNs, men også en serie af in-house udviklede lande for forskellige scenarier.

Forsøg på en real-verden datasæt med 492.90 millioner vertices, 6.82 milliarder kanter, og rige attributter vis AliGraph til at udføre en størrelsesorden hurtigere end eksisterende arbejde i form af grafen bygning: Fem minutter mod timer rapporteret fra state-of-the-art PowerGraph platform. På uddannelsen, AliGraph kører 40% til 50% hurtigere og viser omkring 12-gange hastighed op med den forbedrede runtime.

Alibaba bruger graf partitionering, separat oplagring af attributter og caching naboer vigtige vertices til at overvinde udfordringer for effektiv graf adgang, især i et distribueret miljø af klynger. Denne meget tætte arbejde skitserer fremtidige retninger i at forfølge GNNs med mere nøjagtighed, hurtighed og nøjagtighed, og tilføjelse af Auto-ML funktionalitet.

Meget af ovenstående kan lyde temmelig eksotiske. Eksotisk eller ikke, men deres virkninger, når det bruges i den virkelige verden, er ret signifikant. AliGraph betyder, at Alibaba synes at i øjeblikket har den mest avancerede infrastruktur for at køre GNN-applikationer. GENER betyder, at Amazon kan identificere vigtige knudepunkter i sin viden graf bedre end nogen anden.

Apple ‘ s ambitioner om at integrere forskellige typer af viden i dyb læring kan betyde, at de er de første til at fremme indførelse af dyb læring og symbolske AI længere end nogen anden. Og listen slutter ikke her-fra visionære rammer, ligesom Apple ‘ s til mere use-case-orienterede programmer.

Snapchat er at bruge en Handling Graf med at beskrive og forudsige brugernes engagement. Baidu er ved hjælp af en viden graf af job kvalifikationer, Dygtighed-Graf, der er bygget til omfattende modellering af de relevante kompetencer, der skal vurderes i jobsamtaler. Alibaba, igen, skaber personlig produkt beskrivelser kombinere neurale netværk og den Kinesiske DBpedia knowledge base.

Hvem ville have troet: Viden-baserede R&D i Kina vil regere verden

I en nøddeskal, graf-og viden-baseret forskning og udvikling er i kraftig vækst. En hurtig optælling i KDD ‘ s sag er at fortælle. Mere end 300 artikler er en masse, og vi havde kun en overflødig kig på et par, der har fanget vores øje. Men omkring 20% af de 300+ publikationer, der synes at inddrage grafer og videnbaserede systemer.

Der var noget andet, der også vakt vores interesse: den rigdom af bidrag fra Kina. Ikke blot Kinesiske organisationer, hvoraf vi har nævnt ovenfor, men også Kinesiske forskere i ikke-Kinesiske organisationer. Dette synes at bekræfte ekspert udtalelser: Kina er i hastig vækst i AI, for, og er indstillet til at blive Nr 1, hvis det ikke allerede er.

En ting mere, vi bemærkede, dog næppe original: samspillet mellem forskning og industri. Som vi bemærkede tidligere, meget af det arbejde, der blev offentliggjort i KDD var en fælles indsats, der involverer forskning og industri. Og mere ofte end ikke, at forskere enten hoppe skib til industri-eller arbejde i både forskning og industri. På den ene side, denne strimler forskning af sit talent, og på den anden, det bringer etos og stringens til industrien.

Disse tendenser deler en fælles egenskab: De ikke synes meget sandsynligt, at forekomme, for de fleste mennesker, blot et par år tilbage. Hvem ville have troet: Viden-baserede R&D i Kina ser ud til at regere verden.

Big Data

Den subtile kunst af virkelig store data: Rekursion Pharma kort kroppen

Data og AI marked landskab 2019: Den næste bølge af hybrid opstår

Digital transformation: Hvordan en bank er ved hjælp af AI, big data og chatbots til at skabe nye services

Hvordan data management arbejder på NASA (ZDNet YouTube)

Opsætning af din nye iPhone har aldrig været nemmere end dette (CNET)

Data forskere: Tjener den højeste løn i disse 5 byer (TechRepublic)

Relaterede Emner:

Innovation

Digital Transformation

CXO

Tingenes Internet

Virksomhedens Software

Intelligente Byer