Neo4j en NASA: Wanneer de grafiek database technologie is echt rocket science

0
177
nasa-orion-2.jpg

Doel Mars: NASA ‘ s Project Orion wordt geholpen, samen met de grafiek-technologie van Neo4j.

NASA: September 23, 2009 LAS CM Padvinders Verticale paren

NASA heeft met behulp van grafiek database technologie van Neo4j te helpen met het inventariseren en betekenis van de berg van technische kennis gegevens die space agency heeft verzameld over de afgelopen 60 jaar.

Een van de manieren waarop Neo4j is gebruikt in de ontwikkeling van de oprichtende arm van statische stabiliteit mechanisme op het Orion ruimtevaartuig. Deze essentieel onderdeel van de uitrusting is ontworpen om ervoor te zorgen dat het vaartuig niet de wind de verkeerde weg na een spetterende terug naar de Aarde. Maar de laatste tijd een oprichtende arm van statische stabiliteit mechanisme nodig was, werd in de Apollo programnme en precies hoe het in zijn werk ging verloren in NASA ‘ s kennis berg een lange tijd geleden.

Voer Neo4j, software die is ontworpen voor het extraheren van relevante informatie uit enorme stapels gegevens: het gebruik van het NASA kreeg de informatie nodig is uit de berg in vier uur.

NASA ‘ s chief knowledge architect, David Meza zei dat zonder de hulp die het zou kunnen hebben genomen van twee jaar. ZDNet sprak met hem om uit te zoeken wat hij met behulp van de software voor.

ZDNet: Hoe ben je gekomen om te kijken naar Neo4j?

Meza: Het was enige tijd geleden dicht – op-de-vier-jaar – toen wij het oorspronkelijke besluit. Ik had gekeken naar Neo4j voordat het had zelfs de browser-gebaseerde interface – het was meer een commando-regel interface.

Ik heb altijd al een fan en een gebruiker van het netwerk-type visualisatie – mind mapping en andere dingen die kunnen de verbanden en patronen.

Toen ik over Neo, ik was op zoek naar een toepassing die is meer gericht op hoe ontwikkel je een database die zich meer gericht op een grafiek relatie en grafiek eigenschappen. Dat kreeg ik veel interesse en ik begon te spelen met grafiek technologie.

Ik heb niet echt diep in tot waarschijnlijk een jaar na dat wanneer ze kregen hun eerste web-based interface. Begon ik meer en meer aan werken, want het was een beetje makkelijker voor mij om mensen te laten zien hoe het werkte.

Dat is waarschijnlijk toen ik begon met Neo4j.

Wat trok je aan?

De mogelijkheden die mij toegestaan om te kijken naar de relaties een stuk eenvoudiger, of, in andere woorden, veel meer als een mens kan kijken naar relaties. In staat zijn om patronen te zien rond verschillende soorten knopen, verschillende soorten groepen.Om te zien hoe ze met elkaar verbonden zijn en visualiseren in één beeld, denk ik. En dat doen zonder te verduren en grunt door lange lijsten van documenten.

Kunt u ons een idee van de omvang van de projecten waar je aan het doen waren in termen van aantal variabelen?

Ja, dat was een van de voordelen van graph databases in dit geval Neo4j. Het was vrij gemakkelijk om toe te voegen meer en meer gegevens op de top van het model zonder opnieuw te hoeven structuur van het schema, dat is wat u zou moeten doen in een SQL-type van relationele database. Dit stelt me in staat om mijn model en vervolgens toevoegen aan mijn grafiek-model als ik zie nieuwe onderwerpen of nieuwe verbindingen die ontstaan uit het binnen mijn domein.

U gebruikt dit voor een lange tijd, zodat je weliswaar zijn gebouw op dit moment?

Langzaam. Het hangt af van het domein en wanneer ik verbinding kan maken, zoals de Lessons Learned database. Ik doorgaan met het toevoegen van meerdere documenten wilt dat maar één van de dingen die ik moet doen als ik meer lessen goed is zet ze in de juiste onderwerpen.

Ik ben nu aan het proberen te ontwikkelen van een manier om meer te doen predictive modeling, zodat ik niet opnieuw hoeft in te voeren [database] de hele tijd. Ik kan proberen om te voorspellen waar de volgende groep van de lessen zal vallen in en probeer het toevoegen van meer continuïteit. Als u bekend bent met het onderwerp modelleren, elke keer dat u kunt uitvoeren, gaat u naar een andere set van onderwerpen op basis van de kansen, want het is altijd op zoek naar de waarschijnlijkheid van een woord vallen in dat document.

Dus ik ben op zoek naar een manier om te maken een beetje meer statisch, in de zin dat deze documenten vallen in dat onderwerp en ik ben het toevoegen van meer documenten en ik wil er zeker van zijn dat ze in de rij staan goed.

Met al dat spul in Neo4j of een andere grafiek database is erg behulpzaam, maar dan heb ik ook gewerkt met andere groepen op verschillende soorten domeinen van publicaties van onderzoek onderzoek naar de vergadering van actie-items, op zoek naar wie is toegewezen om te werken aan die acties.

We zijn ook op zoek naar dingen zoals de gewone woorden komen uit de reacties en hoe ze kunnen worden aangepast door verschillende gevoelens. Dit zijn allemaal dingen die we verkennen van een grafiek database perspectief.

Hoe vindt u Neo4j als een hulpmiddel bij het uitvoeren van dit soort projecten? Vanzelfsprekend is het nuttig zijn, maar is het flexibel genoeg voor u?

Nou, het hangt af van het domein of de dataset die ik ben op zoek naar, maar ik werk veel op ongestructureerde data. Ik vind dat over het algemeen heel nuttig, want van de verbindingen die ik aan het doen ben. Maar alles gaat terug naar hoe ik kijk naar mijn gegevens, en hoe ik probeer te extract kennis van die gegevens en gebruik ik een concept waarin ik Kennis van de Architectuur.

davidmezamed-jpg.jpg

Meza: “Kennis van de architectuur is een combinatie van kennis van management, informatica en data science.”

Foto: Neo4j

Dit is een combinatie van Kennis van Management, Informatica en Data Science. Het is de convergentie van deze drie dingen die me in staat stelt te extract kennis van mijn gegevens.

Het Knowledge Management stuk is met de strategie van de verschillende types van technieken en methoden van hoe bewaar ik, het creëren en herkennen van mijn gegevens.

De Informatica stuk is in het kader van de toepassingen die ik gebruik voor het doorsturen van de gegevens naar mijn eind-gebruikers, in dit geval Neo4j.

De data science is hoe ik de groep en cluster en het identificeren van de documenten en eigenlijk krijg je die kennis uit.

In het geval van die lessen die ik van toepassing modellering. Ik heb te maken met het onderwerp modelleren dat ik aan die lessen te kunnen helpen gebruikers vinden van de antwoorden een stuk sneller. Ik gebruik correlatie analyse om aan te tonen documenten die waren gelijk aan elkaar en kunnen krijgen dat de correlatie tussen de verschillende onderwerpen.

Ik gebruik die drie dingen samen om die informatie te krijgen die, op zijn beurt, geeft mij in het geval van Neo4j om een beetje meer robuust in hoe beheer ik presenteren van die informatie voor mijn eindgebruikers.

Is dit Kennis de Architectuur iets dat je ontwikkeld jezelf?

Het is iets dat ik over had gelezen maar ik heb nog nooit tegengekomen dat iemand die gebruik maakt van deze drie dingen. Op Kennis van de Architectuur als u een zoekopdracht op – je vindt sommige dingen, maar de mensen bepalen het anders. Ik heb een man, Tom Reamy, die sprak over het beheer van kennis van het toepassingsgebied van kennis van management en informatica.

Ik vond dat leuk concept, maar ik was op zoek via het, besefte ik dat er iets miste, en dat was de data science stuk. Ik dacht dat we hadden kennis management en informatica, maar we nog steeds geen goede manier om die kennis van die data.

Dus ik opgenomen data science in dat model en gebaseerd op dat model te kunnen expanderen en het bouwen van een mechanisme dat het mogelijk maakt iedereen, afhankelijk van de gegevens die ze hebben, om gebruik te maken van deze concepten en de informatie uit die gegevens.

Werk je met andere mensen of organisaties op dit?

Ik werk samen met andere organisaties om te kijken naar de informatie en de aard van het zoeken naar nieuwe technieken en het integreren van de technieken binnen de kennis architecture framework.

Ik heb gewerkt met mensen als de US Census Bureau, de Federal Reserve en we hebben een groep van individuen hier, dat noemen we de NASA Datanauts – een groep van niet-NASA personen die worden gevraagd mee te doen aan deze groep één keer per jaar voor een samenwerking met het verkennen van de NASA Open Data.

Zij streven ernaar om te komen met verschillende technieken over hoe we kunnen analyseren, te delen en te visualiseren. Ik werk met hen te veel om te kijken naar verschillende manieren om dingen te doen – delen mijn kennis en om wat kennis van hen.

Zodat ik samen met hen en ook werk ik met, en informatie te delen met externe groepen, Ouderling Onderzoek, BASF en Exxon Mobil.

Ik wil proberen om informatie te delen met organisaties en ik doen, althans, te proberen en te delen met mijn publiek beschikbare data.

Ik begrijp dat je met behulp van dit Project Orion. Is dat de enige samenwerking?

Mijn fractie ondersteunt het gehele centrum in het Johnson Space Centre in zekere mate de NASA en een aantal van de andere centra dus iedereen, van elk van de centra, kan komen kijken naar de informatie die we hebben.

Een ingenieur werkt op Orion kan komen kijken naar de Lessen die zijn Geleerd database samen met de ingenieurs van een van de andere projecten.

Wat zijn de volgende stappen?

Een van mijn jongens is het werken aan het verbeteren van de Lessons Learned database hier om te proberen en het verspreid over de diverse Lessen Geleerd databases die wij hebben.

Uit de top van mijn hoofd kon ik de naam van 20 tot 30 databases verspreid over de verschillende centra. Ik ben bezig met een aantal van de andere kennis kantoren van het agentschap om te proberen deze te combineren in een “one shop” gecombineerde Lessen Geleerd.

Mijn huidige grote project nu is om te kijken naar de kennis van de verspreiding van de publicaties die zijn gegenereerd door de onderzoeken vanuit het International Space Station.

Nu uit deze publicaties krijg je niet alleen het onderzoek dat is aangeboden maar ook een aantal materiële vaste items die zijn ontwikkeld. Dingen zoals octrooien of van de software of toepassingen. Ik wil zien hoe die informatie wordt verspreid over de kenniseconomie en zie hoe dat van invloed is niet alleen de academische wereld en het onderwijs, maar ook de industrie en de overheid en het beleid.

Ik wil zien hoe ver dat informatie wordt verspreid en diffuus, zodat we kunnen laten zien wat het type van de waarde die wordt gegenereerd op basis van het werk dat gedaan wordt op het International Space Station.

Je maakt het idee van het verspreiden van die enorme hoeveelheden informatie rond diverse instanties klinkt eenvoudig, maar ik kan me voorstellen dat het heel complex is om te doen?

Het kan worden. Je hebt gelijk dat het concept dat wij proberen te doen is vrij eenvoudig maar proberen te verzamelen alle informatie die in zo veel verschillende formaten en maak het leesbaar en toegankelijk, niet alleen voor de eindgebruiker, maar om de methodiek of de algoritmen die we proberen toe te passen ons zeer complex.

Om te beginnen, we hadden schoon te maken van al die gegevens op een bepaalde manier voor ons om te kunnen om het te analyseren en dat is waarschijnlijk – net als iedereen die niet elke vorm van data science zal u vertellen – neemt 60 tot 80 procent van onze tijd.

Ik veronderstel dat dat niet geholpen door het feit dat het soms lijkt dat de helft van de IT-industrie is gericht op het vinden van nieuwe manieren voor het maken van verschillende formaten?

Dat is recht en dat is een van de dingen die ik het hebben over presentaties: poging tot het formuleren van een soort van master data management plan dat u toelaat om soortgelijke indelingen en dat plannen hoe u het opslaan en het maken van de metadata die je associeert met die gegevens.

Dus als je dat allemaal in een soort van formaat dat gemakkelijk toegankelijk is – of het nu XML , Json of op enige andere wijze -zo kunnen uitpakken dat, het maakt het gemakkelijker om het analyseren van die informatie en die nuggets van kennis uit die gegevens voor de eindgebruikers. Maar dat kost gewoon tijd.

Denk je dat, bij de NASA, die je zou kunnen kloppen sommige hoofden samen op die ene?

Goed, we kunnen het proberen. Maar net als elke andere organisatie die is verspreid, het is gewoon een kwestie van het tonen van de waarde van iets te doen en te laten zien hoe we kunnen versnellen processen door het hebben van dat soort informatie in een leesbaar formaat en dan met de waarde opnieuw, wanneer we hebben geanalyseerd.

Zodra u begint met het tonen van hen die waarde dan beginnen ze te krijgen aan boord. Dat is mijn grootste verbazing, of misschien niet verbazen, maar mijn bevrediging, dat als ik toon hen de waarde van de informatie die ze krijgen, dan zijn ze echt te springen aan boord.

Wat denk je dat is het grootste ding dat je hebt van het gebruik van Neo4j?

Het kunnen aantonen dat er een andere manier van niet alleen het opslaan van uw gegevens in een ander type database, maar worden in staat om te laten zien hoe eenvoudig het kan zijn.

Het maakt het mogelijk dat de informatie wordt gevisualiseerd in een begrijpelijk zijn voor de eindgebruiker. Neo4j en een aantal van haar nieuwste mogelijkheden kunt u die informatie te krijgen aan het eind gebruik sneller.

U moet deze een spannend gebied om in te werken?

Ik doen, want er zijn nog heel veel mogelijkheden die er zijn. Er zijn veel verschillende soorten domeinen, het gaat niet alleen om de Lessen die zijn Geleerd. Het is gewoon een kwestie van hoe we er voor kunnen krijgen, op te slaan en te visualiseren informatie op een andere manier te krijgen op al deze patronen.

Ik had een man die onlangs is op zoek naar een zeer specifiek domein binnen enkele onderzoeken dat hij aan het doen is met behulp van gentherapie.

Om te kunnen zien waar de verbindingen zijn, waar die gaten zijn, wie zijn de grote spelers en dus op. We werken met hem om dat te doen, in staat zijn om het uit te breiden zich uit in verschillende vormen van onderzoek, verschillende methoden en ziet hij de waarde zelf te kunnen zetten dat in een grafiek.

Het is gewoon spannend om nieuwe mensen aan boord komen en zeggen, “Hey, ik denk dat dit echt goed werken in een grafiek, wat kunnen we doen?” Dit is een nieuwe manier om te experimenteren en om nieuwe manieren te vinden voor het visualiseren van de data.

Meer Lezen:

NASA picks onderzoek teams aan te pakken ontwikkelingen in de drone, self-driving car tech

NASA Hybrid Reality Lab combineert VR en de echte wereld

Grafiek database bedrijf Neo4j kaarten uit de toekomst

De voortdurende stijging van de graph databases