Google kan nu zoeken naar datasets. Eerst onderzoek, dan is de wereld?

0
126

Nul

Met de gegevens van de wetenschap en analyses over de opkomst en onder weg naar wordt gedemocratiseerd, het belang van het kunnen vinden van de juiste gegevens om te onderzoeken hypothesen en zo inzicht te verkrijgen in het vaandel staan.

Wat vroeger het domein van de onderzoekers en geeks is nu het brood en de boter van een steeds groeiend aantal professionals, organisaties en instrumenten, en niet te vergeten self-service liefhebbers.

Ook: Mozilla releases dataset en het model tot lagere stem-herkenning barrières

Zelfs voor de meest overzichtelijke en data-rich daar, er komt een tijd dat je nodig hebt om gebruik te maken van gegevens uit andere bronnen dan uw eigen. Weer en milieu-gegevens is het archetypische voorbeeld van.

Stel, u wilt het verband tussen landbouw gegevens met het weer verschijnselen te voorspellen gewassen, of wilt u het onderzoek naar het effect van het weer op een fenomeen dat zich voordoet in een historische periode. Dat soort van historische weergegevens, bijna onmogelijk voor een organisatie om te verzamelen en te beheren, is het heel waarschijnlijk direct beschikbaar door de wil van NOAA en NASA.

Deze organisaties beheren en het publiceren van hun gegevens op een regelmatige basis door middel van speciale data portals. Dus, als u hun gegevens op een regelmatige basis, je bent waarschijnlijk bekend met het proces van het lokaliseren van de gegevens via deze portals. Nog, u zal hebben om te kijken naar zowel de NOAA en NASA, en mogelijk andere bronnen, ook.

En het wordt nog erger als je niet alleen moet weergegevens. Je moet vinden van de juiste bronnen, en vervolgens de juiste gegevens op deze bronnen. Zou het niet veel gemakkelijker zijn als je kon gewoon gebruik maken van een zoek-interface en vind dat alles is er, net als wanneer je op Google iets op het web? Het zou zeker, en nu kun je gewoon op Google zoeken uw gegevens ook.

Schema.org metadata, semantiek voor de win

Dat kwam niet over out of the blue. Google ‘ s liefdesrelatie met gestructureerde data en semantiek is een voortdurende. Sommige bezienswaardigheden op dit pad zijn geweest van de oprichting van Google ‘ s knowledge graph via de overname van Metaweb, en ondersteuning voor gestructureerde metadata via schema.org.

Iedereen doet SEO zal u vertellen hoe dit is veranderd de kwaliteit van Google search en de opties inhoud uitgevers hebben nu beschikbaar. De mogelijkheid voor de opmaak van content met behulp van schema.org woordenschat, afgezien van het maken dingen mogelijk, zoals het bekijken van beoordelingen en dergelijke in de zoekresultaten, is het dichtst we hebben een massa-schaal web van data.

Ook: Hoe autonome voertuigen leren rijden? Download deze dataset

Dit is precies hoe het werkt voor dataset ontdekking, als goed. In een onderzoek notitie gepubliceerd in het begin 2017 door Google Natasha Noy en Dan Brickley, die toevallig ook onder het semantische web community ‘ s meest prominente leden, de ontwikkeling geschetst. De uitdagingen werden aangelegd, en een oproep tot actie werd uitgegeven. Het belangrijkste element is, eens te meer, schema.org.

schemaorgattributes.png

Schema.org speelt een grote rol in Google zoeken, en het is ook achter de nieuw toegevoegde ondersteuning voor dataset zoeken. (Afbeelding: Go Live VERZENDING)

Schema.org is een gecontroleerde woordenschat die wordt beschreven entiteiten in de echte wereld en hun eigenschappen. Als er iets beschreven in schema.org wordt gebruikt om aantekeningen te maken van content op het web, het laat zoekmachines weten wat dat inhoud, alsmede de eigenschappen. Wat is er dan gebeurd is dat Google ingeschakeld ondersteuning van de dataset entiteiten in schema.org officieel vanaf vandaag beschikbaar.

De eerste stap was om het makkelijker te maken om te ontdekken gegevens in tabelvorm in zoeken, die gebruik maakt van dezelfde metadata samen met de gekoppelde tabellen met gegevens om te antwoorden op vragen rechtstreeks in de zoekresultaten. Deze is beschikbaar voor een tijdje, en nu volledige ondersteuning voor dataset indexeren is hier.

Ook: De Gegevens.wereld: Het belang van het koppelen van gegevens en mensen

Maar is er iets wat er om ontdekt te worden? Hoe was Google ‘ s open oproep aan de dataset aanbieders ontvangen? ZDNet had een Q&A met Natasha Noy van Google Onderzoek naar dit:

“Wij waren aangenaam verrast door de receptie die ons call-to-action te vinden. Misschien, want wij hebben vele voorbeelden van andere verticals bij Google met behulp van de schema.org markup (denk aan taken, gebeurtenissen en recepten), mensen vertrouwden dat het verstrekken van deze informatie nuttig zou zijn.

Bovendien, omdat de standaard is geopend en wordt gebruikt door andere bedrijven, wij weten dat velen van mening zijn dat ze het doen omdat het ” het juiste ding om te doen.’ Terwijl we bereikten een aantal partners om ze aan te moedigen de markup, we waren verrast om te vinden schema.org/dataset op honderden, zo niet duizenden sites.

Dus, bij de lancering, zijn er al miljoenen van datasets, hoewel we schatten dat het slechts een fractie is van wat er is. De meeste slechts gemarkeerd up van hun gegevens zonder ooit ons te laten weten.”

NOAA ‘ s CDO, Ed Kearns, bijvoorbeeld, is een groot voorstander van dit project en hielp NOAA veel van de datasets doorzoekbare in deze tool. “Deze manier van zoeken is al lange tijd de droom voor vele onderzoekers in het open data en de wetenschappelijke gemeenschap”, zei hij. “En voor NOAA, die de opdracht omvat de uitwisseling van gegevens met anderen, deze tool is de sleutel tot het maken van onze gegevens beter toegankelijk te maken voor een nog grotere community van gebruikers.”

Onder de motorkap

In andere woorden, het is vrij waarschijnlijk dat u kan vinden wat u zoekt al, en het wordt steeds waarschijnlijker te gaan. U kunt al het vinden van gegevens van de NASA en NOAA, alsmede van academische repositories, zoals de Harvard Dataverse en Inter-university Consortium for Political and Social Research (ICPSR), en de gegevens van nieuwsorganisaties, zoals ProPublica.

Maar er zijn een paar valkuilen hier, zoals datasets verschillen van de gebruikelijke web-inhoud die u — Google — kan lezen.

Om te beginnen, wat is precies een dataset? Is een enkele tabel een dataset? Wat te denken van een verzameling van gerelateerde tabellen? Wat te denken van een eiwit sequentie? Een set van beelden? Een API die de toegang biedt tot de gegevens? Dat was de uitdaging Nummer 1 in Google ‘ s research opmerking.

Die fundamentele vragen — “wat is ” onderwerp X” en “wat is de reikwijdte van het systeem” — worden geconfronteerd met een woordenschat curator en systeem architect respectievelijk, en Noy zei dat ze besloten om een snelkoppeling te nemen in plaats van verloren in semantiek:

“We zijn in principe de behandeling van alles wat gegevensbronnen gesprek een gegevensset markeren schema.org/dataset als een dataset. Wat een dataset varieert sterk per discipline en op dit moment, vonden wij het nuttig om open-minded over de definitie.”

Ook: Wat is machine learning? Alles wat je moet weten

Dat is een pragmatische manier om te gaan met de vraag, maar wat zijn de consequenties? Google heeft richtlijnen ontwikkeld voor dataset aanbieders beschrijven hun gegevens, maar wat gebeurt er als een uitgever mis-kenmerkt inhoud van een dataset? Google zal in staat zijn om te vertellen het is niet een dataset en niet als zodanig, of op zijn minst te bestraffen de ranking?

Noy zei dit is het geval: “Tijdens het proces is niet fool-proof, we hopen dat te verbeteren als we meer ervaring op te doen als gebruikers starten met behulp van de tool. We werken heel hard aan het verbeteren van de kwaliteit van onze resultaten.”

google-data-tech-analytics2-ss-1920.jpg

Google en gegevens heeft altijd hand in hand. Nu Google gaat verder, door u te laten zoeken naar gegevens.

Het spreken van de ranking, hoe kan je eigenlijk rang datasets? Voor documenten, het is een combinatie van inhoud (frequentie en de positie van de trefwoorden en andere gegevens) en het netwerk (de autoriteit van de bron, links, enz.). Maar wat zou gelden voor datasets? En, cruciaal, hoe zou het nog passen?

“We gebruiken een combinatie van web ranking voor de pagina’ s waar datasets komen van (die, op zijn beurt, maakt gebruik van een verscheidenheid van signalen) en het combineren met een dataset-specifieke signalen, zoals de kwaliteit van de metadata, citaten, enz.,” Noy zei.

Ook: Nu Google maps street-level vervuiling gegevens

Dus, het lijkt dataset inhoud is niet echt geïnspecteerd op dit punt. Naast het feit dat dit een open uitdaging, er is nog een reden: Niet alle datasets ontdekt zal worden geopend, en dus beschikbaar zijn voor inspectie.

“De metadata moet worden geopend, is de dataset zelf niet hoeft te worden. Voor een analogie, denk aan een zoekopdracht op Google Scholar: Het kan ook u naar de website van een uitgever site waar het artikel zit achter een paywall. Ons doel is om gebruikers te helpen om te ontdekken waar de gegevens en vervolgens direct via de aanbieder,” Noy zei.

Eerst onderzoek, dan is de wereld?

En hoe zit het met de rest van de uitdagingen aangelegd in het begin van deze inspanning, en de weg vooruit? Noy merkte op dat, hoewel ze begonnen met de aanpak van de uitdagingen in die nota stelt een lange termijn agenda. Hopelijk, voegde ze eraan toe, dit werk is de eerste stap in die richting.

Het identificeren van datasets, met betrekking hen, en uitdragen van de metadata onder hen was een verbonden set van uitdagingen. “Zie je”, Noy zei: “dat is voor veel datasets, hebben we een lijst van meerdere repositories — deze informatie is afkomstig van een aantal signalen die we gebruiken om te zoeken replica’ s van de dataset over repositories. Momenteel niet te identificeren in andere relaties tussen datasets.”

Ook: AI beats mens in Stanford begrijpend lezen test CNET

Inderdaad, bij het zoeken naar een dataset, als het gebeurt te zijn gevonden in meer dan één locaties, dan alle exemplaren wordt vermeld. Maar er is ook iets anders, uniek van toepassing op datasets — op het eerste gezicht tenminste. Een dataset kan worden in verband met een publicatie, zoals veel datasets afkomstig van wetenschappelijk werk. Een publicatie kan ook worden geleverd met de dataset die het produceerde, dus is er een manier van het samenbrengen van mensen?

Noy zei enkele eerste stappen waren genomen: “Je zult zien dat als een dataset direct correspondeert met een publicatie, er is een link naar de publicatie rechts naast de gegevensreeks naam. We geven ook een benadering van het aantal publicaties die verwijzen naar de dataset. Dit is een gebied waar we nog steeds behoefte aan meer onderzoek om te begrijpen wanneer precies een publicatie verwijst naar een dataset.”

pasted-image-0.png

Zoeken naar datasets zullen halen niet alleen dat er meerdere resultaten voor uw zoekopdracht, maar ook meerdere bronnen voor iedere dataset. (Beeld: Google)

Als je er over nadenkt, maar is dat echt alleen van toepassing op de wetenschap? Als u het verzamelen van gegevens van uw sales pipeline, en ze te gebruiken voor het afleiden van inzichten en het produceren van periodieke rapporten, bijvoorbeeld, is dat niet de essentie gelijk aan een wetenschappelijke publicatie en de ondersteuning van de dataset?

Als data-driven besluitvorming draagt veel overeenkomsten met het wetenschappelijke proces en data discovery is een belangrijk onderdeel van dit, kunnen we misschien zien dit als een eerste stap van Google te bewegen in deze wereld voor commerciële doeleinden?

Ook: 6 tips voor het maken van effectieve big data modellen TechRepublic

Wanneer u wordt gevraagd, Noy opgemerkt dat Google ziet wetenschappers, onderzoekers, data-journalisten en anderen die geïnteresseerd zijn in het werken met gegevens als de primaire doelgroep voor deze tool. Ook zij voegde er echter aan toe, dat als de andere Google recente initiatieven wijzen, Google ziet deze soorten datasets steeds meer op de voorgrond in Google-producten.

Één van beide manier, dit is een belangrijke ontwikkeling voor iedereen die geïnteresseerd is in het vinden van gegevens in het wild, en we verwachten van Google te bewegen de bar in het zoeken van gegevens in de komende periode. Eerst onderzoek, dan is de wereld?

Vorige en aanverwante dekking:

Het web als database: De grootste knowledge graph ooit

Stel je voor je zou kunnen krijgen van het gehele internet in een database, en structuur. Dan zou je in staat zijn om antwoorden te krijgen op complexe vragen in seconden door te zoeken, eerder dan te zoeken. Dit is wat Diffbot beloften.

AI chips voor big data en machine learning: Gpu ‘s, fpga’ s, en harde keuzes in de cloud en on-premise

Hoe kan Gpu ‘s en fpga’ s helpen met data-intensieve taken, zoals operaties, google analytics en machine learning, en wat zijn de opties?

Data-gedreven rampenbestrijding: het Meten van de impact van de rampenbestrijding

Met natuurrampen afhalen in frequentie en intensiteit, de rol van Ngo ‘ s in de rampenbestrijding is het oppakken van zo goed. Een belangrijke vereiste voor alle Ngo ‘ s is transparantie, en het toepassen van data-gedreven technieken kunnen helpen.

Verwante Onderwerpen:

Innovatie

Cloud

Mobiliteit

Enterprise Software

Kunstmatige Intelligentie

Hardware

0