O futuro semântico da web

Muitos dos dados que atualmente trocam de mãos podem ser vistos como centrados no ser humano.

No entanto, não somos os únicos consumidores da web e, algum dia, esses dados poderão ser mais fáceis de ler por esses consumidores não humanos.

 

A web é construída com base em dados - meus dados, seus dados, dados de pequenas empresas, dados de grandes empresas e assim por diante. Podemos entregar dados como um endereço de e-mail e, em troca, podemos ter acesso a outros dados, talvez conteúdo exclusivo para um novo videogame ou um boletim informativo semanal. Essa troca constante de dados permite colaboração e comunicação em uma escala que nunca existiu antes da web.

 

Muitos dos dados que atualmente trocam de mãos podem ser vistos como centrados no ser humano. Temos artigos de notícias, blogs, e-commerce, fóruns, plataformas de vídeo, mídia social e sites de perguntas e respostas que nos fornecem dados para ler, assistir e consumir. Não somos os únicos consumidores da web, porém, com mecanismos de pesquisa, assistentes de voz, bots de preços e até bots de visualização de links realizando um número impressionante de solicitações todos os dias - sistemas de computador como esses estão desempenhando um papel cada vez maior no consumo de dados.

 

Tim Berners-Lee cunhou o conceito de “Web Semântica”, onde a web pode ser considerada mais um banco de dados global que os sistemas de computador podem entender, em vez de uma série de páginas da web separadas. Por sua vez, isso poderia efetivamente permitir integrações mais profundas entre diferentes sistemas de computador e permitir uma maior descentralização de dados. Os dados aqui não são apenas de grandes corporações - podem ser seus dados ou meus dados, dados que controlamos e gerenciamos por meio de nossos próprios sites.

 

Infelizmente, não estamos neste estágio de uma utopia de dados completa. Grandes quantidades de dados não estão disponíveis publicamente e, para os dados disponíveis, muitas vezes podem ser bloqueados por APIs com seus próprios sistemas proprietários, onde você precisa pagar pelo acesso.

 

Construindo uma Web Semântica

 

Mudar de onde estamos agora para uma Web Semântica completa não é algo que pode acontecer da noite para o dia. Há anos criamos páginas da web em HTML, CSS e JavaScript, projetadas de maneira ideal para uma experiência de visualização humana. Atualmente, para extrair dados confiáveis ​​do HTML, os sistemas de computador precisam ser capazes de processar dados não estruturados e, em seguida, estabelecer o contexto e o significado. O fato é que nós, humanos, podemos determinar o contexto e o significado da visualização da página, mas as máquinas precisam realizar processamento adicional para obter o mesmo contexto. A codificação direta de dados estruturados elimina a complexidade adicional para as máquinas processarem a si mesmas. Existem muitas soluções diferentes para codificar dados estruturados, incluindo Open Graph, Microdata, RDFa e JSON-LD. 

 

Open Graph, criado pelo Facebook, é um formato popular para armazenar tipos específicos de dados estruturados. O Facebook usa isso para gerar visualizações de link dos metadados da página. Os desenvolvedores de sites desejam controle adicional sobre o que é exibido com base em como é descrito nos metadados. Desde sua criação, outros sites de mídia social também adotaram o Open Graph para gerar visualizações de links.

 

Microdata, RDFa e JSON-LD, no entanto, são um pouco diferentes, pois, por si só, eles representam apenas formatos diferentes de armazenamento de dados em uma página da web. Os computadores podem analisar essas estruturas padronizadas. No entanto, a menos que saiba o tipo de dados que está sendo representado, ele não entenderá realmente os dados. O que está faltando aqui é um vocabulário compartilhado para que dois sistemas de computador diferentes possam se entender.

 

Um esforço conjunto feito por Google, Microsoft, Yahoo e Yandex propôs uma solução chamada Schema.org para promover dados estruturados em páginas da web com um vocabulário comum. Para mecanismos de pesquisa, esses dados estruturados podem ajudar a fornecer informações mais ricas nos resultados da pesquisa. Embora Schema.org não descreva todo tipo de objeto, nem pretenda fazê-lo, ele cria uma base sólida para descrever muitos objetos comuns: livros, eventos, locais, condições médicas, filmes, organizações e pessoas. Para áreas que ele não cobre, vocabulários alternativos podem ser usados ​​para descrever esses dados especializados. Por meio de sua popularidade para aprimorar o SEO, o Schema.org tem uma base de usuários cada vez maior que, por sua vez, ajuda a desenvolver a Web Semântica.

 

Os dados podem mudar a forma como usamos a web

 

Uma Web Semântica pode não apenas mudar a forma como pensamos sobre a busca de informações online, mas também quem controla as informações. Imagine cada site não sendo apenas uma parede de conteúdo, mas um gráfico de tópicos e ideias inter-relacionados. Não seria necessário haver um ponto central onde os dados são armazenados e controlados por uma única entidade, ajudando a evitar algumas preocupações sobre censura e preconceito, melhorando simultaneamente a privacidade e o controle sobre os dados que compartilham.

 

Por exemplo, pegue um site como o Facebook. Ele mantém montanhas de informações sobre pessoas e empresas, com vários relacionamentos entre diferentes entidades, desde comentários, reações e compartilhamentos. Esses dados fazem parte do ecossistema do Facebook; efetivamente “pertence” a eles. Em um futuro em que os dados estão sob nosso controle, sites como o Facebook podem ser apenas a representação visual da rede existente, construída em uma Web Semântica. Os dados que declaramos públicos em nosso site são os que podem ser visualizados, dando-nos total controle sobre o que é compartilhado. Isso também significa que não estamos presos a um serviço como o Facebook. Você é livre para passar para outros “front-ends”, pois os dados são seus e você os mantém.

 

Pode parecer estranho que uma organização como o Facebook queira ceder seus dados, no entanto, com leis mais rígidas sendo aprovadas, por exemplo GDPR na UE e CCPA na Califórnia, pode ser apenas uma questão de tempo até que o Facebook seja forçado a .

 

À medida que novas tecnologias são criadas para tirar proveito desses dados, isso também fornecerá novas ferramentas e experiências para os usuários. Embora os algoritmos por trás dos mecanismos de pesquisa sejam complexos, eles atualmente fornecem resultados para consultas que já foram respondidas especificamente. Se você perguntasse “todas as músicas anteriores a 1995 que falharam no mercado interno, mas foram bem recebidas no mundo todo”, provavelmente não obterá resultados porque ninguém ainda respondeu a essa pergunta. Os dados para tal consulta existem na web; no entanto, não está prontamente disponível devido à forma como a pesquisa funciona. Com uma web baseada em dados, consultas obscuras como essa podem gerar resultados combinando diferentes conjuntos de dados em vários sites.

 

A capacidade de consultar dados mais complexos pode ajudar especialmente os pesquisadores e cientistas de dados, podendo combinar grandes quantidades de dados públicos com seus próprios dados de pesquisa privada para descobrir coisas novas e interessantes. Além disso, pode ajudar os modelos de aprendizado de máquina de treinamento, já que conjuntos de dados específicos podem ser criados que, de outra forma, seriam impossíveis de adquirir.

 

Ainda há barreiras a serem superadas

 

Mudanças para suportar uma Web Semântica não são algo que pode acontecer da noite para o dia - estamos falando de anos de pequenos passos e melhorias incrementais. Mesmo se a maioria dos sites tivesse dados estruturados ricos em sua marcação, muitas novas ferramentas e tecnologias precisariam ser criadas para aproveitá-los. Por exemplo, Berners-Lee tem trabalhado no Solid como um método para permitir aos usuários maior controle sobre seus próprios dados, construindo sobre os principais conceitos de uma Web Semântica.

 

Como muitos outros conceitos, a Web Semântica tem seus críticos. Um deles, Cory Doctorow , chega a chamá-lo de "uma quimera, baseada na autoilusão, na arrogância nerd e nas oportunidades de mercado histericamente infladas". Esse comentário tem seu mérito, pois há vários problemas potenciais que precisam ser considerados.

 

Com o número de sites na web e o grande número de tipos que podem precisar ser representados, há uma grande quantidade de dados que precisariam ser compreendidos para qualquer consulta suficientemente complexa. Schema.org tem 841 tipos por si só, mas apenas arranhões na superfície de todos os dados que podem ser representados. Ao examinar setores específicos e os dados que eles podem compartilhar publicamente, pode haver centenas de vocabulários com milhares de tipos em cada um.

 

Além da grande quantidade de dados, está a decisão de como classificar alguns deles. Podem haver debates sobre as coisas mais mundanas, como se “uma máquina de lavar era um utensílio de cozinha ou um dispositivo de limpeza doméstica”.

 

Então, a Web Semântica precisa lidar com dados duplicados que, infelizmente, pode não ser mais fácil do que tentar eliminar a duplicação de dados não estruturados. Um único item pode ser representado em dois ou mais vocabulários diferentes e pode ter propriedades definidas diferentes. Um identificador global de dados pode ajudar em circunstâncias específicas, no entanto, não resolverá totalmente o problema.

 

A credibilidade dos dados é outra preocupação importante com uma Web Semântica. Quando pesquisamos informações atualmente, existem muitos fatores diferentes que podemos considerar ao determinar se as informações que lemos podem ser confiáveis. Além disso, podemos verificar o que encontramos em vários sites diferentes. Os sistemas não só precisariam lidar com dados factualmente incorretos, mas também com inconsistência nos dados que encontrar.

 

Talvez o maior problema não seja técnico, mas humano. Desenvolvedores da Web ou outras pessoas interessadas nesses tipos de tecnologias podem sair de seu caminho para adicionar dados a suas páginas e sites, mas seus pais gostariam de gerenciar seus próprios dados assim? Seus vizinhos? Seus amigos? Mesmo que as ferramentas sejam feitas para a pessoa média, o que quer dizer que elas gostariam de usá-las? Para eles, a Web Semântica pode estar morta ao chegar.

 

Ainda estamos muito longe de alguma forma de Web Semântica. Embora de muitas maneiras estejamos definitivamente avançando nessa direção, a utopia de dados completa dependerá de muitos aspectos que se encaixam perfeitamente. É improvável que seja uma revolução de dados, mas sim uma evolução de como a web opera agora. À medida que avançamos, sem dúvida vamos descobrir novos usos para os dados e começar a desenvolver as tecnologias que podem utilizá-los.

 

 

O Avance Network é uma comunidade fácil de usar que fornece segurança de primeira e não requer muito conhecimento técnico. Com uma conta, você pode proteger sua comunicação e seus dispositivos. O Avance Network não mantém registros de seus dados; portanto, você pode ter certeza de que tudo o que sai do seu dispositivo chega ao outro lado sem inspeção.


Strong

5178 ブログ 投稿

コメント