GRDDL – Sugando Páginas da Internet
Nem me pergunte, eu não sei como se pronuncia isso!
Só sei que é uma tecnologia útil:
O GRDDL, que significa Gleaning Resource Descriptions from Dialects of Languages (ufa!) ou Coletanto Descrições de Recursos de Dialetos de Linguagens é uma maneira legal de extrair informação organizada de uma internet organizada. Basicamente, o GRDDL funciona assim:
- A Web atualmente é desorganizada. Semanticamente, existem muitos dialetos, ou seja, pequenos padrões internos dentro dos sites. Cada site usa seu próprio padrão pra criar os elementos HTML, por exemplo.
- A Web Semântica traz um dialeto universal, um padrão uniforme pra descrever recursos: O RDF. Poucos sites o utilizam.
- As ferramentas pra trabalhar com RDF não lêem os demais dialetos, que são em HTML normal.
- Mecanismos GRDDL lêem os dialetos específicos e transformam em RDF.
Pra isso, obviamente, é necessário construir GRDDL para cada fonte que você deseja coletar. GRDDL é baseado em XSLT, uma linguagem que transforma arquivos XHTML e RDF.
O difícil mesmo é criar um exemplo pra isso. O W3C ainda está trabalhando em um documento com exemplos e explicação para iniciantes. Quem sabe eu não me animo e faço algo em português pra exemplificar

