Conforme se sites transformam em jardins murados baseados em javascript, precisamos de algo melhor que HTML para salvar a Web


Recentemente queria salvar uma postagem do Twitter à fim de mencioná-la em um post, sempre gosto de colocar referências e links para os assuntos aqui mencionados e geralmente arquivo a postagem através do Nitter, front-end alternativo do X, já que o Twitter virou um grande jardim murado onde o conteúdo que você consegue acessar sem estar logado é mínimo, sendo restrito a apenas o post inicial de uma thread (e provavelmente o único motivo pelo qual até mesmo isso não é removido é porque muitas postagens são embutidas em sites de notícias).

Porém, recentemente o projeto vem ficando cada vez mais inviável, segundo o próprio mantenedor, devido às limitações implementadas por Elon Musk. A maioria das instâncias fechou, e muitas das que não fecharam colocaram limites bem rígidos visando evitar que scrapers as utilizem para minerar dados. Limitação esta que por sua vez atrapalha ao arquivar uma thread através daquela determinada instância, já que você acaba salvando a página anti-bot do Cloudflare em vez da informação desejada.

Pensei então em salvar a página como um arquivo HTML, solução que não obteve êxito, resultando apenas num arquivo com a mensagem “Hmm…this page doesn’t exist. Try searching for something else”. A “melhor” solução, ironicamente, acabou sendo carregar todos os posts e depois fazer uma captura de tela da página.

O resumo da ópera aqui é: conforme a internet vem dependendo mais e mais de elementos carregados dinamicamente via javascript, tentar salvar uma página como um mero arquivo HTML se tornou uma tarefa cada vez mais ingrata.

O formato HTML, tal como opção de salvar páginas nele, surgem na época de páginas estáticas, onde o máximo de elementos anexados num site seria um GIF de menos de alguns poucos kilobytes. E essa simplesmente não é mais a realidade da internet moderna, que por mais que eu a odeie, ela simplesmente não irá embora. É preciso uma alternativa.


A solução aqui sendo algo similar a extensão “ArchiveWeb.page” e seu formato “WACZ”, porém construído nativamente no navegador. Extensão que captura cada interação sua com um site; as fontes carregadas, os iframes, os vídeos que você assistiu, etc, grava isso num arquivo e depois, quando você o carrega, ele reproduz aquela gravação conforme o usuário interage com aquele dado. O ponto negativo é que não é automático, o que você desejar que o site registre, tais como posts após um botão “Read More” (que é outra desgraça da internet moderna, diga-se de passagem) precisa ser clicado durante o momento da captura. Os vídeos em anexo? Mesma coisa, e assim por diante e assim por diante. O lado positivo, entretanto, é que isso salva a página de maneira muito mais profunda (incluindo elementos como vídeos e interações dinâmicas com a página em javascript) e mais fácil de procurar do que um JPEG.

Agora, evidentemente isso deixaria certas pontas soltas em relação à questão da autenticação e sobre se nenhum dado foi falsificado, uma vez que o usuário está salvando o site na ponta dele. É preciso entender que o valor que sites como o Internet Archive e o Archive.Today trazem não está apenas em arquivar um conteúdo, mas sim duma certa legitimidade [¹] [²] de que ninguém manipulou aquela informação. Um registro que foi salvo, porém, que pode ter sido adulterado é inútil na maioria dos casos. E esse é um problema interessante que – conforme mais e mais sites se tornam jardins murados – as fundações de preservação da internet terão de abordar.

Julgo que uma possível maneira de lidar com esse desafio seria uma máquina virtual controlada por alguma instituição como o Internet Archive (algo similar ao “Puffin Browser”, porém num raro contexto onde realmente faz sentido usar um browser rodando na nuvem). Então, num cenário onde você desejasse arquivar uma postagem dum grupo privado, você logaria com a sua conta naquela rede social nesta máquina virtual, e ela salvaria o site. Desse modo, o problema da autenticidade seria atenuado, já que o conteúdo não foi salvo na sua ponta, mas sim por uma máquina virtual controlada por uma instituição fidedigna.

Paralelo a isso, esse arquivo nem precisaria necessariamente ser hospedado permanentemente pela plataforma em questão. Como já mencionei anteriormente, tão importante quanto um registro existir é saber se o mesmo é autêntico. Nesse sentido, a plataforma, após arquivar aquela determinada página de internet, poderia criar um registro numa blockchain descentralizada (similar ao que ocorre nas criptomoedas e afins) com a hash dele sendo o que ficaria disponível na nuvem. Creio que isso reduziria muito os gastos e despesas, já que a plataforma estaria agindo majoritariamente como um “autenticador de sites arquivados” em vez de fazer a hospedagem daquela informação.

Sobre o armazenamento do arquivo em si, isso dependeria da política e recursos da plataforma em questão. Além dela fazer essa assinatura na blockchain, ela poderia guardar uma cópia daquela página permanentemente e exibi-la aos usuários, exatamente como o Wayback Machine e outros arquivadores fazem hoje em dia. A ideia principal, porém, é que o usuário poderia fazer o download desse arquivo e manter uma cópia com ele. O que seria bem útil, já que mesmo que uma fundação de preservação da internet deletasse um site, o registro ainda ficaria preservado na nuvem, devido à natureza descentralizada da blockchain, e quem tivesse uma cópia daquele dado poderia provar sua autenticidade.

No modelo aqui proposto, essencialmente o papel de quem realiza a autenticação do registro dum arquivo digital é separado do papel de quem armazena aquele determinado arquivo digital autentificado. Você pode fazer ambos os papéis, ou só um deles. Fazendo uma analogia: pense na distinção entre hospedar um arquivo .torrent (que geralmente contem poucos KBs) e hospedar o conteúdo que aquele arquivo referência/aponta: um filme, um álbum, um software, etc (que podem totalizar vários GBs).

Enfim, esses foram alguns pensamentos meus sobre essa questão, esse texto é uma ligeira continuação ou um complemento ao meu artigo de 2018, “Os Atuais Problemas e Dificuldades no Arquivamento da Internet”, que se você se interessa por esse aspecto, talvez vale a pena a leitura.

Alguns artigos que acabei esbarrando ao pesquisar sobre esse texto:

Mutable Mobiles

IPFS as a backend to a web archiving

WARChain: Blockchain-Based Validation of Web Archives

Lab Day 2018 // InterPlanetary Wayback: The Next Step Towards Decentralized Archiving – Sawood Alam [¹] [²]

Signing and verifying web archive files

Authenticated Web Archives: WACZ Files

How scraping a single website costed thousands of dollars in proxy

Deixe um comentário