Docker 篇十八:ArchiveBox——NAS存储万物之私人电子博物馆

Docker 篇十八:ArchiveBox——NAS存储万物之私人电子博物馆

前言

记得以前百度一直有网页镜像的功能,可以看到当初的网页状态,这样即使有一些贴吧的帖子不见了也可以回看,但是随着网络内容越来越庞大,各大搜索平台本身的因素,网页镜像功能基本已经找不到了。

20240508090319689-18-1

尤其是Cherry,经常遇到404错误,十分烦恼。最近,在Github上看到一个项目——ArchiveBox。ArchiveBox 是一个功能强大的自托管 Internet 存档解决方案,用于离线收集、保存和查看网站。

正所谓互联网没有记忆,随着时间的前进,互联网上的所有内容最终都会消失。ArchiveBox 是一个开源工具,可帮助您自己(或在组织内私下)存档 Web 内容:保存浏览器书签的副本、保存法律案件的证据、从 FB / Insta / Flickr 备份照片、从 YT / Soundcloud / 等下载您的媒体、快照研究论文和学术引文等等。

这个项目的部署和使用都非常简单。你只需要将想要保存的网页地址复制到ArchiveBox中,它就会自动为你保存并打上标签。你还可以随时查看和更新保存的内容,甚至可以将保存的网页转换为其他格式,如PDF或截图,方便打印或分享。

此外,ArchiveBox还支持多种保存方式,包括原网页的singlefile HTML格式、PDF格式、网页截图等。无论你是需要长期保存还是临时备份,ArchiveBox都能满足你的需求。

如果你还在为错过重要的网络内容而烦恼,那么不妨试试ArchiveBox,相信它会成为你的得力助手。


系统部署

一、自动化脚本部署

curl -sSL ‘https://get.archivebox.io’ | sh

二、Docker Cli部署

🔺因为该项目需要在容器内生成账号密码,所以我们第一次就使用指令进行部署。

默认端口为8000,可选指令:-p 端口:8000

【路径】:以/volume1/docker/archivebox为例

docker run –name archivebox -p 19652:8000 -d -v 【路径】:/data archivebox/archivebox

#

mkdir /volume1/docker/archivebox

docker run –name archivebox -p 19652:8000 -d -v /volume1/docker/archivebox:/data archivebox/archivebox

🔺新建容器以后,我们需要输入以下指令新建非root账号,输入账号、邮箱、密码、确认密码,按回车确认。

docker exec -it –user=archivebox archivebox /bin/bash -c “archivebox manage createsuperuser”

20240508090319720-18-2

 

系统使用

一、账号登录

🔺第一次进入系统后,无论什么操作都需要登陆账号,因此我们可以点击ADD、ADMIN、LOG IN等任意按钮来到登录页面。选择刚才新建的账号密码登录。

20240508090319153-18-3

首页,随便点个按钮就可以进入

20240508090319472-18-4

输入创建容器时候新建的账号密码

🔺登录后就可以来到管理首页,左上角是账号管理,左下角是快照结果与标签管理

20240508090320788-18-5

二、存档网页

以张大妈为例,发现张大妈并不能保存,反扒技术一流? 以百度首页为例,选择archivebox最上方的add按钮,来到如下页面,

20240508090320595-18-6

1️⃣URLs:需要保存的网址

2️⃣URLs format:一般选择第一个自动识别即可。下面包括了很多类型的格式,可以根据网页性质选择。

3️⃣Tags:网页标签,用于分类使用,自定义即可。

4️⃣Archive depth:0仅保存当前页;1保存当前页和单次转跳的所有链接

20240508090414658-18-7

5️⃣Archive methods:存档方法,

  • HTML/Generic websites -> HTML, PDF, PNG, WARC, Singlefile

  • YouTube/SoundCloud/etc. -> MP3/MP4 + subtitles, description, thumbnail

  • News articles -> article body TXT + title, author, featured images

  • Github/Gitlab/etc. links -> git cloned source code

选择完成以后点击ADD,即可进入保存页面。

20240508090414440-18-8

🔺可以看到存档的进度。

20240508090414847-18-9

 

最后

该容器感觉实际意义和应用场景似乎并不大,毕竟个人没有什么了不起的网页需要备份。最多也是保存一些论文、贴吧文章等,毕竟现在的网页长图截取、流媒体下载已经十分的方便了。大家可以尝试搭建一下,然后保存一些自己想要的网页为PDF。

 

该项目属于docker项目,所有nas均可以安装。

 

© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容