卡内基梅隆准博士开发AI程序：监控电脑屏幕一分心就吼你

天天上班的你，有多少“摸鱼”的时间？此前，澳大利亚悉尼大学的研究人员在《Educational and Developmental Psychologist》期刊上发表了一篇题为“Rest breaks aid directed attention and learning”的研究论文，指出摸鱼可以提升工作效率，五分钟的大脑休息，可以将后续任务的表现和生产力平均提高 57%，更有利于后续的工作。

然而，现实中有多少人在闲逛朋友圈、微博、X 等社交媒体平台之后，时间消耗了、工作却没做多少最终导致天天加班的？

为了解决时不时分心、工作效率低下的问题，刚从康奈尔大学本科毕业、即将在今年秋季攻读卡内基梅隆大学计算机科学博士学位的程序员小哥 James Campbell 趁着闲暇时光，开发了一款名为 ProctorAI（监察 AI），还将此项目开源出来。

这个 AI App 不仅可以监视你的屏幕，进行截图，还会利用时下主流的 Claude-3.5-Sonnet、GPT-4o 等大模型对截图内容进行分析，如果发现你有“摸鱼”的动作，就会发出警告声，让你好好工作。

自己的监工——ProctorAI

当你打开这款应用时，会得到这样的一个屏幕：

页面上会有一些提示，譬如今天你计划着去做什么？喜欢什么样的行为？你希望这款应用程序允许什么和不允许什么......

在这提示下，你可以在输入框写清楚自己的需求，比如：

今天我计划研究一个 ML 的可解释性项目。

我被允许打开一个 VS Code 编辑器、一个终端（Terminal），以及一个网页浏览器，但只为查阅相关资料。

然后点击“开始”（Start），画面如下所示，这款应用程序便会开始监测你的电脑屏幕，然后隔几秒分享一下你的最新状态。

如果你通过浏览器打开了 StackOverflow 网站，AI 大模型在分析截图之后给出的状态是 productive，它会推测你是在工作，寻找问题的答案，属于正常研究项目时查阅资料的状态。

倘若你打开了 Twitter 悠哉悠哉地刷起来之后，这款应用程序便会开始分析你的这一行为是不是在工作以及是否符合你最开始定下的规则，判定为不符合之后，这款 App 会采取行动来控制你的屏幕。

就像上图所示，在 AI 大模型判定你是在“拖延”之后，跳出一个不可关闭的全屏弹窗，然后语音提示：

好啊好啊，James！我看你把机器学习项目研究换成了无意识的滚动。你的 ML 可解释性项目是不是很无聊，以至于你宁愿去看陌生人的神秘推文?据我所知， X 并不是 Python 生态系统的一部分。关掉小鸟应用（Twitter 应用），飞回你的 VSCode 老巢，不然我会把你的工作效率当成一个大大的零！

读完之后你会发现屏幕下面还有一行小字，以及一个输入的文本框，要求你写下保证书——

请输入以下内容以继续工作:

我保证关闭 X，只使用 VSCode、终端和相关 Web 资源，将重点重定向到我的 ML 可解释性项目。

输入完成之后，屏幕上会跳出一个 15 秒倒计时的窗口，让你在 15 秒内关闭 Twitter。

通过这样的方式，当你在工作、研究、学习分心时，系统会自动提示你。对此，身为作者 James Campbell 还引用了一张截图来形容 ProctorAI 的存在：

“计算机程序员 Maneesh Sethi 的故事是这样的：他每次使用 Facebook 时，都会雇一个女人在他脸上扇一巴掌，结果他的工作效率大幅提高。”

James Campbell 表示，ProctorAI 的目标是成为这样的女人，但可以随时待命、更加尖刻、并且全面了解你的工作。同时，他认为，ProctorAI 就像一个活生生的同事，在你身后看着你，一旦你有分心的举动，系统就会警告你，由此可以大大提高生产力。

ProctorAI 的工作原理

那么，ProctorAI 究竟是如何实现的？

James Campbell 解释道，这款应用的工作原理是每隔几秒钟（可以指定时间间隔）来对你的电脑屏幕进行截图，并将其输入到 GPT-4o、Claude-3.5-Sonnet 和 LLaVA-1.5 等多模态模型中。

正如上文所展示的，如果 ProctorAI 确定你没有集中注意力，它将控制屏幕并用个性化消息对你大喊进行口头教育。在让你保证停止拖延后，ProctorAI 会给你 15 秒的时间来关闭拖延的根源，否则会继续骚扰你。

James Campbell 称，这是“一个知道什么算拖延、什么不算拖延的智能系统”。与传统的网站拦截器相比，ProctorAI 非常智能，能够理解细微的工作流程。

为了满足不同用户的行为习惯，在每次 Proctor 会话之前，用户都会输入他们的会话规范，明确告诉 Proctor 他们计划做什么、会话期间允许什么行为以及不允许什么行为。

因此，ProctorAI 可以处理细微的规则，例如“我可以上 YouTube，但只能观看 Andrej Karpathy 关于 Makemore 的讲座”。

“没有其他生产力软件可以处理这种级别的灵活性”，James Campbell 说，“Proctor 的一大设计目标是让人感觉它是有生命的。根据我的经验，我往往不会违反规则，因为我能直观地“感觉到人工智能在监视我--就像考生在考试时感觉到监考人员在监视他们一样”，这样他们作弊的可能性就会大大降低。”

设置和安装

当前，James Campbell 将这一项目在 GitHub 上开源出来：https://github.com/jam3scampbell/ProctorAI/。同时，也分享了较为简单的设置和安装方法，即要启动 GUI，只需输入 ./run.sh。你可能会看到一些弹出窗口，要求你允许终端访问某些程序，你应该启用这些实用程序。

git clone https://github.com/jam3scampbell/ProctorAIpython venv -m focusenvsource focusenv/bin/activatepip install -r requirements.txt./run.sh

然后，根据你想要使用的模型，可以将以下 API 密钥定义为环境变量：

OPENAI_API_KEY

ANTHROPIC_API_KEY

GEMINI_API_KEY

ELEVEN_LABS_API_KEY

在这一项目中，为了降低 API 成本，James Campbell 还实现了双层路由系统。你可以对其进行设置，使请求首先发送到较小的模型（如本地运行的 LLaVA），只有当行为被标记时，才会向上发送到较大的模型。

其他一些功能

除了上面介绍的功能之外：

你还可以在会话期间与 ProctorAI 聊天，向它汇报你的研究进度；

该程序也有文本转语音功能，ProctorAI 可以对你进行口头训斥

更改 ProctorAI 截图的频率，让你感觉不到 ProctorAI 一直在盯着你

时下 ProctorAI 这款应用刚起步，James Campbell 透露，这个项目仍在积极开发中，其希望未来添加一些更多的功能，包括：

更多个性化和情境知识

针对特定任务/分布对 LLaVA 模型进行微调

记录、时间跟踪和汇总统计

让退出程序变得非常烦人（至少在用户完成预定义的会话之前）

......

每日运行费用在 50 美分以下

之所以研发这款工具，James Campbell 表示只是为了优化自己的工作效率，并尝试对它进行定制，使其尽可能有用。从经验来看，它的效果相当不错，尤其是在帮助自己长时间深入工作而不分心方面！

后期如果不少人觉得这款程序有用，他也考虑将其打包成一个易于下载的应用程序，供普通用户使用。

对此，也有不少网友担心，日常拿到手的工资与运行 AI 大模型 API 带来的成本会不会造成入不敷出的情况，James Campbell 回复道：

这款程序每天在线工作时的运行成本主要取决于以下几个因素：

是否使用路由，

路由模型的误报率，

截图的频率，

它被激活的时间长短。

基于我对这些因素的平衡调整，每天的费用通常在 50 美分以下。

对于个人用户而言，不少人觉得 ProctorAI 是一个不错的主意：

然而有人认为，James Campbell 的出发点虽好，但似乎已经开启一个“潘多拉”魔盒：

“我希望你知道，你现在已经打开了一个更大的关于关键绩效指标（KPI）和工作监控的潘多拉盒子。这个原本无害且令人惊叹的想法，但资本主义会证明它并非如此。这也不是你的错。”

如果你需要惩罚自己才能提高工作效率，那你就做错了，相反，你应该问问人工智能如何看待和创建工作流程。

那么，你如何看待 ProctorAI 这款工具？