NotionNext BLOG

问题出现我再告诉大家【Word论文格式】

Fri, 02 Jul 2021 00:00:00 GMT

记录一些毕设格式相关问题：

问题1：endnote 无法将引用转为论文内可跳转的格式

解决方案：

EndNote 在 Word 中的引文点击直达参考文献 | 科研动力 (howsci.com)

用EndNote插入参考文献无法格式化解决方案 - 百度文库 (baidu.com)

问题2：word转PDF，如何既保证高清又保留

问题出现我再告诉大家【深度学习】

Fri, 02 Jul 2021 00:00:00 GMT

问题1：显卡有显存占用，但使用率为0，但看不到可以杀的进程

解决：将特定显卡的进程全部杀掉，包括僵尸进程不能直接使用 PID 杀的进程等

【科技爱好者季度文摘】2024Q1

Fri, 02 Jul 2021 00:00:00 GMT

言论 & 文摘

解决团队分歧的四种方式

团队成员之间，经常会因为不同意见发生分歧。

有些分歧，最终会达成一致意见；另一些分歧，谁也无法说服谁，难以达成一致。

团队内部无法达成一致时，可能会出现四种决策方式。

方式一：我不同意，但一旦决策定了，我就会一起努力。

亚马逊创始人贝佐斯说："当我跟一个主管反复讨论后，他不同意我的看法。虽然我不认为他正确，但我愿意陪他赌一把。我们认识几十年了，我觉得他可能比我更接近真相。其实我也不知道自己的决定是否正确，干脆照着下属的想法走。"

这样有几个好处：

至少产生了一个大家同意的决策。

事后不会互相埋怨。

有利于形成真正的团队精神。

方式二：双方各退一步，互相"妥协"（Compromise）。

这种做法是在双方立场之间，找一个中间点作为决策。这个房间我认为12尺高，你认为11尺高，最后大家同意把它的高度定为11.5尺。

这种决策方式很糟糕，因为11.5尺根本不是真相，只是因为找出真相需要耗费太多的能量，"妥协"让大家以一种节省能量的方式达成共识。

真正可取的做法是，凡是可以找到真相的事情，都不应该妥协。

方式三：比谁更固执。

争论的双方进行持久战，最先坚持不下去的人就会投降。

这种决策方式既没有得到真相，又大伤团队元气。所以，必须禁止这种方式，不允许用消耗对方的方式达成协议。

方式四：提供给上级，由上级决定。

这种方式可以外包决策过程，也不会伤害团队成员之间的感情。缺点是大家没有去尽力找寻真相，团队思想也没有真正达成统一。

总结：建议采用第一种决策方式"不同意、但尽力去做"。

这种方式不一定是正确决策，但是对于企业来说，有一个速度问题：决策速度必须要快，不能拖延，团队要始终保持高速度。第一种决策方式，至少可以保证决策会在短时间内产生，把事情向前推进。

如果一个行业向不擅长其工作的人支付高薪，这是一个信号，表明该行业存在泡沫。- Bloomberg.com

任何不经常改主意的人，都大大低估了我们生活的世界的复杂性。- 贝佐斯，亚马逊创始人

链接

文本编辑器实时协同的原理和实现（英文）

vocal-separate 一款极简的人声和背景音乐分离工具，将音视频文件分离为单独的人声文件和伴奏文件，完全本地化作业，无需连接外网。

计算机科学热门论文（英文）该网站按照动态排名，列出计算机领域的最新热门论文。

Google Gemini 的图像能力测试（英文）一个外国程序员分别对 Gemini 和 GPT-4V 进行了四项测试（图片问答、文字识别、文档识别、物体检测），然后写了这篇文章。可以学习他的测试方法，用于评估其他模型。

浏览器的67个调试技巧（英文）浏览器的开发者工具怎么调试 JS 脚本，本文介绍67个高级技巧。

周刊的 Chat 服务将周刊迄今的所有内容进行了向量化索引，提交给 ChatGPT，然后就可以跟周刊问答了。

2023年 CSS 发展总结（中文）Chrome 团队的总结，2023年 CSS 增加了哪些功能。

一个越南程序员的阿里之旅（英文）作者是一个越南程序员，原来在 Lazada 工作。后来，Lazada 被阿里收购，他就来到阿里，在杭州西溪园区呆过一段时间。

LoRA 上手

Fri, 02 Jul 2021 00:00:00 GMT

HuggingFace LoRA 文档笔记

显存不够时可以使用 LoRA 训练，推理时为了消除延迟可以使用 merge_and_unload（）函数将适配器权重与基本模型合并到一个相同的新权重矩阵中。

实用函数如下：

merge_adapter（） 将 LoRa 层合并到基础模型中，同时保留 PeftModel。助于以后取消合并、删除、加载不同的适配器等。

unmerge_adapter（） 从基础模型中取消合并 LoRa 层，同时保留 PeftModel。

unload（） 在不合并活动 lora 模块的情况下取回基本模型，即取回预训练的基础模型时，将模型重置为其原始状态。例如，在 Stable Diffusion WebUI 中，尝试 LoRA 后使用基础模型进行推断时。

delete_adapter（） 删除现有适配器。

add_weighted_adapter（） 根据用户提供的权重方案将多个 LoRA 组合成一个新的适配器。

微调 LoRA 模型的过程如下：

实例化基础模型

创建一个 LoraConfig 配置，在其中定义 LoRA-speciffic 的参数

将基础模型使用 get_peft_model() 包起来，获得可训练的 PeftModel

像训练基础模型一样训练 PeftModel

LoraConfig 解释：

权重初始化由 init_lora_weights 控制，默认情况下，权重 A 使用 Kaiming-uniform，权重 B 初始化为0

EMNLP2023-对话情绪识别相关论文阅读笔记

Fri, 02 Jul 2021 00:00:00 GMT

Retrofitting Light-weight Language Models for Emotions using Supervised Contrastive Learning

摘要：我们提出了一种新的改造方法，将emotion aspects引入预训练的语言模型（PLM）中，如BERT和RoBERTa。我们的方法使用对比学习更新预训练的网络权重，以便表现出相似情绪的文本片段在表征空间附近编码，并将具有不同情感内容的片段推开。在这样做的同时，它还确保了PLM中已经存在的语言知识不会无意中受到干扰。通过我们的方法（即 BERTEmo 和 RoBERTaEmo）改造的语言模型，通过不同的聚类和检索指标进行评估，产生情感感知的文本表示。对于情感分析和讽刺检测的下游任务，它们的表现优于预先训练的对应任务（F1 分数提高约 1%）和其他现有方法。此外，在少样本学习设置中，与预训练模型相比，改造后的模型的性能有更显着的提升。

From Multilingual Complexity to Emotional Clarity: Leveraging Commonsense to Unveil Emotions in Code-Mixed Dialogues

摘要：在对话中理解情绪是人类交流的一个基本方面，推动了对话中情感识别（ERC）的 NLP 研究。虽然相当多的研究集中在单语对话中辨别个体说话者的情绪，但理解code-mixed对话（文中指的是混合不同语言的专有单词传达语义）中的情绪动态受到的关注相对较少。这促使我们在这项研究中对 ERC 进行code-mixed对话。认识到情商包括对世俗知识的理解，我们提出了一种创新的方法，将常识性信息与对话语境相结合，以促进对情感的更深入理解。为了实现这一点，我们设计了一个高效的管道，根据代码混合输入从现有的知识图谱中提取相关的常识。随后，我们开发了一种先进的融合技术，将获取的常识信息与从专用对话理解模块获得的对话表示无缝结合。我们的综合实验展示了通过系统地将常识纳入 ERC 而获得的实质性性能改进。定量评估和定性分析都进一步证实了我们假设的有效性，重申了常识整合在增强ERC中的关键作用。

A Training-Free Debiasing Framework with Counterfactual Reasoning for Conversational Emotion Detection

摘要：无意的数据集偏差通常存在于现有的对话中的情感识别（ERC）数据集中，包括标签偏差，其中模型由于训练数据不平衡而偏向多数类，以及说话人和中性词偏差，其中模型由于特定中性词或说话人与类之间的过度相关性（比如数据集中出现Richard Burke人名的大多数时候是正向或中性的，模型就会倾向于对有这个人名的句子做出非负向的预测）而做出不公平的预测。然而，以往的ERC研究通常侧重于捕捉上下文敏感和说话人敏感的依赖关系，而忽略了数据的意外数据集偏差，这阻碍了ERC的泛化和公平性。为了解决这个问题，我们提出了一个免训练去偏倚框架（TFD），该框架在预测期间运行，无需额外训练。为了保证与各种ERC模型的兼容性，它不平衡数据或修改模型结构。相反，TFD 通过生成反事实话语和上下文从模型中提取偏差，并使用简单但经验上稳健的元素减法运算来减轻偏差。在三个公开数据集上的广泛实验表明，TFD有效地提高了不同ERC模型的泛化能力和公平性1。

Efficient Cross-Task Prompt Tuning for Few-Shot Conversational Emotion Recognition

摘要：对话中的情绪识别（ERC）因其在开发情绪感知移情机器中的重要性而被广泛研究。预训练语言模型（PLM）的兴起进一步推动了 ERC 性能的极限。然而，最近关于使用 PLM 的 ERC 工作在很大程度上是数据驱动的，需要对整个 PLM 进行微调。为了提高样本和计算效率，我们提出了一种称为跨任务提示调整（CTPT）的无导数优化方法，用于小样本对话情感识别。与从单个任务中学习独立知识的现有方法不同，CTPT通过利用来自其他源任务的外部知识来利用可共享的跨任务知识，以提高少数样本设置下的学习性能。此外，CTPT只需要在低本征维数下对向量进行优化，没有梯度，与现有方法相比，具有很高的参数效率（大概优化1000个参数）。在五个不同的上下文对话数据集上的实验表明，我们的CTPT方法在少样本场景和零样本转移上都具有优越的结果。

An Empirical Study on Multiple Knowledge from ChatGPT for Emotion Recognition in Conversations

摘要：多种知识（例如，共同参照、主题、情绪原因等）已被证明对情绪检测有效。然而，由于缺乏注释数据以及获得此类知识所涉及的高成本，在对话中的情感识别（ERC）中探索这些知识目前是一张白纸。幸运的是，大型语言模型（LLM）的出现有望填补这一空白。因此，我们提出了一种多知识融合模型（MKFM），以有效地整合LLMs产生的ERC知识，并实证研究其对模型的影响。在三个公开数据集上的实验结果证明了多元知识对ERC的有效性。此外，我们还对这些知识的贡献和互补性进行了详细分析。

PS. 通过 prompting 的方式去本来就让大模型推理出来对话上下文中蕴含的各种信息，包括但不限于：对话状态（dialogue state tracking），用户状态（用户情绪，心理，性格特征等），和各种语义信息（natural language understanding）等等

由两幅配图可看出，作者通过LLM生成了各种情感辅助知识（启发：整个论文的故事用 LLM 生成了很多对话分析中的辅助元素，结果提升不大）

知识集1名为ALK，表示了第i个话语是否为讽刺表达，是否为隐喻表达，是否为话题，用在对比学习损失函数里；

知识集2名为辅助上下文知识(ACK，看起来就是不同情况下的上下文的索引)：共同引用(CR)、情绪原因(EC2)、情境(CT)，用在图attention结构里，让LLM判断应该如何辅助图结构不同的边的设计；

知识集3名为辅助话语知识(AUK):与话语相关的常识知识(CS)、情感常识(ACS)、情绪原因(EC)，应该是把LLM生成的这些文本提取转成了向量，在使用时直接拼接在经过RoBERT的句子特征上；

Enhancing Emotion Recognition in Conversation via Multi-view Feature Alignment and Memorization（施工）

摘要：对话中的情感识别(ERC)在自然语言处理领域受到越来越多的关注。以前的工作通常是先通过微调预训练语言模型(PLMs)提取语义视图特征，然后在得到的语义视图特征的基础上，利用各种图神经网络对上下文视图特征进行建模。然而，简单地通过图形神经网络难以完全模拟话语之间的交互，语义视图和上下文视图的特征没有很好地对齐。此外，先前的参数学习范式在给定较少实例的情况下难以学习尾类的模式。为此，我们将预训练的会话模型视为先验知识库，并通过探测程序从中引出话语之间的相关性。我们采用监督对比学习来对齐语义视图和上下文视图特征，这两种特征视图以互补的方式一起工作，从不同的角度为ERC做出贡献。同时，针对尾类样本的识别问题，提出了一种新的半参数记忆推理范式。

结果很好，提取特征前对 RoBERTa-Large 做了微调，从 COMENT 提取的常识知识等向量

特殊的一点在于，在检测句子之间相关性的时候，使用了 PCM（Dialogbert: Discourse-aware response generation via learning to recover and rank utterances）做相关性矩阵，具体做法如下：首先将 N 个话语输入到 PCM 中，提取出话语 j 的表示，然后，把话语 i MASK掉，再MASK后不完整的的 N 个话语再次输入PCM，再提取话语 j 的表示，计算两次话语 j 向量之间的距离，用这个距离做（i，j）相关性（启发：做相关性有各种方法，包括 SBERT 等）；

Reducing Spurious Correlations in Aspect-based Sentiment Analysis with Explanation from Large Language Models

摘要：最近，基于方面的情感分析（ABSA）模型已经产生了可喜的结果。然而，在对方面的情感特征进行建模时，他们很容易学习输入文本和输出标签的某些单词之间的虚假相关性。这种虚假相关性可能会破坏ABSA模型的性能。这个问题的一个直接解决方案是让模型看到并学习情感表达的解释，而不是某些单词。受此启发，我们利用大型语言模型（LLM）对每个方面的情感极性的解释来减少 ABSA 中的虚假相关性。首先，我们制定一个提示模板，该模板包含句子、方面和情感标签。此模板用于提示 LLM 生成适当的解释，说明情绪原因。然后，我们提出了两种简单而有效的方法来利用解释来防止虚假相关性的学习。我们通过将它们与一些具有代表性的ABSA模型相结合，对五个数据集进行了广泛的比较实验。结果表明，该方法可以提高ABSA模型的性能，增强其性能和泛化能力。

下图可以看出作者使用 LLM 生成训练集里对话和情感的解释，在学习的时候有两种方法可以使用这个情感解释数据

第一种是把解释看成和原文语义相似的给数据集带来多样性的增强数据，直接多学一倍的量；

另一种是通过知识蒸馏，把通过学习情感解释预测情感的模型蒸馏给学习原始数据的模型。论文解释其原因：直接混合无法将原句子与相应的解释对齐，这导致无法提供定制的引导学习。为此，我们使用引导策略来鼓励ABSA模型在拟合每个样本时减少虚假相关性。（启发：LLM 可以用来生成情感的解释引导模型判断出更具解释性而非单纯学到统计分布虚假相关性的内容）

SIR-ABSC: Incorporating Syntax into RoBERTa-based Sentiment Analysis Models with a Special Aggregator Token

摘要：我们提出了一种简单但有效的方法，将句法依赖信息直接合并到基于转换器的语言模型(例如RoBERTa)中，用于诸如基于方面的情感分类(ABSC)之类的任务，其中所需的输出依赖于特定的输入令牌。先前的ABSC方法是通过将语言模型与依赖树上的图神经网络相结合来捕获语法，与此相反，我们的模型，用于ABSC的语法集成RoBERTa (SIR-ABSC)通过使用新的聚合器令牌将语法直接合并到语言模型中。sir - abs1优于这些更复杂的模型，在ABSC上产生新的最先进的结果

从下图理解，作者的目的是把 2-stage 的 PLM+GNN 的模式改进为 1-stage 的形式，做法是在 PLM了一个 [g] token 来模拟 GNN 中的 global 节点，并通过单独为这个 token 设置 MASK，使它只对一定距离内的 token 关注（此处的距离使用的是句法距离），并且每层使用不同的设置，实现了类似 GNN 一层层往上融合越来越多节点信息的感觉；

LLM 驱动的 Agent

Mon, 28 Aug 2023 00:00:00 GMT

概述

LLM 不仅仅用用来生成文本，还可以用来驱动一个 Agent，解决更多一般性的问题。整个 Agent 系统里，LLM 是大脑，此外还需要一些其他组件：

规划（Planning）

子目标和分解（Subgoal & Decomposition）：Agent 把大任务分解小的子目标
反思和细化（Reflection & Refinement）：对过去的行为进行自我批评和反省，从错误中吸取教训，细化或提高结果质量

记忆（Memory）

短期记忆：所有 in-context learning 都可以看作短期记忆
长期记忆：长时间保留和调用信息的能力，通常利用外部载体存储和快速检索

工具使用

Agent 学习调用外部 API 来获取模型权重中缺少的信息（当前信息、代码执行能力、对专有信息的访问等）

组件一：规划 Planning

任务分解（Decomposition）

Chain of thought ：思维链，经典提示 think step by step，根据 A Survey of LLM，作为涌现能力，CoT 目前只对一定规模（一般认为 10B）以上的模型有效；一般只在需要复杂推理，且常规问答表现较差的时候有奇效

Tree of Thoughts (Yao et al. 2023) ：通过在每一步探索多种推理可能性来扩展 CoT。它首先将问题分解为多个思维步骤，每个步骤生成多个思维，从而创建一个树状结构。搜索过程可以是 BFS（广度优先搜索）或 DFS（深度优先搜索），每个状态由分类器（通过提示）或多数票进行评估。

其中，任务分解过程可以直接使用简单的 prompt 比如 steps for task xxxx:\n1.，或者对特定任务的指令比如 write a story outline 用于写小说，或者人类直接输入；

Graph of Thoughts ：推理过程被建模为一个有向图 G = (V, E)，一个顶点包含对当前问题的一个解答，不管这个问题是最初的问题、还是中间问题或最后的问题。有向边 () 表示通过明确指示 LLM 使用来生成。图节点也可以是不同类型，比如写小说时，有节点代表大纲，有的节点是具体的文段，此时图是一个异构图 G = (V, E, c) ，其中 c 将顶点 V 映射到各自的类 C（在上述案例中，C = {plan, par} ）。文章介绍，该框架扩展性更高，能实现 GoT，也包含了实现 CoT 和 ToT。

自我反省（Self-Reflection）

ReAct (Yao et al. 2023) ：通过将动作空间扩展为某任务特定的离散动作和语言空间的组合，使 LLM 能够与环境交互（例如使用维基百科搜索API）；在 LLM 中集成了推理和动作，促使 LLM 以自然语言生成推理痕迹。

ReAct 提示模版包含 LLM 思考的明确步骤：

知识密集任务（左）决策任务（右）的推理轨迹示例，

Reflexion:

Chain of HIndsight:

组件二：内存 Memory

人类的记忆类型与模型能力的类比：

感觉记忆：记忆的最早阶段，原始刺激结束后保留感官信息几秒钟。类比原始输入的 embedding 表示

短期记忆：存储执行复杂认知任务（学习和推理）所需的信息。类比 in-context learning，受到上下文窗口长度限制

长期记忆：存储很长时间（几天到几十年不等，容量几乎无限），又包括可以有意识回忆起来的记忆（情景相关的事件经历/语义方面的事实概念），以及无意识内隐的技能记忆等。类比外部向量存储，可通过快速检索访问

外部存储器可以减轻有限注意力跨度的限制。标准做法是将信息的嵌入表示保存到可以支持快速最大内积搜索（MIPS）的矢量存储数据库中。为了优化检索速度，常见的选择是近似最近邻（ANN）算法，以返回大约前k个最近邻，以牺牲一点精度损失来换取巨大的加速。

常见 ANN 的性能比较 ann-benchmarks.com：

组件三：工具使用 Tool Use

MRKL： “Modular Reasoning, Knowledge and Language”

TALM (Tool Augmented Language Models; Parisi et al. 2022) 和 Toolformer (Schick et al. 2023) 都是对 LM 进行了微调学习使用外部工具 API。数据集根据新添加的 API 调用注释是否可以提高模型输出的质量进行扩展。

ChatGPT 插件和 OpenAI API 函数调用是 LLM 在实践中增强工具使用能力的很好的例子。工具 API 的集合可以由其他开发人员提供（如在插件中）或自定义（如在函数调用中）。

HuggingGPT (Shen et al. 2023) 是一个框架，它使用ChatGPT作为任务计划器，根据模型描述选择HuggingFace平台中可用的模型，并根据执行结果总结响应。

该系统包括4个阶段：

Task planning：将用户请求解析为多个任务，每个任务有四个属性：任务类型，id，依赖项，参数

Model selection：LLM 将任务分配给专家模型

Task execution：专家模型执行特定任务并记录结果

Response generation：LLM 接收执行结果并向用户提供汇总结构

API-Bank (Li et al. 2023)：评估 tool-augmented LLM 性能的基准，有大量 API，LLM 首先可以访问 API 搜索引擎找到合适的 API ，然后使用响应的文档进行调用。依据以下伪代码，每一步决策都可以评估其准确性。

案例研究

AutoGPT

GPT-Engineer

挑战

有限的上下文长度：向量存储与检索虽然支持了对更大知识库对访问，但表示能力不如完全地使用attention 那么强大

长期规划和任务分解：在长期的历史中有效规划具有挑战，鲁棒性较低

LLM 接口可靠性

参考

LLM Powered Autonomous Agents | Lil'Log (lilianweng.github.io)