1-NLP个人复习大纲
NLP基础知识整理输入 → 预处理分词
粒度划分:word-level、char-level、subword-level
常见的三种编码方法{BPE、WordPiece、ULM}
BPE 字节对编码
一种数据压缩方法,通过迭代地合并最频繁出现的字符或字符序列来实现分词目的
WordPiece
WordPiece 是 BPE 的一种变体,不同点:WordPiece 基于概率生成新的subword而不是下一最高频字节对
ULM
SentencePiece
编码(词表征)
one-hot,最最基础的编码方式,词典多大,向量维数多大;
word2vec,词向量模型,用于将词转换为向量表示;
基于两种不同的训练词向量的方法,又可以分为 CBOW模型 和 skip-Gram模型
CBOW,使用上下文来预测当前词的生成概率
skip-Gram,使用当前词来预测上下文词的生成概率
Glove,基于全局词频统计,统计的是固定语料信息
ELMO,针对多义词在不同语境下,不同语义时的表征作出了处理;
【word2vec则是根据局部语料库训练】【损失函数上的差异 ...
14-accelerate
关于 Hugging Face开源库accelerate 详解:https://zhuanlan.zhihu.com/p/646610811
Huggingface,Accelerate文档介绍:https://huggingface.co/docs/accelerate/index
示例介绍:http://www.360doc.com/content/23/0206/22/7673502_1066492586.shtml
代码示例
1234567891011121314151617181920212223242526272829# Accelerate,33B的LLaMA模型,多卡推理代码# LLaMA-33B 一般需要66G 显存,每张卡允许使用35G显存空间from transformers import LlamaConfig,LlamaForCausalLM,LlamaTokenizerfrom accelerate import init_empty_weights,infer_auto_device_map,load_checkpoint_in_model,dispatc ...
13-NLP的一些项目
13-NLP的一些项目问答系统
输入:问题
语料库
知识库
输出: 答案
情感分析舆情监控12机器学习: 输入语句 → 特征工程 → 模型 → 情感值深度学习: 输入语句 → 深度学习模型 → 情感值
机器翻译自动摘要聊天机器人信息提取 Information Extraction(挺重要的领域)
12-论文阅读记录
2023ACL0 -《【模板】标题》翻译:
关键词:NLP
数据集:
方法介绍:
结论
实现:
1 -《Annotating and Detecting Fine-grained Factual Errors for Dialogue Summarization》翻译:注释和检测细粒度事实错误以进行对话总结
关键词:事实错误检测、事实错误注释、数据集:DIASUMFACT、模型方法:ENDERANKER
事实错误注释/标注,作者使用DIASUMFACT数据集对对话摘要中的细粒度句子级事实错误进行了注释,包括错误类别、错误跨度和解释
事实错误的检测方案:
1.基于文本蕴含的模型(二分类);
优点:有效地检测出事实错误;
缺点:需要大量标注数据的训练集
2.基于问答的模型
优点:易于纠正和理解
缺点:如何生成问题
模型方法:ENDERANKER
生成摘要:ENDERANKER使用不同的预训练编码器-解码器模型来生成摘要,包括T5、PEGASUS和BART等。
生成依存树:ENDERANKER使用Stanford CoreNLP工具生成摘要的依存树。
规则检测:E ...
11-算法练习记录
手撕代码热门题① 牛客 · BM6 判断链表中是否有环【简单】
方法1:双指针(快、慢指针)【时间复杂度:O(n)、空间复杂度:O(1)】
1234567891011121314151617181920212223# class ListNode:# def __init__(self, x):# self.val = x# self.next = Noneclass Solution def hasCycle(self, head: ListNode) -> bool: if not head: return head # 快慢指针 slow = head fast = head while slow and fast: slow = slow.next if fast.next: fast = fast.next.next else: ...
10-Cpp
C++ 学习笔记基本语法

