私有化部署模型和api调用
实践6-1 区分好评/差评(情感判断)
Model:RoBERTa 来源:Huggingface
1 | import os |
实践6-3 分类(tokenizer分词器)
Model: BART
1 | from transformers import AutoTokenizer |
实践6-6 实现一个模型调用的pipeline
NLP 常用任务:
- sentiment-analysis:情感分析,判断文本褒贬。
- text-generation:文本生成,如写故事、续写代码。
- zero-shot-classification:零样本分类,无需训练即可根据自定义标签分类。
- question-answering:问答系统,根据给定的上下文回答问题。
- summarization:自动摘要,将长文浓缩为短句。
- translation_xx_to_yy:翻译任务,如translation_en_to_zh。
ner:命名实体识别,提取人名、地名、组织名
CV & 音频常用任务:
image-classification:图像分类。
- object-detection:目标检测,识别图中的物体并定位。
- automatic-speech-recognition (ASR):语音转文字。
- text-to-speech (TTS):文字转语音。
huggingface 高效微调(PEFT)
Trainer类 封装Forward, Backward, Optimizer_step, Zero_grad迭代过程
- 前向传播
- 反向传播
- 参数优化
- 梯度清零
训练数据集 DataSet 在huggingface上的另一大类资源
实践6-7 垃圾右键分类器
利用Dateset微调llm