0%

美术建模减面

Draco压缩库

LOD技术(Levels of Detail)是一种以空间换时间的优化方法,场景中加入LOD控制的、通过摄像机距离决定是否显示的不同细节模型

1
2
3
4
const lod = new THREE.LOD();
lod.addLevel(object, distance)

scene.add(lod)

https://threejs.org/examples/#webgl_lod

私有化部署模型和api调用

实践6-1 区分好评/差评(情感判断)

Model:RoBERTa 来源:Huggingface

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
import os
# 必须在导入 pipeline 之前设置
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
os.environ["HF_HOME"] = "/root/autodl-tmp/models" # 同时控制 model 和 tokenizer 缓存

from transformers import pipeline

# 1. 加载 pipeline
# 指定 task="sentiment-analysis"
# 💡 技巧:如果不指定 model,默认下载英文模型。
# 这里我们指定一个中文微调过的模型,效果更好。
cache_dir = '/root/autodl-tmp/models'
classifier = pipeline(
task="sentiment-analysis",
model="uer/roberta-base-finetuned-dianping-chinese"
#model="bert-base-chinese"
)

# 2. 预测
result = classifier("这个手机屏幕太烂了,反应很慢!")
print(result)
# 输出示例:[{'label': 'negative (negative)', 'score': 0.98}]

result2 = classifier("物流很快,包装很精美,五星好评。")
print(result2)
# 输出示例:[{'label': 'positive (positive)', 'score': 0.99}]

实践6-3 分类(tokenizer分词器)

Model: BART

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
from transformers import AutoTokenizer

# 加载分词器
tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")

# 模拟一个 Batch(两个长度不一样的句子)
sentences = ["我爱AI", "HuggingFace真好用"]

# 调用分词器
inputs = tokenizer(
sentences,
padding=True, # 自动填充到最长句子的长度
truncation=True, # 超过最大长度就截断
max_length=10, # 设置最大长度
return_tensors="pt" # 返回 PyTorch 张量
)

print(inputs)
# 重点观察:
# 'input_ids': 你的字对应的数字
# 'attention_mask': 1代表是真实的字,0代表是填充的(Padding)

实践6-6 实现一个模型调用的pipeline

NLP 常用任务:

  • sentiment-analysis:情感分析,判断文本褒贬。
  • text-generation:文本生成,如写故事、续写代码。
  • zero-shot-classification:零样本分类,无需训练即可根据自定义标签分类。
  • question-answering:问答系统,根据给定的上下文回答问题。
  • summarization:自动摘要,将长文浓缩为短句。
  • translation_xx_to_yy:翻译任务,如translation_en_to_zh。
  • ner:命名实体识别,提取人名、地名、组织名

    CV & 音频常用任务:

  • image-classification:图像分类。

  • object-detection:目标检测,识别图中的物体并定位。
  • automatic-speech-recognition (ASR):语音转文字。
  • text-to-speech (TTS):文字转语音。

huggingface 高效微调(PEFT)

Trainer类 封装Forward, Backward, Optimizer_step, Zero_grad迭代过程

  • 前向传播
  • 反向传播
  • 参数优化
  • 梯度清零

训练数据集 DataSet 在huggingface上的另一大类资源

实践6-7 垃圾右键分类器

利用Dateset微调llm

fk vs ik (反向控制)

Regify

1
2
3
4
pip install jupyter
jupyter notebook --help

jupyter lab #启动一个web交互应用http://127.0.0.1:8888/lab

鲍莫尔成本病和劳动份额下降理论

鲍莫尔成本病

  • 进步部门(如制造业、软件业、现在的AI):技术进步极快,生产率(Output per Hour)指数级增长
  • 停滞部门(如表演艺术、教育、医疗、理发):这类工作高度依赖“人”的时间,很难通过机器替代

制造业:工资↑,生产率↑↑ → 成本 ↓(东西越来越便宜)

服务业:工资↑,生产率→(不变) → 成本↑↑(服务越来越贵)

这就是为什么你现在买一台高端电脑(制造品)的价格可能和20年前差不多(甚至更便宜),但看一场病、请个家教、修个水管的价格却贵得离谱。随着社会越来越富裕,我们花在“买服务”上的钱占比会越来越高,感觉越来越“穷”。

劳动份额下降

这描述的是国民收入这块“大蛋糕”里,切给“劳动”的部分越来越少,切给“资本”的部分越来越多的现象。

技术进步让机器和软件(资本品)变得极其便宜且高效, AI作为一种新型资本,正在大规模替代“认知型劳动” 降本增效的过程中,造成劳动者与资本家之间贫富差距扩大,财富集中的同时也造成了消费不足

鲍莫尔成本病解释了为什么服务越来越贵,且服务业吸纳了那么多就业

劳动份额下降解释了为什么打工人虽然辛苦,但分到的钱却越来越少。

langchain docs

langchain是python语言的AI应用开发工具箱,封装并提供 提示词模板、主流LLM api、保存对话上下文等功能的标准化接口 让开发者无需从零搭建复杂架构, 从而快速构建具备“思考、记忆、行动”能力的agent

  • Model
  • Prompt
  • Memory

核心组件

安装:

1
2
pip install langchain
pip show langchain

显示版本1.0(2025年10月发布)以上 与0.3有较大改版, 新增子项目:

  • LangGraph:用“图”编排多步、多角色、有状态的工作流,是langchain1.0的底层逻辑。
  • LangServe:一键把链/代理封装成REST API,自带/invoke、/stream、/batch 端点与Swagger 页面。
  • LangSmith:可视化调试、回归测试、在线监控平台,与1.X 的回调系统深度打通。
  • DeepAgent

项目关系

使用环境变量

1
2
cd AgentProj
pip install langchain langchain-openai dotenv

将环境变量写入项目下的.env文件

1
2
DEEPSEEK_API_KEY='xxxxx'
DEEPSEEK_BASE_URL='xxxxx'

loadenv并调用os.getenv

1
2
3
4
5
from dotenv import load_dotenv
import os

load_dotenv()
API_KEY = os.getenv('DEEPSEEK_API_KEY')

LLM扩展

注意到langchain-openai是langchain的扩展包 使用下面的安装命令效果相同

1
pip install -U "langchain[openai]"

更多模型提供商: Official Providers 其实国内外各种大模型都可以直接使用“ChatOpenAI”类来负责调用

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
from langchain_openai import ChatOpenAI
from dotenv import load_dotenv
import os

load_dotenv()

API_KEY = os.getenv('DEEPSEEK_API_KEY')
BASE_URL = 'https://dashscope.aliyuncs.com/compatible-mode/v1'

llm = ChatOpenAI(
model_name = 'deepseek-v3.2',
temperature = 0.5,
api_key = API_KEY,
base_url = BASE_URL
)

response = llm.invoke("你是谁,回答我!look in my eyes")
print(response)

content=’我是DeepSeek,由深度求索公司创造的AI助手!😊 \n\n看着你的眼睛(虽然我没有物理形态),我可以告诉你:\n- 我是一个纯文本AI模型,擅长理解和生成文字内容\n- 拥有128K的上下文处理能力\n- 支持文件上传功能(图像、文档等)\n- 完全免费使用,没有语音功能\n- 知识截止到2024年7月\n\n我的“眼睛”就是我的文字理解能力,能通过你上传的文件“看到”其中的文字信息。有什么问题想要探讨吗?我很乐意帮助你!✨’ additional_kwargs={‘refusal’: None} response_metadata={‘token_usage’: {‘completion_tokens’: 119, ‘prompt_tokens’: 13, ‘total_tokens’: 132, ‘completion_tokens_details’: None, ‘prompt_tokens_details’: {‘audio_tokens’: None, ‘cached_tokens’: 0}}, ‘model_provider’: ‘openai’, ‘model_name’: ‘deepseek-v3.2’, ‘system_fingerprint’: None, ‘id’: ‘chatcmpl-86738849-2401-9a6d-903e-8234934d2197’, ‘finish_reason’: ‘stop’, ‘logprobs’: None} id=’lc_run—019c22e8-e465-7f92-acdd-25b2d4a42e44-0’ tool_calls=[] invalid_tool_calls=[] usage_metadata={‘input_tokens’: 13, ‘output_tokens’: 119, ‘total_tokens’: 132, ‘input_token_details’: {‘cache_read’: 0}, ‘output_token_details’: {}}

DeepSeek有专门的扩展 langchain_deepseek

type(response)将显示返回类型为AIMessage 在这个结构中显示总token消耗是132 与百炼控制台计费数据一致

1
2
3
4
5
6
7
8
9
10
11
12
from langchain_deepseek import ChatDeepSeek

model = ChatDeepSeek(
model="...",
temperature=0,
max_tokens=None,
timeout=None,
max_retries=2,
# api_key="...",
# api_base="...",
# other params...
)

ChatDeepSeek返回的AIMessage中 包含reasoning_content(深度思考)

QQs按:invoke没有参数控制是否输出reasoning_content, 也就是说 官网聊天窗口的‘深度思考’开关是一个模型切换功能

社区集成

langchain-community:官方维护的社区集成包 包含了数十甚至上百个第三方模型的集成(通义千问、文心一言、Moonshot、各类向量数据库等)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
import os
from langchain_community.chat_models import ChatTongyi

# 从环境变量获取 dashscope 的 API Key
api_key = os.getenv('DASHSCOPE_API_KEY')
dashscope.api_key = api_key

# 加载模型 (使用 ChatModel 以支持 tool calling)
llm = ChatTongyi(model_name="qwen-turbo", dashscope_api_key=api_key)

# 加载 serpapi 工具
tools = load_tools(["serpapi"])

# LangChain 1.x 新写法
agent = create_agent(llm, tools)

# 运行 agent
result = agent.invoke({"messages": [("user", "今天是几月几号?历史上的今天有哪些名人出生")]})
print(result["messages"][-1].content)

流式输出

1
2
for chunk in llm.stream("怎么才能暴富")
print(chunk)

chunk类型是AIMessageChunk 内容是逐个token(可能是一个字、词、标点符号, 取决于大模型分词器)返回的

提示词模板

1
2
3
4
5
6
7
8
# 创建Prompt Template
prompt = PromptTemplate(
input_variables=["product"],
template="What is a good name for a company that makes {product}?",
)

chain = prompt | llm
response = chain.invoke({"product":"scanner"})

lcel管道语法

为什么python支持类似shell命令行的管道语法? 其实这是利用了 Python 的 运算符重载

  • | 在 Python 内部对应 __or__ 方法。
  • LangChain 的核心组件(如 ChatPromptTemplate, ChatOpenAI, StrOutputParser)都实现了这个方法。
  • 当你写 A | B 时,Python 实际上在后台执行 A.__or__(B)
    LangChain 在 __or__ 方法里做的事情就是:把 B 包装起来,存进 A 的属性里,形成一棵调用树。
    当你最后调用 .invoke() 时,这棵树才开始遍历执行,数据顺着树枝从根部流向末梢。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
# v0.3 写法

template = "告诉我一个关于{topic}的笑话"
prompt = PromptTemplate(template=template, input_variables=["topic"])
llm = ChatOpenAI()

formatted_prompt = prompt.format(topic="猫")
response_message = llm.invoke(formatted_prompt)
final_text = response_message.content

# lcel 写法

# 新写法:声明式,一眼看穿数据流向
chain = prompt | llm | StrOutputParser()
result = chain.invoke({"topic": "猫"})

agent

1
2
3
4
5
6
7
8
9
10
11
from langchain.agents import create_agent
agent = create_agent(
model="claude-sonnet-4-5-20250929",
tools=[get_weather],
system_prompt="You are a helpful assistant",
)

# Run the agent
agent.invoke(
{"messages": [{"role": "user", "content": "what is the weather in sf"}]}
)

模块和常用库函数

init_chat_model

  • rate_limiter 限制调用速率

with_structured_output

  • pydentic格式化输出

StrOutputParser

工具调用

serpapi 联网搜索

主流联网搜索工具 可以让大模型突破训练数据时效的限制 检索互联网

  • 所选llm需具备调用工具能力 如ChatTongyi
  • serpapi 也是注册计费api
1
2
3
4
5
6
7
8
from langchain_community.agent_toolkits.load_tools import load_tools
# 加载 serpapi 工具
tools = load_tools(["serpapi"])
agent = create_agent(llm, tools)

# 运行 agent
result = agent.invoke({"messages": [("user", "今天是几月几号?历史上的今天有哪些名人出生")]})
print(result["messages"][-1].content)

自定义本地计算

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
# 使用@tool装饰器自定义一个工具
@tool
def calculator(expression: str) -> str:
"""计算数学表达式。只接受数字和运算符,例如: 2+2, 100/4, 32*1.8+32。不要使用变量名或占位符。"""
# 只允许数字、运算符和括号
import re
if not re.match(r'^[\d\s\+\-\*\/\.\(\)]+$', expression):
return f"错误: 表达式 '{expression}' 包含无效字符。请只使用数字和运算符(+,-,*,/)"
return str(eval(expression))
# 加载 serpapi 工具 + 自定义计算器
serpapi_tools = load_tools(["serpapi"])
tools = serpapi_tools + [calculator]

# LangChain 1.x 新写法
agent = create_agent(llm, tools)

# 运行 agent
result = agent.invoke({"messages": [("user", "当前北京的温度是多少华氏度?这个温度的1/4是多少")]})

匹配提示词中的数字和运算符 计算结果

QQs按: 需记得能被llm接收的只有prompt,对于支持工具调用的llm,prompt会重新组装,并多次调用,首先提交的prompt告诉llm有以下工具可以调用,根据用户提问让llm判断是否使用、使用哪些工具,如果llm决定调用,要再提交一次包含工具调用结果的prompt并要求llm将工具调用结果整合到回答中

容错处理(暂略)

ReAct范式

Reason + Action 就是让 LLM 像人类一样思考:先观察问题,推理出需要做什么动作,执行动作(调用工具),观察结果,最后得出结论

Memory

中间件

before/after钩子

langchain agent vs qwen agent vs LlamaIndex

流媒体下载

Youtube 视频、音频 -> Y2mate

bilibili等多平台 -> SnapAny

文字转语音

text-to-speech(TTS)

ai音频字幕(ai听译)

converter app

格式转换(ffmpeg)

1
2
3
4
5
# windows bash 安装
winget install ffmpeg

ffmpeg -i input.mp4 -vn -acodec libmp3lame -q:a 2 output.mp3
ffmpeg -i input.mp4 -vn -acodec wmav2 output.wma

截取

视频截取

1
ffmpeg -i input.mp4 -ss 00:00:10 -to 00:00:20 -c copy output.mp4

图片批量截取

1
2
pip install Pillow
python clips.py

clips.py

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
import os
from PIL import Image

# 配置参数
input_dir = '.' # 输入目录,'.' 表示当前目录
output_dir = 'output' # 输出子目录名

# 截取区域 (左, 上, 右, 下)
# 注意:Pillow 的坐标系统原点(0,0)在左上角
crop_box = (1254, 104, 1798, 888)

def main():
# 如果输出目录不存在,则创建
if not os.path.exists(output_dir):
os.makedirs(output_dir)
print(f"创建输出目录: {output_dir}")

# 获取目录下所有文件
files = os.listdir(input_dir)
png_files = [f for f in files if f.lower().endswith('.png')]

count = 0
for filename in png_files:
input_path = os.path.join(input_dir, filename)

try:
# 打开图片
with Image.open(input_path) as img:
# 截取指定区域
cropped_img = img.crop(crop_box)

# 构造输出路径
output_path = os.path.join(output_dir, filename)

# 保存图片
cropped_img.save(output_path)

print(f"处理完成: {filename}")
count += 1

except Exception as e:
print(f"处理 {filename} 时出错: {e}")

print(f"\n全部完成!共处理 {count} 张图片。")

if __name__ == '__main__':
main()

剪辑软件常用功能(以剪映为例)

  • 分辨率 长宽比 短视频9:16
  • 裁剪
  • 定格
  • 文字 动画效果

流程化

视频结构:老套的开篇叙事 重点字幕 音效 转场

视频剪辑工作流 to be continued

目录

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
web-3d-cli/
├── package.json # 项目配置和依赖
├── index.js # CLI 入口文件
├── lib/
│ ├── commands/ # 命令处理模块
│ │ ├── init.js # 初始化命令
│ │ └── add.js # 添加场景命令
│ ├── templates/ # 项目模板
│ │ ├── react/ # React 模板
│ │ ├── vue/ # Vue 模板
│ │ └── vanilla/ # 原生模板
│ ├── utils/ # 工具函数
│ │ ├── fs.js # 文件操作
│ │ ├── logger.js # 日志输出
│ │ └── prompts.js # 交互式询问
│ └── constants.js # 常量定义
└── README.md # 项目说明

npm link

npm link 是一个用于本地包开发与调试的强大工具,它通过创建符号链接,让你在不发布到 npm 仓库的情况下,将本地开发的包直接在其他项目中使用,实现代码的实时同步更新。

1
2
3
4
cd /path/to/my-package
npm link
cd /path/to/my-project
npm link my-package

npm publish

1