前脚，智谱、DeepSeek等大模型厂商将API价格一降再降，输入100万tokens仅需1元

2024-05-13 16:14

来源：快科技作者：小丽

　　5月13日，猛然间，大模型圈掀起一股“降价风潮”。

　　前脚，智谱、DeepSeek等大模型厂商将API价格一降再降，输入100万tokens仅需1元。

　　紧接着，GPU租赁的价格也被打了下来。

　　现在潞晨云官方进行限时大额算力补贴，NVIDIA H800的租用价格，低至6.99元/卡/时；NVIDIA A800为5.99元/卡/时，4090甚至低至1.39元/卡/时。

6.99元租H800 一键部署Llama3 有羊毛速来薅

　　不只有租赁服务，平台上还支持快速简易部署Llama 3微调、训练、推理。

　　其中在64卡H100集群上，经过Colossal-AI优化，相比微软+英伟达方案，可提升LLaMA3 70B的训练性能近20%，推理性能也优于vLLM等方案。

　　Open-Sora也能玩转。

6.99元租H800 一键部署Llama3 有羊毛速来薅

　　如上最新动向来自潞晨云（https://cloud.luchentech.com'>https://cloud.luchentech.com）。

　　他们不仅将个人开发者、中小企业用户玩转大模型的成本大幅降低，而且上手门槛也不高。

　　具体来看实操演示~

　　部署Llama 3微调训练推理

　　潞晨云提供一键部署功能，只需简单操作即可快速启动计算环境。

　　在最开始时需要先创建云主机。比如对Llama3微调训练，可在8卡H800上完成，在算力市场中选择即可。

6.99元租H800 一键部署Llama3 有羊毛速来薅

　　此处选择Colossal-llama3训练微调镜像，单击创建按钮，创建云主机。

　　确认当前路径名，并修改config文件，输入教程中的Llama3训练脚本，本脚本已预置已处理数据集为例进行微调。

　　首先编译安装Colossal-AI，其次创建训练需要的文件夹，接着修改hostfile，在镜像中安装IP address指令，查看镜像内IP地址。输入IP address指令将机内IP地址复制并更新到hostfile中，就完成了Llama3微调的全部流程。

　　，时长02:21

　　如果是对Llama 3推理，可在云主机上选择单张H800作为算力资源。

　　Colossal-Inference现已适配支持了LLaMA-3推理加速。

　　模型权重已准备好，无需额外安装。然后运行生成脚本：

　　PRETRAINED_MODEL_PATH="/root/notebook/common_data/Meta-Llama-3-8B" # huggingface or local model pathcd ColossalAI/examples/inference/colossalai run --nproc_per_node 1 llama_generation.py -m PRETRAINED_MODEL_PATH --max_length 80

　　进行多卡TP推理、如下例使用两卡生成：

　　colossalai run --nproc_per_node 2 llama_generation.py -m PRETRAINED_MODEL_PATH --max_length 80 --tp_size 2

　　运行吞吐Benchmark测试：

　　PRETRAINED_MODEL_PATH="/root/notebook/common_data/Meta-Llama-3-8B"git pull # update example benchmark from branch feature/colossal-infercd ColossalAI/examples/inference/python benchmark_llama3.py -m llama3-8b -b 32 -s 128 -o 256 -p PRETRAINED_MODEL_PATH

　　单卡H100对LLaMA3-8B进行Benchmark结果与vLLM对比（例：输入序列长度128，输出长度256）。

6.99元租H800 一键部署Llama3 有羊毛速来薅