内容过于硬核,先说结论,目测在未来6个月内,将会出现私有独立部署的chatgpt版本,甚至装在一个U盘类似的硬件当中,即插即用,toB商业场景巨大,所以我们团队决定挑战手搓一个ChatGPT。
事情起由
这个事情要从2022.02月份说起,当时清华的一个小兄弟,给我介绍了gpt3的模型,聊天对话在此:
当时我们对GPT的能力和商业落地就有了一些探讨。时间过得很快,到了11月份,gpt3.5就快速的 引爆了全世界。
前几天这个清华小兄弟又找到我,说准备手搓一个ChatGPT,我猛的一听,觉得不可思议,但是听他介绍下思路:
Facebook开源了LLaMA基础模型,从此产生了很多基于LLaMA微调的模型,Vicuna仅用3周时间,效果达到90%+ ChatGPT水平
谷歌技术报告:https://www.semianalysis.com/p/google-we-have-no-moat-and-neither
最近这两天,Facebook发布了新工作,只需要用1000条数据,就可以超过GPT-3.5 (DaVinci 003) 的水平
LIMA: Less Is More for Alignment
基础模型具有了足够的潜力,只需要少量高质量数据微调,就能达到目标水平
既然Vicuna使用了ShareGPT的数据,我们可以抓取并进行清洗,筛选所有高质量数据,只要几千条足够
想法很大胆,不过清华就是清华,开搞!
开始行动
为了配合他的训练模型,我继续用ChatGPT套娃,首先要从sharegpt.com 这网站上爬一些其他的语料
数据来源:https://sharegpt.com/sitemap.xml
数据来源2:https://huggingface.co/datasets/philschmid/sharegpt-raw/tree/main/sharegpt_90k_raw_dataset 好心人在关闭搜索之前,把这个给保存下来了。
套娃开始:
简直太丝滑了,gpt3.5对程序员就比较友好了,通过三个小时的工作,这些数据都被整理出来了。提取里边的有用信息格式如下:
{
“props”: {
“pageProps”: {
“id”: “0A5nb3e”,
“content”: {
“items”: [{
“from”: “human”,
“value”: “tha supreme è un’artista italiano contemporaneo (trapper, produttore discografico) che ha rivoluzionato la musica trap in italia, creando pezzi unici nel loro genere. Questo è una sua canzona, intitolata \”b@by nel bed\”:\n\nHo una baby nel bed, ho una baby bad\nHo una baby nel bed, è una baby bad\nHo una baby nel mio bed, vorrebbe love\nHo una baby nel bed, ho una baby bad\n\nHo una baby nel bed, ho una baby bad\nHo una baby nel bed, è una baby bad\nHo una baby nel mio bed, vorrebbe love\nHo una baby nel bed, ho una baby bad\n\nSuono Mi poi La\nSwing come Ray Charles\nFumo g nei blunt\nFinché non mi sento up\n\nPoi se m’infami per fama, non so\nCome dirtelo ma me ne frega tipo zero\nNon fotti con me non fotterai me\n(Ho una) baby miss crystal\n\nNei suoi eyes c’ha il mar\nBella già nuda o in tuta nike\nCon le treccine mi fa\nPoi se mi cadi per strada farò\n\nQuello che, no, non ti ha mai fatto ne-nessuno\nSì ti rialzerò, ti rialzerò\n\nHo una baby nel bed, ho una baby bad\nHo una baby nel bed, è una baby bad\nHo una baby nel mio bed, vorrebbe love\nHo una baby nel bed, ho una baby bad\n\nHo una baby nel bed, ho una baby bad\nHo una baby nel bed, è una baby bad\nHo una baby nel mio bed, vorrebbe love\nHo una baby nel bed, ho una baby bad\n\nHo una baby nel bed, ho una baby bad\nHo una baby nel bed, è una baby bad\nHo una baby nel mio bed, vorrebbe love\nHo una baby nel bed, ho una baby bad\n\nScrivi il testo di una canzone nello stile di thasup che parli del fatto che la pizza è più buona del sushi. Il titolo della canzone sarà \”p!zza\”.”
}, {
“from”: “gpt”,
“value”: “\u003cdiv class=\”request-:R2d6:-1 markdown prose dark:prose-invert break-words light\”\u003e\u003cp\u003eP!zza, la migliore in città\nP!zza, non c’è niente di più buono\nSushi, sushi non è niente\nP!zza, la scelta giusta per me\u003c/p\u003e\u003cp\u003eHo una p!zza nel forno, calda e saporita\nSushi non mi piace, troppo acquosa\nP!zza con pepperoni, formaggio e olive\nSushi non ci penso neanche, mi fa schifo\u003c/p\u003e\u003cp\u003eSuono Mi poi La\nSwing come Ray Charles\nFumo g nei blunt\nFinché non mi sento up\u003c/p\u003e\u003cp\u003ePoi se m’infami per fama, non so\nCome dirtelo ma me ne frega tipo zero\nNon fotti con me non fotterai me\n(Ho una) p!zza al taglio\u003c/p\u003e\u003cp\u003eNei suoi occhi c’è la verità\nP!zza è il mio amore eterno\nCon il cornicione croccante\nPoi se mi cadi per strada farò\u003c/p\u003e\u003cp\u003eQuello che, no, non ti ha mai fatto nessuno\nSì ti rialzerò, ti rialzerò\u003c/p\u003e\u003cp\u003eP!zza, la migliore in città\nP!zza, non c’è niente di più buono\nSushi, sushi non è niente\nP!zza, la scelta giusta per me\u003c/p\u003e\u003cp\u003eP!zza, la migliore in città\nP!zza, non c’è niente di più buono\nSushi, sushi non è niente\nP!zza, la scelta giusta per me\u003c/p\u003e\u003c/div\u003e”
}],
“avatarUrl”: “data:image/jpeg;base64,/9j/4AAQSkZJRgABAQAAAQABAAD/4gIoSUNDX1BST0ZJTEUAAQEAAAIYAAAAAAQwAABtbnRyUkdCIFhZWiAAAAAAAAAAAAAAAABhY3NwAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAQAA9tYAAQAAAADTLQAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAlkZXNjAAAA8AAAAHRyWFlaAAABZAAAABRnWFlaAAABeAAAABRiWFlaAAABjAAAABRyVFJDAAABoAAAAChnVFJDAAABoAAAAChiVFJDAAABoAAAACh3dHB0AAAByAAAABRjcHJ0AAAB3AAAADxtbHVjAAAAAAAAAAEAAAAMZW5VUwAAAFgAAAAcAHMAUgBHAEIAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAFhZWiAAAAAAAABvogAAOPUAAAOQWFlaIAAAAAAAAGKZAAC3hQAAGNpYWVogAAAAAAAAJKAAAA+EAAC2z3BhcmEAAAAAAAQAAAACZmYAAPKnAAANWQAAE9AAAApbAAAAAAAAAABYWVogAAAAAAAA9tYAAQAAAADTLW1sdWMAAAAAAAAAAQAAAAxlblVTAAAAIAAAABwARwBvAG8AZwBsAGUAIABJAG4AYwAuACAAMgAwADEANv/bAEMAAwICAgICAwICAgMDAwMEBgQEBAQECAYGBQYJCAoKCQgJCQoMDwwKCw4LCQkNEQ0ODxAQERAKDBITEhATDxAQEP/bAEMBAwMDBAMECAQECBALCQsQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEP/AABEIAB4AHgMBIgACEQEDEQH/xAAYAAEAAwEAAAAAAAAAAAAAAAAGAAIDB//EACkQAAICAQMDAwMFAAAAAAAAAAECAwQRAAUSBiExBxNhFCKBI0GRodH/xAAWAQEBAQAAAAAAAAAAAAAAAAABAgj/xAAlEQABAwMCBgMAAAAAAAAAAAABAwQRAAISIUETMVFhcaGx4fH/2gAMAwEAAhEDEQA/AF6oB/urcfnVYElmkSGJDJJIwRFHksTgD8kgfnSu10x03TtXtuSbqK3c24SRWLlSmJaS2EH3JwH6mA+V5Eg9uWOOCctoNb3E47fNaWWcpoEC6de23WiwX51OPzpRt/Rkd3oqfqZ9yddykjsXadIKGWalWeNLMhJ7hlaQ8e+CEbtoxkeMjSs2Vbi0qiMhI8UIOk3F19qZnEwfNZRu0ciuh4spBVh2ZWHhgf2I0+q+olWjudjqWltN+vu8wkdoo9zePbJrLxlWneBRyJPLJTkVyB41z8HBzrcH+tUg6WaXZImKlyzSdxxRI1670zp+ps22bhtL0em9oajs9SKhDHYqpLZ+nCcZE+pKhgXzISQBgv47dxb+zyPsRGNMkKpfkQuTxGcDOB/JydW1NLh2s8jimYJ9/lLZkg0kpWwTz7/ep151/9k=”
},
“views”: 15,
“comments”: []
},
“__N_SSG”: true
},
“page”: “/c/[id]”,
“query”: {
“id”: “0A5nb3e”
},
“buildId”: “mf1hHAmX0bEOFCTF1b7Wa”,
“isFallback”: false,
“gsp”: true,
“scriptLoader”: []
}
来留个钩子: 我这边把搞到的数据已经上传到百度网盘,需要的朋友们可以私信获取!
后续 有进度会继续同步大家,感兴趣的小伙伴们,可以加入我们,一起共创!
商业场景
在数据隐私保护的时代,私有化部署自己的chatgpt永远是一个永恒的大需求。
在前边的case中,对于英文的商业公司来说,这是一个很大的可以出海的需求。
当然对于国内这么庞大的需求来说,支持中文的话商业价值更大。
我会和清华的小兄弟继续摸索 私有化手搓ChatGPT这条路。
共创的朋友可以一起来!
暂无评论内容