用 AI 做數(shù)據(jù)分析,是真的快!
在數(shù)據(jù)分析領域,數(shù)據(jù)清洗是一項基礎而關鍵的工作。它涉及到檢測和糾正數(shù)據(jù)中的錯誤、不準確、缺失以及多余信息,以確保分析結(jié)果的準確性和可靠性。傳統(tǒng)的數(shù)據(jù)清洗過程往往耗時耗力,但隨著人工智能技術的發(fā)展,現(xiàn)在我們可以用AI來加速這一過程。
數(shù)據(jù)清洗,是檢測和糾正不合理數(shù)據(jù)的過程。在大多數(shù)情況下,數(shù)據(jù)分析前都需要這個過程,將錯誤的、不準確的、缺失的以及多余的數(shù)據(jù)進行修改或刪除。具體來說,數(shù)據(jù)清洗會面臨以下四個問題:
- 存儲格式不一致
- 數(shù)據(jù)不完整
- 存儲形式不一致
- 存儲位置不一致
為了提升數(shù)據(jù)分析的工作效率,最近我嘗試了用 ChatGPT 解決第一個問題,「客戶名稱大小寫不一致」。
我先將需要處理的數(shù)據(jù)和提示詞寫出來,然后分析為什么這樣寫。
lucas green – 415-234-9871 – 1520 Willow Road
emily ray : 607-120-5438 : 304 Birch Avenue
OSCAR WHITE , 202-555-0183 , 1337 Maple Drive
isla brown ; 818-555-1234 ; 2020 Oak Lane
theo moore : 909-555-4545 : 880 Cedar Path
AVA WILSON – 313-555-9072 – 167 Elm Street
mia king , 215-555-9801 , 322 Pine Street
noah lee ; 312-555-6611 ; 410 Birch Boulevard
lily johnson – 415-555-2671 – 518 Juniper Way
JACK TAYLOR : 202-555-0164 : 729 Spruce Lane
sophia martinez – 909-555-5454 – 488 Redwood Circle
ETHAN DAVIS , 606-555-3141 , 1050 Oak Avenue
charlotte smith ; 707-555-5962 ; 191 Maple Parkway
oliver jones : 530-555-8787 : 855 Cedar Street
amelia young – 202-555-0198 – 176 Pine Drive
BENJAMIN CLARK , 213-555-6007 , 132 Elm Lane
zoe anderson ; 408-555-5270 ; 980 Birch Road
harry roberts – 202-555-0143 – 633 Juniper Street
LUCY LEWIS : 505-555-6679 : 215 Spruce Avenue
logan martin – 404-555-4545 – 1120 Willow Lane
emma thompson , 312-555-9800 , 470 Oak Street
LIAM SCOTT ; 213-555-9876 ; 630 Birch Lane
grace hall : 505-555-3245 : 325 Cedar Boulevard
jacob wright – 202-555-0171 – 1220 Maple Drive
VICTORIA ADAMS , 408-555-1337 , 221 Elm Road
james baker ; 312-555-7891 ; 105 Birch Path
isabella carter : 415-555-3141 : 440 Juniper Way
SAMUEL MILLER – 202-555-0190 – 640 Spruce Lane
madison gonzalez , 909-555-1239 , 970 Redwood Circle
joshua perez ; 707-555-2814 ; 108 Oak Avenue
任務描述:?標準化客戶名稱的字符大小寫。
示例輸入:??
–?JOHN?SMITH??
–?jane?Doe??
–?michael?johnson
期望輸出:??
–?John?Smith??
–?Jane?Doe??
–?Michael?Johnson
詳細說明:?你是數(shù)據(jù)分析專家,將輸入的客戶名稱轉(zhuǎn)換為首字母大寫格式,即每個單詞的首字母大寫,其余字母小寫。請注意,客戶名稱可能全大寫或全小寫,或者混合大小寫,并且可能包括多個單詞。同時,請保持聯(lián)系信息的格式不變。編寫代碼后,需要對原始數(shù)據(jù)進行處理,并展示結(jié)果來進行驗證。
上面的提示詞中,我用到了三個技巧,即 One-shot 提示、YAML 格式、強調(diào)格式不變和驗證。
我來分別講講使用這些技巧的好處。
One-shot 學習相當于給 ChatGPT 一個例子,把任務說明、示例輸入輸出以及要處理的數(shù)據(jù)全部放在提示中。模型能夠從示例中學習到標準化大小寫的規(guī)則,并生成正確的輸出。
你發(fā)現(xiàn)了沒?我給 ChatGPT 的提示詞是有一定的縮進的,它是符合 YAML 語法的文本內(nèi)容。類似的格式能夠讓 ChatGPT 更容易理解你的結(jié)構化表達。當然你可以使用類似的格式,而不用完全遵守 YAML 語法,畢竟分析語法的 ChatGPT 會自動“糾正”不規(guī)范的語法的。
你也可以試著輸入一些提示詞,讓 ChatGPT 為你轉(zhuǎn)換成 YAML 格式。你來對比一下,會非常明顯地發(fā)現(xiàn),在理解上,它對這些規(guī)范格式的提示詞比純粹的自然語言要更準確。
另外一個提示詞內(nèi)容上的技巧,就是強調(diào)格式不變和驗證。清楚地定義期望結(jié)果,往往是你對 AI 開始工作前最容易忽略的一件事情。特別要確保大模型能夠?qū)δ愕墓ぷ饔薪y(tǒng)一的理解。所以,我特意在詳細說明部分,增加了“格式不變”、“展示結(jié)果”、“進行驗證”,確保能準確地輸出你想要的結(jié)果。
通過上面的提示詞,我們拿到了第一個案例的執(zhí)行結(jié)果,如圖所示:
演示數(shù)據(jù):
姓名,年齡,身高,體重
“John?Doe,?28,?5’11”,?150lbs”
“Jane?Smith,?32,?162cm,?55kg”
“Mike?Brown,?45,?1.68m,?70kg”
“Lisa?Ray,?30,?6’0″,?135lbs”
“Tom?Lee,?33,?170cm,?68kg”
“Lucy?Black,?29,?1.75m,?65kg”
“Sam?Wilson,?24,?5’3″,?120lbs”
“Anna?White,?41,?190cm,?80kg”
“David?Green,?35,?1.90m,?90kg”
“Karen?Hill,?27,?6’2″,?160lbs”
…
該輸出有效地處理各種格式的輸入數(shù)據(jù),正確分離名稱和聯(lián)系信息,并將客戶名稱轉(zhuǎn)換為首字母大寫的格式。
以往進行數(shù)據(jù)清洗的「臟活累活」都可以讓 GPT 幫我們完成。而那些需要但個人不擅長的統(tǒng)計學模型、程序代碼,也可以讓 GPT 來編寫,我們結(jié)合業(yè)務來進行驗證。
本文由人人都是產(chǎn)品經(jīng)理作者【林驥】,微信公眾號:【林驥】,原創(chuàng)/授權 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!