خبر و ترفند روز

خبر و ترفند های روز را اینجا بخوانید!

مقدمه ای بر PandasAI: کتابخانه مولد AI Python

از کتابخانه PandasAI Python برای استفاده از قدرت هوش مصنوعی و مدل های زبان بزرگ برای انجام وظایف تجزیه و تحلیل داده ها استفاده کنید.

Pandas غالب ترین کتابخانه برای دستکاری مجموعه داده ها و چارچوب های داده است. این یک هنجار برای مدت طولانی بوده است. اما با پیشرفت در هوش مصنوعی، یک کتابخانه منبع باز جدید به نام PandasAI توسعه یافته است که قابلیت های هوش مصنوعی مولد را به پانداها اضافه می کند.

PandasAI جایگزین پانداها نمی شود. در عوض، قابلیت‌های هوش مصنوعی مولد خود را ارائه می‌دهد. به این ترتیب می توانید با چت با PandasAI تجزیه و تحلیل داده ها را انجام دهید. سپس آنچه را که در پس‌زمینه اتفاق می‌افتد خلاصه می‌کند و خروجی پرس و جو را در اختیار شما قرار می‌دهد.

نصب PandasAI

PandasAI از طریق PyPI (شاخص بسته Python) در دسترس است. اگر از یک IDE محلی استفاده می کنید، یک محیط مجازی جدید ایجاد کنید. سپس از مدیر بسته پیپ برای نصب آن استفاده کنید.

pip install pandasai

اگر از Google Colab استفاده می کنید، ممکن است با خطای تعارض وابستگی مشابه آنچه در زیر نشان داده شده است مواجه شوید.

خطای تعارض وابستگی

نسخه IPython را دانگرید نکنید. فقط زمان اجرا خود را مجدداً راه اندازی کنید و دوباره بلوک کد را اجرا کنید. این موضوع را حل خواهد کرد.

کد منبع کامل در یک مخزن GitHub موجود است.

آشنایی با مجموعه داده های نمونه

مجموعه داده نمونه ای که با PandasAI دستکاری می کنید مجموعه داده های قیمت مسکن کالیفرنیا از Kaggle است. این مجموعه داده حاوی اطلاعاتی درباره مسکن از سرشماری سال 1990 کالیفرنیا است. ده ستون دارد که آمار این خانه ها را ارائه می کند. کارت داده برای کمک به کسب اطلاعات بیشتر در مورد این مجموعه داده در Kaggle موجود است. در زیر پنج ردیف اول مجموعه داده آمده است.

پنج ردیف اول یک مجموعه داده

هر ستون نشان دهنده یک آمار واحد از یک خانه است.

اتصال PandasAI به مدل زبان بزرگ

برای اتصال PandasAI به یک مدل زبان بزرگ (LLM) مانند OpenAI، باید به کلید API آن دسترسی داشته باشید. برای به دست آوردن یکی، به پلتفرم OpenAI بروید. سپس وارد حساب کاربری خود شوید. API را در صفحه گزینه‌ها که بعد ظاهر می‌شود انتخاب کنید.

مطلب مرتبط:   6 بهترین مدل از قبل آموزش دیده برای کار و تجارت

صفحه اصلی ورود OpenAI

پس از آن روی پروفایل خود کلیک کرده و گزینه View API keys را انتخاب کنید. در صفحه ای که بعد ظاهر می شود روی دکمه Create new secret key کلیک کنید. در آخر، کلید API خود را نام ببرید.

صفحه کلید OpenAI API

OpenAI کلید API شما را تولید می کند. هنگام اتصال PandasAI با OpenAI، آن را همانطور که به آن نیاز دارید کپی کنید. اطمینان حاصل کنید که کلید را مخفی نگه دارید زیرا هر کسی که به آن دسترسی دارد می تواند از طرف شما با OpenAI تماس بگیرد. OpenAI سپس حساب شما را برای تماس ها شارژ می کند.

اکنون که کلید API را دارید، یک اسکریپت پایتون جدید ایجاد کنید و کد زیر را در آن قرار دهید. شما نیازی به تغییر این کد نخواهید داشت زیرا بیشتر اوقات بر اساس آن خواهید بود.

import pandas as pd
from pandasai import PandasAI

# Replace with your dataset or dataframe
df = pd.read_csv("/content/housing.csv")

# Instantiate a LLM
from pandasai.llm.openai import OpenAI
llm = OpenAI(api_token="your API token")

pandas_ai = PandasAI(llm)

کد بالا هم PandasAI و هم Pandas را وارد می کند. سپس یک مجموعه داده را می خواند. در نهایت، OpenAI LLM را نمونه سازی می کند.

اکنون شما آماده مکالمه با داده های خود هستید.

انجام کارهای ساده با استفاده از PandasAI

برای پرس و جو از داده های خود، چارچوب داده و درخواست خود را به نمونه کلاس PandasAI ارسال کنید. با چاپ پنج ردیف اول مجموعه داده خود شروع کنید.

pandas_ai(df, prompt='What are the first five rows of the dataset?')

خروجی اعلان فوق به صورت زیر است:

پنج ردیف اول یک مجموعه داده

این خروجی با خروجی مرور کلی مجموعه داده قبلی یکسان است. این نشان می دهد که PandasAI نتایج صحیحی را تولید می کند و قابل اعتماد است.

سپس، تعداد ستون های موجود در مجموعه داده خود را بررسی کنید.

pandas_ai(df, prompt='How many columns are in the dataset? ')

10 را برمی گرداند که تعداد صحیح ستون ها در مجموعه داده مسکن کالیفرنیا است.

مطلب مرتبط:   توابع خالص در جاوا اسکریپت و نحوه ایجاد آنها

بررسی اینکه آیا مقادیر گمشده در مجموعه داده وجود دارد یا خیر.

pandas_ai(df, prompt='Are there any missing values in the dataset?')

PandasAI برمی‌گرداند که ستون total_bedrooms دارای 207 مقدار گم شده است که دوباره درست است.

کارهای ساده زیادی وجود دارد که می توانید با استفاده از PandasAI به آنها برسید، شما محدود به موارد بالا نیستید.

انجام پرس و جوهای پیچیده با استفاده از PandasAI

PandasAI تنها از وظایف ساده پشتیبانی نمی کند. همچنین می توانید از آن برای انجام پرس و جوهای پیچیده در مجموعه داده استفاده کنید. به عنوان مثال، در مجموعه داده مسکن، اگر می خواهید تعداد خانه هایی را که در یک جزیره قرار دارند، بیش از 100000 دلار ارزش دارند و بیش از 10 اتاق دارند، تعیین کنید، می توانید از دستور زیر استفاده کنید.

pandas_ai(df,prompt= "How many houses have a value greater than 100000,"
                    " are in an island and total bedrooms is more than 10?")

خروجی صحیح پنج است. این همان نتیجه ای است که PandasAI به دست می آورد.

پرس و جوهای پیچیده ممکن است برای یک تحلیلگر داده مدتی طول بکشد تا بنویسد و اشکال زدایی کند. دستور بالا فقط دو خط از زبان طبیعی را برای انجام یک کار مورد نیاز دارد. شما فقط باید دقیقاً آنچه را که می خواهید انجام دهید در ذهن داشته باشید و PandasAI بقیه موارد را به عهده خواهد گرفت.

ترسیم نمودارها با استفاده از PandasAI

نمودارها بخش مهمی از هر فرآیند تجزیه و تحلیل داده ها هستند. این به تحلیلگران داده کمک می کند تا داده ها را به شیوه ای انسان پسند تجسم کنند. PandasAI همچنین دارای ویژگی ترسیم نمودار است. فقط باید dataframe و دستورالعمل را پاس کنید.

با ایجاد یک هیستوگرام برای هر ستون در مجموعه داده شروع کنید. این به شما کمک می کند تا توزیع متغیرها را تجسم کنید.

pandas_ai(df, prompt= "Plot a histogram for each column in the dataset")

خروجی به صورت زیر است:

خروجی هیستوگرام pandasai برای همه ستون ها

PandasAI قادر به ترسیم هیستوگرام تمام ستون ها بدون نیاز به ارسال نام آنها در اعلان بود.

PandasAI همچنین می‌تواند نمودارها را ترسیم کند، بدون اینکه شما به صراحت بگویید از کدام نمودار استفاده کند. برای مثال، ممکن است بخواهید همبستگی داده ها را در مجموعه داده مسکن پیدا کنید. برای رسیدن به این هدف می توانید یک دستور به صورت زیر ارسال کنید:

pandas_ai(df, prompt= "Plot the correlation in the dataset")

PandasAI یک ماتریس همبستگی را مطابق شکل زیر ترسیم می کند:

مطلب مرتبط:   نحوه ایجاد دشمن در بازی های آرکید پایتون

طرح ماتریس همبستگی پانداسای

کتابخانه یک نقشه حرارتی را انتخاب می کند و یک ماتریس همبستگی ترسیم می کند.

ارسال در چند فریم داده به نمونه PandasAI

کار با دیتافریم های متعدد می تواند مشکل باشد. مخصوصاً برای فردی که در تحلیل داده ها تازه کار است. PandasAI این شکاف را برطرف می کند، زیرا تنها کاری که باید انجام دهید این است که هر دو فریم داده را ارسال کنید و شروع به استفاده از دستورات برای دستکاری داده ها کنید.

با استفاده از پاندا دو دیتافریم ایجاد کنید.

employees_data = {
   'EmployeeID': [1, 2, 3, 4, 5],
   'Name': ['John', 'Emma', 'Liam', 'Olivia', 'William'],
   'Department': ['HR', 'Sales', 'IT', 'Marketing', 'Finance']
}

salaries_data = {
   'EmployeeID': [1, 2, 3, 4, 5],
   'Salary': [5000, 6000, 4500, 7000, 5500]
}

employees_df = pd.DataFrame(employees_data)
salaries_df = pd.DataFrame(salaries_data)

می‌توانید از PandasAI سؤالی بپرسید که هر دو فریم داده را برش می‌دهد. شما فقط باید هر دو فریم داده را به نمونه PandasAI منتقل کنید.

pandas_ai([employees_df, salaries_df], "Which employee has the largest salary?")

اولیویا را برمی گرداند که دوباره پاسخ صحیح است.

انجام تجزیه و تحلیل داده ها هرگز آسان تر نبوده است، PandasAI به شما امکان می دهد با داده های خود چت کنید و به راحتی آن ها را تجزیه و تحلیل کنید.

درک فناوری که PandasAI را تقویت می کند

PandasAI فرآیند تجزیه و تحلیل داده ها را ساده می کند و از این رو در زمان زیادی برای تحلیلگران داده صرفه جویی می کند. اما آنچه را که در پس‌زمینه اتفاق می‌افتد انتزاع می‌کند. شما باید با هوش مصنوعی مولد آشنا شوید تا بتوانید دید کلی از نحوه عملکرد PandasAI در زیر کاپوت داشته باشید. این همچنین به شما کمک می کند تا با آخرین نوآوری ها در حوزه هوش مصنوعی مولد همراه باشید.