HomeLập trìnhPythonCách sử dụng...

Cách sử dụng Python trong Power BI


Microsoft Power BI là một công cụ phân tích kinh doanh cho phép người dùng hiểu rõ hơn về dữ liệu của họ.

Bạn có thể dễ dàng tạo bảng điều khiển tương tác bằng cách chỉ cần kéo và thả các cột dữ liệu vào mặt phẳng trực quan hóa.

Trong bài viết này, tôi sẽ chỉ cho bạn cách sử dụng Python để giúp bạn tận dụng các khả năng của Power BI.

Tại sao nên sử dụng Python và Power BI cùng nhau?

Nhiều nhà phân tích dữ liệu và nhà khoa học dữ liệu đã quen thuộc với lập trình Python. Vì vậy, họ có thể dễ dàng chọn Power BI để sử dụng trong quy trình EDA (Phân tích dữ liệu khám phá). Các nhà phân tích dữ liệu cũng có thể kể một câu chuyện từ dữ liệu bằng bảng điều khiển được tạo từ Power BI.

Tôi thích Power BI vì dễ dàng xem chi tiết dữ liệu và tìm thông tin chi tiết. Khi tôi lọc các tính năng/cột trong một trực quan hóa, nó cũng sẽ ảnh hưởng đến các trực quan hóa khác. Sau đó, tôi có thể tập trung vào một danh mục trước khi chuyển sang danh mục khác.

Microsoft Power BI đã hỗ trợ hai ngôn ngữ khác nhau: ngôn ngữ M và DAX (Biểu thức phân tích dữ liệu). Nhưng đôi khi sẽ thuận tiện hơn khi sử dụng Python cho quá trình chuẩn bị dữ liệu. Điều này là do nó cho phép bạn truy cập vào các thư viện Python khác nhau, một tập hợp các chức năng hữu ích giúp loại bỏ nhu cầu viết mã từ đầu.

Bằng cách triển khai Python trong Power BI, bạn có thể hưởng lợi từ cả Python và Power BI. Bạn có thể dễ dàng thực hiện EDA và tạo bản trình bày bằng bảng điều khiển tương tác của Power BI. Bạn cũng có thể linh hoạt viết mã Python cho trang tổng quan.

Đọc thêm  Sắp xếp từ điển theo giá trị trong Python – Cách sắp xếp một Dict

Những gì chúng tôi sẽ bao gồm:

  • Cách cài đặt Python
  • Cách thiết lập Python trong Power BI
  • Cách sử dụng Python để lấy dữ liệu
  • Cách sử dụng Python để chuyển đổi dữ liệu
  • Cách sử dụng Python để trực quan hóa dữ liệu

Cách cài đặt Python 📥

Trước khi sử dụng Python trong Power BI, bạn phải cài đặt Python. Tôi khuyên bạn nên cài đặt Anaconda vì đây là một công cụ hữu ích để quản lý các thư viện và môi trường Python.

Bước 1: Cài đặt Anaconda

hình ảnh-59

Truy cập https://www.anaconda.com/products/distribution, tải xuống và cài đặt Anaconda trên máy tính của bạn.

Bước 2: Mở Dấu nhắc Anaconda

Tìm kiếm Dấu nhắc Anaconda và nhấp để mở.

1*1s9Qobi-Nwj5FHxDwbSV7A

Bạn sẽ thấy một cửa sổ bật lên màn hình đen. Đảm bảo rằng thanh tiêu đề là Anaconda Prompt.

1*9di4tqkz_q4-o0TSuZspCQ

Bước 3: Tạo môi trường Python 3.6

Power BI có thể gặp sự cố khi làm việc với Python phiên bản cao (tại thời điểm viết bài viết này, phiên bản Python mới nhất là 3.9). Để tránh các sự cố kỹ thuật, tôi đã tạo một môi trường Python 3.6 mới và tôi không gặp vấn đề gì với nó.

Bạn có thể trực tiếp hạ cấp phiên bản Python của mình, nhưng điều này không được khuyến khích vì nó có thể ảnh hưởng đến các dự án khác. Bạn có thể coi môi trường Anaconda như một hộp làm việc chứa một bộ sưu tập gói Python cụ thể. Khi bạn làm việc trong môi trường này sẽ không ảnh hưởng đến các dự án khác.

Trong Dấu nhắc Anaconda, hãy tạo một môi trường mới bằng cách nhập mã sau
(chỉ cần thay thế với tên môi trường của bạn, chẳng hạn như python36):

conda create --name <env_name> python=3.6

Sau đó, khi bạn nhìn thấy Tiến hành ([y]/n)?, gõ y và Enter.

hình ảnh-124

Chờ cho đến khi nó chạy xong.

Kiểm tra xem một môi trường mới đã được tạo thành công chưa bằng cách gõ lệnh này:

conda env list

Bạn sẽ thấy một danh sách các môi trường Anaconda. Nếu bạn thấy một môi trường mới, bạn đã sẵn sàng để tiến hành bước tiếp theo.

hình ảnh-126

Bước 4: Cài đặt các thư viện Python hữu ích

Trước khi cài đặt bất kỳ gói Python nào, hãy đảm bảo rằng bạn đang ở trong môi trường vừa tạo bằng cách nhập lệnh sau vào dấu nhắc Anaconda:

conda activate <env_name>
hình ảnh-60

Sau đó, bạn sẽ quan sát thấy sự thay đổi của tên môi trường trong dấu ngoặc đơn.

Bạn có thể cài đặt các thư viện/gói Python mà bạn sẽ sử dụng trong Power BI bằng cách nhập lệnh sau (chỉ cần thay thế với tên của gói bạn muốn cài đặt, chẳng hạn như pandas, numpy, matplotlib, v.v.):

pip install <package_name>

Cách thiết lập Python trong Power BI ⚙️

Sau khi bạn hoàn tất cài đặt Python, đã đến lúc sử dụng Power BI!

Đọc thêm  Tìm hiểu đánh máy bằng Python trong năm phút

Bước 1: Cài đặt Power BI

Truy cập https://www.microsoft.com/en-us/download/details.aspx?id=58494.
Tải xuống và cài đặt Power BI trên máy tính của bạn.

Sau đó mở Power BI.

Bước 2: Nhấp vào ‘Tệp’ ở góc trên bên trái.

hình ảnh-64

Bước 3: Nhấp vào ‘Tùy chọn và cài đặt’. Nhấp vào ‘Tùy chọn’.

hinh-65

Bước 4: Nhấp vào ‘Tập lệnh Python’

hình ảnh-66

Bước 5: Thay đổi thư mục và điều hướng đến môi trường Python của bạn

Thay đổi thư mục chính Python được phát hiện thành “Khác” và duyệt tìm môi trường Python của bạn được tạo ở bước trước.

hinh-67

Mẹo về cách tìm thư mục môi trường Python:

Mở Anaconda Prompt và nhập mã bên dưới:

conda env list

Bạn sẽ thấy một danh sách các môi trường Anaconda.

hinh-127

Sao chép đường dẫn sau tên môi trường, chẳng hạn như C:\Users\yannawutk\.conda\envs\python36

Bây giờ, bạn đã sẵn sàng sử dụng Python trong Power BI.

Bạn có thể sử dụng Python theo ba cách quan trọng: lấy dữ liệu, biến đổi dữ liệu và trực quan hóa dữ liệu.

Nếu bạn muốn làm theo mã trong bài viết này, bạn có thể tải xuống dữ liệu mẫu từ tập dữ liệu Kaggle này.

Cách sử dụng Python để lấy dữ liệu 🧺

Bạn có thể sử dụng Python để lấy dữ liệu. Điều này hữu ích trong việc quét web (lấy dữ liệu từ trang web) và lấy dữ liệu từ API (Giao diện chương trình ứng dụng). Ví dụ: nếu bạn muốn thu thập dữ liệu từ Twitter hoặc Trello.

Các phương pháp thu thập dữ liệu này không nhất thiết phải có sẵn trong Power BI nếu không có Python.

Trong ví dụ này, tôi sẽ tạo một tệp Python để lấy dữ liệu từ hai nguồn: tệp CSV (tải xuống từ liên kết được cung cấp ở trên) và một khung dữ liệu đã tạo (một bảng có các hàng và cột).

Bước 1: Nhấn vào Lấy dữ liệu

hình ảnh-70

Bước 2: Tìm kiếm Python Script và nhấp để mở một cửa sổ mã hóa mới.

hình ảnh-128

Bước 3: Nhập mã bên dưới và nhấp vào Ok

df1 là dữ liệu từ tệp CSV và df2 là khung dữ liệu được tạo có hai cột A và B. Bạn phải thay đổi thư mục của df1 thành vị trí tệp CSV đã tải xuống.

import pandas as pd

df1 = pd.read_csv("C:/Corona_NLP_train.csv", encoding = "ISO-8859-1")
df2 = pd.DataFrame({'A': [1, 3, 6, 8],'B': [10, 30, 50, 90]})
hình ảnh-72

Bước 4: Tải dữ liệu

Bạn sẽ thấy một mặt phẳng Điều hướng hiển thị dữ liệu (giống như trong các phương pháp tìm nạp dữ liệu khác.). Nhấp vào hộp kiểm của dữ liệu bạn muốn tải và nhấp vào ‘Tải’.

hình ảnh-73

Và bạn có nó rồi đấy! Bây giờ hãy xem cách chúng ta có thể chuyển đổi dữ liệu.

Cách sử dụng Python để chuyển đổi dữ liệu 🔄

Bạn cũng có thể sử dụng Python để chuyển đổi dữ liệu của mình. Hầu hết, tôi sử dụng nó với các biểu thức thông thường. Ví dụ: bạn có thể sử dụng nó để trích xuất các chuỗi con từ một cột khác khớp với các mẫu đã xác định (chẳng hạn như nhận các thẻ bắt đầu bằng # từ văn bản Twitter).

Đọc thêm  Cách lấy thông tin vị trí của địa chỉ IP bằng Python

Trong ví dụ này, tôi sẽ tìm độ dài văn bản bằng cách sử dụng len() chức năng trong Python.

Bước 1: Nhấp vào Chuyển đổi dữ liệu

hình ảnh-74

Bước 2: Chọn Truy vấn bạn muốn chuyển đổi

hình ảnh-75

Bước 3: Trong Tab Transform, nhấp vào Run Python Script

hình ảnh-76

Bạn sẽ thấy một cửa sổ Run Python script mới. Viết mã của bạn ở đây và nhấp vào ok.

dataset['Count'] = dataset['OriginalTweet'].str.len()
hình ảnh-77

khái niệm chính: dữ liệu sẽ là DataFrame ‘tập dữ liệu’, vì vậy bạn có thể thao tác với các hàm Pandas.

Bước 4: Mở rộng bảng

Kết quả sẽ là một bảng. Nhấp để mở rộng bảng. Đảm bảo rằng ‘Sử dụng tên cột gốc làm tiền tố’ không được chọn.

hình ảnh-78

Bạn sẽ thấy kết quả của việc chuyển đổi dữ liệu và các bước được thêm vào trong mặt phẳng CÁC BƯỚC ĐÃ ÁP DỤNG.

hình ảnh-79
hinh-80

Cách sử dụng Python để trực quan hóa dữ liệu 📊

Chỉ tạo một biểu đồ bằng cách sử dụng trực quan hóa từ Power BI có thể có một số hạn chế và một số biểu đồ có thể không có sẵn trong Power BI.

Python rất hữu ích vì có nhiều thư viện trong Python có thể tạo bất kỳ hình ảnh trực quan nào bạn muốn.

Các thư viện Python dành cho Trực quan hóa dữ liệu thường được sử dụng ngày nay bao gồm Matplotlib, Plotly, Seaborn và ggplot.

Mặc dù viết mã bằng Python để tạo biểu đồ có thể khó hơn so với khái niệm kéo và thả của Power BI, nhưng có nhiều tùy chỉnh biểu đồ và ví dụ về mã hơn (để sử dụng làm tài liệu tham khảo).

Bây giờ chúng ta hãy xem nó hoạt động như thế nào, từng bước một.

Bước 1: Trong Mặt phẳng Trực quan hóa, Nhấp vào Biểu tượng Py (Viết tắt của Python)

hinh-82

Bạn sẽ thấy khu vực soạn thảo tập lệnh Python trống.

Bước 2: Chọn các cột bạn muốn trực quan hóa.

hinh-83

Bạn sẽ thấy một vùng mã hóa trống.

Bước 3: Viết mã

Bây giờ là lúc để viết mã của bạn. Đừng quên thêm plt.show() để hiển thị các biểu đồ. Nhấp vào biểu tượng chạy và chờ kết quả. Và bạn đã hoàn tất!

import seaborn as sns
import matplotlib.pyplot as plt
import re

def find_hash(text):
	line=re.findall(r'(?<=#)\w+',text)
	return " ".join(line)
    
dataset['hash'] = dataset['OriginalTweet'].apply(lambda x:find_hash(x))
temp = dataset['hash'].value_counts()[:][1:11]
temp = temp.to_frame().reset_index().rename(columns={'index':'Hashtag','hash':'count'})

plt.figure(figsize=(20, 15))
sns.barplot(x="Hashtag",y="count", data = temp)
plt.show()
hinh-84

Ghi chú: Nếu nó hiển thị lỗi sau khi chạy mã, hãy hít một hơi thật sâu và đọc thông báo lỗi. 🙂

Phần kết luận

Bài viết này hướng dẫn bạn cách sử dụng Python trong Power BI từng bước, để bạn có thể tận dụng lợi thế của cả bảng điều khiển tương tác Power BI và tính linh hoạt của Python.

Bạn có thể áp dụng mã Python theo nhiều cách bao gồm thu thập, chuyển đổi và trực quan hóa dữ liệu.



Zik.vn – Biên dịch & Biên soạn Lại

spot_img

Create a website from scratch

Just drag and drop elements in a page to get started with Newspaper Theme.

Buy Now ⟶

Bài viết liên quang

DMCA.com Protection Status