HomeTin học Văn phòngExcelCách hợp nhất...

Cách hợp nhất nhiều sổ làm việc Excel với Python


Python, với tư cách là một ngôn ngữ, có giá trị không thể đo đếm được, đặc biệt khi bạn muốn làm việc với dữ liệu có cấu trúc. Vì mọi người lưu trữ rất nhiều dữ liệu trong các tệp Excel nên việc hợp nhất nhiều tệp để tiết kiệm thời gian và công sức là điều bắt buộc.


Python cho phép bạn làm chính xác điều đó; bất kể bạn muốn kết hợp bao nhiêu tệp Excel, bạn có thể thực hiện điều đó một cách dễ dàng. Với phạm vi thư viện và tài nguyên của bên thứ ba, bạn có thể nhập và sử dụng các công cụ đa diện của Python để thực hiện đặt giá thầu của mình.

Trong hướng dẫn này, bạn sẽ cần cài đặt và sử dụng các thư viện Pandas để nhập dữ liệu vào Python trước khi hợp nhất nó.


Cài đặt thư viện Pandas trong Python

Pandas là thư viện của bên thứ ba mà bạn có thể cài đặt trong Python. Một số IDE đã cài đặt sẵn Pandas.

Nếu bạn đang sử dụng phiên bản IDE không đi kèm với Pandas được cài đặt sẵn, hãy yên tâm, bạn có thể cài đặt trực tiếp bằng Python.

Đây là cách cài đặt Pandas:

 pip install pandas 

Nếu đang sử dụng Jupyter Notebook, bạn có thể cài đặt Pandas trực tiếp bằng lệnh PIP. Hầu hết, khi bạn đã cài đặt Jupyter với Anaconda, khả năng cao là bạn đã có sẵn Pandas để sử dụng trực tiếp.

Đọc thêm  Cách loại bỏ các bản sao trong Excel

Nếu bạn không thể gọi Pandas, bạn có thể sử dụng lệnh trên để cài đặt chúng trực tiếp.

Kết hợp các tệp Excel với Python

Trước tiên, bạn cần tạo một thư mục ở vị trí ưa thích chứa tất cả các tệp Excel. Khi thư mục đã sẵn sàng, bạn có thể bắt đầu viết mã để nhập các thư viện.

Bạn sẽ sử dụng hai biến trong mã này:

  1. gấu trúc: Thư viện Pandas cung cấp các khung dữ liệu để lưu trữ các tệp Excel.
  2. hệ điều hành: Thư viện hữu ích cho việc đọc dữ liệu từ thư mục máy của bạn

Để nhập các thư viện này, hãy sử dụng các lệnh sau:

 Import Pandas as pd

Import OS

  • Nhập khẩu: Cú pháp Python được sử dụng để nhập các thư viện trong Python
  • gấu trúc: Tên thư viện
  • pd: Bí danh được đặt cho thư viện
  • hệ điều hành: Một thư viện để truy cập thư mục hệ thống

Khi bạn đã nhập các thư viện, hãy tạo hai biến để lưu trữ đường dẫn tệp đầu vào và đầu ra. Cần có đường dẫn tệp đầu vào để truy cập thư mục của tệp. Đường dẫn tệp đầu ra là cần thiết vì tệp kết hợp sẽ được xuất ở đó.

Nếu bạn đang sử dụng Python, hãy đảm bảo rằng bạn thay đổi dấu gạch chéo ngược thành dấu gạch chéo ngược (\ đến /)

 input_file_path = "C:/Users/gaurav/OneDrive/Desktop/Excel files/"

output_file_path = "C:/Users/gaurav/OneDrive/Desktop/"

nối các / ở cuối cũng như để hoàn thành các đường dẫn.

Đọc thêm  Cách thực hiện VLOOKUP trong bảng tính Excel

Các tệp của thư mục có sẵn trong một danh sách. Tạo một danh sách để lưu trữ tất cả các tham chiếu tệp của thư mục đầu vào bằng cách sử dụng danh sách chức năng từ hệ điều hành thư viện.

Nếu bạn không chắc chắn về các chức năng có sẵn trong thư viện, bạn có thể sử dụng thư mục chức năng với tên thư viện. Ví dụ, để kiểm tra phiên bản chính xác của hàm listdir, bạn có thể sử dụng lệnh như sau:

 dir(OS) 

Đầu ra sẽ bao gồm tất cả các chức năng liên quan có sẵn trong thư viện hệ điều hành. Hàm listdir là một trong nhiều hàm có sẵn trong thư viện này.

Tạo một biến mới để lưu trữ các tệp đầu vào từ thư mục.

 excel_file_list = os.listdir(input_file_path) 

In biến này để xem tên của các tệp được lưu trữ trong thư mục. Tất cả các tệp được lưu trữ trong thư mục sẽ được hiển thị khi bạn sử dụng chức năng in.

 print (excel_file_list) 

Tiếp theo, bạn cần thêm một khung dữ liệu mới để lưu trữ từng tệp Excel. Hãy tưởng tượng một khung dữ liệu như một thùng chứa để lưu trữ dữ liệu. Đây là lệnh để tạo khung dữ liệu.

 df = pd.DataFrame() 
  • df: Biến để lưu trữ giá trị của DataFrame
  • pd: Bí danh cho thư viện Pandas
  • Khung dữ liệu: Cú pháp mặc định để thêm khung dữ liệu

Thư mục đầu vào có ba .xlsx tập tin trong ví dụ này. Tên tập tin là:

 File1_excel.xlsx

File2_excel.xlsx

File3_excel.xlsx

thư mục tập tin

Để mở từng tệp từ thư mục này, bạn cần chạy một vòng lặp. Vòng lặp sẽ chạy cho từng tệp trong danh sách được tạo ở trên.

Đây là cách bạn có thể làm điều đó:

 for excel_files in excel_file_list: 

Tiếp theo, cần kiểm tra phần mở rộng của tệp vì mã sẽ chỉ mở tệp XLSX. Để kiểm tra các tệp này, bạn có thể sử dụng một Nếu bản tường trình.

Sử dụng kết thúc bằng chức năng cho mục đích này, như sau:

 for excel_files in excel_file_list:

   

   if excel_files.endswith(".xlsx"):

  • excel_files: Liệt kê với tất cả các giá trị tệp
  • kết thúc bằng: Chức năng kiểm tra phần mở rộng của các tập tin
  • (“.xlsx”): Giá trị chuỗi này có thể thay đổi, tùy thuộc vào những gì bạn muốn tìm kiếm

Bây giờ bạn đã xác định được các tệp Excel, bạn có thể tạo một khung dữ liệu mới để đọc và lưu trữ các tệp riêng lẻ.

 for excel_files in excel_file_list:

   if excel_files.endswith(".xlsx"):

       

       df1 = pd.read_excel(input_file_path+excel_files)

  • df1: Khung dữ liệu mới
  • pd: thư viện gấu trúc
  • đọc_excel: Chức năng đọc file Excel trong thư viện Pandas
  • input_file_path: Đường dẫn thư mục chứa tệp tin
  • excel_files: Bất kỳ biến nào được sử dụng trong vòng lặp for

Để bắt đầu nối thêm các tệp, bạn cần sử dụng nối thêm chức năng.

 for excel_files in excel_file_list:

   if excel_files.endswith(".xlsx"):

       

       df1 = pd.read_excel(input_file_path+excel_files)

       df = df.append(df1)

Cuối cùng, bây giờ khung dữ liệu hợp nhất đã sẵn sàng, bạn có thể xuất nó sang vị trí đầu ra. Trong trường hợp này, bạn đang xuất khung dữ liệu sang tệp XLSX.

 df.to_excel(output_file_path+"Consolidated_file.xlsx") 
  • df: Khung dữ liệu để xuất
  • to_excel: Lệnh dùng để xuất dữ liệu
  • đầu ra_file_path: Đường dẫn được xác định để lưu trữ đầu ra
  • Consolidated_file.xlsx: Tên của tập tin hợp nhất

Bây giờ, hãy xem mã cuối cùng:

 

import pandas as pd

import os

input_file_path = "C:/Users/gaurav/OneDrive/Desktop/Excel files/"

output_file_path = "C:/Users/gaurav/OneDrive/Desktop/"

excel_file_list = os.listdir(input_file_path)

excel_file_list

df = pd.DataFrame()

for excel_files in excel_file_list:

   

   if excel_files.endswith(".xlsx"):

       

       df1 = pd.read_excel(input_file_path+excel_files)

       

       df = df.append(df1)

df.to_excel(output_file_path+"Consolidated_file.xlsx")

Đoạn mã Jupyter Notebook

Sử dụng Python để kết hợp nhiều sổ làm việc Excel

Python’s Pandas là một công cụ tuyệt vời cho người mới bắt đầu cũng như người dùng nâng cao. Thư viện được sử dụng rộng rãi bởi các nhà phát triển muốn thành thạo Python.

Ngay cả khi bạn là người mới bắt đầu, bạn có thể hưởng lợi rất nhiều bằng cách tìm hiểu các sắc thái của Pandas và cách thư viện được sử dụng trong Python.



Zik.vn – Biên dịch & Biên soạn Lại

spot_img

Create a website from scratch

Just drag and drop elements in a page to get started with Newspaper Theme.

Buy Now ⟶

Bài viết liên quang

DMCA.com Protection Status