HomeLập trìnhPythonNguyên tắc cơ...

Nguyên tắc cơ bản về Python cho Khoa học dữ liệu


Những người mới bắt đầu trong lĩnh vực khoa học dữ liệu không quen thuộc với lập trình thường gặp khó khăn trong việc tìm ra nơi họ nên bắt đầu.

Với hàng trăm câu hỏi về cách bắt đầu với Python cho DS trên các diễn đàn khác nhau, bài đăng này (và chuỗi video) là nỗ lực của tôi để giải quyết tất cả những câu hỏi đó.

Tôi là một nhà truyền bá Python bắt đầu với tư cách là Nhà phát triển Full Stack Python trước khi chuyển sang kỹ thuật dữ liệu và sau đó là khoa học dữ liệu. Kinh nghiệm trước đây của tôi với Python và khả năng nắm bắt tốt về toán học đã giúp tôi chuyển sang khoa học dữ liệu thoải mái hơn.

Vì vậy, đây là những nguyên tắc cơ bản để giúp bạn lập trình bằng Python.

Trước khi chúng tôi đi sâu vào các yếu tố cần thiết, hãy đảm bảo rằng bạn đã thiết lập môi trường Python của mình và biết cách sử dụng Jupyter Notebook (tùy chọn).

Một chương trình giảng dạy Python cơ bản có thể được chia thành 4 chủ đề thiết yếu bao gồm:

  1. Kiểu dữ liệu (int, float, chuỗi)
  2. Cấu trúc dữ liệu phức hợp (danh sách, bộ dữ liệu và từ điển)
  3. Điều kiện, vòng lặp và chức năng
  4. Lập trình hướng đối tượng và sử dụng các thư viện bên ngoài

Hãy đi qua từng cái và xem những nguyên tắc cơ bản bạn nên học là gì.

1. Kiểu dữ liệu và cấu trúc

Bước đầu tiên là hiểu cách Python diễn giải dữ liệu.

Bắt đầu với các kiểu dữ liệu được sử dụng rộng rãi, bạn nên làm quen với số nguyên (int), số float (float), chuỗi (str) và booleans (bool). Đây là những gì bạn nên thực hành.

Các chức năng nhập, đánh máy và I/O:

  • Tìm hiểu loại dữ liệu bằng cách sử dụng type() phương pháp.
type('Harshit')

# output: str
  • Lưu trữ các giá trị vào các biến và các hàm vào-ra (a = 5.67)
  • Typecasting — chuyển đổi một loại biến/dữ liệu cụ thể thành một loại khác nếu có thể. Ví dụ: chuyển đổi một chuỗi số nguyên thành một số nguyên:
astring = "55"
print(type(astring))

# output: <class 'str'>
astring = int(astring)
print(type(astring))

# output: <class 'int64'>

Nhưng nếu bạn cố gắng chuyển đổi một chuỗi chữ và số thành một số nguyên, nó sẽ báo lỗi:

2

Khi bạn đã quen thuộc với các kiểu dữ liệu cơ bản và cách sử dụng chúng, bạn nên tìm hiểu về toán tử số học và đánh giá biểu thức (DMAS) và cách bạn có thể lưu trữ kết quả trong một biến để sử dụng tiếp.

answer = 43 + 56 / 14 - 9 * 2
print(answer)

# output: 29.0

Dây:

Biết cách xử lý dữ liệu văn bản và các toán tử của chúng sẽ hữu ích khi xử lý kiểu dữ liệu chuỗi. Thực hành các khái niệm này:

  • Nối các chuỗi bằng cách sử dụng +
  • Tách và nối chuỗi bằng cách sử dụng split()join()phương pháp
  • Thay đổi trường hợp của chuỗi bằng cách sử dụng lower()upper() phương pháp
  • Làm việc với các chuỗi con của một chuỗi
Đọc thêm  Đăng nhập bằng Python – Cách sử dụng nhật ký để gỡ lỗi các dự án Django của bạn

Đây là Notebook bao gồm tất cả các điểm được thảo luận.

2. Cấu trúc dữ liệu phức hợp (danh sách, bộ dữ liệu và từ điển)

Danh sách và bộ dữ liệu (kiểu dữ liệu phức hợp):

Một trong những cấu trúc dữ liệu quan trọng và được sử dụng phổ biến nhất trong Python là danh sách. Danh sách là một tập hợp các phần tử và tập hợp có thể có cùng kiểu dữ liệu hoặc khác nhau.

Việc hiểu danh sách cuối cùng sẽ mở đường cho việc tính toán các phương trình đại số và mô hình thống kê trên mảng dữ liệu của bạn.

Dưới đây là những khái niệm bạn nên làm quen với:

  • Có bao nhiêu loại dữ liệu có thể được lưu trữ trong danh sách Python.
  • Lập chỉ mục và cắt lát để truy cập một phần tử cụ thể hoặc danh sách con của danh sách.
  • Phương pháp trợ giúp cho sắp xếp, đảo ngược, xóa các phần tử, sao chép và nối thêm.
  • Danh sách lồng nhau — danh sách chứa danh sách. Ví dụ, [1,2,3, [10,11]].
  • Bổ sung trong một danh sách.
alist + alist

# output: ['harshit', 2, 5.5, 10, [1, 2, 3], 'harshit', 2, 5.5, 10, [1, 2, 3]]

Nhân danh sách với một vô hướng:

alist * 2

# output: ['harshit', 2, 5.5, 10, [1, 2, 3], 'harshit', 2, 5.5, 10, [1, 2, 3]]
5

bộ dữ liệu là một chuỗi các mục được sắp xếp theo thứ tự bất biến. Chúng tương tự như danh sách, nhưng sự khác biệt chính là bộ dữ liệu là bất biến trong khi danh sách có thể thay đổi.

Các khái niệm cần tập trung vào:

  • Lập chỉ mục và cắt (tương tự như danh sách).
  • Bộ dữ liệu lồng nhau.
  • Thêm bộ dữ liệu và phương thức trợ giúp như count()index().

từ điển

Đây là một loại bộ sưu tập khác trong Python. Trong khi danh sách được lập chỉ mục số nguyên, từ điển giống địa chỉ hơn. Từ điển có các cặp khóa-giá trị và các khóa tương tự như các chỉ mục trong danh sách.

6

Để truy cập một phần tử, bạn cần chuyển khóa trong dấu ngoặc vuông.

7

Các khái niệm cần tập trung vào:

  • Lặp qua một từ điển (cũng bao gồm trong các vòng lặp).
  • Sử dụng các phương thức trợ giúp như get(), pop(), items(), keys(), update()và như thế.

Notebook cho các chủ đề trên có thể được tìm thấy ở đây.

3. Điều kiện, Vòng lặp và Hàm

Điều kiện và phân nhánh

Python sử dụng các biến boolean này để đánh giá các điều kiện. Bất cứ khi nào có sự so sánh hoặc đánh giá, giá trị boolean là giải pháp kết quả.

x = True

ptint(type(x))

# output: <class bool>
print(1 == 2)

# output: False

So sánh trong hình cần quan sát kỹ vì mọi người hay nhầm lẫn giữa toán tử gán (=) với toán tử so sánh (==).

Toán tử Boolean (or, and, not)

Chúng được sử dụng để đánh giá các xác nhận phức tạp cùng nhau.

  • or — Một trong nhiều phép so sánh phải đúng thì toàn bộ điều kiện mới đúng.
  • and — Tất cả các phép so sánh phải đúng thì toàn bộ điều kiện là đúng.
  • not — Kiểm tra ngược lại so sánh được chỉ định.
Đọc thêm  Hàm Python – Cách xác định và gọi hàm
9
score = 76
percentile = 83

if score > 75 or percentile > 90:
    print("Admission successful!")
else:
    print("Try again next year")
    
# output: Try again next year

Các khái niệm cần học:

  • if, elseelif báo cáo để xây dựng điều kiện của bạn.
  • Thực hiện so sánh phức tạp trong một điều kiện.
  • Lưu ý đến việc thụt lề trong khi viết lồng nhau if / else các câu lệnh.
  • Sử dụng boolean, in, isnot người vận hành.

vòng lặp

Thường thì bạn sẽ cần thực hiện một tác vụ lặp đi lặp lại và các vòng lặp sẽ là người bạn tốt nhất của bạn để loại bỏ chi phí dự phòng mã. Bạn sẽ thường xuyên cần lặp qua từng thành phần của danh sách hoặc từ điển và các vòng lặp sẽ hữu ích cho việc đó. whilefor là hai loại vòng lặp.

Tập trung vào:

  • Các range() chức năng và lặp qua một chuỗi bằng cách sử dụng for vòng lặp.
  • while vòng lặp
age = [12,43,45,10]
i = 0
while i < len(age):
    if age[i] >= 18:
        print("Adult")
    else:
        print("Juvenile")
    i += 1

# output: 
# Juvenile
# Adult
# Adult
# Juvenile
  • Lặp lại qua các danh sách và nối thêm (hoặc bất kỳ tác vụ nào khác với các mục danh sách) theo một thứ tự cụ thể
cubes = []
for i in range(1,10):
    cubes.append(i ** 3)
print(cubes)

#output: [1, 8, 27, 64, 125, 216, 343, 512, 729]
  • sử dụng break, passcontinue từ khóa.

Danh sách hiểu

Một cách phức tạp và ngắn gọn để tạo danh sách bằng cách sử dụng và có thể lặp lại theo sau là một for khoản.

Ví dụ: bạn có thể tạo một danh sách gồm 9 khối như trong ví dụ trên bằng cách sử dụng khả năng hiểu danh sách.

# list comprehension
cubes = [n** 3 for n in range(1,10)]
print(cubes)

# output: [1, 8, 27, 64, 125, 216, 343, 512, 729]

Chức năng

Khi làm việc trên một dự án lớn, việc duy trì mã trở thành một việc vặt thực sự. Nếu mã của bạn thực hiện các tác vụ tương tự nhiều lần, thì một cách thuận tiện để quản lý mã của bạn là sử dụng hàm.

Hàm là một khối mã thực hiện một số thao tác trên dữ liệu đầu vào và cung cấp cho bạn đầu ra mong muốn.

Việc sử dụng các hàm giúp mã dễ đọc hơn, giảm dư thừa, giúp mã có thể tái sử dụng và tiết kiệm thời gian.

Python sử dụng thụt đầu dòng để tạo các khối mã. Đây là một ví dụ về một chức năng:

def add_two_numbers(a, b):
    sum = a + b
    return sum

Chúng tôi xác định một chức năng bằng cách sử dụng def từ khóa theo sau là tên của hàm và đối số (đầu vào) trong dấu ngoặc đơn, theo sau là dấu hai chấm.

Phần thân của hàm là khối mã được thụt lề và đầu ra được trả về cùng với return từ khóa.

Bạn gọi một hàm bằng cách chỉ định tên và chuyển các đối số trong dấu ngoặc đơn theo định nghĩa.

14

Thêm ví dụ và chi tiết ở đây.

4. Lập trình hướng đối tượng và sử dụng thư viện bên ngoài

Chúng tôi đã sử dụng các phương thức của trình trợ giúp cho danh sách, từ điển và các loại dữ liệu khác, nhưng chúng đến từ đâu?

Khi chúng ta nói danh sách hoặc chính tả, chúng ta thực sự đang tương tác với một đối tượng lớp danh sách hoặc một đối tượng lớp dict. In loại của một đối tượng từ điển sẽ cho bạn thấy rằng đó là một đối tượng dict của lớp.

Đọc thêm  Hướng dẫn về phương pháp chuỗi Python – Cách sử dụng find() và replace() trên Chuỗi Python
15

Đây là tất cả các lớp được xác định trước trong ngôn ngữ Python và chúng giúp cho các tác vụ của chúng ta trở nên rất dễ dàng và thuận tiện.

Các đối tượng là thể hiện của một lớp và được định nghĩa là sự đóng gói các biến (dữ liệu) và các hàm thành một thực thể duy nhất. Họ có quyền truy cập vào các biến (thuộc tính) và phương thức (hàm) từ các lớp.

Bây giờ câu hỏi là, chúng ta có thể tạo các lớp và đối tượng tùy chỉnh của riêng mình không? Câu trả lời là CÓ.

Đây là cách bạn định nghĩa một lớp và một đối tượng của nó:

class Rectangle:
    
    def __init__(self, height, width):
        self.height = height
        self.width = width
    
    def area(self):
        area = self.height * self.width
        return area

rect1 = Rectangle(12, 10)

print(type(rect1))

# output: <class '__main__.Rectangle'>

Sau đó, bạn có thể truy cập các thuộc tính và phương thức bằng cách sử dụng toán tử dấu chấm (.).

17

Sử dụng thư viện/mô-đun bên ngoài

Một trong những lý do chính để sử dụng Python cho khoa học dữ liệu là cộng đồng tuyệt vời phát triển các gói chất lượng cao cho các lĩnh vực và vấn đề khác nhau. Sử dụng các thư viện và mô-đun bên ngoài là một phần không thể thiếu khi làm việc với các dự án bằng Python.

Các thư viện và mô-đun này đã xác định các lớp, thuộc tính và phương thức mà chúng ta có thể sử dụng để hoàn thành nhiệm vụ của mình. Ví dụ, các math thư viện chứa nhiều hàm toán học mà chúng ta có thể sử dụng để thực hiện các phép tính của mình. Các thư viện là .py các tập tin.

Bạn nên học cách:

  • Nhập thư viện vào không gian làm việc của bạn
18
  • Sử dụng help chức năng để tìm hiểu về một thư viện hoặc chức năng
19
  • Nhập trực tiếp chức năng được yêu cầu.
20
  • Cách đọc tài liệu về các gói nổi tiếng như pandas, numpy và sklearn và sử dụng chúng trong các dự án của bạn

Gói (lại

Điều đó sẽ bao gồm các nguyên tắc cơ bản của Python và giúp bạn bắt đầu với khoa học dữ liệu.

Có một vài tính năng, chức năng và kiểu dữ liệu khác mà bạn sẽ trở nên quen thuộc theo thời gian khi bạn làm việc trên ngày càng nhiều dự án.

Bạn có thể xem qua các khái niệm này trong repo GitHub nơi bạn sẽ tìm thấy tập thể dục sổ tay cũng vậy:

dswh/python_fundamentals

Nguyên tắc cơ bản về Python là một loạt hướng dẫn về kiến ​​thức Python cơ bản cần thiết để bắt đầu trong lĩnh vực Khoa học dữ liệu. – dswh/python_fundamentals

61068902?s=400&v=4

Đây là loạt video gồm 3 phần dựa trên bài đăng này để bạn cùng theo dõi:

Khoa học dữ liệu với Harshit

Bạn có thể kết nối với tôi trên LinkedIn, TwitterInstagram và xem kênh YouTube của tôi để biết thêm các hướng dẫn và phỏng vấn chuyên sâu.

Nếu hướng dẫn này hữu ích, bạn nên xem các khóa học về khoa học dữ liệu và máy học của tôi trên Học viện Wiplane. Chúng toàn diện nhưng nhỏ gọn và giúp bạn xây dựng nền tảng vững chắc cho công việc để giới thiệu.





Zik.vn – Biên dịch & Biên soạn Lại

spot_img

Create a website from scratch

Just drag and drop elements in a page to get started with Newspaper Theme.

Buy Now ⟶

Bài viết liên quang

DMCA.com Protection Status