YouTube Transcript:
РЕАЛЬНОЕ собеседование на Data Scientist. Алгоритмы + Python

Skip watching entire videos - get the full transcript, search for keywords, and copy with one click.

AutoDub

Understand YouTube Foreign Videos

Immersive YouTube Dubbing in English

Break language barriers, embrace global quality content

Use for Free

Video Transcript

Video Summary

Summary

Core Theme

This content analyzes a data scientist interview, highlighting common pitfalls in answering technical questions related to SQL, Python data structures, statistical concepts (p-value), machine learning algorithms (decision trees, random forests, gradient boosting), and CNNs. It emphasizes the importance of understanding the practical application and underlying principles beyond textbook definitions.

Mind Map

Click to expand

Click to explore the full interactive mind map

你好。現在我來給你們看真傢伙。

面試資料科學家職位

年薪40萬盧布。當候選人…

我會回答錯誤，我會

暫停影片並解釋一下

他回答錯了，正確的回答是…

那樣會更好。有趣的？那我們走吧看，

看，

如何在不使用任何工具的情況下找到毫米中位數

中位數函數，但在 sQel 上，嗯，在

sQele 的任何方言。百分位數也這是被禁止的。

這是被禁止的。

嗯，你可以處理一下。啊，是的，在

按升序排列。這是中位數——這是

原來，中間部分，啊，好吧，我們

我們可以接收這個數量，是的，我們有。

有一個函數可以計算總行數。

記錄，因此我們需要

中間。也就是說，我們把它分成兩個部分。

在特定條件下，這將是中位數。

是的。如果我們需要每個的中位數

群組查找，

啊，好吧，我們會進行總結。哦，是的。

我們將按組進行匯總，並在這些組中進行匯總。在

在

嗯，我該如何理解呢？是的，我該如何理解呢？

CQ元素的中間元素是什麼？如何

明白這個元素位於中間嗎？嗯，如果你

我們有長度和A，嗯，是的，我們需要

發展是必要的。因此，

如果按升序排列，是的。

那麼，我們就能得到這個長度了。

除以二，再加上四捨五入，

如果是偶數，則為奇數

數量。恐怕也只能如此了。

我會記得方法的。還有其他事，但現在

我不記得了。

好的，這裡有小組規模的問題。

已計數。對了，請問我可以選什麼尺寸？

每組都應該被計入嗎？

嗯，我不記得正式的做法是什麼了。

我可能已經記不起來了。有一些，

可能是視窗函數，但我不太清楚。我記得。

我記得。

如何？假設我們發現有

我不了解M碼的情況。

大約10個。我們怎麼知道是哪一個？

是否需要這個元素？好了，我們已經解決了。

接下來呢？我們只有

元素的順序。

我們需要取中位數。啊，那好吧

為什麼我們正式在那裡擁有哪些類型的物品？

有任何字段嗎？也就是說，我們進行排序

按索引，或直接按索引。再一次

在特定條件下，所需的中間值究竟是多少？

嗯，很普通。也就是說，就像 sQel 一樣

請理解我們屬於某個群體。

元素，嗯，中間那個？

排序後

中間那個元素是什麼？

排序？我不知道，我不記得了。出色地

好的，那就開始吧。

嗯，長度為 10，我們用 5 除以 2。 U 我們

我們

我不知道還有什麼其他方法。

停止。而在這裡，候選人不必回答他的問題。

完全正確。他當然是對的。

把想法說出來，需要採取什麼措施，

排序、計數、

取中間元素，我們得到

中位數。但在 SQL 實踐中卻是

這是透過視窗函數實現的，

候選人沒有提及他們。正確的

答案是：取行函數

每個數字和計數

團體。以以下方式對數值進行排序

我們按升序排列了以下數字：

每行。對於奇數

對於直線，我們取值 n + 1/2，並且對於

甚至平均值介於 n / 2 和 n / 2 + 1 之間。

BQL 中位數的計算方法非常簡單。

使用視窗函數，這是基礎。

對於任何數據科學家而言。當然，

中位數還可以用其他方法計算。

以諸如使用等方式

子查詢，但數量很多

這些子查詢需要很長時間才能完成。

Python 中的字典結構是怎麼樣的？它又是什麼？

透過按鍵存取元素的困難字典？

字典？

所以，字典就是我們的 shmap，也就是說，

原則上，我們有鍵哈希。

原則上，這是以單位計算的獲取途徑。

也就是說，我們創建某種密鑰，

它可以是任何不可改變的

目的。嗯，因此，其意義

我們可以得到它，創造一個植物

理論上是單位。

什麼是哈希瑪？它有哪些特性？

她應該那樣做嗎？

所以，我們有一堆哈希值，

因此，哈希演算法在原則上是

當我們把它帶到這裡的時候，嗯，當我們拿到它的時候

由於其中的某些因素，

因此，這裡是一些數字，

一些我們可以

使用。關鍵是要讓他們在場。

如果沒有，我們將擁有獨一無二的。

碰撞事故將會出現。這裡。那是，

因此，我們可以重點強調

不同的記憶單元用於不同的

鑰匙。這裡。好，而且要快點。

因此，如果我們不談論

碰撞可能發生在

我們把它們用於不同的物品

相同的鑰匙。嗯，那裡還有一些選擇。

衝突解決。

這位候選人回答得很好，但是

我還漏掉了一些重要的

細節。首先，這當然是…

哈希函數的確定性。

哈希函數必須具有這樣的特性。

同一鍵必須具有的屬性

始終給出相同的值。這

這似乎顯而易見，但是…

事實上，一條非常關鍵的規則是…

任何哈希函數。其次，他沒有

提到了一個重要的特性，這是一個

哈希函數和相等函數的一致性。

因為如果兩個鍵相等，那麼它們也相等。

它們的哈希值也應該相等。沒有

哈希表根本不會遵循這條規則。

工作。第三，他沒有提到

關於擴展表格，也就是 Profactor。

並重新調整大小，因為如果表格不是

擴張，然後遲早會

它將溢出，會發生太多碰撞。

很多，任何搜尋都不會來自

單位，以及從 n 開始。這三個因素

真正能區分一個人

只知道哈希函數

教科書，以及一個了解情況的人

實際上，它們在實踐中是如何運作的？

用Python實作。如果您正在準備

到劍的通過，然後再加上

我正在學習技術問題

我建議你不要忘記這一點。

應該有很多這樣的軍刀，而且

除了你的技術知識之外

軟技能不可少。這就是原因

請務必購買我重寫的指南。

從事IT行業。我明白了

幫助我成功度過難關的策略

社會安全這套狗屁玩意兒，還能拿到30多塊錢

提供年薪 22 萬盧布的工作機會。和

即使在我所從事的專業領域也是如此

也就是說，從絕對意義上講，一無所知

零。連結會在描述中。

你還談到了不可更改的那些。

資料類型以及哪些資料是可變的，

PON 中哪些是不可變的？

其實，可變型都是簡單型。

數據。例如，一張表格或一份清單。

多變。有一個是不可改變的。這裡。一個

這套設備是不可更改的。有一套可變的集合

分別地。還有什麼呢？還有什麼？出色地

簡單類型。這條線也是，

因此，不可更改。

為什麼要在Python中使用字串？

慢？這裡。嗯，好像就這些了。

美好的。你知道哪些類型的排序？

用任何話來說？你能解釋一下嗎？

這裡有一個快速排序，這是 Hara。一個

分揀商品，分治。那裡

當我們的…斷成兩截時

資料在那裡遞歸排序。

這裡。嗯，還有冒泡排序演算法。

當我們每個人都始終在那裡的時候

該元素浮到頂部。而且我還有

正方形的難度等級是多少？ Umezhenu 在

平均而言，Huara 的排序速度也很快。

啊，只有 Mrge 那裡一直都有。

會是洛根，但速度最快的那一個

Huara 在那裡的平均排序是

有時候那裡的速度反而更快。嗯，在

是的，基本上就是這樣用的。

標準。如果我們以Python版本為例，

然後迅速對傷者進行分類。平均的。

平均的。

所以，根據統計數據，我們來問一個關於Pivio的問題。

Pvio 的措詞是什麼？它源自於哪裡？有輸出嗎？

有輸出嗎？

是的，第一次確實非常困難。

選擇某些選項的機率是多少？

價值和數量，哪個更大？

某種閾值α。也就是說，存在

我們有某種意義，通常情況下是：

當我們查看一些樣本時。

這裡。因此，我們有

一些分佈和測試。那是

我們想進行某種測試。

那麼，這個測驗的結構是怎麼樣的呢？它包含哪些部分？元素？

元素？

我們有一個假設。第一個零。

我們中的一個，嗯，也就是說，我們可以在那裡

然後拒絕原假設。

承認我們的數據有問題。

發生了一件對…產生質的影響

這些變化，不只是

存在某種統計誤差。

錯誤，但有一些更改

這導致了某些事情的發生。這裡。也就是說，如果我們有有

有

改變什麼？

啊，嗯，相對而言，一些

從統計學的角度來看，我們本質上是某種東西。

我們根據數據進行計算。這裡。我們可以

了解 a-a 之間的偏差有多大

不，我可能不會說。現在我只是

我會把它埋起來自己用，我已經記不太清楚了。

好吧，我們再試一次。

對 Pvю 進行定義。這裡

我們有兩個統計數據。 PV是

根據這些統計數據，這種機率是多少？

在什麼條件下？

機率，如果我們擁有的較少，那麼就存在

陷入極端情況的機率價值觀

價值觀

嗯，超過這個閾值或其他什麼。更強。

更強。

對我們來說，它的含義仍然很簡單，嗯，

有條件地選取兩個樣本，

嗯，某種樣本平均值

數學期望值或變異數。該死，我沒有

我記得。好的。在什麼條件下？我們

我們

這個定義符合Pivel的觀點嗎？就是這樣。

在某物存在的情況下，機率是多少？

我們擁有什麼？ A 小於零，嗯，那裡有隻鳥。

sokh，或者更確切地說，我們的 alpha aa

被選中和進入的機率

分佈的尾部，從

兩個方向上都有某種痕跡。不，不是。

我知道如何正確地表達這一點，

我不記得了。

對我們來說，什麼是真理？

這樣我們就有了一個定義或許，

或許，

是的，我們可以接受零假設。

如果存在這種情況，則拒絕。

意思是，什麼才是真理？出色地

是的，如果是05的話，那麼是的。

這意味著零假設必須存在。

說話的定義，

我們擁有獨立的

我們擁有機率的事件

呈常態分佈。

不，我不記得了。零假設。那

我們沒有任何變化。

具有統計學意義。

當然，這位候選人在這裡徹底失控了。

話題，因為他當然是某種東西。

談到了Pvue，但又把它和…混淆了

顯著水準。這兩個絕對是

不同的事情。 PV的正確配方

其中 PV 是獲得該結果的機率。

統計學的價值不亞於

比當前情況更極端，在

前提是原假設成立。和

關鍵在於，它被賦予了以下條件：

原假設成立。如果沒有這個

PV條件根本不存在。

意義。接下來我們 pveueyu，也就是我們的

我們提前將機率進行比較

給定顯著水準α。

通常情況下，它等於 0.05，但也有其他情況。

當數值小於或大於某個值時，以及

極少數情況下。因此，透過比較

如果 alpha 值小於 0，則我們的 Pvue 帶有 alpha 值

alpha，然後我們說，好吧，該死，

機率非常低，甚至低於…

即使是 alpha 值，所以零假設成立。

這種情況發生的可能性非常小，所以我們就說到這裡吧。

我們拒絕。如果它更大，那麼我們

我們說：“好吧，我們在這裡什麼都做不了。”

很遺憾。讓我們做得更多

某種測試。」因為 Pvue

或許，嗯，有點小，但是

對我們來說還不夠小。

他們說零假設

不可能，因為也許在

我們的樣本不知何故出了問題

僅當該值為

統計數據非常低，因此，

我們不能拒絕零。

假設。如果它小於 alpha，

然後我們拒絕它，並說，好吧，

該死，這太不可能了。

希望我解釋清楚了。更有可能的是，

雖然不是很清楚，但你總是可以

研究統計數據並非基於我的影片。我

我只是在處理這些棘手的問題。所以，

各位，請不要往心裡去。我只是在回答問題。

我會這樣回答。當然，

這就是我在面試中會如何回答的。

正確的。測試要素包括：

當然，零和替代方案

假設 h0 和 h1。預先決定

我們討論的顯著水準是α。

已經討論過了。此外，我們的樣品也…

其在忠誠度下的分佈統計數據

零假設 h0。這裡也一樣

這當然也適用於我們自己。

統計檢驗，即

單側檢驗或雙側檢驗。

接下來，先決條件就發揮作用了——這是

正常、獨立和

漸近線。這也包括

決策規則。這一切

香腸被稱為麵團元素。但

記住它們固然重要，但…

了解它們的用途和作用

代表著，因為沒有它

你沒有進行常規的統計檢定建造。

建造。

好的，我們來談談一個小問題。這裡

這樣的。我把它發到了聊天記錄裡。

是的。那麼得到兩個的機率是多少？

從一個裝有三個白球的袋子裡取出幾個白球。

白球和三個黑球？所以，總共

我們有六個球。為了得到它

因此，前兩個是白色的。

那裡的機率是 1/2 3/6。所以呢？

第二個人分別得到白色的那個。

我們還剩下五分之二的人。 2/5，如果我們乘以，

a、1/2 和 2/5，結果發現

1/5。如果我們把球還回去，

兩個白球互換位置，

嗯，答案是對的，只有兩個。

該問題的變體。

那大概是四分之一吧。呃，如果我們有

事件是獨立的，這與

真相是，首先是3/6，我們回來了，然後又回來了

3/6、1/2、1/4。我們來聊聊搖滾樂吧。

我們來談談。指標。你能說出它的名字嗎？

它的機率解釋是什麼？那是

不是圖表，而是什麼事件發生的機率？

羅考克。嗯，它講的是情侶的故事。

已排序，也就是說，存在機率

取得已排序對的數量。

我們有零，有一，是的，那裡有兩個班級。

因此，rokauk 就是這個

正確排序的對的數量，

當我們第一次去上課的時候，

然後又一個。嗯，也就是說，理想狀態。

當我們平均分配時，情況是這樣的：

先是0，然後是1。但這是一棵洛考克樹。

數量或機率

已排序的對？啊，好吧，教訓是…

我們只有一個人，所以機率

不，這個金額大約是

已排序的奇偶校驗比率。

是的，是的，是的。這個量本質上是指當我們

是的，我們正在建設中，我們有一些門檻，僅此而已。

這是喇叭的閾值功能。我們到了

我們採用不同的閾值進行計數。如果是這樣的話

是的，你需要手動輸出，基本上就是這樣。

這可以解釋為：

已排序的 pa。

怎麼可能有數量，數量呢？

如果我們有一塊從零到一的 uka 岩石，

他已經漂浮起來了嗎？

嗯，態度問題。嗯，也就是說，我們

讓我們把所有這樣的不同物件對都列出來，

這裡存在一些關係，嗯，是的，其中有一個單位——

僅此而已，零就是零。和，

因此，這就是機率。

——這個字突然從我腦海中消失了。出色地

是的，簡而言之，百分比的範圍是 0 到 100。

0到1。百分比是正確的。

已排序的配對。

我想應該是這樣。

那麼，什麼是梯度呢？現在

我會透過聊天視窗把函數寄給你。她還有更多作品。

請計算梯度。哦，是的。

梯度是關於的偏導數

不同的變數。 Aa，3x² - y。嗯，如果

從 x 出發，我認為 a 會是 6x，

是的？然後 y 就只是一個數字而已。

我們正在刪除。如果相對於和，則

左邊只有一個數字，y 是 y 的 1。

在我看來，拉尼很簡單。

那麼最終結果會是什麼呢？看？

看？

6倍和1

+ -1 -1。小米6x。為什麼？

因為導數 x² 2x。這就是我

我想我記得。

是的。什麼是梯度？私人的衍生物

衍生物向量。

向量。

所以，可能還需要另一個因素。

放入向量。

圖紙上有一支箭頭。

嗯，就 dx 而言。

啊，嗯，是的，是的，dx。 dx dy。關於

X 和 Y。我提議討論

樹上的方法。我們先來做這件事吧。

讓我們來討論一下決策樹的一般運作原理。

正在建設中。嗯，基地，也就是，如何

節點出現，為什麼會有這樣的謂詞

節點及其選擇方式。

決策樹，顧名思義，就是一組決策樹。

我們以某種方式在那裡分享我們的規則

根據數據集，我們正在計算，嗯，哪個更有利可圖。

把所有東西都分掉。我們審視一切

我們可能的分區方案

我們可以用另一種方式來劃分它。

我們的數據，嗯，相對來說有一些

多變的。我們考慮那裡的交叉營養。

或基尼係數。這裡。嗯，還有，

因此，數值越高，則越少。

資訊有所獲取，或者恰恰相反。

啊，所以，嗯，由此可見

我們已經在每一步都進行建設，因為我們

拆分出售更有利可圖。嗯，如果我們那裡有的話。

深度沒有具體說明，也沒有任何標準，但是

為了避免過擬合，那麼它

盡可能在那裡建造。

將所有範例分成

課程，並且盡可能有效率。

一般有哪些方法？

模型整合？嗯，在

特別是，例如樹木？幹得好

主要 bgiingngboststing，有一些

更狡猾的那些，大多已經存在了。

在某些比賽中使用。如果

如果

是的，那裡已經有一些堆疊物了。

混合，但堆疊已經存在。

異質模型。那我們就來討論一下吧。

或許是偶然，這片森林，也就是奔跑的地方，

它是如何運作的？它的結構是怎樣的？

請告訴我。

是的，它是一個引導聚合。

當我們啟動那裡

我們選擇一個樣本，我們收集一些

例如，它們可以重複出現。這裡

那裡可能還剩下一些。

我們沒有採納的獨特例子。

它們後來經常在那裡被使用

檢查，以進行驗證。一個，

因此，它們被重複，而我們

我們用這些樣本的某個子樣本來訓練。

以下是數據。每一棵樹，

小的，輕微的，平行的，一個，一個

然後透過投票表決，

我們選擇最終結果。在這裡，它奏效了。

平均而言，比單一人好。

樹，因為它就在那裡。

組裝，是的，還有一些

投票結果高於平均。我們

我們選取了很多簡單的樹，但它們並非如此。

容易過度訓練。這裡。我們匯總同時

同時

停，這位考生回答錯誤。

因為他在這裡忘了最重要的事。

隨機森林的特徵。當然，還有他。

嗯，你說得對，關於自舉法和…

他對樣本進行了平均，但他忘記了這一點。

對於每棵樹的每種構造，我們

我們選取一組隨機特徵。

不，不是所有標誌，而是隨機的標誌。

這就是普通樹葉與普通樹葉的差別所在。

像平常一樣在樹林間奔跑。什麼

涉及數量，通常是

分類是萬物之根。

特徵數量，以及迴歸分析 -

這是鈉的氮。但這就是它的意義。

事實上，他們都是精挑細選的。

是超參數。而且他

據說 randmфest 減少了

再培訓。總的來說，這種說法是正確的，但是…

更準確的說法應該是他

透過裝飾減少分散

使用空間標記的符號

引導程式。這些是技術，

這些用於隨機森林。

對於那些仍然不明白的人。這種不準確之處

這次面試真的很有價值。

因為他說，你已經收到40萬份報價了。

關於你不理解事情真相這一點。

這個演算法確實有效。親愛的

如果你要去的話，帶上朋友或女朋友。

飛快進入數據科學領域，想做…

它盡可能快速且高效，並且

那麼，對你來說，最好的薪水就是你的。

我參加了 Offer Connection 計畫。不，

不，不，朋友們，這些不是課程，這是

一個完整的項目，我們將在其中提供

你既有硬技能，也有軟技能，而且

我們將協助您完善履歷並為您提供協助

一路努力，找到一份工作

工作，我們也會幫助你度過難關。

試用期。而且這一切都是交鑰匙工程。

通常3-4個月就足夠了

找到一份工作並收到錄取通知

即使你沒有，也要給22萬盧布。

在此之前，我擁有商業經驗。所以

請造訪學校網站，填寫表格，

經理會聯絡你。

我會向您介紹我們的專案和

會告訴你具體在你的

在這種情況下，最好採取行動，評估你的

具備相關知識，並將提供合理的價格。

非常適合你。接下來我們繼續…

我們的下一個問題。

這裡我們只使用一個資料樣本來訓練。

或者有其他我們不考慮的因素

除了線條本身之外，其他都一樣嗎？

哦，是的，我們也會關注這些方面。

特徵子樣本。不僅如此，而且不同。

資料樣本，但特徵也可以

互不相交。我忘了那是什麼感覺了。

它被稱為。我認為還有其他的

這個名字正是我們選擇它的時候。

不同特點。

那我建議我們接下來進行提升。

我們也來討論一下它是如何運作的。

提升是指我們已經

我們始終關注相同的事物。

樹。假設他們經常服用。

樹木，雖然它也可能指任何樹木。

最初使用的是不同的演算法，當

每個後續演算法都試圖

改進前一個版本的錯誤。這裡是

在第一棵樹上，我們

這太重要了，我們正在仔細研究。

最終預測，然後

我們正在努力將這種情況降到最低。

錯誤在這裡，因此，

每個後續的梯度都相同

前一個錯誤是樹狀結構的。如果這樣

假設我們正在解決一個問題

偽造，例如，二進制，

那我們首先應該研究哪個目標呢？

樹木以及所有後續樹木從中學習到的東西

布辛格有樹嗎？

所以，嗯，二元分類

因此，他在那裡學習。

粗略地說，某種交叉熵。

也就是說，當我們想要的時候

盡量減少錯誤數量

按類別。如果情況進一步惡化，那麼我們就嘗試

現在我們可以減少這種誤差差異。

在預測的前一棵樹之間

因此，結果為零。我也這麼認為。

M，也就是說，第二棵樹剛好學習到了

嗯，在第二個後續的那個，正好是

y、前一個 y 值和新 y 值之間的差值 y。

y。

嗯，是的，我想大概就是這樣。

是的。那我們應該在哪裡計算梯度呢？

我們計算了以下兩者之間的梯度：

我們加上這個增量，也就是說，我們有

這其中存在一些差異，我們想弄清楚這一點。

零。也就是說，我們有，

因此，差別就在於此。

盡量縮小差異。啊，對，就是這樣。

是的，我們希望盡可能縮小差距。

前一棵樹和後一棵樹之間的誤差

目標。因此，這就是…

我認為我們之間存在差異。那就是我們

我們不看那些原始的。

預測，以及基於此增量和

我們正在努力將其降到最低。

也就是說，我們將增量視為：

例如，只需向量 Y 減去 f 即可。

fromx，即所有預測

之前的樹木，也就是說，只是不同之處。

不同之處。

嗯，是的，我也這麼認為。

而事實證明，我們正是造成這種差異的因素。我們有所區別。

我們有所區別。

嗯，我也這麼認為。我已經記不太清楚了。

例如，如果我們沒有註意到這種差異。

如果我們不稱它為正方形，那麼微分

每一步最終都會變成這樣，嗯，

都是同一個下垂。和

再說一遍，如果我們不豎立起來正方形，

正方形，

嗯，如果我們只有 f(x)——那就是

線性函數，也就是像 y 這樣的函數。

如果 f(x) 是線性函數，則

對變數求導，我們

我們就能把 X 去掉。

也就是說，我們得到一個梯度，它

彷彿永遠都是一樣。所以，你

那裡我們有誤差與實際值差的平方。

如果我們擺脫了 X 的。

X 的。

不，最終我們只得到 y - f(x)

或 y - f(x)²，由此我們取

衍生品。」也就是說，某種年輕的

不，嗯，是的，一個正方形。

啊，那太好了。是的，

當然，這裡是候選人洩漏了話題。

完全的。我們來找出問題所在。

首先，他在這裡說，第一

這棵樹是基於損失函數進行訓練的，

實際上，情況並非完全如此，因為

零函數通常取為

表示平均值的常數

損失函數。例如，一些

平均值，即平均 MSE。

我們有一個回歸，或者說均值的對數

如果我們有一個邏輯斯蒂分佈，機率是多少？

損失函數。而且已經開始從

我們的第一個孩子已經在學習這個常數了。

樹。其次。公式 R = Y - FX

僅當我們有

二次損失函數，即

材料科學與工程。在其他情況下，還有其他人

損失函數的公式會有所不同。和

第三，他說瑪雅沒有

平方梯度將不取決於

誤差的大小，實際上是

並非如此。他的意思就是這樣。

大概五月吧。我真的

梯度要么是+1，要么是-1。

取決於是否發生錯誤

或不。這就是基礎知識上的混亂之處。

從概念上講，這當然是一個危險信號。

對於任何資料科學家來說，因為

梯度提升是基礎知識。

你必須像魚兒在水中一樣自在地遊進去，而且

他就像漂浮在水面上。假設我們有

有一個百棵樹的季節，並且從

100棵樹。我們來自每一種模型

我們選擇第一棵樹。將會發生什麼事？

森林以及校車服務將會發生什麼變化？

嗯，森林不會有事的，所以

就像我們其他99個人一樣，我們都會付出

要嘛給我一個答案，要嘛我們就接受

透過投票。嗯，增壓功能會失效。

沒有了第一棵樹，我們該怎麼辦？

這位考生的回答幾乎完全正確，但是

我做得有點過火了。他說

加速會中斷。這是不必要的。

非常顯著。事實上，提升並非

會破裂。它的品質確實值得一提。

情況會變得更糟，因為所有後續

樹木被栽培在殘骸上

漸變，來自那棵樹

已拆除，他們現在會進行修復。

不是那些必要的錯誤。但在這裡

它下降的幅度存在細微差別。

品質.例如，利率較低時， 0.01，

0.01，

當從100棵樹中移除一棵樹時

品質不會下降太多。如果光線

例如，如果數值較大，例如 0.3 05，那麼品質就會更好。

下降幅度會明顯更大。還有一件事。

當然，必須指出的是，這位候選人

我再次沒有考慮到零函數是

這不是一棵樹，但它到底是什麼呢？

恆定的，也就是變化。確實如此

也就是說，第一棵樹已經

更正，即第一點

矯正樹，而非地基

整個算法。但對於隨機森林來說，情況是

正確答案是移除一個

一棵包含 100 個元素的樹會使演算法效能下降 1 個元素，然後

影響微乎其微。

假設我們有一個目標值，即 Y。

範圍從 0 到 100。例如，

設包含區間為

隔斷。它可以取哪些值？

隨機森林預測和

提升？它們的範圍是多少？

謊言預測？

所以，從零到一百。實際上，在這些

值，也就是說，如果我們有這些值的話。

如果總是取平均值，那麼結果將是

顯然位於該區間內。並且

我們將數一數樹，然後從中挑選。

這些數字。也就是說，每一棵樹

它永遠不會超過100。

因此，森林也是如此，因為它

取平均值。提升。提升，

我想也許如果他看的話

至於差別，在我看來，這種差別可以

超越這些界限。

是的，答案是正確的，因為我們有

最終演算法就像一個總和

樹，每一棵樹，嗯，從第二個開始，每一棵樹

將樹擬合到誤差梯度，

因此，我們可以兩者兼顧，也可以減少兩者。

取得從零到超過 100 的預測值

一般來說。是的，這也屬實。

假設在CNN的某個時候，我們

卷積神經網路的模型

有一個卷積塊，以及一個 hidr

尺寸 5x5。我們該如何做到這一點？

階段性地減少參數數量

訓練而不縮小體型

感受野？也就是說，我們

我們可以用這個來做這件事。

折疊一下就能得到同樣的結果

5x5覆蓋範圍？

所以，方法有很多種。那就是我們

我們可以帶幾個過去。

3x3 順序核心，或者我們可以，

因此，嗯，有一些

步幅也有一些變化。

仔細看看，就會發現它不一樣。吃，

我忘了它們叫什麼了。啊，那些捆紮好的捆紮物，當

我們將帶一個 5x1 和一個 1x5 的箱子過去。

我認為可以分解。這裡。後

就像在 Moinet 去卷積中那樣

還有一種情況是，當我們的隊伍變窄時。

卷積。哦，還有捲積，當

讓我們來看看那裡的情況如何。

依存方面，以及當我們第一次

我們拿起牌，擺好牌。

也就是說，它們依序不存在。

每個都與其他所有因素相乘，並且

同時，在這裡，然後我們依序進行…

我們繁衍後代，但在這裡不行，這大概是

然而，它並不是一個預測領域。

那麼，有哪些方法可以解決這個問題呢？

假設我們只有100個

圖片，我們相信這個資料集

小的。我們該如何…

粗略估計，0 盧布。增加到

提高泛化能力

身體機能？

嗯，可能是增強手術。這裡。那是

那裡有一些雅典的尋常事物。

變換、旋轉、反射

鏡像，顏色變化

調色板。我們可以生成

我們來談談更複雜的問題吧。

也就是說，存在 GAN 和擴散。這裡

我們可以在那裡嘗試一些東西。

風格遷移產生更多

好像是這樣。嗯，全球增強。一個

如果出現以下情況，可能會出現哪些問題？

假設我們都在其中一層，

我們首先將權重初始化為相同的值。意義？

意義？

嗯，我們的意思是一樣的。

已發送，也就是說，我們將不會有

層將被訓練，本質上，我們將擁有類似這樣的結構：

這是一個單層網路。既然我們已經到了那裡。

我們進行乘法和倒數運算。

相應地，分佈情況也如此。

我們將所有數字乘以同一個數。

在 Python 中，假設我們有一行程式碼

一些大的，嗯，一條丁字褲，沒有

記住要再次放置它。

也就是說，有一條100GB的記憶體線，

我不知道，110 GB。我們需要把她帶出去

印刷稿已整理完畢。這樣行不行？

能做到嗎？困難會是什麼？

這就是解決方案嗎？

用於按排序形式列印。嗯，在

從象徵意義上講，是的，這就是它的意思。

字串排序。如果，嗯，

這可能是最明智的做法了。

按帳戶排序，因為我們有

總共有32個字元。哦，26歲，是的，如果

英語。嗯，這沒關係，即使

這將使用UTF編碼，並且會包含符號。

100-200，我們可以拿字典，下面

每個符號都會建立一個計數器，這裡

數數，走走。這將在

字串長度的線性複雜度

相應地，輸出如下：

一直如此，嗯，就像我們有

字典快出來了，到時候我們就有了。

鍵及其數量均已排序象徵。

象徵。

是的。這種解決方案的複雜程度如何？

嗯，如果我們具體來看計算方面的話，

那就取決於線的長度了。好了，你總結。

如果我們不考慮係數，那麼

首先我們吃，嗯，我們儲存，

因此，我們也憑記憶來完成這項工作。

字元數將限制在這麼多。

這是一個有限的數字，而且每個人都有。

某種源自記憶的內在意義，

也就是說，它是恆定的，並且隨著時間的推移而變化。

這將取決於字串的長度，其中 n 為長度線條，

線條，

是的？這些都是真的。 Payfark 有一個左轉路

抗核。它不在經典的 sQeled 中，

但如果你只看標題，你會怎麼想？

這處關節是如何運作的？除此之外，

我們經常使用它，也就是說，它

不，它並非毫無用處。左側抗關節素。那

假設我們那裡有一個正確的。

左邊的表格，就像這些歐拉圓一樣，在那裡

右側是某種十字路口，左側

比如說，這部分，就是沒有左邊的部分。

桌子，也就是說，這是一個右關節，這是

我們將有一個十字路口和一個右側路口

反對。在這種情況下，反指的是什麼？這是做什麼用的？

反對？我想我可以。

猜猜看。

不，不是左邊，是右邊，而是左邊，沒有

正確的。它就像一個過濾器。原來如此。

原來如此。

嗯，是的，是的。是的。也就是說，情況並非恰恰相反。

左沒有右。全部，

假設我們有一些速度

我們需要一些團體，比如說，前五名。

快速收到貨物。嗯，我們也有同樣的情況。

在那裡出售各種商品，例如：

天。我們怎樣才能每天都獲得它？

銷售前五的產品？

所以，我們，呃，對總和進行匯總，

是的，那就是求和函數。

什麼聚合？

嗯，po，

她怎麼知道的？

按天計算。那……它叫什麼來著？嗯，是的，如何寫

寫

在我看來，這個問題很簡單。嗯，有一群人

這裡存在某種求和準則。

Nubay不太合適，因為

A隊，好的，我們走吧。是的，金額

一定數量。好。如何如何什麼

你的決定是什麼？

數量。這裡。所以我們每天都這樣做。

聚合。我們來計算一下總和。所以，前五名。

啊，每天推薦五款熱門商品。更多的

乘以發行量。不，不是按數量算的。

它們在那裡的速度就是固定的，嗯。

某種浮標，必須有五個最重要的

大型浮標

我們之前遇到過這些問題。例如，我們

他們在那裡每天都會評估一些東西。

有些貨物被清洗、洗滌、擦洗，然後

我們希望每天都能拿到前五名。

啊，我們已經拿到貨了。

最暢銷的五種產品

例如，每天

它們沒有重複出現，是的，它們沒有重複。

也就是說，我們已經有了某種表格。

我們可以將樹皮分類，

因此，取其個數，上限為五。一個

順便說一句，依我之見，就這一點而言，就…

通過極限的中位數已求解。我們採取

限制，是的，一半。我們也在這裡，

因此，我們將上限設定為五，是的。

然後我們採取，

上限是五。對我們而言，每個人都是所有人

我們在那裡待一天，我不知道，也許10天。然後

我們需要收集50筆記錄，但這還不夠。

五。那麼，如果我們這樣做呢？

我們就是這樣，請求中嵌套請求。

它被正確地稱為內部的。一

我們每天都把它帶到那裡，在這裡，以及裡面。

因此，我們仍然這樣做。

排序並取前五名。

也就是說，就像經歷一個個循環。

嗯，算是吧。也就是說，按天計算。

沒有循環怎麼可能？有哪些功能？

如何不用循環來解決這個問題？

最初我們只有一張大桌子，

我們有日期、產品和速度資訊。和

這裡日期不同。嗯，也就是貨物。

雖然不同，但日期相同。

如果我們按日期進行聚合。一個，

不，停下。啊，嗯，是的，是的。那就是我們

我們來獲取這些日期並進行一些匯總分析。

內部粗糙。

我們這位粗魯的傢伙會立即對所有事情做出回應。

嗯，是的，是的，不是那樣。是的。

是的。

M 如果你提出一些條件，

例如，我們擁有的東西，嗯，我們會把它放在那裡。

首先，我們將按日期排序。

我們稍後再看。啊，或許有些吧。

每天的數量都不同

貨物數量。不，可能不會。

我會記住的。我想不出什麼辦法。似乎，關於。

關於。

嗯，通常都有視窗函數。已被使用。

已被使用。

嗯，視窗函數出現的時間並不長。用過的。

用過的。

哪個演算法擁有更多的BAS，哪個演算法擁有更多的BAS？

哪個更重要？它到底是什麼？

這種方差權衡如何反映？

當我們有一些妥協的時候，就應該做出妥協。

物體，嗯，我們，這麼說吧，肯定

我們只是猜測，但我們感覺非常有把握。

這些預測彼此各不相同。

所以我們有一位很棒的瑞安王牌，是的，嗯。

我們預測是否準確。那

有一個條件性的地方，我們可以進入

某個目標。我突然想起了這張照片

到達目標地點或擊中目標。出色地

那裡的預測結果與實際情況不符。

當我們擁有一個非常

預測範圍很廣。森林和

提升。在森林裡，理論上，或者更確切地說，在變體中

小的。上面就有一個例子。

我們給出的預測值從1到100。 A，

因此，在森林裡，啊，哦，在

提升後效果更佳。這裡。還有巴亞斯，

可能提升效果較差

相反，森林的情況更糟。

減少輪空次數。也就是說，是的，我們還有更多

預測是準確的，但是，相應地，

他們在推廣上更加分散，

而在森林裡，情況則恰恰相反。因此，

它們會更集中在一個地方，但數量會更少。

準確的。也就是說，這片森林狀況良好。

買的東西更多了，但維利安的尺寸更小，而且

反向提升。他有一種海灣

少一些，但是，嗯，一致性更重要。

差不多就是這樣。

如你們所見，親愛的朋友們，

即使是經驗豐富的候選人也可能失敗

就如此基礎的事情進行採訪，

例如梯度提升、隨機化和

Pvue。但這是任何事物的基礎。

數據科學家。這一點甚至正在研究中，而且，在

大學。我想說的是，在學校裡，

但很遺憾的是，學校裡並非如此。

正在學習。簡而言之，親愛的朋友們，

訓練，學習理論，然後不要

記住它，並理解為什麼。

像這樣運作。這對你來說非常有效。

會幫助你順利通過面試。

我還建議看看其他部分。

數據科學家面試

我的頻道。我希望每個人都能提供肥胖服務。

Click on any text or timestamp to jump to that moment in the video

Most transcripts ready in under 5 seconds

One-Click Copy125+ LanguagesSearch ContentJump to Timestamps

Paste YouTube URL

Enter any YouTube video link to get the full transcript

Most transcripts ready in under 5 seconds

Get Our Chrome Extension

Get transcripts instantly without leaving YouTube. Install our Chrome extension for one-click access to any video's transcript directly on the watch page.

Add to Chrome — Free

Works with YouTube, Coursera, Udemy and more educational platforms

Get Instant Transcripts: Just Edit the Domain in Your Address Bar!

YouTube

←

→

↻

https://www.youtube.com/watch?v=UF8uR6Z6KLc

YoutubeToText

←

→

↻

https://youtubetotext.net/watch?v=UF8uR6Z6KLc

YouTube TranscriptPreparing your results…

YouTube Transcript:РЕАЛЬНОЕ собеседование на Data Scientist. Алгоритмы + Python