0:01 你好。現在我來給你們看真傢伙。
0:04 面試資料科學家職位
0:07 年薪40萬盧布。當候選人…
0:08 我會回答錯誤,我會
0:11 暫停影片並解釋一下
0:12 他回答錯了,正確的回答是…
0:16 那樣會更好。有趣的?那我們走吧 看,
0:17 看,
0:20 如何在不使用任何工具的情況下找到毫米中位數
0:22 中位數函數,但在 sQel 上,嗯,在
0:24 sQele 的任何方言。百分位數也 這是被禁止的。
0:25 這是被禁止的。
0:28 嗯,你可以處理一下。啊,是的,在
0:31 按升序排列。這是中位數——這是
0:34 原來,中間部分,啊,好吧,我們
0:36 我們可以接收這個數量,是的,我們有。
0:40 有一個函數可以計算總行數。
0:42 記錄,因此我們需要
0:44 中間。也就是說,我們把它分成兩個部分。
0:46 在特定條件下,這將是中位數。
0:48 是的。如果我們需要每個的中位數
0:49 群組查找,
0:52 啊,好吧,我們會進行總結。哦,是的。
0:55 我們將按組進行匯總,並在這些組中進行匯總。 在
0:55 在
0:57 嗯,我該如何理解呢?是的,我該如何理解呢?
0:59 CQ元素的中間元素是什麼?如何
1:03 明白這個元素位於中間嗎?嗯,如果你
1:06 我們有長度和A,嗯,是的,我們需要
1:08 發展是必要的。因此,
1:09 如果按升序排列,是的。
1:12 那麼,我們就能得到這個長度了。
1:15 除以二,再加上四捨五入,
1:17 如果是偶數,則為奇數
1:20 數量。恐怕也只能如此了。
1:23 我會記得方法的。還有其他事,但現在
1:24 我不記得了。
1:25 好的,這裡有小組規模的問題。
1:27 已計數。對了,請問我可以選什麼尺寸?
1:29 每組都應該被計入嗎?
1:33 嗯,我不記得正式的做法是什麼了。
1:36 我可能已經記不起來了。有一些,
1:37 可能是視窗函數,但我不太清楚。 我記得。
1:38 我記得。
1:40 如何?假設我們發現有
1:44 我不了解M碼的情況。
1:46 大約10個。我們怎麼知道是哪一個?
1:49 是否需要這個元素?好了,我們已經解決了。
1:51 接下來呢?我們只有
1:52 元素的順序。
1:55 我們需要取中位數。啊,那好吧
1:58 為什麼我們正式在那裡擁有哪些類型的物品?
2:01 有任何字段嗎?也就是說,我們進行排序
2:05 按索引,或直接按索引。再一次
2:08 在特定條件下,所需的中間值究竟是多少?
2:12 嗯,很普通。也就是說,就像 sQel 一樣
2:14 請理解我們屬於某個群體。
2:17 元素,嗯,中間那個?
2:18 排序後
2:20 中間那個元素是什麼?
2:24 排序?我不知道,我不記得了。出色地
2:27 好的,那就開始吧。
2:31 嗯,長度為 10,我們用 5 除以 2。 U 我們
2:32 我們
2:34 我不知道還有什麼其他方法。
2:36 停止。而在這裡,候選人不必回答他的問題。
2:37 完全正確。他當然是對的。
2:39 把想法說出來,需要採取什麼措施,
2:41 排序、計數、
2:43 取中間元素,我們得到
2:45 中位數。但在 SQL 實踐中卻是
2:47 這是透過視窗函數實現的,
2:49 候選人沒有提及他們。正確的
2:51 答案是:取行函數
2:53 每個數字和計數
2:54 團體。以以下方式對數值進行排序
2:56 我們按升序排列了以下數字:
2:58 每行。對於奇數
3:01 對於直線,我們取值 n + 1/2,並且對於
3:05 甚至平均值介於 n / 2 和 n / 2 + 1 之間。
3:07 BQL 中位數的計算方法非常簡單。
3:09 使用視窗函數,這是基礎。
3:11 對於任何數據科學家而言。當然,
3:12 中位數還可以用其他方法計算。
3:13 以諸如使用等方式
3:15 子查詢,但數量很多
3:17 這些子查詢需要很長時間才能完成。
3:20 Python 中的字典結構是怎麼樣的?它又是什麼?
3:22 透過按鍵存取元素的困難 字典?
3:23 字典?
3:27 所以,字典就是我們的 shmap,也就是說,
3:30 原則上,我們有鍵哈希。
3:33 原則上,這是以單位計算的獲取途徑。
3:35 也就是說,我們創建某種密鑰,
3:38 它可以是任何不可改變的
3:40 目的。嗯,因此,其意義
3:42 我們可以得到它,創造一個植物
3:44 理論上是單位。
3:45 什麼是哈希瑪?它有哪些特性?
3:47 她應該那樣做嗎?
3:48 所以,我們有一堆哈希值,
3:51 因此,哈希演算法在原則上是
3:53 當我們把它帶到這裡的時候,嗯,當我們拿到它的時候
3:55 由於其中的某些因素,
3:57 因此,這裡是一些數字,
3:59 一些我們可以
4:01 使用。關鍵是要讓他們在場。
4:03 如果沒有,我們將擁有獨一無二的。
4:05 碰撞事故將會出現。這裡。那是,
4:08 因此,我們可以重點強調
4:10 不同的記憶單元用於不同的
4:13 鑰匙。這裡。好,而且要快點。
4:15 因此,如果我們不談論
4:17 碰撞可能發生在
4:19 我們把它們用於不同的物品
4:21 相同的鑰匙。嗯,那裡還有一些選擇。
4:22 衝突解決。
4:24 這位候選人回答得很好,但是
4:26 我還漏掉了一些重要的
4:27 細節。首先,這當然是…
4:29 哈希函數的確定性。
4:31 哈希函數必須具有這樣的特性。
4:32 同一鍵必須具有的屬性
4:35 始終給出相同的值。這
4:37 這似乎顯而易見,但是…
4:39 事實上,一條非常關鍵的規則是…
4:41 任何哈希函數。其次,他沒有
4:43 提到了一個重要的特性,這是一個
4:45 哈希函數和相等函數的一致性。
4:47 因為如果兩個鍵相等,那麼它們也相等。
4:50 它們的哈希值也應該相等。沒有
4:52 哈希表根本不會遵循這條規則。
4:53 工作。第三,他沒有提到
4:55 關於擴展表格,也就是 Profactor。
4:57 並重新調整大小,因為如果表格不是
4:59 擴張,然後遲早會
5:01 它將溢出,會發生太多碰撞。
5:02 很多,任何搜尋都不會來自
5:05 單位,以及從 n 開始。這三個因素
5:06 真正能區分一個人
5:08 只知道哈希函數
5:10 教科書,以及一個了解情況的人
5:12 實際上,它們在實踐中是如何運作的?
5:13 用Python實作。如果您正在準備
5:15 到劍的通過,然後再加上
5:16 我正在學習技術問題
5:18 我建議你不要忘記這一點。
5:20 應該有很多這樣的軍刀,而且
5:22 除了你的技術知識之外
5:24 軟技能不可少。這就是原因
5:26 請務必購買我重寫的指南。
5:27 從事IT行業。我明白了
5:29 幫助我成功度過難關的策略
5:31 社會安全這套狗屁玩意兒,還能拿到30多塊錢
5:34 提供年薪 22 萬盧布的工作機會。和
5:36 即使在我所從事的專業領域也是如此
5:37 也就是說,從絕對意義上講,一無所知
5:39 零。連結會在描述中。
5:41 你還談到了不可更改的那些。
5:43 資料類型以及哪些資料是可變的,
5:45 PON 中哪些是不可變的?
5:48 其實,可變型都是簡單型。
5:51 數據。例如,一張表格或一份清單。
5:55 多變。有一個是不可改變的。這裡。一個
5:58 這套設備是不可更改的。有一套可變的集合
6:00 分別地。還有什麼呢?還有什麼?出色地
6:01 簡單類型。這條線也是,
6:03 因此,不可更改。
6:06 為什麼要在Python中使用字串?
6:08 慢?這裡。嗯,好像就這些了。
6:11 美好的。你知道哪些類型的排序?
6:13 用任何話來說?你能解釋一下嗎?
6:17 這裡有一個快速排序,這是 Hara。一個
6:20 分揀商品,分治。那裡
6:23 當我們的…斷成兩截時
6:25 資料在那裡遞歸排序。
6:27 這裡。嗯,還有冒泡排序演算法。
6:29 當我們每個人都始終在那裡的時候
6:31 該元素浮到頂部。而且我還有
6:34 正方形的難度等級是多少? Umezhenu 在
6:36 平均而言,Huara 的排序速度也很快。
6:38 啊,只有 Mrge 那裡一直都有。
6:40 會是洛根,但速度最快的那一個
6:42 Huara 在那裡的平均排序是
6:44 有時候那裡的速度反而更快。嗯,在
6:45 是的,基本上就是這樣用的。
6:47 標準。如果我們以Python版本為例,
6:51 然後迅速對傷者進行分類。 平均的。
6:51 平均的。
6:54 所以,根據統計數據,我們來問一個關於Pivio的問題。
6:56 Pvio 的措詞是什麼?它源自於哪裡? 有輸出嗎?
6:57 有輸出嗎?
6:59 是的,第一次確實非常困難。
7:07 選擇某些選項的機率是多少?
7:10 價值和數量,哪個更大?
7:12 某種閾值α。也就是說,存在
7:16 我們有某種意義,通常情況下是:
7:19 當我們查看一些樣本時。
7:20 這裡。因此,我們有
7:23 一些分佈和測試。那是
7:25 我們想進行某種測試。
7:27 那麼,這個測驗的結構是怎麼樣的呢?它包含哪些部分? 元素?
7:28 元素?
7:31 我們有一個假設。第一個零。
7:32 我們中的一個,嗯,也就是說,我們可以在那裡
7:34 然後拒絕原假設。
7:36 承認我們的數據有問題。
7:39 發生了一件對…產生質的影響
7:40 這些變化,不只是
7:43 存在某種統計誤差。
7:46 錯誤,但有一些更改
7:48 這導致了某些事情的發生。這裡。也就是說,如果我們有 有
7:48 有
7:49 改變什麼?
7:51 啊,嗯,相對而言,一些
7:53 從統計學的角度來看,我們本質上是某種東西。
7:56 我們根據數據進行計算。這裡。我們可以
7:59 了解 a-a 之間的偏差有多大
8:01 不,我可能不會說。現在我只是
8:04 我會把它埋起來自己用,我已經記不太清楚了。
8:05 好吧,我們再試一次。
8:07 對 Pvю 進行定義。這裡
8:10 我們有兩個統計數據。 PV是
8:13 根據這些統計數據,這種機率是多少?
8:15 在什麼條件下?
8:18 機率,如果我們擁有的較少,那麼就存在
8:21 陷入極端情況的機率 價值觀
8:23 價值觀
8:27 嗯,超過這個閾值或其他什麼。 更強。
8:28 更強。
8:31 對我們來說,它的含義仍然很簡單,嗯,
8:32 有條件地選取兩個樣本,
8:34 嗯,某種樣本平均值
8:37 數學期望值或變異數。該死,我沒有
8:40 我記得。好的。在什麼條件下? 我們
8:41 我們
8:43 這個定義符合Pivel的觀點嗎?就是這樣。
8:47 在某物存在的情況下,機率是多少?
8:51 我們擁有什麼? A 小於零,嗯,那裡有隻鳥。
8:54 sokh,或者更確切地說,我們的 alpha aa
8:59 被選中和進入的機率
9:02 分佈的尾部,從
9:06 兩個方向上都有某種痕跡。不,不是。
9:08 我知道如何正確地表達這一點,
9:09 我不記得了。
9:11 對我們來說,什麼是真理?
9:15 這樣我們就有了一個定義 或許,
9:15 或許,
9:17 是的,我們可以接受零假設。
9:20 如果存在這種情況,則拒絕。
9:22 意思是,什麼才是真理?出色地
9:25 是的,如果是05的話,那麼是的。
9:27 這意味著零假設必須存在。
9:29 說話的定義,
9:31 我們擁有獨立的
9:35 我們擁有機率的事件
9:38 呈常態分佈。
9:41 不,我不記得了。零假設。那
9:42 我們沒有任何變化。
9:44 具有統計學意義。
9:46 當然,這位候選人在這裡徹底失控了。
9:47 話題,因為他當然是某種東西。
9:49 談到了Pvue,但又把它和…混淆了
9:51 顯著水準。這兩個絕對是
9:54 不同的事情。 PV的正確配方
9:56 其中 PV 是獲得該結果的機率。
9:58 統計學的價值不亞於
10:00 比當前情況更極端,在
10:02 前提是原假設成立。和
10:04 關鍵在於,它被賦予了以下條件:
10:06 原假設成立。如果沒有這個
10:08 PV條件根本不存在。
10:10 意義。接下來我們 pveueyu,也就是我們的
10:11 我們提前將機率進行比較
10:13 給定顯著水準α。
10:16 通常情況下,它等於 0.05,但也有其他情況。
10:18 當數值小於或大於某個值時,以及
10:21 極少數情況下。因此,透過比較
10:23 如果 alpha 值小於 0,則我們的 Pvue 帶有 alpha 值
10:25 alpha,然後我們說,好吧,該死,
10:27 機率非常低,甚至低於…
10:30 即使是 alpha 值,所以零假設成立。
10:32 這種情況發生的可能性非常小,所以我們就說到這裡吧。
10:34 我們拒絕。如果它更大,那麼我們
10:36 我們說:“好吧,我們在這裡什麼都做不了。”
10:37 很遺憾。讓我們做得更多
10:39 某種測試。 」因為 Pvue
10:40 或許,嗯,有點小,但是
10:42 對我們來說還不夠小。
10:43 他們說零假設
10:45 不可能,因為也許在
10:47 我們的樣本不知何故出了問題
10:49 僅當該值為
10:51 統計數據非常低,因此,
10:53 我們不能拒絕零。
10:55 假設。如果它小於 alpha,
10:57 然後我們拒絕它,並說,好吧,
10:59 該死,這太不可能了。
11:01 希望我解釋清楚了。更有可能的是,
11:03 雖然不是很清楚,但你總是可以
11:05 研究統計數據並非基於我的影片。我
11:07 我只是在處理這些棘手的問題。所以,
11:09 各位,請不要往心裡去。我只是在回答問題。
11:11 我會這樣回答。當然,
11:13 這就是我在面試中會如何回答的。
11:14 正確的。測試要素包括:
11:16 當然,零和替代方案
11:18 假設 h0 和 h1。預先決定
11:20 我們討論的顯著水準是α。
11:23 已經討論過了。此外,我們的樣品也…
11:25 其在忠誠度下的分佈統計數據
11:27 零假設 h0。這裡也一樣
11:29 這當然也適用於我們自己。
11:30 統計檢驗,即
11:32 單側檢驗或雙側檢驗。
11:34 接下來,先決條件就發揮作用了——這是
11:36 正常、獨立和
11:38 漸近線。這也包括
11:40 決策規則。這一切
11:43 香腸被稱為麵團元素。但
11:44 記住它們固然重要,但…
11:47 了解它們的用途和作用
11:48 代表著,因為沒有它
11:50 你沒有進行常規的統計檢定 建造。
11:51 建造。
11:54 好的,我們來談談一個小問題。這裡
11:56 這樣的。我把它發到了聊天記錄裡。
11:58 是的。那麼得到兩個的機率是多少?
12:00 從一個裝有三個白球的袋子裡取出幾個白球。
12:03 白球和三個黑球?所以,總共
12:06 我們有六個球。為了得到它
12:09 因此,前兩個是白色的。
12:13 那裡的機率是 1/2 3/6。所以呢?
12:15 第二個人分別得到白色的那個。
12:19 我們還剩下五分之二的人。 2/5,如果我們乘以,
12:23 a、1/2 和 2/5,結果發現
12:25 1/5。如果我們把球還回去,
12:27 兩個白球互換位置,
12:28 嗯,答案是對的,只有兩個。
12:30 該問題的變體。
12:34 那大概是四分之一吧。呃,如果我們有
12:37 事件是獨立的,這與
12:40 真相是,首先是3/6,我們回來了,然後又回來了
12:44 3/6、1/2、1/4。我們來聊聊搖滾樂吧。
12:47 我們來談談。指標。你能說出它的名字嗎?
12:50 它的機率解釋是什麼?那是
12:52 不是圖表,而是什麼事件發生的機率?
12:54 羅考克。嗯,它講的是情侶的故事。
12:57 已排序,也就是說,存在機率
12:59 取得已排序對的數量。
13:02 我們有零,有一,是的,那裡有兩個班級。
13:04 因此,rokauk 就是這個
13:06 正確排序的對的數量,
13:08 當我們第一次去上課的時候,
13:10 然後又一個。嗯,也就是說,理想狀態。
13:12 當我們平均分配時,情況是這樣的:
13:14 先是0,然後是1。但這是一棵洛考克樹。
13:16 數量或機率
13:18 已排序的對?啊,好吧,教訓是…
13:20 我們只有一個人,所以機率
13:23 不,這個金額大約是
13:25 已排序的奇偶校驗比率。
13:27 是的,是的,是的。這個量本質上是指當我們
13:29 是的,我們正在建設中,我們有一些門檻,僅此而已。
13:32 這是喇叭的閾值功能。我們到了
13:34 我們採用不同的閾值進行計數。如果是這樣的話
13:36 是的,你需要手動輸出,基本上就是這樣。
13:38 這可以解釋為:
13:39 已排序的 pa。
13:40 怎麼可能有數量,數量呢?
13:42 如果我們有一塊從零到一的 uka 岩石,
13:43 他已經漂浮起來了嗎?
13:46 嗯,態度問題。嗯,也就是說,我們
13:49 讓我們把所有這樣的不同物件對都列出來,
13:52 這裡存在一些關係,嗯,是的,其中有一個單位——
13:54 僅此而已,零就是零。和,
13:56 因此,這就是機率。
13:59 ——這個字突然從我腦海中消失了。出色地
14:01 是的,簡而言之,百分比的範圍是 0 到 100。
14:03 0到1。百分比是正確的。
14:05 已排序的配對。
14:06 我想應該是這樣。
14:08 那麼,什麼是梯度呢?現在
14:10 我會透過聊天視窗把函數寄給你。她還有更多作品。
14:12 請計算梯度。哦,是的。
14:15 梯度是關於的偏導數
14:19 不同的變數。 Aa,3x² - y。嗯,如果
14:23 從 x 出發,我認為 a 會是 6x,
14:26 是的?然後 y 就只是一個數字而已。
14:29 我們正在刪除。如果相對於和,則
14:33 左邊只有一個數字,y 是 y 的 1。
14:35 在我看來,拉尼很簡單。
14:36 那麼最終結果會是什麼呢? 看?
14:37 看?
14:38 6倍和1
14:43 + -1 -1。小米6x。為什麼?
14:47 因為導數 x² 2x。這就是我
14:48 我想我記得。
14:51 是的。什麼是梯度?私人的 衍生物
14:52 衍生物 向量。
14:52 向量。
14:55 所以,可能還需要另一個因素。
14:56 放入向量。
14:57 圖紙上有一支箭頭。
14:58 嗯,就 dx 而言。
15:02 啊,嗯,是的,是的,dx。 dx dy。關於
15:05 X 和 Y。我提議討論
15:06 樹上的方法。我們先來做這件事吧。
15:08 讓我們來討論一下決策樹的一般運作原理。
15:10 正在建設中。嗯,基地,也就是,如何
15:12 節點出現,為什麼會有這樣的謂詞
15:14 節點及其選擇方式。
15:16 決策樹,顧名思義,就是一組決策樹。
15:18 我們以某種方式在那裡分享我們的規則
15:21 根據數據集,我們正在計算,嗯,哪個更有利可圖。
15:23 把所有東西都分掉。我們審視一切
15:25 我們可能的分區方案
15:27 我們可以用另一種方式來劃分它。
15:29 我們的數據,嗯,相對來說有一些
15:31 多變的。我們考慮那裡的交叉營養。
15:33 或基尼係數。這裡。嗯,還有,
15:35 因此,數值越高,則越少。
15:37 資訊有所獲取,或者恰恰相反。
15:38 啊,所以,嗯,由此可見
15:40 我們已經在每一步都進行建設,因為我們
15:42 拆分出售更有利可圖。嗯,如果我們那裡有的話。
15:46 深度沒有具體說明,也沒有任何標準,但是
15:48 為了避免過擬合,那麼它
15:50 盡可能在那裡建造。
15:52 將所有範例分成
15:54 課程,並且盡可能有效率。
15:55 一般有哪些方法?
15:57 模型整合?嗯,在
15:58 特別是,例如樹木?幹得好
16:00 主要 bgiingngboststing,有一些
16:02 更狡猾的那些,大多已經存在了。
16:04 在某些比賽中使用。 如果
16:04 如果
16:06 是的,那裡已經有一些堆疊物了。
16:08 混合,但堆疊已經存在。
16:10 異質模型。那我們就來討論一下吧。
16:12 或許是偶然,這片森林,也就是奔跑的地方,
16:15 它是如何運作的?它的結構是怎樣的?
16:16 請告訴我。
16:19 是的,它是一個引導聚合。
16:22 當我們啟動那裡
16:24 我們選擇一個樣本,我們收集一些
16:26 例如,它們可以重複出現。這裡
16:27 那裡可能還剩下一些。
16:30 我們沒有採納的獨特例子。
16:32 它們後來經常在那裡被使用
16:33 檢查,以進行驗證。一個,
16:35 因此,它們被重複,而我們
16:37 我們用這些樣本的某個子樣本來訓練。
16:39 以下是數據。每一棵樹,
16:41 小的,輕微的,平行的,一個,一個
16:43 然後透過投票表決,
16:45 我們選擇最終結果。在這裡,它奏效了。
16:47 平均而言,比單一人好。
16:49 樹,因為它就在那裡。
16:50 組裝,是的,還有一些
16:52 投票結果高於平均。我們
16:55 我們選取了很多簡單的樹,但它們並非如此。
16:57 容易過度訓練。這裡。我們匯總 同時
16:58 同時
17:00 停,這位考生回答錯誤。
17:01 因為他在這裡忘了最重要的事。
17:03 隨機森林的特徵。當然,還有他。
17:06 嗯,你說得對,關於自舉法和…
17:09 他對樣本進行了平均,但他忘記了這一點。
17:11 對於每棵樹的每種構造,我們
17:14 我們選取一組隨機特徵。
17:16 不,不是所有標誌,而是隨機的標誌。
17:18 這就是普通樹葉與普通樹葉的差別所在。
17:20 像平常一樣在樹林間奔跑。什麼
17:21 涉及數量,通常是
17:24 分類是萬物之根。
17:26 特徵數量,以及迴歸分析 -
17:28 這是鈉的氮。但這就是它的意義。
17:30 事實上,他們都是精挑細選的。
17:32 是超參數。而且他
17:34 據說 randmфest 減少了
17:36 再培訓。總的來說,這種說法是正確的,但是…
17:37 更準確的說法應該是他
17:40 透過裝飾減少分散
17:42 使用空間標記的符號
17:44 引導程式。這些是技術,
17:45 這些用於隨機森林。
17:47 對於那些仍然不明白的人。這種不準確之處
17:48 這次面試真的很有價值。
17:50 因為他說,你已經收到40萬份報價了。
17:52 關於你不理解事情真相這一點。
17:54 這個演算法確實有效。親愛的
17:56 如果你要去的話,帶上朋友或女朋友。
17:58 飛快進入數據科學領域,想做…
18:00 它盡可能快速且高效,並且
18:02 那麼,對你來說,最好的薪水就是你的。
18:05 我參加了 Offer Connection 計畫。不,
18:06 不,不,朋友們,這些不是課程,這是
18:09 一個完整的項目,我們將在其中提供
18:11 你既有硬技能,也有軟技能,而且
18:13 我們將協助您完善履歷並為您提供協助
18:15 一路努力,找到一份工作
18:16 工作,我們也會幫助你度過難關。
18:18 試用期。而且這一切都是交鑰匙工程。
18:20 通常3-4個月就足夠了
18:22 找到一份工作並收到錄取通知
18:24 即使你沒有,也要給22萬盧布。
18:27 在此之前,我擁有商業經驗。所以
18:28 請造訪學校網站,填寫表格,
18:30 經理會聯絡你。
18:32 我會向您介紹我們的專案和
18:33 會告訴你具體在你的
18:35 在這種情況下,最好採取行動,評估你的
18:37 具備相關知識,並將提供合理的價格。
18:39 非常適合你。接下來我們繼續…
18:41 我們的下一個問題。
18:44 這裡我們只使用一個資料樣本來訓練。
18:46 或者有其他我們不考慮的因素
18:48 除了線條本身之外,其他都一樣嗎?
18:51 哦,是的,我們也會關注這些方面。
18:54 特徵子樣本。不僅如此,而且不同。
18:57 資料樣本,但特徵也可以
18:58 互不相交。我忘了那是什麼感覺了。
19:01 它被稱為。我認為還有其他的
19:03 這個名字正是我們選擇它的時候。
19:04 不同特點。
19:07 那我建議我們接下來進行提升。
19:08 我們也來討論一下它是如何運作的。
19:11 提升是指我們已經
19:13 我們始終關注相同的事物。
19:15 樹。假設他們經常服用。
19:16 樹木,雖然它也可能指任何樹木。
19:18 最初使用的是不同的演算法,當
19:21 每個後續演算法都試圖
19:23 改進前一個版本的錯誤。這裡是
19:25 在第一棵樹上,我們
19:27 這太重要了,我們正在仔細研究。
19:28 最終預測,然後
19:30 我們正在努力將這種情況降到最低。
19:32 錯誤在這裡,因此,
19:34 每個後續的梯度都相同
19:36 前一個錯誤是樹狀結構的。如果這樣
19:38 假設我們正在解決一個問題
19:40 偽造,例如,二進制,
19:42 那我們首先應該研究哪個目標呢?
19:44 樹木以及所有後續樹木從中學習到的東西
19:45 布辛格有樹嗎?
19:47 所以,嗯,二元分類
19:49 因此,他在那裡學習。
19:52 粗略地說,某種交叉熵。
19:53 也就是說,當我們想要的時候
19:55 盡量減少錯誤數量
19:58 按類別。如果情況進一步惡化,那麼我們就嘗試
20:01 現在我們可以減少這種誤差差異。
20:03 在預測的前一棵樹之間
20:05 因此,結果為零。我也這麼認為。
20:07 M,也就是說,第二棵樹剛好學習到了
20:09 嗯,在第二個後續的那個,正好是
20:12 y、前一個 y 值和新 y 值之間的差值 y。
20:12 y。
20:14 嗯,是的,我想大概就是這樣。
20:16 是的。那我們應該在哪裡計算梯度呢?
20:19 我們計算了以下兩者之間的梯度:
20:21 我們加上這個增量,也就是說,我們有
20:24 這其中存在一些差異,我們想弄清楚這一點。
20:26 零。也就是說,我們有,
20:27 因此,差別就在於此。
20:29 盡量縮小差異。啊,對,就是這樣。
20:31 是的,我們希望盡可能縮小差距。
20:34 前一棵樹和後一棵樹之間的誤差
20:36 目標。因此,這就是…
20:38 我認為我們之間存在差異。那就是我們
20:40 我們不看那些原始的。
20:43 預測,以及基於此增量和
20:45 我們正在努力將其降到最低。
20:46 也就是說,我們將增量視為:
20:49 例如,只需向量 Y 減去 f 即可。
20:51 fromx,即所有預測
20:52 之前的樹木,也就是說,只是 不同之處。
20:53 不同之處。
20:54 嗯,是的,我也這麼認為。
20:55 而事實證明,我們正是造成這種差異的因素。 我們有所區別。
20:56 我們有所區別。
20:59 嗯,我也這麼認為。我已經記不太清楚了。
21:01 例如,如果我們沒有註意到這種差異。
21:03 如果我們不稱它為正方形,那麼微分
21:05 每一步最終都會變成這樣,嗯,
21:07 都是同一個下垂。和
21:08 再說一遍,如果我們不豎立起來 正方形,
21:09 正方形,
21:11 嗯,如果我們只有 f(x)——那就是
21:13 線性函數,也就是像 y 這樣的函數。
21:15 如果 f(x) 是線性函數,則
21:17 對變數求導,我們
21:18 我們就能把 X 去掉。
21:21 也就是說,我們得到一個梯度,它
21:23 彷彿永遠都是一樣。所以,你
21:28 那裡我們有誤差與實際值差的平方。
21:32 如果我們擺脫了 X 的。
21:33 X 的。
21:36 不,最終我們只得到 y - f(x)
21:39 或 y - f(x)²,由此我們取
21:40 衍生品。 」也就是說,某種年輕的
21:42 不,嗯,是的,一個正方形。
21:43 啊,那太好了。是的,
21:45 當然,這裡是候選人洩漏了話題。
21:47 完全的。我們來找出問題所在。
21:48 首先,他在這裡說,第一
21:51 這棵樹是基於損失函數進行訓練的,
21:52 實際上,情況並非完全如此,因為
21:54 零函數通常取為
21:56 表示平均值的常數
21:58 損失函數。例如,一些
22:00 平均值,即平均 MSE。
22:03 我們有一個回歸,或者說均值的對數
22:04 如果我們有一個邏輯斯蒂分佈,機率是多少?
22:07 損失函數。而且已經開始從
22:09 我們的第一個孩子已經在學習這個常數了。
22:12 樹。其次。公式 R = Y - FX
22:14 僅當我們有
22:16 二次損失函數,即
22:18 材料科學與工程。在其他情況下,還有其他人
22:20 損失函數的公式會有所不同。和
22:22 第三,他說瑪雅沒有
22:24 平方梯度將不取決於
22:25 誤差的大小,實際上是
22:27 並非如此。他的意思就是這樣。
22:29 大概五月吧。我真的
22:31 梯度要么是+1,要么是-1。
22:33 取決於是否發生錯誤
22:35 或不。這就是基礎知識上的混亂之處。
22:36 從概念上講,這當然是一個危險信號。
22:38 對於任何資料科學家來說,因為
22:40 梯度提升是基礎知識。
22:42 你必須像魚兒在水中一樣自在地遊進去,而且
22:44 他就像漂浮在水面上。假設我們有
22:47 有一個百棵樹的季節,並且從
22:49 100棵樹。我們來自每一種模型
22:52 我們選擇第一棵樹。將會發生什麼事?
22:53 森林以及校車服務將會發生什麼變化?
22:55 嗯,森林不會有事的,所以
22:58 就像我們其他99個人一樣,我們都會付出
22:59 要嘛給我一個答案,要嘛我們就接受
23:01 透過投票。嗯,增壓功能會失效。
23:03 沒有了第一棵樹,我們該怎麼辦?
23:04 這位考生的回答幾乎完全正確,但是
23:06 我做得有點過火了。他說
23:08 加速會中斷。這是不必要的。
23:10 非常顯著。事實上,提升並非
23:11 會破裂。它的品質確實值得一提。
23:13 情況會變得更糟,因為所有後續
23:15 樹木被栽培在殘骸上
23:17 漸變,來自那棵樹
23:19 已拆除,他們現在會進行修復。
23:21 不是那些必要的錯誤。但在這裡
23:23 它下降的幅度存在細微差別。
23:25 品質.例如,利率較低時, 0.01,
23:27 0.01,
23:29 當從100棵樹中移除一棵樹時
23:31 品質不會下降太多。如果光線
23:33 例如,如果數值較大,例如 0.3 05,那麼品質就會更好。
23:35 下降幅度會明顯更大。還有一件事。
23:37 當然,必須指出的是,這位候選人
23:39 我再次沒有考慮到零函數是
23:41 這不是一棵樹,但它到底是什麼呢?
23:43 恆定的,也就是變化。確實如此
23:46 也就是說,第一棵樹已經
23:47 更正,即第一點
23:50 矯正樹,而非地基
23:52 整個算法。但對於隨機森林來說,情況是
23:53 正確答案是移除一個
23:56 一棵包含 100 個元素的樹會使演算法效能下降 1 個元素,然後
23:57 影響微乎其微。
23:59 假設我們有一個目標值,即 Y。
24:02 範圍從 0 到 100。例如,
24:03 設包含區間為
24:06 隔斷。它可以取哪些值?
24:08 隨機森林預測和
24:10 提升?它們的範圍是多少?
24:11 謊言預測?
24:13 所以,從零到一百。實際上,在這些
24:15 值,也就是說,如果我們有這些值的話。
24:18 如果總是取平均值,那麼結果將是
24:20 顯然位於該區間內。並且
24:23 我們將數一數樹,然後從中挑選。
24:25 這些數字。也就是說,每一棵樹
24:27 它永遠不會超過100。
24:30 因此,森林也是如此,因為它
24:32 取平均值。提升。提升,
24:35 我想也許如果他看的話
24:37 至於差別,在我看來,這種差別可以
24:39 超越這些界限。
24:41 是的,答案是正確的,因為我們有
24:43 最終演算法就像一個總和
24:45 樹,每一棵樹,嗯,從第二個開始,每一棵樹
24:48 將樹擬合到誤差梯度,
24:50 因此,我們可以兩者兼顧,也可以減少兩者。
24:51 取得從零到超過 100 的預測值
24:53 一般來說。是的,這也屬實。
24:56 假設在CNN的某個時候,我們
24:57 卷積神經網路的模型
25:00 有一個卷積塊,以及一個 hidr
25:03 尺寸 5x5。我們該如何做到這一點?
25:05 階段性地減少參數數量
25:07 訓練而不縮小體型
25:08 感受野?也就是說,我們
25:10 我們可以用這個來做這件事。
25:11 折疊一下就能得到同樣的結果
25:12 5x5覆蓋範圍?
25:15 所以,方法有很多種。那就是我們
25:16 我們可以帶幾個過去。
25:19 3x3 順序核心,或者我們可以,
25:21 因此,嗯,有一些
25:23 步幅也有一些變化。
25:25 仔細看看,就會發現它不一樣。吃,
25:28 我忘了它們叫什麼了。啊,那些捆紮好的捆紮物,當
25:31 我們將帶一個 5x1 和一個 1x5 的箱子過去。
25:34 我認為可以分解。這裡。後
25:36 就像在 Moinet 去卷積中那樣
25:38 還有一種情況是,當我們的隊伍變窄時。
25:42 卷積。哦,還有捲積,當
25:45 讓我們來看看那裡的情況如何。
25:47 依存方面,以及當我們第一次
25:49 我們拿起牌,擺好牌。
25:52 也就是說,它們依序不存在。
25:54 每個都與其他所有因素相乘,並且
25:57 同時,在這裡,然後我們依序進行…
25:58 我們繁衍後代,但在這裡不行,這大概是
26:00 然而,它並不是一個預測領域。
26:03 那麼,有哪些方法可以解決這個問題呢?
26:04 假設我們只有100個
26:07 圖片,我們相信這個資料集
26:09 小的。我們該如何…
26:12 粗略估計,0 盧布。增加到
26:14 提高泛化能力
26:15 身體機能?
26:17 嗯,可能是增強手術。這裡。那是
26:19 那裡有一些雅典的尋常事物。
26:21 變換、旋轉、反射
26:23 鏡像,顏色變化
26:26 調色板。我們可以生成
26:29 我們來談談更複雜的問題吧。
26:31 也就是說,存在 GAN 和擴散。這裡
26:32 我們可以在那裡嘗試一些東西。
26:34 風格遷移產生更多
26:37 好像是這樣。嗯,全球增強。一個
26:39 如果出現以下情況,可能會出現哪些問題?
26:43 假設我們都在其中一層,
26:45 我們首先將權重初始化為相同的值。 意義?
26:45 意義?
26:47 嗯,我們的意思是一樣的。
26:48 已發送,也就是說,我們將不會有
26:51 層將被訓練,本質上,我們將擁有類似這樣的結構:
26:53 這是一個單層網路。既然我們已經到了那裡。
26:54 我們進行乘法和倒數運算。
26:56 相應地,分佈情況也如此。
26:58 我們將所有數字乘以同一個數。
27:00 在 Python 中,假設我們有一行程式碼
27:03 一些大的,嗯,一條丁字褲,沒有
27:04 記住要再次放置它。
27:07 也就是說,有一條100GB的記憶體線,
27:09 我不知道,110 GB。我們需要把她帶出去
27:12 印刷稿已整理完畢。這樣行不行?
27:13 能做到嗎?困難會是什麼?
27:15 這就是解決方案嗎?
27:17 用於按排序形式列印。嗯,在
27:19 從象徵意義上講,是的,這就是它的意思。
27:23 字串排序。如果,嗯,
27:25 這可能是最明智的做法了。
27:28 按帳戶排序,因為我們有
27:31 總共有32個字元。哦,26歲,是的,如果
27:33 英語。嗯,這沒關係,即使
27:36 這將使用UTF編碼,並且會包含符號。
27:39 100-200,我們可以拿字典,下面
27:41 每個符號都會建立一個計數器,這裡
27:44 數數,走走。這將在
27:46 字串長度的線性複雜度
27:47 相應地,輸出如下:
27:49 一直如此,嗯,就像我們有
27:50 字典快出來了,到時候我們就有了。
27:53 鍵及其數量均已排序 象徵。
27:54 象徵。
27:56 是的。這種解決方案的複雜程度如何?
27:59 嗯,如果我們具體來看計算方面的話,
28:02 那就取決於線的長度了。好了,你總結。
28:04 如果我們不考慮係數,那麼
28:06 首先我們吃,嗯,我們儲存,
28:07 因此,我們也憑記憶來完成這項工作。
28:10 字元數將限制在這麼多。
28:13 這是一個有限的數字,而且每個人都有。
28:15 某種源自記憶的內在意義,
28:18 也就是說,它是恆定的,並且隨著時間的推移而變化。
28:20 這將取決於字串的長度,其中 n 為長度 線條,
28:21 線條,
28:24 是的?這些都是真的。 Payfark 有一個左轉路
28:26 抗核。它不在經典的 sQeled 中,
28:29 但如果你只看標題,你會怎麼想?
28:31 這處關節是如何運作的?除此之外,
28:33 我們經常使用它,也就是說,它
28:36 不,它並非毫無用處。左側抗關節素。那
28:37 假設我們那裡有一個正確的。
28:40 左邊的表格,就像這些歐拉圓一樣,在那裡
28:42 右側是某種十字路口,左側
28:45 比如說,這部分,就是沒有左邊的部分。
28:48 桌子,也就是說,這是一個右關節,這是
28:51 我們將有一個十字路口和一個右側路口
28:54 反對。在這種情況下,反指的是什麼?這是做什麼用的?
28:56 反對?我想我可以。
28:57 猜猜看。
28:59 不,不是左邊,是右邊,而是左邊,沒有
29:01 正確的。它就像一個過濾器。 原來如此。
29:02 原來如此。
29:04 嗯,是的,是的。是的。也就是說,情況並非恰恰相反。
29:05 左沒有右。全部,
29:08 假設我們有一些速度
29:11 我們需要一些團體,比如說,前五名。
29:14 快速收到貨物。嗯,我們也有同樣的情況。
29:16 在那裡出售各種商品,例如:
29:18 天。我們怎樣才能每天都獲得它?
29:20 銷售前五的產品?
29:24 所以,我們,呃,對總和進行匯總,
29:26 是的,那就是求和函數。
29:26 什麼聚合?
29:27 嗯,po,
29:28 她怎麼知道的?
29:31 按天計算。那……它叫什麼來著?嗯,是的,如何 寫
29:32 寫
29:35 在我看來,這個問題很簡單。嗯,有一群人
29:37 這裡存在某種求和準則。
29:39 Nubay不太合適,因為
29:41 A隊,好的,我們走吧。是的,金額
29:43 一定數量。好。如何如何什麼
29:44 你的決定是什麼?
29:47 數量。這裡。所以我們每天都這樣做。
29:50 聚合。我們來計算一下總和。所以,前五名。
29:52 啊,每天推薦五款熱門商品。更多的
29:55 乘以發行量。不,不是按數量算的。
29:57 它們在那裡的速度就是固定的,嗯。
30:00 某種浮標,必須有五個最重要的
30:02 大型浮標
30:04 我們之前遇到過這些問題。例如,我們
30:06 他們在那裡每天都會評估一些東西。
30:08 有些貨物被清洗、洗滌、擦洗,然後
30:10 我們希望每天都能拿到前五名。
30:11 啊,我們已經拿到貨了。
30:13 最暢銷的五種產品
30:14 例如,每天
30:16 它們沒有重複出現,是的,它們沒有重複。
30:18 也就是說,我們已經有了某種表格。
30:21 我們可以將樹皮分類,
30:23 因此,取其個數,上限為五。一個
30:25 順便說一句,依我之見,就這一點而言,就…
30:27 通過極限的中位數已求解。我們採取
30:30 限制,是的,一半。我們也在這裡,
30:32 因此,我們將上限設定為五,是的。
30:33 然後我們採取,
30:35 上限是五。對我們而言,每個人都是所有人
30:37 我們在那裡待一天,我不知道,也許10天。然後
30:40 我們需要收集50筆記錄,但這還不夠。
30:42 五。那麼,如果我們這樣做呢?
30:44 我們就是這樣,請求中嵌套請求。
30:47 它被正確地稱為內部的。一
30:49 我們每天都把它帶到那裡,在這裡,以及裡面。
30:51 因此,我們仍然這樣做。
30:54 排序並取前五名。
30:56 也就是說,就像經歷一個個循環。
30:58 嗯,算是吧。也就是說,按天計算。
31:00 沒有循環怎麼可能?有哪些功能?
31:03 如何不用循環來解決這個問題?
31:05 最初我們只有一張大桌子,
31:08 我們有日期、產品和速度資訊。和
31:11 這裡日期不同。嗯,也就是貨物。
31:12 雖然不同,但日期相同。
31:16 如果我們按日期進行聚合。一個,
31:18 不,停下。啊,嗯,是的,是的。那就是我們
31:21 我們來獲取這些日期並進行一些匯總分析。
31:23 內部粗糙。
31:26 我們這位粗魯的傢伙會立即對所有事情做出回應。
31:27 嗯,是的,是的,不是那樣。 是的。
31:28 是的。
31:30 M 如果你提出一些條件,
31:34 例如,我們擁有的東西,嗯,我們會把它放在那裡。
31:38 首先,我們將按日期排序。
31:40 我們稍後再看。啊,或許有些吧。
31:43 每天的數量都不同
31:45 貨物數量。不,可能不會。
31:47 我會記住的。我想不出什麼辦法。似乎, 關於。
31:47 關於。
31:49 嗯,通常都有視窗函數。 已被使用。
31:49 已被使用。
31:51 嗯,視窗函數出現的時間並不長。 用過的。
31:52 用過的。
31:55 哪個演算法擁有更多的BAS,哪個演算法擁有更多的BAS?
31:57 哪個更重要?它到底是什麼?
31:59 這種方差權衡如何反映?
32:01 當我們有一些妥協的時候,就應該做出妥協。
32:03 物體,嗯,我們,這麼說吧,肯定
32:06 我們只是猜測,但我們感覺非常有把握。
32:08 這些預測彼此各不相同。
32:11 所以我們有一位很棒的瑞安王牌,是的,嗯。
32:13 我們預測是否準確。那
32:14 有一個條件性的地方,我們可以進入
32:17 某個目標。我突然想起了這張照片
32:19 到達目標地點或擊中目標。出色地
32:21 那裡的預測結果與實際情況不符。
32:23 當我們擁有一個非常
32:25 預測範圍很廣。森林和
32:29 提升。在森林裡,理論上,或者更確切地說,在變體中
32:32 小的。上面就有一個例子。
32:34 我們給出的預測值從1到100。 A,
32:37 因此,在森林裡,啊,哦,在
32:39 提升後效果更佳。這裡。還有巴亞斯,
32:42 可能提升效果較差
32:46 相反,森林的情況更糟。
32:48 減少輪空次數。也就是說,是的,我們還有更多
32:50 預測是準確的,但是,相應地,
32:54 他們在推廣上更加分散,
32:56 而在森林裡,情況則恰恰相反。因此,
32:59 它們會更集中在一個地方,但數量會更少。
33:01 準確的。也就是說,這片森林狀況良好。
33:04 買的東西更多了,但維利安的尺寸更小,而且
33:06 反向提升。他有一種海灣
33:08 少一些,但是,嗯,一致性更重要。
33:08 差不多就是這樣。
33:10 如你們所見,親愛的朋友們,
33:12 即使是經驗豐富的候選人也可能失敗
33:13 就如此基礎的事情進行採訪,
33:16 例如梯度提升、隨機化和
33:18 Pvue。但這是任何事物的基礎。
33:21 數據科學家。這一點甚至正在研究中,而且,在
33:22 大學。我想說的是,在學校裡,
33:24 但很遺憾的是,學校裡並非如此。
33:26 正在學習。簡而言之,親愛的朋友們,
33:28 訓練,學習理論,然後不要
33:30 記住它,並理解為什麼。
33:32 像這樣運作。這對你來說非常有效。
33:33 會幫助你順利通過面試。
33:35 我還建議看看其他部分。
33:36 數據科學家面試
33:38 我的頻道。我希望每個人都能提供肥胖服務。