Q-SYSTEMS
25/10/2014, 17:16 *
Добре дошъл/дошла, Гост. Моля, въведи своето потребителско име или се регистрирай.
Изгуби ли регистрационния е-мейл?

Влез с потребителско име, парола и продължителност на сесията
Новини:
 
   Начало   Помощ Търси Календар Вход Регистрация  
Translate to [EN |FR |DE]
Страници: 1 2 [3] 4 5
  Изпечатай  
Автор Тема: Практическо приложение на статистически методи  (Прочетена 24467 пъти)
otk
Global Moderator
Sr. Member
*****
Публикации: 468



Профил
« Отговор #30 -: 23/12/2008, 01:13 »

Част II. НЕЛИНЕЙНА РЕГРЕСИЯ*

2.1 Въведение

Наивно е да се смята, че многообразните връзки между заобикалящите ни явления могат да бъдат обяснени единствено с помощта на един-единствен универсален модел. Макар линейната регресия да се използва успешно за изследване със задоволителна за практиката точност на една голяма част от интересуващите ни връзки и зависимости, тя не е в състояние да обясни адекватно редица взаимодействия подчиняващи се на едни по-сложни КРИВОЛИНЕЙНИ закономерности. Ако линейният модел се окаже неадекватен на действителността, не ни остава нищо друго освен да го изоставим и потърсим друг по-подходящ модел, естествено отново с помощта на… математиката.


* Всъщност това наименование не е съвсем точно, но поради широкото разпространение, включително и в сериозни източници ще използваме него. В действителност, една линия (в общия случай) може да бъде права или крива, затова правилният термин според мен е „криволинейна регресия”.


2.2 Математически модел

С изучаването на функционалните зависимости се занимава специален клон на математиката – математическия анализ. Ние няма да задълбаваме чак толкова и ще се ограничим до разглеждането на някой елементарни математически функции (повечето изучавани в средното училище), които са получили широко приложение за решаването на различни задачи в практиката. Такива функции са степенна, показателна, експоненциална, логаритмична, параболична, хиперболична и други, както и някои комбинации между тях.

Ето няколко примера:
 

a, b, c, d… – коефициенти


2.3 Регресионен модел

Коя от всичките тези функционални зависимости ще бъде подходяща за основа на един бъдещ нелинеен регресионен модел? Не ми е известно съществуването на някакъв универсален метод за обоснован избор на крива на този ранен етап от изследването. От изключителна важност е да имаме на разположение някакви данни за характера и логическата същност на изследваната зависимост в конкретната област на приложение на регресионния анализ, което би ни предпазило от евентуалното допускане на грешка още в самото начало. Често се случва обаче, да не разполагаме с подобна информация и тогава единственото, с което трябва да се задоволим е познатата ни диаграма на разсейване. С надеждата да ни подскаже накъде евентуално ще се „завърти” кривата.



В горната диаграма например, може да се забележи една относително по-стръмна лява част за малките стойности на х, в сравнение с лекичко изтеглената към по-големите стойности на х дясна част (за да стане по-очевАдно, съм маркирал областите с две червени елипси).

Ето и няколко примерни апроксимации:



Виждаме, че графичните изображения на някои от функциите си приличат твърде много и изборът на конкретна крива само и единствено чрез визуална оценка понякога може да се окаже трудна задача. Срещат се и ситуации, в които точките от диаграмата са така подредени, че е невъзможно да се прецени дори с коя регресия да започнем – линейна или нелинейна. Ето защо е важно освен набито око, изследователят да притежава и необходимата теоретична подготовка.

Няма как, ще трябва отново да понапишем няколко формули. Обещавам техният брой да бъде минимален, а за да не заспят някои по време на изложението, част от „сухата” теория предпочитам да разгледаме така да се каже „в крачка”, по време на решаването на някой пример.


Ще започнем с една опростена, но твърде важна класификация на нелинейните модели. Независимо от своето разнообразие, те могат да се класифицират в две основни групи:

а) нелинейни само по отношение на независимите променливи x;

Такива са например моделите:

и др.

Тези модели описват съответно параболична и хиперболична зависимост. Въпреки може би стряскащите за някой наименования – без паника! Това са относително по-лесните за приложение нелинейни модели (наричат се още ”квазилинейни”). Макар и нелинейни в своята графическа същност, те имат близка “родствена връзка” с нашия стар познат от Част I. Например, ако се вгледаме по-внимателно в първия от тях ще видим, че той се различава от линейния само по наличието на още един член от втора степен. Подобно е положението и при втория модел, ако вместо за 1/х си мислим за х’=1/x.

Без да се впускаме в математически подробности беше необходимо да направим това ВАЖНО уточнение, защото то е крайъгълният камък, който ще ни покаже накъде да продължим. Един от възможните пътища би трябвало да ни е познат, защото вече сме вървели по него – оценките на регресионните коефициенти на моделите от тази група могат да се изчислят с помощта на метода на най-малките квадрати (МНМК) така, както го направихме при линейната регресия. Формулите разбира се различават малко, но принципът на тяхното извеждане е същия.
Да си припомним, че съгласно този метод ще прекараме търсената крива измежду всички точки от диаграмата на разсейване така, че да е изпълнено условието:



Например за хиперболичния модел, оценките на коефициентите ще намерим чрез следните формули:
 


б) нелинейни по отношение на коефициентите β

Такива са например моделите:


и др.

– Една част от тези нелинейни модели също притежават „родствена връзка” с линейните. Само че по-далечна и не толкова явна. За да я видим е необходимо тяхното „родословно дърво” да се анализира по-подробно. За целта моделите се подлагат на някои математически преобразования, които ги ТРАНСФОРМИРАТ в линейни по отношение на коефициентите. Така тяхната „скрита” линейност излиза наяве, което ще ни даде възможност да приложим МНMК за определяне оценките на регресионните коефициенти по същия начин, както го направихме при линейната регресия. Тъй де, толкова много усилия положихме за да се научим да прилагаме този метод – няма да се дадем лесно! Ще продължаваме да опитваме с този подход докато „номерът все още минава”.

И така, трябва да открием в кои от показаните по-горе отвратително изглеждащи нелинейни модели се е спотаил нашия любим познат – простичкият и изящен линеен регресионен модел. За целта първо ще си припомним някои математически операции предимно за работата с логаритми, с помощта на които да трансформираме нелинейния модел за да разкрие той своята „скрита” линейност. В зависимост от модела подходът е различен, но ето един пример за логаритмична трансформация:

Имаме нелинеен експоненциален модел от вида


Логаритмуваме лявата и дясна част на уравнението


и получаваме линейния модел


Към него прилагаме МНМК, но така че да минимизираме разликите на логаритмите на y и ŷ, а не на първичните данни, т.е.:


След някои пресмятания получаваме търсените формули за оценките на регресионните коефициенти:


Ако антилогаритмуваме линейния модел, ще се върнем към оригиналния нелинеен такъв с вече известните ни оценки на регресионните коефициенти


Забележка: e = 2.718… е ирационалната основа на натуралния логаритъм или още т. нар. неперово число. Да не се бърка с означените по същия начин остатъци!


За домашно: В показаните нелинейни модели има и други, които откровено „прикриват” някои линейни характеристики в своята „автобиография”. Изобличете ги!

– При други модели от тази група задачата с трансформациите не е толкова проста, a класическия подход за прилагане на МННК чрез непосредствено диференциране на системите уравнения и намиране на конкретни аналитични изрази (формули) чрез които да изчислим оценките е свързан с редица трудности. В тези случаи се прилага друг подход за изчисление на оценките на регресионните коефициенти, в основата на който са числените методи (например методът на Гаус-Нютон). По същество тези методи са итеративни и изискват значителен изчислителен ресурс. Поради това, приложението им без използването на специализиран софтуер може да се окаже изключително трудоемко. Повече информация относно този начин на изчисление любознателните могат да намерят в специализираната литература.


2.4 Важни допускания

Логично е да допуснем, че за нелинейните регресионни модели, за които прилагаме МНМК (директно или след трансформация) ще важат същите ограничения характерни за линейните модели (виж Част I). Естествено трябва да се изключи изискването за наличие на линейна връзка между x и y в оригиналния модел.

При някои нелинейни модели обаче е възможно да не са спазени част от ограниченията. Например:
логистичните регресионни модели се прилагат и за прекъснати (дискретни) променливи представители на слабите скали (например от типа ГОДНО/НЕГОДНО), при които освен това нито едно от изискванията за грешките не е изпълнено;
– изискването за постоянство на дисперсията на грешките обикновено не е спазено и при асимптоматично клонящите към някаква стойност нелинейни модели (напр. експоненциалните). Типично за тях е, че дисперсиите за случаите в близост до асимптотата се различават от останалите.

Изходът от подобни ситуации трябва да се търси в използването на други методи и техники, които да са в състояние да коригират до известна степен тези несъответствия. Например:
– за оценка на коефициентите при логистичната регресия вместо МНМК се прилага методът на максималното правдоподобие (ММП) в комбинация с итерационни процедури;
– трансформацията при някои нелинейни модели може да стабилизира вариациите на дисперсията на грешките в трансформирания модел;
– по-надеждни оценки при непостоянни дисперсии се получават с използването на претеглен метод на най-малките квадрати (ПМНМК), който за разлика от класическия, „претегля” стойностите и изчислява оценките давайки приоритет на тези с по-малка дисперсия, т.е. на по-сигурните.

Разкриването на същността на споменатите по-горе методи и техники излиза извън скромните цели на настоящето писание. Подробности любознателните могат да намерят в специализираната литература.

Все пак, запомнете поне за съществуването на споменатата логистична регресия. Тя е важен инструмент при редица изследвания в различни области, като: социология; икономика; маркетинг; медицина; фармацевтика; изкуствени невронни мрежи и др. Затова по-нататък, когато имам възможност ще се опитам да ви запозная съвсем накратко с нейното практическо приложение чрез един ужасяващо реалистичен пример.

Можем да обобщим, че нелинейните регресионни модели ни дават една по-голяма свобода на действие в сравнение с линейните, за което обаче понякога се плаща и по-висока цена.


2.5 Проверки за адекватност на регресионния модел

Да кажем няколко общи думи и за диагностицирането на нелинейните модели. Подобно на линейните, те също страдат от разни болести, че даже и повече. Някои типични техни болежки бяха споменати в предходната точка. Също там бяха препоръчани и възможни терапии (извинявам се за медицинските термини, но то е по причина, че докато пиша с едното ухо долавям от телевизора ожесточена дискусия относно поредната шантава диагноза поставена от д-р Хаус).

Често срещана ситуация е два или повече модела да покажат признаци за адекватност от гледна точка на изпълнение изискванията за прилагане на МНМК. Тогава изниква въпросът кой от тях е най-добър? За прецизния избор на окончателен модел могат да се използват както познатите ни графични методи (визуална оценка на диаграмите на разсейване и на остатъците), така и аналитични методи използващи различни критерии (R2, Cp, AIC и др.), а също и комбинация от двата подхода. При всички случаи, изследователят трябва да се ръководи в своя окончателен избор от предмета и целите на изследването (какво се очаква от модела), като се стреми да се придържа към принципа на Окам (възможно по-прост модел, с минимален брой променливи).

Графичният анализ на остатъците обикновено се прилага по същият начин, както при линейната регресия, но при някои нелинейни модели се налага остатъците да бъдат модифицирани по подходящ начин преди да успеем да изкопчим полезната информация, която носят със себе си.

Значимостта на регресионните коефициенти може да се провери, както при линейната регресия – изчислената оценка на коефициента се разделя на стандартната грешка и резултатът се сравнява с подходяща тестова статистика. Трябва да се има предвид, че при нелинейната регресия, оценката на стандартната грешка, която се използва за проверката значимостта на регресионните коефициенти понякога може да се получи изместена, но когато обемът на извадката е достатъчно голям, това изместване обикновено е в приемливи за практиката граници.
Прилагат се и други подходи, които при определени обстоятелства дават по-добри резултати.

Малко общи приказки написах в тази точка, но мисля за повечето от вас вече стана ясно, че при нелинейната регресия нещата не са толкова еднозначни и е невъзможно да бъдат изчерпани само с няколко абзаца. Обикновено се налага да реагираме на принципа „според зависи”, затова преди да предприемете нещо конкретно, направете справка в специализираната литература относно неговата адекватност.


2.6 Интерпретиране на резултатите от анализа

Принципно погледнато, написаното за линейната регресия относно интерпретацията на резултатите важи и за нелинейната. Но съществуват и някои особености.

Тук с още по-голямо внимание трябва да се отнасяме към предупреждението за екстраполация на модела. Част от нелинейните модели притежават т. нар. локални екстремуми (минимуми или максимуми) – това са стойности, за които кривата променя своята посока. И ако един такъв екстремум се е „замаскирал” нейде около крайните стойности на наблюдаваната независима променлива, лесно можем да се досетим до какви груби грешки може да доведе едно невнимателно екстраполиране, дори когато става въпрос за съвсем близки прогнози.
Ето защо, силно препоръчително е в подобни ситуации изследователят да валидира нелинейния модел, като предостави обективни доказателства за неговата способност да бъде използван като инструмент за съставяне на прогнози. Такива доказателства могат да бъдат: допълнителни опити извън интервала на съществуващите в посока на интересуващата ни екстраполация; позоваване на минали експериментални данни или сравняване с подходящи теоретични модели; използване на специални процедури за кръстосано валидиране (т. нар. cross-validation) и др.

Необходимо е да се внимава и при тълкуването на регресионните коефициенти. За разлика от линейните функции, които са по-лесно разбираеми дори и за неспециалисти, нелинейните не са толкова интуитивни и липсата на някои дори елементарни математически познания може да доведе до груби грешки в тяхното интерпретиране, а от там и до погрешни изводи.

Важно е да се знае, че при нелинейната регресия МНМК и ММП не винаги осигуряват неизместени и ефективни** оценки, когато обемът на извадката е малък. Поради тези причини, интерпретацията на резултатите, отнасящи се до доверителни интервали и проверка на хипотези трябва да се извършва предпазливо и с презумпцията, че при малък брой наблюдения те могат да бъдат по-несигурни в сравнение с линейната регресия. Разбира се съществуват и се прилагат съвременни методи, които за разлика от класическите са по-малко чувствителни към подобни проблеми, но това в общия случай усложнява нещата, а резултатите в крайна сметка не винаги придобиват достатъчна за целите на изследването сигурност. Може би по-добрият подход  e консервативният: винаги когато имаме основание да очакваме нелинейна връзка между изследваните величини, по възможност да осигурим извадка с по-голям обем. Колко точно, не може да се каже еднозначно, но е желателно да бъде с n>50. Причината да се стремим към по-големи извадки при нелинейната регресия е, че ако оценките се получават изместени, с увеличаването на n това изместване постепенно намалява и оценката клони асимптотично към действителната стойност.

За съжаление, това е част от цената, която трябва да платим за свободата на действие, предлагана ни от нелинейните регресионни модели. Но не е ли този проблем фундаментален за цялото ни общество? Необходимо ли е да се разделим с част от свободата си, за да имаме повече сигурност? Не е ли това една твърде висока цена?

Спирам дотук, защото нататък статистиката не може да помогне.


** Неизместеността и ефективността са важни свойства на статистическите оценки. Първото показва доколко оценката съвпада с действителния (търсения) параметър, а второто сравнява оценките по тяхното разсейване. Други свойства на оценките са състоятелност и достоверност. За повече информация виж специализираната литература.
« Последна редакция: 17/08/2009, 15:07 от otk » Активен
otk
Global Moderator
Sr. Member
*****
Публикации: 468



Профил
« Отговор #31 -: 23/12/2008, 01:27 »

2.7 Примери

Първи пример

Хмм, чудя се как да го започна...

Чувствам се малко в неловка ситуация, защото се налага да употребя две думички придобили почти сакрално значение в нашия форум1). От друга страна обаче, някои потребители са прекалено чувствителни към тези думи и открито се дразнят, когато ги чуят да излизат именно от моята уста. Страхувам се да не бъда обвинен (отново), че манипулирам аудиторията (разбирай общественото мнение) използвайки даденото ми от Бога и Ца..., пардон Админа служебното положение на модератор.

Добре де, няма да дразня излишно общественото мнение щото съвсем скоро идват избори. Ще се разберем така – когато трябва да изговоря някоя от тези две думички, ще го правя тихо, почти шепнешком. Да ме простят старите от аудиторията, които сигурно и без това недочуват.
Уф... колко съм несъобразителен, та аз в момента пиша в един виртуален интернет-форум! Как е възможно човек да пише шепнешком?!
Как-как...? Ами… така-а-а – ще напиша тези думички с мно-о-о-го ситен шрифт. Те... старите май пак ще са в неизгодна позиция, щото освен че недочуват сигурно и недовиждат, ама... к’во да се прави – старост-нерадост, както е казал народа.

– В този пример отново ще стане дума за индукция и дедукция – плахо започвам аз.
– О-о-о-о, пак ли…? Модератор-манипулатор! У-у-у-у...! – долавям освирквания откъм аудиторията. За мое щастие единични и не чак толкова мощни. Но все пак съм леко притеснен…
– Излишно задълбаваш, истината е винаги по средата – лаконично успокоява някой от средата на залата. Този глас ми е познат, той винаги идва от едно и също място, нейде в средата на залата. Защо ли обаче не въздейства успокояващо на чувствената ми душа, която вместо да се отпусне върху спокойните вълни на посредствеността, започва да се мята насам-натам в още по-ожесточено преследване на така хлъзгавата понякога истина.
– Остави, губиш си времето. Няма смисъл – вятър работа е това! – подхвърля загрижено един песимист, кой знае защо заел място в челните редици на аудиторията.
Следват и няколко одобрителни възгласа, от които набирам плахо смелост и започвам, хващайки се за последната фраза като удавник за сламка:
– Вятър ли чух? Добре тогава, нека се ослушаме и чуем какво ще ни каже вятъра, защото

The answer is blowin' in the wind2)

В началото бяха... данните3).
Проведени са измервания за да се установи формата на зависимостта между скоростта на вятъра и получената на изхода на генератора електрическа мощност на една вятърна турбина.

No   Y, kW      X, m/s

1   1.582      5.00
2   1.822      6.00
3   1.057      3.40
4   0.500      2.70
5   2.236      10.00
6   2.386      9.70
7   2.294      9.55
8   0.558      3.05
9   2.166      8.15
10   1.866      6.20
11   0.653      2.90
12   1.930      6.35
13   1.562      4.60
14   1.737      5.80
15   2.088      7.40
16   1.137      3.60
17   2.179      7.85
18   2.112      8.80
19   1.800      7.00
20   1.501      5.45
21   2.303      9.10
22   2.310      10.20
23   1.194      4.10
24   1.144      3.95
25   0.123      2.45

За изчисленията може да се използва:
– джобен калкулатор – мъка-а-а!;
– online калкулатор – например http://www.colby.edu/chemistry/PChem/scripts/lsfitpl.html (трябва да имате инсталиран Java Plugin за браузъра);
– електронна таблица (ако притежава подобна функционалност) – имайте предвид, че вграденият Data Analysis ToolPak в MS Excel 2003 пресмята само линейни регресии. Обаче всеки от нелинейните модели, използвани в този пример, може да се трансформира в линеен и да се използва функционалността на този модул. Друг подход е да се съставят необходимите за изчисленията формули и съответните графики ръчно, с помощта на стандартните функции в Excel. Разбира се нещата могат да се автоматизират, ако се използва вградения програмен език VBA;
– специализиран софтуер за статистически изследвания – SPSS, Statistica , Minitab и др.

« Последна редакция: 30/01/2009, 17:09 от otk » Активен
otk
Global Moderator
Sr. Member
*****
Публикации: 468



Профил
« Отговор #32 -: 23/12/2008, 01:28 »

Въвеждаме данните в софтуера и започваме с добре известната ни диаграма на разсейването:
 


Това, което се вижда на диаграмата и високата стойност на коефициента на корелация r=0.94 показва недвусмислено, че е налице силна положителна корелационна връзка между скоростта на вятъра и мощността на генератора. Забелязваме една добре оформена, но леко изкривена пътечка от точки, което би трябвало да ни хвърли в съмнения дали връзката между изследваните величини наистина е линейна? Една такава чисто визуална оценка на диаграмата на разсейване обаче съдържа в себе си неизбежен елемент на субективност, затова нека започнем с известните ни досега регресионни модели по ред на номерата.

1) Най-напред пробваме с линеен модел y = β0 + β1.x



За да не губим излишно време в пресмятания, ще се насочим направо към проверка на адекватността на избрания модел чрез познатият ни графичен анализ на остатъците. Ето как са се подредили те спрямо независимата променлива х:



Остатъците показват, че подозренията ни са основателни. Точките не са разпределени случайно, а корелират около някаква крива, което е сигурен признак за НЕАДЕКВАТЕН регресионен модел. Подобна аномалия в подреждането обикновено е индикатор за изпуснат член в модела, от степен различна от единица, т.е. налага се да изоставим линейния модел и да търсим подходящ сред нелинейните. За целта, към линейния модел добавяме още един член от втора степен и
« Последна редакция: 30/01/2009, 15:25 от otk » Активен
otk
Global Moderator
Sr. Member
*****
Публикации: 468



Профил
« Отговор #33 -: 30/01/2009, 15:34 »

2) Получаваме нелинеен параболичен модел от вида y = β0 + β1.x + β2.x2.

Съгласно класификацията, която направихме в теоретичната част, този модел е нелинеен само по отношение на независимите променливи x (или още квазилинеен). Следователно, за определяне на оценките на регресионните коефициенти можем да приложим МНМК по познатия ни начин.

Аналитичният израз на регресионния модел с оценените стойности на регресионните коефициенти е:
ŷ = –1,5559+0,7229.х–0,0381.х2
и има следния графичен вид:



На пръв поглед можем да кажем, че тази крива линия следва пътечката значително по-точно, в сравнение с правата. Коефициентът на корелация нарасна на r=0.98, като изменението на факторния признак обяснява приблизително 97% от общото изменение на резултативния признак. Софтуерът показва, че коефициентите са значими. Остатъците също се пренаредиха и изглеждат малко по-добре, макар все още да са далеч от желаното:



Аз вятърни генератори на живо съм виждал само отдалеч, обикновено когато съм на път. Но веднъж срещнах един стар рицар, който ми разказа как цял живот е водил битки с вятърни мелници.
 


Същият този рицар накрая ме посъветва да внимавам много с тези ръкомахащи чудовища, защото при тях нищо не било така, както изглежда. Не знам защо, но този негов съвет се загнезди здраво в ума ми и вероятно от тогава датира моята подозрителност към всичко що маха перки из въздуха.

Ето и сега, гледам го този последния регресионен модел, а отвътре ме раздират съмнения, че нещо не е съвсем наред! Да, тази параболична крива определено стои по-добре, отколкото правата линия, но в остатъците все още се забелязва склонност да се подредят около някаква крива линия. Притеснява ме и поведението на линията върху диаграмата на разсейване, особено в двата края на интервала на независимата променлива х. Не мислите ли, че точно там, в краищата, тя проявява някаква странна склонност да напусне пътечката?

Очевидно е, че в горния край при скорост на вятъра около 9.4 m/s, се наблюдава пик на мощността, след което тя започва да спада, независимо че точките от диаграмата показват тенденция за увеличаване на мощността, макар и със забавен темп. Но нека се опитаме да надзърнем какво се случва зад последната ни известна стойност на независимата променлива х. Заместваме в модела с х = 15 и получаваме прогнозната стойност
ŷ = 1,5559+0,7229.15-0,0381.152 = 1.11 kW
Налице е рязък спад в мощността на генератора – от около 2.3kW при 9.4 m/s, на около 1kW при 15m/s. Това е промяна повече от два пъти! По-нататък ще видим, че подобен значителен обрат в стойностите за мощността при тази скорост на вятъра не е в съгласие с теорията за вятърните турбини.

Но защо все пак се получи така?
Защото параболите са криви, които притежават локални екстремуми – в нашия случай, максимум. Това може лесно да се установи, ако намерим първата производна на математическия първообраз на нашия регресионен модел, приравним на нула и полученото уравнение решим спрямо х. Тъй като вярвам, че повечето от вас са внимавали в час по математика в училище и знаят как се прави това, няма да си губим времето с излишни изчисления, а направо ще се възползваме от възможностите на софтуера и ще „отвържем” кривата по оста х, за да видим следната картинка:



на която въпросният максимум в горния край вече стана очевАден. При този мащаб по-лесно се забелязва и как апроксимиращата крива не следва много прецизно наклона на пътечката от точки.

При тях нищо не е така, както изглежда. Дали онзи рицар не се оказа прав? Наистина ли е толкоз луд, колкото се опитват да го изкарат някои? Щото виждате ли, борбата с вятърни мелници и разните му там други вятърни чудовища била загубена кауза, сиреч безсмислена. Ама тя тази борба комай е вечна, щото продължаваме да я водим и сега, само дето средствата са различни – днес ние борим съвременните високотехнологични потомци на тези чудовища не с копие, а със… статистика. И макар битката да не се развива в наша полза (дали изобщо може бъде спечелена някога?), няма да подхождаме така пораженчески, а вадим от арсенала следващото оръжие, с което разполагаме и атакуваме чудовището с
Активен
otk
Global Moderator
Sr. Member
*****
Публикации: 468



Профил
« Отговор #34 -: 30/01/2009, 17:05 »

3) Нелинеен хиперболичен модел от вида y = β0 + β1/x

Този модел също е нелинеен само по отношение на независимите променливи x (квазилинеен). Следователно, за определяне на оценките на регресионните коефициенти можем да приложим МНМК по познатия ни начин. Тези от вас, които смятат с калкулатор или Excel могат да използват формулите от теоретичната част, а разполагащите със специализиран софтуер ще получат модела направо с помощта на вградени функции от рода на nonlinear regression, nonlinear estimation, curve estimation, curve fitting и др. Точното наименование в менютата зависи от конкретния продукт.

Но каквито и инструменти да използваме, ако сме направили всичко както трябва, накрая трябва да получим следния аналитичен израз на регресионния модел с оценените стойности на регресионните коефициенти:
ŷ = 2,9789–6,9345/х,
който има следния графичен вид:



Сега вече съм малко по-спокоен – кривата определено „пасва” по-добре на точките. Освен това, тя е лишена от палавия характер на предишната – следва стриктно пътечката в долния й край и проявява асимптотични наклонности в горния – нещо, което както ще видим по-нататък е в съгласие с теорията за вятърните турбини.

Коефициентът на корелация нарасна още и вече е r=0.99, а изменението на факторния признак обяснява цели 98% от общото изменение на резултативния признак.

Да проверим регресионните коефициенти, като приложим принципите от Част I. За целта издигаме съответните хипотези:
H0 : β1 = 0      H0 : β0 = 0
H1 : β1 ≠ 0      H1 : β0 ≠ 0

Ще използваме следните формули:
 


ave – средна аритметична стойност
p – брой на коефициентите в модела

Ако |t| > tкр [α/2, n-p], нулевата хипотеза се отхвърля и се приема алтернативната, т.е. регресионните коефициенти са статистически значими.

Резултатите са:
t(β1) = 33.592 > t [0.025, 23]= 2.069
t(β0) = 66.341 > t [0.025, 23]= 2.069

Емпиричните данни не дават основание да се приемат нулевите хипотези за верни и за това те се отхвърлят в полза на алтернативните: коефициентите на модела са различни от нула и следователно статистически значими при избраното ниво на значимост α=0.05.

Съответните 95% доверителни интервали са:
2.886 ≤ β0 ≤ 3.072
-7.362 ≤ β1 ≤ -6.508

Остатъците също изглеждат по-добре, но при тяхното стандартизиране се пръкна един самотен беглец под номер 20:



Това се случи, защото софтуерът е настроен по подразбиране да третира самотниците като такива при ±2σ. В конкретната ситуация положението на самотника спрямо останалите резултати не води до някаква съществена промяна в направлението на апроксимиращата крива. Появата му най-вероятно не се дължи на систематична причина, а на факта, че разпределението на остатъците се отклонява от нормалното. На следващите две диаграми (нормална вероятностна и хистограма) се вижда добре липсата на симетричност в разпределението, заради проточилата се към отрицателните стойности „опашка”.



Забележка: Визуалният анализ на остатъците притежава елемент на субективност.При наличие на съмнения е желателно да се направят допълнителни проверки с цел потвърждаване на направените изводи:
– за еднаквост на дисперсиите може да се приложи тест на Brown-Forsythe;
– за нормалното разпределение може да се използва някой от известните статистически критерии за проверка на съгласуваност на емпиричното с теоретичното нормално разпределение, напр. Shapiro-Wilk, Колмогоров-Смирнов и др.
За повече информация виж в специализираната литература.


Нека си припомним, че допускането за нормално разпределение на грешките беше една от важните предпоставки, изпълнението на които осигуряваше висока степен на доверие към регресионния модел. За съжаление, разминаването между нашите очаквания и това, което се случва в реалния живот е често срещана ситуация. Това важи и за статистическите изследвания, когато работим с реални данни. Какъв е изходът от така създалата се ситуация?

Най-напред трябва да направим уговорката, че по принцип заключението за нормално разпределение при малки извадки (каквато имаме в този пример) не може да се приеме с достатъчно доверие. Освен това, различните по вид отклонения от нормално разпределение (несиметрични, остри, полегати, двувърхи и т. нат. хистограми) оказват различно влияние върху сигурността на направените изводи. Като добавим и факта, че различните методи за проверка на хипотези имат различна чувствителност към тези отклонения, става ясно, че няма как да не се съобразим с тези обстоятелства и се налага да проверим доколко установеното отклонение от нормално разпределение на остатъците се отразява на резултатите във всеки конкретен случай. А то се отразява предимно на сигурността на направените изводи в съпътстващите регресионния анализ различни проверки на хипотези.

При отклонение от нормалното разпределение, може да се подходи по няколко начина:
– опитваме с трансформация на променливите х и y (коренуване, логаритмуване, реципрочна и др.) – не винаги води до желания ефект;
– прилагаме подходящи робастни4) методи, които не са толкова чувствителни към отклонението от нормалното разпределение;
– изоставяме текущия модел и търсим друг – ако такъв съществува и не е прекалено сложен за прилагане и интерпретиране;
– провеждаме ново изследване с по-голям обем на извадката – не винаги е физически възможно или икономически изгодно да се осъществи;
– нищо не правим, което не означава, че се примиряваме със статуквото – просто продължаваме да поддържаме презумпцията, че грешките ε са нормално разпределени в съвкупността. И понеже знаем, че не можем да го установим с достатъчна сигурност поради малкия обем на извадката, имаме едно наум към част от резултатите! Този вариант на действие предполага все пак, че целите на изследването са изпълнени в някаква задоволителна степен, което от своя страна означава, че посоката в която вървим е правилната. При определени обстоятелства, това последното може да бъде достатъчно в даден момент.

Една част от тези подходи са компромисни, други са крайни. Принципно погледнато, не трябва да се отказваме лесно от даден модел, като му лепнем позорния етикет „НЕАДЕКВАТЕН”. Въпреки наличието на определени недостатъци, моделът може да притежава потенциал под формата на важни предимства, който да ни помогнат в решаването на задачата. Ако отклонението от нормално разпределение не е толкова съществено за крайния резултат, след провеждането на един внимателен анализ на ситуацията (в каква степен е възможно да се постигнат целите, какви са приемливите компромиси, евентуалните допълнителни разходи за ново изследване и т. нат.), можем да стигнем до извода, че кусурите всъщност не са чак толкова съществени и моделът може да ни служи достатъчно добре, разбира се с цената на една по-голяма неопределеност на резултатите и задължителната в подобен случай предпазливост от наша страна при тълкуването им.


Тъй като примерът и без това стана много дълъг и се притеснявам стигайки до финала да не се окаже, че сме забравили откъде сме тръгнали, мисля да се ориентирам към затваряне на настоящата точка от своето писание, но ще оставя вратата леко открехната за допълнителен импулс на любознателните.

Да резюмираме накратко какво направихме дотук.
Изпробвахме три регресионни модела за да изследваме формата на зависимостта между скоростта на вятъра и получената електрическа мощност на изхода на генератора на една вятърна турбина. Установихме че:
– модел номер 1 (линеен) беше напълно неподходящ, защото връзката се оказа нелинейна;
– модел номер 2 (параболичен) реши проблема с нелинейността, но открихме някои негови кусури, които при определено приложение (предвиждания за горния край на интервала на факторния признак и съставяне на прогнози извън този интервал), правеха модела неадекватен. Което не означава, че не е възможно едно ограничено приложение;
– модел номер 3 (хиперболичен) се оказа най-подходящ до момента, макар също да не е лишен от недостатък. Установеното отклонение от нормалното разпределение на остатъците може да даде негативно отражение върху значимостта на регресионните коефициенти и доверителните интервали. Тъй като не се забелязват някакви фрапиращи резултати в тази посока и понеже не разполагаме с подробна информация за целите на експеримента (например, каква точност на предвижданията би ни удовлетворила), ще приемем, че този модел е адекватен на действителността и описва изследваната зависимост със задоволителна точност.

Аз спирам дотук със статистиката и мисля да напусна временно бойното поле, докато все още съм в състояние да различа къде е фронтовата линия и къде тила в тази паяжина от проблясващи оръжия:



Уморих се и имам нужда от малко почивка…

На любознателните завещавам още едно оръжие от тайния си арсенал, с което да продължат битката с вятърното чудовище:

4) Нелинеен експоненциален модел от вида y = β0 + β1β2.x

……
« Последна редакция: 31/01/2009, 11:27 от otk » Активен
otk
Global Moderator
Sr. Member
*****
Публикации: 468



Профил
« Отговор #35 -: 30/01/2009, 17:06 »

Задачата е решена. А сега накъде?

Отново ще оставим статистиката настрана, за да надзърнем в конкретната област на приложение на този примерен регресионен анализ.
Вятърните турбини са машини, способни да „уловят” кинетичната енергия на движещите се въздушни маси (вятъра) и да я преобразуват в механична енергия на въртящ се ротор. Към този ротор обикновено е присъединен електрически генератор, който от своя страна преобразува механичната енергия в електрическа – тогава говорим за вятърен генератор. Съществуват различни конструкции вятърни генератори. Ето няколко:
 

Във вятъра е скрита огромна мощ! И макар никой да не се съмнява в това, когато от време на време ставаме свидетели на последиците от опустошителните ураганни ветрове, нека все пак поставим нещата на научна основа със следната формула:
[1]
Pw – енергията, която бихме получили от вятъра за единица време или още мощност на вятъра, W
ρ – плътност на въздуха, kg/m3
A – напречната площ на въздушния поток, m2
V – скорост на вятъра, m/s

Виждаме, че енергията на вятъра зависи от плътността на въздуха, големината на площта, върху която натиска въздушния поток, но най-силно от скоростта на вятъра, защото тя участва във формулата с трета степен, т.е връзката е нелинейна. Някои може би ще потрият доволно ръце: Ами това е чудесно, колкото по-голяма е скоростта V, толкова по-добре – ще имаме V3 повече енергия! Например, двукратното увеличаване на скоростта води до осемкратно увеличаване на получената енергия.

За съжаление формула [1] важи в едни идеални условия. В реалността нещата не са толкова прости. Природата се съпротивлява яростно на всеки наш опит да я „опитомим” и ни налага следните ограничения:

– само 59.3% от енергията на вятъра може да бъде оползотворена от една вятърна турбина (на практика още по-малко). Това ограничение е известно като Закон на Бетц5). Коригираме формула [1] така:
[2]
Pm – механична мощност на турбината, W
Cp е коефициент въвеждащ ограничението на Бетц. Физическият му смисъл е на аеродинамичен КПД. Не е постоянна величина, а зависи от скоростта на вятъра и конструкцията на турбината. Макар теоретично Cp max = 0.593, на практика рядко надхвърля 0.4 и то само при определени условия.

– принудени сме да се откажем и от още една част от вятърната енергия, която се губи безвъзвратно в околното пространство под формата на топлина. Затова коригираме формула [2] и получаваме:
[3]
Pе – получената на изхода на генератора електрическа мощност, W
η – КПД отчитащи механичните и електрическите загуби

– за да получим значителни количества енергия е необходима и голяма площ, чрез която да „впрегнем” въздушния поток. От конструктивни, технологически и други съображения обаче, сме принудени да се ограничим в изработването на турбини до определен диаметър на перките. Независимо, че този показател с развитието на технологиите през последните 30 години се е увеличил повече от три пъти, той все пак не може да расте неограничено.

– още от древни времена въздухът се е смятал за една от четирите стихии6), на които е изграден светът. Днес, макар и освободен от философските категории на древните мислители, движещият се с висока скорост въздух си остава все пак… стихия. Неговата потенциално разрушителна мощ е четвъртата причина, поради която не винаги сме в състояние да се възползваме напълно от потенциала енергия, която ни предлага вятъра. Инженерите са принудени да вградят в конструкцията на турбината система за контрол на оборотите, която ще я изключи при ураганни ветрове (обикновено над 20-25 m/s), предпазвайки по този начин различни нейни елементи от повреди и разрушаване, но същевременно с това се спира и добива на енергия.

Следващата картинка чудесно онагледява казаното по-горе:


– крива номер 1 е получена по формула [1] и описва характеристиките на една ИДЕАЛНА турбина;
– крива номер 2 отразява ограничението от закона на Бетц във формула [2]. Вижда се как при една и съща скорост на вятъра, енергията спада с около 40% (Cp max = 0.593);
– крива номер 3 се нарича диаграма на мощността и важи за РЕАЛНИ турбини. За разлика от другите две е получена по експериментален път, чрез продължителни измервания с последваща статистическа обработка на данните. Показана е в два варианта (a и b), които леко се разминават, защото отчитат особеностите на системите за контрол на скоростта. Важи само за конкретен модел генератор!

Върху крива номер 3 различаваме три характерни стойности за зависимостта между мощността на турбината и скоростта на вятъра:
– начална стойност на производство на енергия (около 2-4 m/s);
– стойност, при която производството на енергия достига своя максимум (около 14-16 m/s);
– стойност, при която се прекратява производството на енергия (около 20-25 m/s, а за някои модели малки турбини и повече).
« Последна редакция: 17/02/2009, 00:18 от otk » Активен
otk
Global Moderator
Sr. Member
*****
Публикации: 468



Профил
« Отговор #36 -: 17/02/2009, 00:35 »

Проблемът при вятърните генератори се състои в невъзможността по теоретичен път да се предскаже с достатъчна за практиката точност, стойност за мощността при съответна скорост на вятъра. Освен това, продуктите на различните производители се различават в своята конструкция, вложени материали, технология на производство и др., което няма как да не се отрази на техните показатели за качеството, в това число и едни от най-важните – номинална мощност и ефикасност. Ето защо, Международната електротехническа комисия изисква чрез IEC 61400-12, мощностните характеристики за нови модели вятърни генератори да се потвърждават чрез изпитване, независимо от факта правени ли са или не теоретични изчисления. Съгласно изискванията, резултатите от изпитването трябва да бъдат предоставени на клиента в подходяща форма, например текстова (във вид на таблица) и/или графична (подобна на крива номер 3).

Това обаче не е всичко. Данните на производителя са получени при някакви конкретни условия – условията, при които е проведен експеримента. Всяка промяната в тези условия може да се отрази на измерената мощност, понякога съществено. Особено голямо влияние върху резултатите оказват:
– топографските особености в мястото на изпитването – релефът и ландшафтът променят динамиката на въздушните потоци;
– надморската височина – влияе чрез плътността на въздуха;
– точността и чувствителността на използваните средствата за измерване;
– положението на анемометъра (ветромера) спрямо турбината и т. нат.

Повече от ясно е, че турбината никога няма да работи в условията, при които е изпитана от производителя. Разбира се една от целите на стандарта IEC 61400-12 е чрез прецизиране и уеднаквяване на методиката за изпитване да сведе евентуалните несъответствия в характеристиките до минимум. Но все пак данните за мощността дадени от производителите си остават валидни само за едни специфични условия, защото разликите в релефа на мястото на изпитване и мястото на експлоатация обективно съществуват. Тези разлики могат да бъдат сериозна пречка за точността на дългосрочното планиране на произведената от генератора енергия. Прецизното планиране на добиваната енергия е от особена важност, когато става въпрос за значителни инвестиции в т.нар вятърни паркове, които работят в паралел с националните електропреносни мрежи.
Ето един такъв в близост до гр. Палм Спрингс в щата Калифорния (САЩ) и наброяващ по сведения на Американската асоциация за вятърна енергия (AWEA) около 3000 броя машини с обща инсталирана мощност около 600MW!


Ето защо, освен предварителните метеорологични наблюдения и измервания на ветровите характеристики в мястото на инсталация, понякога се правят и допълнителни изследвания с цел проверка на мощностните характеристики на вятърния генератор при едно конкретно приложение. Интервалният метод за обработка на данните посочен в IEC 61400-12 изисква значителни времеви ресурси, с каквито не винаги се разполага. Вместо него, данните от работещия на място генератор, могат да бъдат обработени и анализирани чрез регресионен анализ, който притежава следните две предимства:
– може да се осъществи с по-малък обем на извадката;
– при валидиран модел, дава възможност за обосновано прогнозиране на стойности за мощността при липсващи стойности за скоростта на вятъра. Последното е от особена важност за такъв капризен и непостоянен във времето енергиен ресурс, какъвто е вятъра.
Проведени изследвания (Llombart, Watson, …) показват, че двата подхода дават идентични резултати.

Резултатите от всички тези измервания и анализи служат за съставянето на т. нар. ветроенергийни одити на местата, където ще се изграждат вятърни паркове.

В представения примерен регресионен анализ не става въпрос за такива големи машини като тези от горната снимка, а за един малък генератор, предназначен предимно за домашна употреба. По моя преценка с мощност около 2.5-3kW и диаметър на перките не повече от 3-4m.
Може би подобен на този:


Ето и неговата диаграма на мощността, предоставена от производителя:


Трябва да се каже, че твърде често се спекулира с кубичния характер на зависимостта между скоростта на вятъра и мощността. При измервания в реални условия на различни конструкции вятърни турбини тази зависимост може да се моделира с различни форми като квадратична, кубична и т. нат., както и комбинации между тях. Ето още един резултат от изпитване на един 250 киловатов генератор, от който ясно се вижда, че при определени обстоятелства е възможно връзката да се прояви дори като линейна.


Сега, след като понаучихме нещичко за вятърните генератори, можем да си позволим лукса да погледнем на нашите регресионни модели малко по-отвисоко или „от космоса”, както обичаше да казва една известна от близкото минало съфорумка…


… и на базата на придобитите теоретични знания и практически опит да изберем най-подходящия от тях.
« Последна редакция: 17/02/2009, 01:06 от otk » Активен
otk
Global Moderator
Sr. Member
*****
Публикации: 468



Профил
« Отговор #37 -: 17/02/2009, 00:44 »

Накрая ще се опитам да обобщя казаното дотук с помощта на онези две думички, с които започнах в самото начало.

Формула [1] представлява една дедуктивно изведена теоретична зависимост. В основата й е изразът за кинетичната енергия7), който е следствие от прилагането на Закона за запазване на енергията. Установихме, че ако се уповаваме единствено на тази теоретична зависимост, ще сгрешим и то значително, защото тази формула е валидна само в едни идеализирани условия. Ето защо я коригирахме на два пъти (формули [2] и [3]), с което се приближихме до истината, но… тя за малко пак ни се изплъзна. Тогава загърбихме (почти) теорията и се опряхме основно на експеримента, резултатът от който беше диаграмата на мощността. Оказа се, че валидността на получените от нея резултати при определени обстоятелства също може да бъде под въпрос, което налага те да бъдат повторно проверени експериментално. Един от възможните начини за такава проверка е индуктивно построен регресионен модел.

За съжаление дедуктивно изведените зависимости не винаги описват явленията около нас в тяхната същност и пълнота. Естествено ни най-малко имам за цел да омаловажавам изключителните постижения на учените-теоретици. Аз всъщност се прекланям пред логическата състоятелност и математическа изящност на изведените от тях по чисто дедуктивен път различни закономерности, които ни служат впоследствие и като модели за решаване на практически задачи, но… Това всъщност е едно голямо НО!
Когато тези модели се прилагат директно за изследване на корелационни по своята същност зависимости, напълно възможно е те да не се проявят в действителността така, както очакваме. Причината за това е, че всеки един теоретичен модел е в определена степен абстрактен, защото е изведен на основата на един фундаментален принцип – “при равни други условия”. Последното може да компрометира неговата валидност относно едно конкретно приложение, тъй като не винаги е възможно предварително да се гарантира, че тези “равни други условия” са изпълнени, а когато те в някаква степен са и идеализирани – направо си е невъзможно.

В реалните условия съществуват и фактори (закономерни и случайни), които няма как да бъдат предвидени от теоретичния модел. Понякога ние нищо не знаем за тях, друг път на базата на някаква оскъдна информация само подозираме за тяхното съществуване. Възможно е и да знаем точно кои са те, но да не разполагаме с достатъчно лесен и евтин начин да ги измерим и контролираме. А те все пак оказват влияние върху поведението на изследваните променливи и понякога в своето съвкупно въздействие могат да изкривят съществено характера на връзката предсказан от теоретичния модел. Това налага дедуктивните модели да бъдат проверявани в практиката с помощта на индуктивни модели.


И така – дедукция или индукция?
А защо „или”?
Послушайте вятъра и отговора чуйте.



…………………………………………
Колко пъти трябва поглед да вдигнеш,
за да видиш небето?
Колко уши трябва да имаш,
за да чуеш как хората плачат?
Колко пъти смъртта трябва да срещнеш,
за да разбереш, че твърде много хора умират?
Отговорът, приятелю, с вятъра се носи,
Отговорът с вятъра се носи
…………………………………………

/Боб Дилън/
« Последна редакция: 17/02/2009, 00:57 от otk » Активен
otk
Global Moderator
Sr. Member
*****
Публикации: 468



Профил
« Отговор #38 -: 17/02/2009, 00:47 »

Бележки към първи пример

1) виж темата Дедукция срещу индукция

2) Blowin' In The Wind, в превод "Отговорът с вятъра се носи", e заглавието на популярна песен на Боб Дилън от 60-те години на миналия век. През 2008 година Робърт Алън Цимерман (Bob Dylan) бе отличен с наградата „Пулицър” за "огромното си влияние в поп музиката и американската култура, белязано от лирични композиции с изключителна поетична мощ".

3) по Montgomery & Runger
Тези данни вероятно са част от планиран експеримент, за който авторите за съжаление не дават никаква допълнителна информация. Изваждането на регресионния анализ от контекста на експеримента вероятно е имало за цел да спести обем, като се акцентира само върху същността на регресията. В духа на примера от Част I, сметнах за необходимо да добавя допълнителна информация от областта на приложение на анализа, включително под формата на собствени разсъждения. Този подход има безспорни предимства за разбирането и усвояването на един статистически метод, но съществува и известен риск от допускане на грешки, тъй като нямам практически опит в областта на вятърните генератори. Разбира се положих известни усилия да прецизирам нещата в рамките на дефицита от време, с което разполагам. Надявам се, ако бъдат забелязани грешки или неточности, да ги отстраним с общи усилия.

4) от англ. robust – здрав, силен. Терминът е чуждица и се е наложил в руската и българска специализирана статистическа литература. В случая според мен би трябвало да се преведе като устойчив.

5) доказан през 1916 от немския физик Алберт Бетц (Albert Betz, 1885-1968)

6) според древногръцкия философ Емпедокъл (ΕΜΡΕΔΟΛΗΣ, 490-430 пр. н.е.)

7) Ek=m.V2/2, изведен през 1829 година от френския учен Гюстав Кориолис (Gustave Coriolis, 1792-1843) в неговия труд Du Calcul De I’Effet des Machines
« Последна редакция: 16/09/2009, 22:19 от otk » Активен
velbon
Trusted Users
Hero Member
****
Публикации: 501


Профил Ел. поща
« Отговор #39 -: 17/02/2009, 07:50 »

 Млъкнал
Впечатляващо.

Още днес ще препратя към форума любознателни клиенти, които искат да копаят в тая нива.
ОТК, какво да правим с авторските права?
Активен
otk
Global Moderator
Sr. Member
*****
Публикации: 468



Профил
« Отговор #40 -: 17/02/2009, 15:00 »

Цитат на: velbon
ОТК, какво да правим с авторските права?
http://q-systems.uni.cc/index.php?topic=468.0
В интерес на истината, ако си педант на тема авторски права, може би трябва да се обърнеш и към авторите и/или издателствата на източниците, които съм използвал.
Аз не съм го правил. Намигване
Активен
otk
Global Moderator
Sr. Member
*****
Публикации: 468



Профил
« Отговор #41 -: 17/08/2009, 14:27 »

Тези дни ми се очертава да имам повече свободно време, затова ще се опитам да довърша това, което съм започнал относно регресионния анализ.
Вторият пример е малко по-сложен и съответно по-дълъг, но усилието си струва, защото както ще видим, е много повече от суха статистика. Затова ще го тикаме полекичка, на части. Намигване
Активен
otk
Global Moderator
Sr. Member
*****
Публикации: 468



Профил
« Отговор #42 -: 17/08/2009, 14:33 »

Втори пример



За да бъде успешна една технология е необходимо реализмът да доминира над PR-a,
защото Природата не може да бъде заблудена.


Ричард Файнмън



………
T+1:10 – Roger, go at throttle up
На седемдесетата секунди от старта записващото устройство на борда е регистрирало може би последните думи на командир Франсис Скоуби за превключване към пълно натоварване.

T+1:13 – Uh-oh…
Три секунди по-късно се чува и краткото възклицание на пилот Майкъл Смит. Следва тишина… Връзката е прекъснала.

В този момент говорителят на полета в Контролния център е вперил поглед в листа пред себе си и без да поглежда какво показват мониторите продължава да чете разписаните в програмата на полета последователност от събития, които трябва да се случат. Но мониторите показват нещо друго – една ужасяваща картина:
  

След девет успешни полета, на 28 януари 1986 по време на своя десети полет под номер 51-L, на 73-та секунда от старта, совалката Challenger, най-сигурният според NASA космически кораб за многократно използване се взривява0) на височина приблизително 14 km над земната повърхност.


Всичките седем члена на екипажа загиват.
 


От ляво на дясно: Ellison Shoji Onizuka, Michael John Smith, Sharon Christa McAuliffe, Francis Richard "Dick" Scobee, Gregory Bruce Jarvis, Ronald Ervin McNair, and Judith Arlene Resnik

Стотици хора на трибуната за наблюдение около полигона за изстрелване и незнайно колко още зрители пред телевизионните екрани (CNN предава на живо) стават свидетели на катастрофата в реално време. Полетът е бил широко рекламиран заради проекта „Учител в космоса”, в резултат на който сред екипажа има и един непрофесионален астронавт с нетипична мисия на борда – 38-годишната учителка Криста Маколиф ще преподава на своите ученици уроци в условията на безтегловност.
« Последна редакция: 19/09/2009, 17:29 от otk » Активен
otk
Global Moderator
Sr. Member
*****
Публикации: 468



Профил
« Отговор #43 -: 17/08/2009, 18:27 »

Назначената от Рейгън непосредствено след трагедията комисия провежда разследване и излиза с доклад относно причините за катастрофата, които най-общо могат да се обобщят така:

1) недостатъци в процедурите за оценка на риска и вземане на решения – отговорните за старта на совалката мениджъри не оценяват адекватно нивото на риск и не се съобразяват с препоръките на инженерите за отлагане на старта докато околната температура се повиши до стойности, при които са излитали совалките. В деня на старта, времето е било необичайно студено за Флорида, с температура 31°F (~ -0.6°C), а всички 23 полета досега са провеждани при значително по-високи температури – над 53°F (~11.6°C);

2) грешки в дизайна на твърдогоривните ракетни ускорители – лоша конструкция на свръзките между последните две секции на ускорителя, която предполага загуба на уплътнителната способност вследствие на кумулативното въздействие на няколко фактора като относително движение на отделните елементи един спрямо друг при натоварване и загуба на еластичност на материала използван за направа на уплътнителите в условията на ниски температури и последващо ерозивно въздействие на горещите горивни газове. Вследствие на нарушената херметичност, в мястото на съединяване се изпускат горещи горивни газове, които нагряват конструкцията недопустимо, тя не издържа на комбинацията от високо аеродинамично и термично натоварване и се разрушава – първо се откъсва от своите захвати десният ракетен ускорител, удря се във външния горивен резервоар и го поврежда. От тук до пълното разрушаване на совалката ни делят част от секундата.

Надявам се долната картинка да внесе малко повече яснота в използваната терминология:

 


Неофициално се говори и за политико-икономически натиск върху NASA. Заложените първоначално големи надежди към космическите совалки, като един сравнително евтин начин за рутинен пилотиран транспорт на хора и товари (първоначално с военни цели) до околоземна орбита и обратно не се оправдават. Непрекъснато нарастващите и станали вече огромни разходи предопределят започналия процес на постепенно орязване на бюджета1). Обстоятелствата налагат да се правят икономии и разписанията на полетите стават все по-трудноизпълними. Всяко отлагане на вече планиран полет е свързано със значителни загуби на средства, а този полет на Чалънджър вече е отлаган няколкократно. Липсата на достатъчно средства застрашава и реализацията на проекта „Учител в космоса”, който все пак е лична инициатива не на кой да е, а на Президента Рейгън (мнозина експерти оспорват образователните ползи на този проект, смятайки го за откровен политически PR). Това са част от причините, поради които NASA, имаща в ранните си годинни репутация на консервативна и стриктно спазваща собствените си процедури организация, започва да прави все повече и все по-големи компромиси със сигурността на полетите.
« Последна редакция: 17/08/2009, 19:13 от otk » Активен
otk
Global Moderator
Sr. Member
*****
Публикации: 468



Профил
« Отговор #44 -: 17/08/2009, 18:32 »

Това въведение беше необходимо, защото както ще видим и по-нататък, настоящият пример не е само суха статистика, а много повече. Но нека на този етап спрем дотук с обстоятелствата около причините за катастрофата и съсредоточим нашето внимание само върху статистиката, като потърсим отговор на следните два въпроса:

Съществувала ли е статистически значима корелационна връзка между околната температура2) и повредите в уплътнителните О-пръстени?

и

Дали е било възможно резултатите от провеждането на един сериозен статистически анализ на данните от минали полети на совалки, да наклонят везните в полза на решението стартът да бъде отложен за един по-късен момент с благоприятна метеорологична обстановка?



Според някои учени отговорът и на двата въпроса е положителен.

През 1989 г. Dalal, Fowlkes и Hoadley публикуват3) в официалното издание на Американската Статистическа Асоциация (ASA) статията Risk Analysis of the Space Shuttle: Pre-Challenger Prediction of Failure, в която застъпват тезата, че използването на подходящи статистически методи може значително да подпомогне процеса на взимане на решения. Те демонстрират как чрез един особен вид регресионен анализ, така наречената логистична регресия е възможно да се установи наличието на корелационна връзка между вероятността за повреда в уплътнителните пръстени на совалката и околната температура (в частност, температурата на уплътняваното съединение).

Аз не съм чел тази статия и затова по откъслечна информация от различни източници, ще се опитам да сглобя едно опростено, но все пак представително изложение.

В доклада от разследването на комисията може да бъде намерена следната диаграма4):


Тя прилича на нашата добра стара позната диаграма на разсейване – по абсцисата са нанесени температурите, при които са излитали совалките в периода 1981-1985 г., а по ординатата – броят на повредените уплътнителни пръстени5).

Ето как ще изглеждат нещата, когато ги прехвърлим в софтуера за обработка, но вместо броя повреди от диаграмата запишем само наличие (Y) или отсъствие (N) на повреда:

* липсват данни за този полет, защото ракетните ускорители не са намерени (вж. бележка 5)

Като основа за математическо моделиране на формата на зависимостта ще използваме логистичен регресионен модел, който има следния вид:
,
където:
y e зависимата променлива;
x е независимата променлива;
e е основата на натуралния логаритъм;
β са регресионните коефициени.

За изчисленията може да се използва:
– джобен калкулатор – мъка-а-а!;
– online калкулатор – например http://statpages.org/logistic.html или http://www.stattucino.com/empty.html (за втория трябва да имате инсталиран Java Plugin за браузъра);
– електронна таблица – макар MS Excel 2003 да не притежава стандартна функционалност за анализ чрез логистична регресия, задачата все пак може да се реши с малко повече творчество. За улеснение може да се използва вградения модул за итерационни изчисления – т. нар. Solver (възможно е да не е инсталиран!). А за онези, които предпочитат да управляват нещата „по-отблизо” е на разположение и VBA.

Преди да продължим нататък обаче, е необходимо да направим едно ВАЖНО уточнение. Специфичното в тази задача е, че данните за зависимата променлива са дискретни от типа ДА/НЕ (двоични), които са представители на слабите скали. Припомнете си от Част I, че този факт противоречи на първото изискване за приложение на МНМК – данните да бъдат непрекъснати случайни величини, представители на силните скали. Двоичният характер на данните създава след себе си редица проблеми – може да се докаже математически, че няма да бъдат спазени нито изискването за нормално разпределението на грешките, нито изискването за постоянство на техните дисперсии. За щастие, нашият избраник логистичния модел, няма да бъде чувствителен към тези проблеми, ако подходим по правилния начин.

Ще предприемем следните две стъпки:
1. Ще трансформираме модела по подходящ начин и
2. За оценка на регресионните коефициенти вместо МНМК, ще приложим ММП.
« Последна редакция: 09/09/2009, 21:41 от otk » Активен
Страници: 1 2 [3] 4 5
  Изпечатай  
 
Отиди на:  

Заглавие Започната от Отговори Прегледи Последна
публикация
Статистически методи за управление и осигураване на кчестовото Всякакви elist_k 3 2270 Последна<br />публикация 07/09/2006, 22:36
от European
Стандарт или методически указания. Управление на здравословните и безопасни условия на труд Marcii 2 2338 Последна<br />публикация 21/11/2007, 18:07
от Marcii
Приложение на СУБХ Управление безопасността на хранителните продукти Marcii 6 2174 Последна<br />публикация 16/12/2008, 21:04
от bivsh
Приложение на статистическите методи във фармацията Добри практики при лекарствените средства ralitsa_bv 10 3070 Последна<br />публикация 09/04/2009, 11:42
от L
Практически проблеми при преминаване към новия стандарт. Управление на качеството « 1 2 » Marcii 21 4313 Последна<br />публикация 17/05/2009, 22:32
от anla
Powered by PHP Powered by PHP Powered by SMF 1.1.19 | SMF © 2011, Simple Machines Валиден XHTML 1.0! Валиден CSS!