解説: 切断正規分布

機械系のリーンシックスシグマのプロジェクトでは時々、切断正規分布を扱うことがあります。切断正規分布は、下側または上側(または両側)が切断されている正規分布です。例えば、接した二つの部品と部品の隙間間隔が正規分布を取る時、隙間間隔はゼロ(完全に接触している状態)以下には絶対にならないので、その隙間間隔は切断正規分布になります。

実際のプロジェクトで切断正規分布を扱うことは意外に多いのですが(特に機械系は)、インターネットや本を調べてみても、切断正規分布を統計分析でどのように扱うべきなのか、という情報が意外に少ないことが分かりました。そこで架空の切断正規分布データを使って、切断正規分布が工程能力分析にどのように影響を与えるのか、ということを考察してみました。

例題

例えば、ある製品で使われる部品と部品の隙間間隔を測定したとします。そしてその測定データは、ゼロ(完全に接触した状態)のところで切断された正規分布(切断正規分布)を取るとします。また隙間間隔が1を超えた場合は、その製品は不良品とします。

正規分布の工程能力(DPMO)

まず考察のための架空のデータを作るために、乱数を使って正規分布(平均0.5、標準偏差1.0)データを作りました。上限値(USL: Upper Spec Limit)を1.0とした時、この正規分布データの片側工程能力のDPMO(Defect Per Million Opportunities)は311,631となりました。

切断正規分布の工程能力(DPMO)

次にこの正規分布データからゼロ以下のデータを取除いて、切断正規分布データを作りました。そしてこの切断正規分布データを使って片側工程能力を分析してみると、なんとDPMOは518,568となってしまいました。実際の部品の隙間間隔は変わっていないにも関わらず、ゼロ以下のデータを取り除いただけで製品の不良率が上がってしまったのです。

その理由は明らかで、与えられたデータ(切断正規分布)を通常の正規分布と同様に扱ってしまったために、データの平均値が0.5から1.03に上がり、一方で標準偏差は1.0から0.68に変わってしまったからです。

切断正規分布

製品の工程能力は変わっていないにも関わらず、データが切断されているというだけで、工程能力が実際よりも悪く見える結果となりました。これは企業にとっては良品を不良品として扱うことになるため、不必要なコストを増やす原因ともなります。

切断正規分布の扱い方

切断正規分布を正規分布として扱うことには無理がありますし、工程能力分析の前提(正規分布であること)も満たしません。

では切断正規分布の場合、工程能力はどのようにして求めればよいのでしょうか。

インターネットで調べてみても明確な回答を見つけることができませんでしたし、また切断正規分布の工程能力分析が簡単に扱えるソフトウェア・ツールも見つけることができませんでした。

そこで仕方なく、手元にあるソフトウェア・ツール Mititabを使ってできそうな事を3つ考えてみました。

  • 与えられたデータに最も近い分布タイプを選び、その分布タイプを使って工程能力分析を行う
  • 与えられたデータを正規分布に変換し、変換した正規分布データを使って工程能力分析を行う
  • 切断ざれたマイナス側のデータを補完して正規分布データを作り、工程能力分析を行う

与えられたデータの分布タイプ

まずはMinitabを使って、与えられたデータの分布タイプを調べてみました。Minitabによれば、最も近い分布タイプはワイブル分布(3-Parameter Weibull)で、またBox-Cox変換をすれば、変換データを正規分布として扱えそうだということが分かりました。

さらに切断されたマイナス側のデータ分を、プラス側のデータを折り返して加える事(補完)で、正規分布に戻すことができそうでした。

分布タイプの認識

それぞれの工程能力分析結果

ワイブル分布(3-Parameter Weibull)を使った片側工程能力分析ではDPMOは441,316、Box-Cox変換した正規分布を使った片側工程能力分析ではDPMOは445,851となりました。両方とも、無理やり切断正規分布を正規分布として扱った片側工程能力分析のDPMOである518,568よりも良くなりましたが、元の正規分布の片側工程能力分析のDPMOである311,631に比べればかなり悪い数字となりました。

一方、補完して作った正規分布の片側工程能力分析はDPMOが312,919となり、元の正規分布の片側工程能力分析のDPMOと近くなりました。

工程能力分析

結論

データを補完するということは即ちデータを加工するということなので、罪悪感が付きまといます。データを正規分布に変換することも即ちデータを加工するということなので、やはり引け目を感じます。結局、工程能力分析のDPMOが多少悪くなろうとも、与えられたデータに最も近い分布タイプを選び、その分布タイプを使って工程能力分析する方法が一番良いのではないかと思いました。

工程能力分析のDPMOが悪くなったとしても、それは生産者側のリスクが増えるだけで、顧客側のリスクは減らすことができます。そう考えれば、やはり与えられたデータに最も近い分布タイプを選び、その分布タイプを使って工程能力分析する方法が一番良いのではないかと思います。